universidad de granada
TRANSCRIPT
UNIVERSIDAD DE GRANADA
DEPARTAMENTO DE ESTADISTICA EINVESTIGACION OPERATIVA
TRABAJO FIN DE MASTER
UN PROCESO DE MARKOV A TROZOSEN TIEMPO DISCRETO EN ANALISIS DE
SUPERVIVENCIA: ESTUDIO DELCANCER DE MAMA
Daniel Collantes Vılchez
2014-2015
TRABAJO FIN DE MASTER
UN PROCESO DE MARKOV A TROZOS ENTIEMPO DISCRETO EN ANALISIS DE
SUPERVIVENCIA: ESTUDIO DEL CANCER DEMAMA
Trabajo realizado por Daniel Collantes Vılchez
Vº Bº
Dr. D. Juan Eloy Ruiz Castro
Departamento de Estadıstica e Investigacion Operativa
Universidad de Granada
Septiembre 2015
Indice general
Introduccion 9
1. Analisis de Cadenas de Markov 13
1.1. Cadenas de Markov en Tiempo Discreto . . . . . . . . . . . . 13
1.1.1. Procesos Estocasticos . . . . . . . . . . . . . . . . . . . 13
1.1.2. Introduccion a cadenas de Markov en Tiempo Discreto 14
1.1.3. Distribucion Transitoria . . . . . . . . . . . . . . . . . 15
1.1.4. Tiempos de Primer Paso . . . . . . . . . . . . . . . . . 19
1.1.5. Tiempos de Permanencia . . . . . . . . . . . . . . . . . 21
1.1.6. Distribuciones tipo fase discretas (DPH) . . . . . . . . 22
1.2. Maxima Verosimilitud en Cadenas de Markov . . . . . . . . . 23
1.2.1. Funcion de verosimilitud . . . . . . . . . . . . . . . . . 23
2. Cadenas de Markov a trozos en Supervivencia 27
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1. Medidas . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3. Datos multicensurados. Censura aleatoria . . . . . . . . . . . . 31
2.4. Covariables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5. El modelo con covariables . . . . . . . . . . . . . . . . . . . . 33
2.6. Funcion de Verosimilitud para el estudio de la evolucion de
una enfermedad . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3. Estudio de la evolucion del cancer de mama 37
3.1. Analisis de pacientes con cancer de mama . . . . . . . . . . . 37
3.1.1. Introduccion. Los datos. . . . . . . . . . . . . . . . . . 37
3.1.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . 38
5
6 INDICE GENERAL
3.1.3. Funcion de verosimilitud para el estudio de la enfermedad 41
3.1.4. Probabilidades de transicion . . . . . . . . . . . . . . . 42
3.1.5. Funcion de supervivencia . . . . . . . . . . . . . . . . . 42
3.1.6. Tiempo de permanencia . . . . . . . . . . . . . . . . . 44
3.1.7. Tiempo de primer paso . . . . . . . . . . . . . . . . . . 46
3.2. Analisis de supervivencia con covariables . . . . . . . . . . . . 47
3.2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.3. Funcion de verosimilitud para el estudio con covariables 48
3.2.4. Probabilidades de transicion . . . . . . . . . . . . . . . 50
3.2.5. Funciones de supervivencia . . . . . . . . . . . . . . . . 54
Anexo 59
Sintaxis del analisis sin covariables . . . . . . . . . . . . . . . . . . 59
Sintaxis del analisis con covariables . . . . . . . . . . . . . . . . . . 64
Bibliografıa 73
Indice de figuras
3.1. Diagrama de transiciones . . . . . . . . . . . . . . . . . . . . . 39
3.2. Probabilidad de permanecer en el estado 1 a lo largo del tiempo 43
3.3. Probabilidad de recaıda a lo largo del tiempo . . . . . . . . . . 43
3.4. Probabilidad de permanecer en el estado de recaıda a lo largo
del tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5. Curva de supervivencia empırica, estimada y estimada homo-
genea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.6. Probabilidad de permanencia en el estado 1 a lo largo del
tiempo segun los ocho tratamientos . . . . . . . . . . . . . . . 51
3.7. Probabilidad de permanencia en el estado 1 a lo largo del
tiempo segun los ocho tratamientos . . . . . . . . . . . . . . . 51
3.8. Probabilidad de recaıda a lo largo del tiempo segun los ocho
tratamientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.9. Probabilidad de recaıda a lo largo del tiempo segun los ocho
tratamientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.10. Probabilidad de permanecer en el estado de recaıda a lo largo
del tiempo segun los ocho tratamientos . . . . . . . . . . . . . 53
3.11. Probabilidad de permanecer en el estado de recaıda a lo largo
del tiempo segun los ocho tratamientos . . . . . . . . . . . . . 53
3.12. Curva de supervivencia empırica, estimada y estimada homo-
genea con el tratamiento RT . . . . . . . . . . . . . . . . . . . 54
3.13. Curva de supervivencia empırica, estimada y estimada homo-
genea con el tratamiento HT . . . . . . . . . . . . . . . . . . . 55
3.14. Curva de supervivencia empırica, estimada y estimada homo-
genea con el tratamiento QT . . . . . . . . . . . . . . . . . . . 55
7
8 INDICE DE FIGURAS
3.15. Curva de supervivencia empırica, estimada y estimada homo-
genea con el tratamiento RT-HT . . . . . . . . . . . . . . . . . 56
3.16. Curva de supervivencia empırica, estimada y estimada homo-
genea con el tratamiento RT-QT . . . . . . . . . . . . . . . . 56
3.17. Curva de supervivencia empırica, estimada y estimada homo-
genea con el tratamiento HT-QT . . . . . . . . . . . . . . . . 57
3.18. Curva de supervivencia empırica, estimada y estimada homo-
genea con el tratamiento RT-HT-QT . . . . . . . . . . . . . . 57
3.19. Curva de supervivencia empırica, estimada y estimada homo-
genea sin tratamiento . . . . . . . . . . . . . . . . . . . . . . . 58
Introduccion
El analisis estadıstico de tiempos de vida tiene un area de trabajo teorico
y aplicado muy amplio. Dependiendo del campo donde se realice el estudio,
se hablara de tiempo de vida, tiempo de supervivencia o tiempo de fallo.
Matematicamente, una variable tiempo de vida es una variable no negativa
de probabilidad. El analisis de los tiempos de vida se utiliza bajo distintos
nombres en disciplinas como Biomedicina, Demografıa o Ingenierıa. Cuando
se trabaja en un contexto de biomedicina se considera el termino superviven-
cia.
En analisis de supervivencia es habitual la realizacion de estudios estaticos
de tiempos de vida. Las tecnicas utilizadas pueden ser no parametricas, se-
miparametricas y parametricas. Entre las primeras, las mas frecuentes son el
estimador producto lımite (Kaplan Meier, 1958) y las tablas de vida. Cuando
se trabaja en el campo de la supervivencia es habitual disponer de datos cen-
surados y covariables (factores endogenos o exogenos que pueden afectar a la
supervivencia). Uno de los modelos semiparametricos mas habituales cuando
se introducen covariables es el modelo de azares proporcionales o modelo de
Cox (1972).
En los ultimos anos se advierte la introduccion de nuevos modelos cuyo
hecho diferencial es el estudio dinamico de los tiempos de vida incorporan-
do procesos estocasticos. La introduccion de estos modelos surge de manera
natural, ya que en este campo se analizan grupos cuyo estado evoluciona
aleatoriamente en el tiempo. Es deseable que estos modelos admitan el estu-
dio con datos censurados y la incorporacion de covariables en el modelo. En
esta memoria el estudio de modelos dinamicos en supervivencia se plantea
de forma que se satisfagan estas premisas; buena adecuacion de los datos
9
10 INTRODUCCION
censurados y la posibilidad de incorporacion de variables. La estructura de
los procesos de Markov permite el estudio de la evolucion de tiempos de vida
con estas caracterısticas.
En general, cuando se desean modelizar tiempos de vida se considera que
la evolucion ocurre de forma continua en el tiempo. Los procesos de Markov
en tiempo continuo han sido utilizados en la modelizacion de tiempos de vida.
Kalbfleisch y Lawless (1985) estudiaron el habito de fumar mediante proce-
sos de Markov homogeneos. Los procesos de Markov en tiempo continuo han
sido aplicados para estudiar la evolucion del virus del sida en Frydmann, H.
(1995). Santamarıa y otros (2009) consideraron un modelo de Markov para
analizar el comportamiento del cancer de vejiga. Perez-Ocon y otros (1998,
2000, 2001a 2001b, 2003) tambien consideraron distintos modelos markovia-
nos para estudiar la evolucion del cancer de mama en tiempo continuo.
Pero el seguimiento continuo a lo largo del tiempo no siempre es posible.
En muchas ocasiones, en supervivencia, las revisiones de una enfermedad
tienen lugar en momentos temporales definidos protocolariamente, si no hay
necesidades previas. La incorporacion a la supervivencia de modelos discretos
es una necesidad y de interes de estudio. Los modelos en tiempo discreto no
son una consecuencia inmediata del caso continuo, la estructura de los mode-
los discretos y las medidas asociadas son estudiadas con distinta metodologıa.
El objetivo principal de esta memoria es modelizar mediante una cadena
de Markov homogenea a trozos en tiempo discreto (primera aproximacion al
caso no homogeneo) el comportamiento del cancer de mama. Se desarrolla
un modelo general considerando dos periodos de tiempo donde el compor-
tamiento de una enfermedad esta bien diferenciada. Una extension de este
trabajo, donde se considera un numero indefinido de puntos de corte, puede
verse en Ruiz-Castro y Zenga (2015). Se considera un caso particular de este
modelo para estusdiar la evolucion del cancer de mama. El trabajo de ha di-
vidido en tres capıtulos. En el primer capıtulo de la memoria se ha realizado
un estudio teorico de las cadenas de Markov homogeneas en tiempo discreto
(se ha calculado la distribucion transitoria, tiempos de permanencia y tiem-
pos de primer paso y se han presentado las distribuciones tipo fase dadas en
INTRODUCCION 11
Neuts (1981)). Se hablara de los conceptos basicos para realizar inferencia
estadıstica a traves del enfoque de maxima verosimilitud .
Realizado el estudio anterior, en el segundo capıtulo el trabajo se centra en
el comportamiento de las cadenas de Markov a trozos (con un punto de corte)
en supervivencia. Se tiene un modelo con un conjunto de estados transitorios
y uno absorbente. Es de destacar que en este caso se ha calculado la matriz
de probabilidades de transicion, los tiempos de permanencia y los tiempos
de primer paso en forma algorıtmica matricial. En el modelo considerado pa-
ra la aplicacion, se va a trabajar con datos censurados aleatoriamente por lo
que se introduce este concepto, habitual en supervivencia. Finalmente un vec-
tor de covariables es introducido en la matriz de probabilidades de transicion.
La tercera parte de la memoria esta dedicada al estudio de la evolucion
del cancer de mama considerando cadenas de Markov homogeneas a trozos
en tiempo discreto. Los datos que se han tomado se refieren a tiempos de
permanencia de pacientes en distintos estados operadas de cancer de mama.
En total se tiene una cohorte de 300 pacientes a las que se les ha practicado
una mastectomıa. Estos datos fueron facilitados por el Departamento de Ra-
diologıa y Medicina Fısica de la Universidad de Granada. El seguimiento de
los estados ocupados por las pacientes se hace mediante observaciones perio-
dicas mensuales. Para cada una de las pacientes se observa su trayectoria y
tres covariables dicotomicas que son los tratamientos (radioterapia, hormo-
noterapia y quimioterapia). Estos datos fueron ya considerados para analizar
y modelizar la evolucion del cancer de mama mediante procesos de Markov
en tiempo continuo en Ruiz Castro (1998).
Dado que las observaciones ocurren en tiempo discreto (mensualmente),
en esta memoria se consideran las cadenas de Markov homogeneas a trozos
en tiempo discreto para analizar la evolucion del cancer de mama a partir
del conjunto de datos anterior. El estudio se realiza en primer lugar para el
modelo sin covariables y posteriormente se introduce en el modelo un vector
de covariables con los tratamientos. Tras realizar un analisis del conjunto de
datos y presentar el modelo, en ambos casos se estiman los parametros por
maxima verosimilitud, se calculan las probabilidades de transicion estimadas
12 INTRODUCCION
y tiempos de permanencia estimados. Finalmente, se han representado de
forma comparativa las curvas de supervivencia, empıricas y estimadas, para
el modelo homogeneo y no homogeneo, sin covariables y para cada uno de
los distintos tratamientos (en total ocho). Este estudio permite comparar el
efecto de los tratamientos en la mejora de la supervivencia. Todo el trabajo se
ha implementado computacionalmente en R mostrando las distintas funciones
en el Anexo adjunto.
Capıtulo 1
Analisis de Cadenas de Markov
En este primer capıtulo se introduce la base teorica de todo el trabajo. Se
desarrolla la teorıa de Cadenas de Markov en tiempo discreto. Consta de
tres secciones: introduccion y resultados de Cadenas de Markov en Tiempo
Discreto (CMTD), maxima verosimilitud de cadenas de Markov y cadenas
de Markov homogeneas a trozos en tiempo discreto en Supervivencia.
1.1. Cadenas de Markov en Tiempo Discreto
En esta seccion se analizan las cadenas de Markov y para ello, previamente se
introducira el concepto de proceso estocastico, ya que las cadenas de Markov
son un caso particular de este. Posteriormente se introducira la definicion
de cadena de Markov en tiempo discreto junto con algunas propiedades, se
estudiara las distribuciones transitorias y se definiran los tiempos de perma-
nencia y de primer paso, enunciandose tambien algunos teoremas sobre los
mismos.
1.1.1. Procesos Estocasticos
Se considera un sistema que evoluciona en el tiempo de forma aleatoria. Su-
pongamos que se observa en tiempos n = 0, 1, 2, ... Sea Xn el estado del
sistema en el tiempo n.
Definicion 1 Se denomina Proceso Estocastico (en tiempo discreto) a la
sucesion de variables aleatorias {X0, X1, ..., Xn} definidas en un mismo es-
13
14 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV
pacio probabilıstico. Se denota por {Xn, n ≥ 0}.
Se nota por S al conjunto de valores que puede tomar Xn para cada
n. Dicho estado se denomina espacio de estados.Los procesos estocasticos
sirven para caracterizar y estudiar fenomenos que evolucionan con el paso
del tiempo.
1.1.2. Introduccion a cadenas de Markov en Tiempo
Discreto
En esta seccion se aborda el concepto de cadena de Markov, se definira la
probabilidad de transicion en un paso y la matriz de transicion en un paso,
junto con algunas propiedades.
Definicion 2 Sea {Xn, n ≥ 0} un proceso estocastico con espacio de esta-
dos S. Entonces, Xn, n ≥ 0 es una Cadena de Markov en Tiempo Discreto
(CMTD) si para todo i, j ∈ S,
P [Xn+1 = j|Xn = i,Xn−1, ..., X0] = P [Xn+1 = j|Xn = i]. (1.1)
La expresion (1.1) es lo que se conoce como la condicion de Markov: dado el
presente, pasado y futuro son independientes.
Definicion 3 Una CMTD se dice homogenea si, para todo n = 0, 1, 2, ...,
P [Xn+1 = j|Xn = i] = P [X1 = j|X0 = i]. (1.2)
Definicion 5 Se denomina probabilidad de transicion en un paso de la
CMTD y se denota por pij, a la probabilidad de transicion del estado i al
estado j,
pij = P [Xn+1 = j|Xn = i], i, j = 1, 2, ..., N.
Cuando la probabilidad de transicion en un paso no depende de n se habla
de CMTD homogenea (1.2).
1.1. CADENAS DE MARKOV EN TIEMPO DISCRETO 15
Dado un espacio de estados finito, existen entonces N2 probabilidades de
transicion de un paso pij. Estas probabilidades pueden ser ordenadas en una
matriz N ×N de la siguiente forma,
P =
p11 p12 p13 ... p1Np21 p22 p23 ... p2Np31 p32 p33 ... p3N...
......
. . ....
pN1 pN2 pN3 ... pNN
Dicha matriz se denomina matriz de transicion en un paso o matriz de tran-
sicion de una CMTD. El elemento (i, j) representa la probabilidad de pasar
del estado i al estado j en un paso.
Teorema 1 (Propiedades de una matriz de probabilidades de transicion) Sea
P = (pij) una matriz de probabilidades de transicion N ×N de una CMTD
{Xn, n ≥ 0} con espacio de estados S = {1, 2, ..., N}. Entonces:
1. pij ≥ 0, 1 ≤ i, j ≤ N,
2.∑N
j=1 pij = 1, 1 ≤ i ≤ N,
Cualquier matriz que verifique estas propiedades se denomina matriz esto-
castica y es la matriz de probabilidades de transicion de una CMTD.
1.1.3. Distribucion Transitoria
Sea {Xn, n ≥ 0} una CMTD homogenea con espacio de estados S = {0, 1, ..., N}con matriz de transicion P y distribucion inicial a = [a1, ..., aN ] donde
ai = P [X0 = i].
Se esta interesado en conocer la distribucion de Xn, para cualquier n, es decir,
a(n)j = P [Xn = j)] =
N∑i=1
P [Xn = j|X0 = i]P [X0 = i] =N∑i=1
aiP [Xn = j|X0 = i].
(1.3)
16 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV
Por tanto, es suficiente estudiar la probabilidad condicional P [Xn = j|X0 =
i], tambien denominada probabilidad de transicion en n pasos. Se puede, por
tanto, construir una matriz de transicion en n pasos como sigue.
P =
p(n)11 p
(n)12 p
(n)13 ... p
(n)1N
p(n)21 p
(n)22 p
(n)23 ... p
(n)2N
p(n)31 p
(n)32 p
(n)33 ... p
(n)3N
......
.... . .
...
p(n)N1 p
(n)N2 p
(n)N3 ... p
(n)NN
Donde p
(n)ij = P [Xn = j|X0 = i]. Se estudian los casos P (0) y P (1). Se tiene
que
p(0)ij = P [X0 = j|X0 = i] =
{1 si i = j
0 si i 6= j
Por tanto, P (0) = IN×N . Del mismo modo, se tiene que
p(1)ij = P [X1 = j|X0 = i] = pij.
Por tanto, P (1) = P.
Teorema 2 Sea P la matriz de probabilidades de transicion de una CM. En-
tonces se verifica que P (n) = P n para n ≥ 0.
Demostracion.
p(0)ij = P [X0 = j|X0 = i] =
{1 si i = j
0 si i 6= j
Donde se obtiene que P (0) = I.
1.1. CADENAS DE MARKOV EN TIEMPO DISCRETO 17
p(n)ij = P [Xn = j|Xn = i] =
N∑k=1
P [Xn = j,Xn−1 = k|X0 = i]
=N∑k=1
P [Xn = j|Xn−1 = k,X0 = i]P [Xn−1 = k|X0 = i]
=N∑k=1
P [Xn = j|Xn−1 = k]P [Xn−1 = k|X0 = i]
=N∑k=1
P [Xn = j|Xn−1 = k]p(n−1)ik =
N∑k=1
p(n−1)ik pkj.
De donde se obtiene que P (n) = P (n−1)P = PP (n−1). Por tanto, P (n) = P n.
�
Del anterior teorema se obtienen los siguientes corolarios.
Corolario 1 Se define a(n) = (a(n)1 , a
(n)2 , ..., a
(n)N ), siendo a
(n)j = P [Xn = j].
Entonces se tiene que,
a(n)j = P [Xn = j] =
N∑i=1
aip(n)ij −→ a(n) = a · P n.
Corolario 2
P [Xn+m = j|Xn = i,Xn−1, ..., X0] = P [Xn+m = j|Xn = i] = p(m)ij .
Demostracion.
Por induccion sobre m se tiene lo siguiente.
Para m = 1
P [Xn−1 = j|Xn = i,Xn−1, ..., X0] = pij.
Suponemos que es cierto para m− 1.
18 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV
P [Xn+m−1 = j|Xn = i,Xn−1, ..., X0] = P [Xn+m−1 = j|Xn = i] = p(m−1)ij
Se prueba para m
P [Xn+m = j|Xn = i,Xn−1, ..., X0]
=N∑k=1
P [Xn+m = j,Xn+m−1 = k|Xn = i,Xn−1, ..., X0]
=N∑k=1
P [Xn+m = j|Xn+m−1 = k,Xn = i,Xn−1, ..., X0]
P [Xn+m−1 = k|Xn = i,Xn−1, ..., X0]
=N∑k=1
P [Xn+m = j|Xn+m−1 = k,Xn = i,Xn−1, ..., X0]pm−1ik
=N∑k=1
p(m−1)ik pkj = p
(m)ij .
�
Teorema 3 (Ecuacion de Chapman-Kolmogorov). Las probabilidades de tran-
sicion en n pasos verifican la siguiente ecuacion llamada Chapman-Kolmogorov.
p(n+m)ij =
N∑k=1
p(n)ik p
(m)kj .
De forma matricial se expresa como
P (n+m) = P (n)P (m) = P (m)P (n) = P nPm = P n+m.
1.1. CADENAS DE MARKOV EN TIEMPO DISCRETO 19
Demostracion.
p(n+m)ij = P [Xn+m = j|X0 = i] =
N∑k=1
P [Xn+m = j,Xn = k|X0 = i]
=N∑k=1
P [Xn+m = j|Xn = k,X0 = i]P [Xn = k|X0 = i] =N∑k=1
p(n)ik p
(m)kj .
�
1.1.4. Tiempos de Primer Paso
Se define el tiempo de primer paso como el tiempo esperado en el que una
CMTD alcanza un estado o una clase de estados.
Definicion 6 Sea {Xn;n > 0} una CMTD con espacio de estados S =
{1, 2, ..., N} y con matriz de probabilidades de transicion P . Se define el tiem-
po de primer paso por el estado j como
Tj = inf{n ≥ 0;Xn = j}.
Ademas, se nota por Tij al tiempo de primer paso por el estado j cuando ini-
cialmente el proceso esta en el estado i: Tij = infn{n ≥ 0;Xn = j,X0 = i}.
Definicion 7 Sea {Xn;n > 0} una CMTD con espacio de estados S =
{1, 2, ..., N} y con matriz de probabilidades de transicion P . Se define el tiem-
po esperado de primer paso por el estado j cuando se parte del estado i como
rij = E[Tij] = E[Tj|X0 = i].
El siguiente Teorema nos muestra un metodo de computacion para calcularlo.
Teorema 4 (Tiempo esperado de primer paso)
Para un j fijo, {rij; 1 ≤ i ≤ N, i 6= j}(rii = 0 ∀i) satisface
20 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV
rij = 1 +N∑
k = 1
k 6= j
pikrkj.
Demostracion.
Supongamos que X0 = i y X1 = k. Si k = j entonces Tj = 1 y si k 6= j,
entonces la CMTD alcanzara el estado j en una unidad de tiempo, mas el
tiempo de espera que resta desde entonces para alcanzar el estado j, rki. Por
tanto se tiene que
E[Tj|X0 = i,X1 = k] =
{1 si k = j
1 + rkj si k 6= j.
Entonces se tiene que
rkj = E[Tj|X0 = i] =N∑k=1
E[Tj|X0 = i,X1 = k]P [X1 = k|X0 = i]
=N∑
k = 1
k 6= j
(1 + rkj)pik + pij = 1 +N∑
k = 1
k 6= j
pikrkj.
�
Definicion 8 (Tiempos de primer paso por una clase de estados). Sea A un
subconjunto de estados del espacio de estados. Se define el tiempo de primer
paso por el conjunto de estados A como
T = inf{n ≥ 0;Xn ∈ A}.
Teorema 5 (Tiempo espera de primer paso por una clase de estados)
ri(A) = 1 +N∑
k = 1
k /∈ A
pikrk(A).
1.1. CADENAS DE MARKOV EN TIEMPO DISCRETO 21
siendo ri(A) = E[T |X0 = i] con ri(A) = 0 si i ∈ A.
Matricialmente se puede expresar de la siguiente manera,
r(A) = e+ P (A)r(A).
siendo r(A) un vector columna [ri(A)]i/∈A y P (A) = [pij]i,j /∈A.
1.1.5. Tiempos de Permanencia
Sea {Xn;n > 0} una CMTD homogenea con espacio de estados S = {1, 2, ..., N}y con matriz de probabilidades de transicion P y distribucion inicial a =
[a1, .., aN ]. En esta seccion se estudia el tiempo de permanencia en cada es-
tado durante un intervalo de tiempo.
Definicion 9 Se denomina Nj(n) al numero de veces que la cadena visita el
estado j tras n pasos
Nj(n) =n∑
m=0
1j(Xm).
Definicion 10 Sea mij(n) el numero esperado de visitas al estado j tras n
pasos partiendo del estado i
mij(n) = E[Nj(n)|X0 = i].
De esta forma, se puede formar una matriz cuyos elementos sean mij(n). Di-
cha matriz se denomina matriz de tiempos de permanencia y se denota por,
M(n) =
m11(n) m12(n) m13(n) ... m1N(n)
m21(n) m22(n) m23(n) ... m2N(n)
m31(n) m32(n) m33(n) ... m3N(n)...
......
. . ....
mN1(n) pN2(n) mN3(n) ... mNN(n)
Teorema 6 (Tiempos de permanencia). Sea {Xn;n > 0} una CMTD homo-
genea con espacio de estados S = {1, 2, ..., N} y con matriz de probabilidades
de transicion P. La matriz de tiempos de permanencia viene dada por
22 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV
M(n) =n∑r=0
P r. (1.4)
Demostracion.
Fijando i y j, sea Zn = 1 si Xn = j, y Zn = 0 si Xn 6= j =. Entonces
Nj(n) = Z0 + Z1 + ...+ Zn.
Por tanto
mij(n) = E[Nj(n)|X0 = i] = E[Z0 + Z1 + ...+ Zn|X0 = i]
=n∑r=0
E[Zr|X0 = i] =n∑r=0
P [Xr = j|X0 = i]
=n∑r=0
p(r)ij .
Escribiendo la expresion anterior de forma matricial se obtendrıa (1.4)
�
1.1.6. Distribuciones tipo fase discretas (DPH)
Sea {Xn;n > 0} una CMTD homogenea con espacio de estados S = {A, A},siendo A una clase absorbente y A su complementario. Entonces, la matriz
de probabilidades de transicion P se puede expresar como,
P =
(T T 0
C D
)siendo T la matriz que contiene las probabilidades de transicion entre los esta-
dos A y T 0 la matriz de probabilidades entre los estados de A y A. Entonces,
se define la distribucion tipo fase como la distribucion del tiempo en alcanzar
la cadena por primera vez la clase A. La funcion masa de probabilidad viene
dada por
pn = αT n−1T 0e, n ≥ 1,
1.2. MAXIMA VEROSIMILITUD EN CADENAS DE MARKOV 23
siendo α la distribucion inicial para los estados de A y e un vector columna
de unos de orden adecuado. Se considera que inicialmente la cadena no esta
en la clase A. Claramente se satisface que Te+ T 0e = e.
El tiempo esperado hasta alcanzar la case A es igual a la esperanza de la
variable,
∑n≥1
npn = α∞∑n=1
nT n−1T 0e = α(I − T )−2T 0e = α(I − T )−1e.
Por lo tanto, el elemento i del vector (I − T )−1e es igual a ri(A), es decir, el
tiempo esperado en alcanzar la clase A cuando se parte del estado i.
1.2. Maxima Verosimilitud en Cadenas de Mar-
kov
1.2.1. Funcion de verosimilitud
Para construir la funcion de verosimilitud se necesita primero conocer la dis-
tribucion conjunta de una cadena de Markov.
Sea {Xn, n ≥ 0} una CMTD homogenea con espacio de estados S =
{1, 2, ..., N} y sean i0, i1, ..., iN ∈ S un conjunto cualquiera de estados. Se
observan n tiempos consecutivos y se tiene que la distribucion de probabilidad
conjunta de la CMTD es,
P [X0 = i0, X1 = i1, ..., Xn = in] = ai0pi0i1 · · · pin−2in−1pin−1in . (1.5)
Con esto, se pasa a la construccion de la funcion de verosimilitud.
Caso Parametrico
Las probabilidades de transicion pueden ser indexadas por medio de un vec-
tor de parametros. Supongase pij = pij(θ), donde θ = (θ1, ..., θl) es un vector
de parametros desconocidos que toma valores en Rl.
24 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV
Sea x = {x0, ..., xn} una relacion de observaciones de la cadena de Markov
de tamano n. Entonces, utilizando la probabilidad conjunta dada anterior-
mente, la funcion de verosimilitud para el caso parametrico viene dada por,
L(pij(θ)|x) =n∏k=1
pxk−1xk(θ) =N∏i=1
N∏j=1
{pij(θ)}nij .
donde nij es el numero de transiciones entre los estados i y j en un paso.
Tomando logaritmo se tiene la logverosimilitud
logL(pij(θ)|x) =N∑i=1
N∑j=1
nijlog(pij(θ)).
Los estimadores de maxima verosimilitud de los parametros θ1, ..., θl se ob-
tienen resolviendo el siguiente sistema de ecuaciones.
∂logL(pij(θ)|x)
∂θr= 0, r = 1, 2, 3, ..., l,
es decir,
N∑i,j=1
nij∂pij(θ)
∂θr· 1
pij(θ)= 0, r = 1, 2, 3, ..., l,
para θ1, ..., θl.
1.2. MAXIMA VEROSIMILITUD EN CADENAS DE MARKOV 25
Caso no parametrico
Sea x = {x0, ..., xn} una relacion de observaciones de la cadena de Markov de
tamano n. Entonces, utilizando la probabilidad conjunta dada anteriormente
la funcion de verosimilitud para el caso no parametrico viene dada por,
L(pij|x) =n∏k=1
pxk−1xk =N∏i=1
N∏j=1
pnij
ij ,
donde nij es el numero de transiciones entre los estados i y j.
Se debe maximizar la funcion de verosimilitud para encontrar el EMV
de pij. Para ello, en primer lugar, se toma el logaritmo de la funcion de
verosimilitud anterior, obteniendo
logL(pij(θ)|x) =N∑i=1
N∑j=1
nijlog(pij(θ)),
sujeto a la restriccion∑N
j=1 pij = 1 y, utilizando multiplicadores de Langrange
se obtiene la siguiente expresion,
l∗(pij|x) =N∑
i,j=1
nijlog(pij) + λ(1−N∑j=1
pij).
Derivando l∗ con respecto a las pij y a λ, se tiene que
∂l∗
∂pij=nijpij− λ y
∂l∗
∂λ= 1−
N∑j=1
pij,
igualando ambas a cero, se obtiene que
λ =nijpij
⇒ pij =nijλ.
Sumando y usando la restriccion∑N
j=1 pij = 1, se deduce que
N∑j=1
pij =
∑Nj=1 nij
λ⇒ 1 =
∑Nj=1 nij
λ⇒
N∑j=1
nij = λ.
26 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV
Tomando λ = ni =∑N
j=1 nij, se obtiene el EMV, a saber
pij =nijni.
Capıtulo 2
Cadenas de Markov a trozos en
Supervivencia
2.1. Introduccion
La introduccion de los modelos dinamicos en estudios de supervivencia pre-
senta ciertas ventajas que son utiles en este campo de aplicacion ya que la
enfermedad evoluciona a lo largo del tiempo y por lo tanto los sujetos de-
ben ser seguidos hasta el final dentro de un cierto periodo. Los procesos de
Markov han sido considerados en el estudio de la evolucion de enfermedades
cuando se desea realizar un estudio dinamico. En la mayorıa de los casos se
considera tiempo continuo pero el seguimiento de una enfermedad se realiza
en tiempos periodicos discretos. Es caracterıstico en estudios de supervivencia
que los datos sean frecuentemente censurados, sin embargo, a veces diferentes
factores que afectan a la evolucion del tiempo de vida de los sujetos deben
ser introducidos en el modelo cuando sean conocidos.
La hipotesis de homogeneidad no es realista en algunos casos, ya que con-
forme el tiempo pasa, la enfermedad evoluciona. En esta memoria se propone
un proceso de Markov homogeneo a trozos en tiempo discreto para estudiar
la evolucion del cancer de mama. La aproximacion no homogenea considera-
da es el proceso de Markov a trozos. El modelo se aplica considerando dos
periodos de tiempo durante la observaciones donde la enfermedad se muestra
bien diferenciada con respecto a la muerte y la recaıda.
27
28 CAPITULO 2: MODELO NO HOMOGENEO A TROZOS
2.2. El modelo
Sea {Xn, n ≥ 0} la CMTD con espacio de estados S = {1, 2, ...N} que descri-
be el proceso de la evolucion de una enfermedad a lo largo del tiempo. Como
aproximacion no homogenea, se considera el proceso de Markov a trozos. El
modelo se aplica considerando una particion de la matriz de probabilidades
de transicion P en dos intervalos disjuntos con un unico punto de corte a. La
matriz del modelo puede ser expresada como,
P =
{P1 si 0 ≤ n < a
P2 si n ≥ a
donde P1 es la matriz de probabilidades de transicion del primer intervalo y
P2 la matriz de probabilidades de transicion del segundo. La matriz P1 esta
formada por las probabilidades de transicion
pP1ij = P [X1 = j|X0 = i], n ≤ a− 1,
lo que denota la probabilidad de pasar del estado i al estado j en un paso.
La matriz P2 esta formada por las probabilidades de transicion
pP2ij = P [X1 = j|X0 = i], n ≥ a,
que es la probabilidad de pasar del estado i al estado j en un paso.
Distribucion transitoria de probabilidad
Sea {Xn, n ≥ 0} la CMTD con espacio de estados S = {1, 2, ...N} que descri-
be el proceso de la evolucion de una enfermedad a lo largo del tiempo, siendo
este ultimo estado absorbente y el resto de estados transitorios. Las proba-
bilidades de transicion en un paso tienen la expresion matricial mencionada
anteriormente donde
P1 =
(T1 T 0
1
0 1
),
2.2. EL MODELO 29
P2 =
(T2 T 0
2
0 1
),
donde Ti, i = 1, 2, es una matriz (m−1)× (m−1) que contiene las probabili-
dades de transicion en un paso entre los m− 1 primeros estados transitorios
y T 0i , i = 1, 2, es un vector (m − 1) × 1 que contiene las probabilidades de
transicion de los m− 1 primeros estados transitorios al estado absorbente.
Ası, por el teorema 2 y teniendo en cuenta que las matrices de proba-
bilidades de transicion en n pasos son matrices estocasticas, P (n) tiene la
siguiente estructura,
P (n) = P n =
(T n1 (I − T n1 )e
0 1
)si n < a(
T a1 (I − T a1 )e
0 1
)(T
(n−a)2 (I − T (n−a)
2 )e
0 1
)si n ≥ a
=
(T n1 (I − T n1 )e
0 1
)si n < a(
T a1 T(n−a)2 T a1 (I − T (n−a)
2 )e+ (I − T a1 )e
0 1
)si n ≥ a
siendo e un vector de unos con la longitud adecuada.
Dada la distribucion inicial α, la distribucion transitoria en el tiempo n
viene dada por
pn = αP n.
2.2.1. Medidas
A continuacion, mostramos algunas medidas interesantes para el calculo, co-
mo pueden ser los tiempos de permanencia y los tiempos de primer paso por
un estado.
30 CAPITULO 2: MODELO NO HOMOGENEO A TROZOS
Tiempo de Permanencia
La matriz de los tiempos de permanencia para los estados transitorios, M t(n),
toma la siguiente estructura,
MT (n) =
{ ∑nm=0 P
m =∑n
m=0 Tm1 si n < a∑n
m=0 Pm =
∑a−1m=0 T
m1 +
∑nm=a T
a1 T
m−a2 si n ≥ a
MT (n) =
{(I − T n+1)(I − T )−1 si n < a
(I − T a1 )(I − T1)−1 + ta1(I − T n−a+12 )(I − T2)−1 si n ≥ a
(2.1)
donde las matrices inversas existen por la estructura del modelo.
Funcion de supervivencia
La funcion de supervivencia mide la probabilidad de que un sujeto sobreviva
mas alla de un periodo de tiempo dado. La funcion de supervivencia viene
dada por:
S(n) =
{αT ne si 0 ≤ n < a
αT a1 Tn−a2 e si n ≥ a
Tiempo de primer paso por el estado i o absorcion
Dado el estado transitorio i, la distribucion del tiempo de primer paso por
dicho estado o por el estado absorbente viene dada por
Si(n) =
{αiT
ni1e si 0 ≤ n ≤ a
αiTai1T
n−ai2 e si n ≥ a
.
siendo el vector αi y la matriz Tij el vector α y la matriz Tj eliminando el
elemento i de α y la fila y columna i de Tj para j = 1, 2.
El tiempo esperado en alcanzar el estado i por primera vez o el estado
absorbente viene dado por
2.3. DATOS MULTICENSURADOS. CENSURA ALEATORIA 31
ri =∞∑n=0
Si(n) =a−1∑n=0
αiTni,1e+
∞∑n=a
αiTai,1T
n−ai,2 e
= αi(I − T ai,1)(I − Ti,1)−1e+ αiTai,1(I − Ti,2)−1e
= αi[(I − T ai,1)(I − Ti,1)−1 + T ai,1(I − Ti,2)−1]e
Ası, el tiempo esperado de primer paso al estado absorbente tiene la expre-
sion,
rN =∞∑n=0
S(n) =αa−1∑n=0
T n1 e+ α
∞∑n=a
T a1 Tn−a2 e
= α[(I − T a1 )(I − T1)−1 + T a1 (I − T2)−1]e.
(2.2)
2.3. Datos multicensurados. Censura aleato-
ria
En el estudio de tiempos de vida es habitual trabajar con datos censurados.
Segun el analisis que se este considerando, los datos obtenidos seran censu-
rados en tiempo (censura tipo I), censurados en numero de fallos (censura
tipo II), multicensurados o tener censura aleatoria. Centremonos en estos dos
ultimos casos.
La multicensura consiste en considerar que a cada individuo en estudio
se le asigna un tiempo de censura fijo, Li y un tiempo de vida aleatorio, Ti.
Los tiempos de vida para todos los individuos son variables aleatorias inde-
pendientes e identicamente distribuidas notando la funcion masa de proba-
bilidad (caso discreto) como f(n) = P [Ti = n] y la funcion de supervivencia
S(n) = P [Ti > n]. El tiempo de vida del individuo i es observado si Ti < Li,
siendo en otro caso un dato censurado. A cada individuo i se le asigna el par
(ti, δi) siendo ti = min{Θi, Li} y δi = 1 si Ti ≤ Li y δ = 0 en otro caso. Es
decir, se tiene tiempo de vida o censura y δi indica su tipologıa.
Otro caso de interes, es el de los datos censurados de forma aleatoria. Se
trata de considerar el mismo caso anterior pero en esta ocasion el tiempo
32 CAPITULO 2: MODELO NO HOMOGENEO A TROZOS
de censura de cada individuo es aleatorio. En esta ocasion se tienen para m
individuos que las variables de tiempos de vida Ti y las de censura Li, para
i = 1, 2, ...,m, son variables aleatorias independientes con funciones masa de
probabilidad y de supervivencia igual a f(n) = P [Ti = n] y S(n) = P [Ti > n]
para el tiempo de vida y g(n) = P [Li = n] y G(n) = P [Li > n] para los
tiempos de censura, respectivamente.
En esta ocasion, los datos consisten en m observaciones (ti, δi), i =
1, 2, ...,m, siendo ti = min{Ti, Li} y δ = 1 si T1 < Li y δ = 0 en otro
caso. Se tiene entonces que
P [ti = n, δi] = [f(n) ·G(n)]δi · [g(n) · S(n)](1−δi).
2.4. Covariables
La presencia de variables endogenas y exogenas que interactuan en la evo-
lucion de una enfermedad es una realidad. Supongamos que se tienen d
covariables. Estas variables pueden introducirse en el modelo mediante un
vector de covariables de orden d. Se representa el vector de covariables co-
mo zT = (z1, z2, ..., zd). Nos preguntamos como introducir el efecto de estas
covariables en una CMTD. En los modelos de tiempo continuo es habitual in-
troducir las covariables multiplicativamente de forma exponencial sobre una
intensidad de transicion base en cada transicion. Para el caso discreto, una
posibilidad es introducir multiplicativamente las covariables de forma expo-
nencial sobre las probabilidades de transicion base en cada transicion. De
este modo, las probabilidades de transicion en un paso ahora dependeran del
vector de covariables z. Se tiene por tanto que,
pPlij (z) = pPl
ij exp{zTβ(l)ij }, i, j = 1, 2, ...m, (2.3)
donde β(l)ij = (β
(l)1ij , β
(l)2ij , ..., β
(l)dij ), i, j = 1, 2, ...,m es el vector de coeficientes
de regresion asociado con el vector z para la transicion i → j. El efecto de
la covariable h en la transicion i → j se mide mediante el coeficiente βhij,
h = 1, 2, ..., l. La matriz de probabilidades de transicion depende ahora de z
y se denotara por P (n)(z) = (pij(n; z)), i, j = 1, 2, ...,m. Distintas medidas
para los diferentes grupos de pacientes dados por el valor de las covariables
2.5. EL MODELO CON COVARIABLES 33
se pueden calcular a partir de este modelo.
2.5. El modelo con covariables
Sea {Xn, n ≥ 0} la CMTD con espacio de estados S = {1, 2, ...N} que des-
cribe el proceso de la evolucion de una enfermedad a lo largo del tiempo.
Se estudia la influencia de los tratamientos en la evolucion de la enferme-
dad. Como aproximacion no homogenea, se considera el proceso de Markov
a trozos. El modelo se aplica considerando una particion de la matriz de pro-
babilidades de transicion P en dos intervalos disjuntos con un unico punto
de corte a. La matriz del modelo se expresa como
P (z) =
{P1(z) si 0 ≤ n < a
P2(z) si n ≥ a, (2.4)
Las probabilidades de transicion en un paso tienen expresion matricial men-
cionada anteriormente donde
P1(z) =
(T1(z) T 0
1 (z)
0 1
),
P2(z) =
(T2(z) T 0
2 (z)
0 1
),
donde Ti(z), i = 1, 2, es una matriz (m−1)×(m−1) que contiene las probabi-
lidades de transicion en un paso entre los m−1 primeros estados transitorios
y T 0i (z), i = 1, 2, es un vector (m− 1)× 1 que contiene las probabilidades de
transicion de los m− 1 primeros estados transitorios al estado absorbente.
Se considera que los tratamientos afectan a las probabilidades de transi-
cion con un aporte exponencial. Por tanto, las probabilidades de transicion
en un paso vienen dadas por,
pPlij (z) = pPl
ij ez′β
(l)ij ; l = 1, 2.
34 CAPITULO 2: C.M. CON PUNTOS DE CORTE
Ası, por el teorema 2 y teniendo en cuenta que las matrices de probabi-
lidades de transicion en n pasos son matrices estocasticas, P (n)(z) tiene la
siguiente estructura,
P (n)(z) = P n(z) =
(T n1 (z) (I − T n1 (z))e
0 1
)si n < a(
T a1 (z) (I − T a1 (z))e
0 1
)(T
(n−a)2 (z) (I − T (n−a)
2 (z))e
0 1
)si n ≥ a
=
(T n1 (z) (I − T n1 (z))e
0 1
)si n < a(
T a1 (z)T(n−a)2 (z) T a1 (z)(I − T (n−a)
2 (z))e+ (I − T a1 (z))e
0 1
)si n ≥ a
siendo e un vector de unos con la longitud adecuada.
2.6. Funcion de Verosimilitud para el estudio
de la evolucion de una enfermedad
En esta seccion, se desarrolla el calculo de la funcion de verosimilitud para el
caso particular en que se tenga una muestra aleatoria de pacientes que tie-
nen una determinada enfermedad en estudio. Sea {Xn, n ≥ 0} la CMTD con
espacio de estados S = {1, 2, ..., N} que describe el proceso de la evolucion
de una enfermedad a lo largo del tiempo.
Para el analisis del proceso es habitual tener para cada paciente en estu-
dio un conjunto de variables endogenas y exogenas ademas de los tiempos y
estados observados.
Caso sin covariables
Se considera que para un paciente h se observa mh tiempos de transicion,
siendo el ultimo estado la muerte o una censura. Ası, se tiene una secuencia
2.5. FUNCION DE VEROSIMILITUD 35
de tiempos
0 = th,0 < th,1 < ... < th,mh.
Como se ha dicho, se considera que todos los pacientes se encuentren en el
estado 1, y los estados sucesivos ocupados por cada paciente h vienen dados
por
1 = xh0 , xh1 , ..., x
hmh.
Cada paciente introduce en la funcion de verosimilitud diferentes factores de
acuerdo con su muestra. Ası, si el intervalo de transicion observado para un
paciente esta entre dos puntos de corte, la contribucion a la funcion de vero-
similitud es la probabilidad de transicion con el correspondiente matriz P. Si
el intervalo de transicion observado tiene un punto de corte, la contribucion a
la verosimilitud es el producto de dos factores: la probabilidad de transicion
en el intervalo entre el instante de salto y el punto de corte, y desde ese punto
al siguiente salto o censura, con la correspondiente matriz P en cada periodo.
La ultima observacion podrıa ser la muerte o la censura. En el primer caso,
el ultimo producto es la probabilidad de transicion al estado absorbente y,
en el segundo caso, la probabilidad de supervivencia en el ultimo estado vi-
sitado. La funcion de verosimilitud considerando una muestra de n pacientes
se expresa como
L =n∏h=1
mh∏r=2
pxhr−1,xhr(th,r−1, th,r), (2.5)
siendo
Si th,r−1 y th,r pertenecen al mismo intervalo Ij = [aj−1, aj)
Pxhr−1,xhr(th,r−1, th,r) = (T
th,r−−th,r−1
j e)xhr−1,xhr.
Si th,r−1 ∈ I1 y th,r ∈ I2
Pxhr−1,xhr(th,r−1, th,r) = (T
a−th,r−1
1 Tth,r−a2 )xhr−1,x
hr.
36 CAPITULO 2: C.M. CON PUNTOS DE CORTE
Caso con covariables
Si se quieren tener en cuenta las covariables, se incorpora el vector de cova-
riables. De este modo, un paciente a contribuye a la funcion de verosimilitud
con el siguiente factor
ma∏r=1
pxar−1,xar(ta,r − ta,r−1; z),
donde za es el vector de covariables del paciente a. si el paciente pasa a cen-
surado, el ultimo factor en esta expresion es la funcion de supervivencia y
viene dado por la probabilidad de permanencia en el correspondiente estado
de censura.
Por tanto, la funcion de verosimilitud considerando una muestra de n
pacientes, teniendo en cuenta covariables, tendrıa la siguiente expresion.
L =n∏a=1
ma∏r=1
pxar−1,xar(ta,r − ta,r−1; za).
Capıtulo 3
Estudio de la evolucion del
cancer de mama
En este capıtulo se lleva a cabo la parte practica del trabajo. Se va a mode-
lizar la evolucion del cancer de mama mediante cadenas de Markov a trozos
en tiempo discreto. En primer lugar se realizara el analisis sin covariables y,
una vez hallados y analizados los resultados, se introduciran los tratamientos
en el modelo a traves de un vector de covariables. De esta forma, se anali-
zara el comportamiento de la evolucion de la enfermedad sin y con distintos
tratamientos.
3.1. Analisis de pacientes con cancer de ma-
ma
3.1.1. Introduccion. Los datos.
Para la realizacion del trabajo se dispone de informacion mensual de la evo-
lucion de una muestra de 300 pacientes con cancer de mama que fueron
sometidos a mastectomıa. El seguimiento de estos pacientes data de 1973
en el Hospital Clınico, en Granada, y todos los sujetos fueron observados
longitudinalmente cada mes hasta diciembre de 1995. Esta cohorte de 300
pacientes tiene una edad media de 52.48 anos con un error estandar de 0.636.
El rango de edad esta comprendido entre 25 y 80 anos.
37
38 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA
En la evolucion de la enfermedad se distinguen tres estados en los pa-
cientes: Estado 1 (sin recaıda), es el estado inicial para todos los pacientes
despues de la cirugıa. Estado 2 (recaıda), el tumor tiene una recurrencia en el
mismo lugar que el tumor inicial, o en el sitio de la cicatriz de la operacion, en
las regiones ganglionares supraclaviculares o axilar, o en la cadena mamaria
interna. Estado 3, estado absorbente, estado muerte. Inicialmente, todos los
pacientes se encuentran en el estado 1 y el tumor maligno se ha eliminado.
Con el paso del tiempo, cabe la posibilidad de que recaigan y pasen al estado
2, o que mueran y, por tanto, pasen al estado 3. De este modo, las posibles
transiciones observadas son las siguientes: 1→ 2, 1→ 3 y 2→ 3. Un paciente
censurado puede ser un paciente que ha muerto por otras causas, o que se ha
perdido el contacto, o que aun esta vivo al final del perıodo de observacion.
Un paciente que hace la transicion 1 → 3 puede ser o bien un paciente que
sufrıa metastasis en el estado 1 y despues murio o bien un paciente vivo que
tuvo una recaıda y posterior muerte en un corto periodo de tiempo.
En esta cohorte hay 76 enfermas (25,3 %) que recaen, de las cuales mueren
64 (84,21) y son censuradas 12 (15,79 %). Desde el estado 1 mueren 114
enfermas (38 % del total) y son censuradas 110 (36,67 % del total). En total
por lo tanto se tienen 122 tiempos de censura (40,67 % del total) y 178 tiempos
de muerte (59,33 % del total).
3.1.2. El modelo
Una vez analizada la informacion, se considera que la evolucion del cancer
de mama se modeliza por un proceso de Markov {Xn, n ≥ 0} a trozos con
espacio de estados S = {1, 2, 3}. Los estados 1 y 2 son transitorios y el estado
3 es absorbente. El estado inicial del proceso es 1, ya que todas las enfermas
parten de ser intervenidas quirurgicamente, es decir, X0 = 1. La figura 2.1
muestra las transiciones entre los estados.
La matriz de probabilidades de transicion viene definida como,
P =
{P1 si 0 ≤ n < a
P2 si n ≥ a, (3.1)
3.1. ANALISIS DE PACIENTES CON CANCER DE MAMA 39
Figura 3.1: Diagrama de transiciones
donde
P1 =
(T1 T 0
1
0 1
)=
pP111 pP1
12 pP113
0 pP122 pP1
23
0 0 1
,
P2 =
(T2 T 0
2
0 1
)=
pP211 pP2
12 pP213
0 pP222 pP2
23
0 0 1
.
Por ser matrices estocasticas se cumple que pPi13 = 1 − pPi
11 − pPi12 y que
pPi23 = 1 − pPi
22 con i = 1, 2. Ademas, dada la estructura de P , P (n) puede
ser calculada por bloques, por tanto, bastara con realizar las estimaciones de
los valores de las matrices T .
Se tiene entonces que la matriz P n de transicion en n pasos es de la forma
P (n) =
{P n1 si 0 ≤ n < a
P a1 P
n−a2 si n ≥ a
.
Sea pPkij la probabilidad de transicion del estado i al estado j calculada usando
la matriz de transicion Pk, k = 1, 2. Para n < a se tiene entonces que
40 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA
P(n)1 =
(G1 G2
0 0 1
),
donde
G1 = T n1 =
(pP111 )n
∑nk=1(p
P111 )n−kpP1
12 (pP122 )k−1I[n≥1]
0 (pP122 )n
,
G2 =
1− (pP111 )n −
∑nk=1(p
P111 )n−kpP1
12 (pP122 )k−1I[n≥1]
1− (pP122 )n
siendo I[.] la funcion indicadora.
Para n > a, P (n) = P a1 P
n−a2 donde P a
1 y P n−a2 se construyen en base
al mismo algoritmo que la matriz anterior. De esta forma, al ser matrices
estocasticas la suma de sus filas suman 1. Ademas, dada su estructura, se
puede calcular de forma matricial por bloques, por tanto, quedarıa de la
siguiente forma
P (n) = P a1 P
n−a2 =
(H1 H2
0 0 1
),
donde
H1 =T a1 Tn−a2 =(pP1
11 )a(pP211 )n−a
(pP111 )a
∑n−ak=1(pP2
11 )n−a−kpP212 (pP2
22 )k−1I[n−a≥1]+
+(pP222 )n−a
∑ak=1(p
P111 )a−kpP1
12 (pP122 )k−1I[a≥1]
0 (pP122 )a(pP2
22 )n−a
,
H2 =
1− (pP1
11 )a(pP211 )n−a − (pP1
11 )a∑n−a
k=1(pP211 )n−a−kpP2
12 (pP222 )k−1I[n−a≥1]−
−(pP222 )n−a
∑ak=1(p
P111 )a−kpP1
12 (pP122 )k−1I[a≥1]
1− (pP122 )a(pP2
22 )n−a
,
3.1. ANALISIS DE PACIENTES CON CANCER DE MAMA 41
siendo I[.] la funcion indicadora.
3.1.3. Funcion de verosimilitud para el estudio de la
enfermedad
La funcion de verosimilitud incorporada al modelo es
L =n∏h=1
mh∏r=2
pxhr−1,xhr(th,r−1, th,r).
Si se asume una matriz de probabilidades de transicion a trozos se puede
construir una aproximacion para el caso no homogeneo. La matriz de proba-
bilidades de transicion cambiara en cierto tiempo pero es constante en cada
intervalo, por eso consideramos
P =
{P1 si n < a
P2 si n ≥ a.
Para los calculos se definen los intervalos Ij = [aj−1, aj[, Jq =]aq−1, aq],
j, q = 1, 2, con a0 = 0, a2 =∞.
Sea pPlij (n) la probabilidad de transicion calculada usando la matriz de
probabilidad de transicion Pl en n pasos. Entonces, los factores de la verosi-
militud tienen diferentes expresiones:
1. Si th,r−1 ∈ I1, th,r ∈ J1
pxhr−1,xhr(th,r−1, th,r) = pP1
xhr−1,xhr(th,r − th,r−1).
2. Si th,r−1 ∈ I1, th,r ∈ J2
pxhr−1,xhr(th,r−1, th,r) = pP1
xhr−1,xhr−1
(a− th,r−1)pP2
xhr−1,xhr(ti,r − a).
3. Si th,r−1 ∈ I2, th,r ∈ J2
pxhr−1,xhr(th,r−1, th,r) = pP2
xhr−1,xhr(th,r − th,r−1).
42 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA
Construida la funcion de verosimilitud se ha implementado computacional-
mente con R (ver anexo). Se han tomado logaritmos (logL) y se han estimado
los parametros maximizando la misma.
Las estimaciones resultantes son,
P1 =
0.986427387 0.0106523 0.0029203
0 0.95599673 0.04400327
0 0 1
P2 =
0.99433 0.001571 0.00409856
0 0.97837 0.02163
0 0 1
3.1.4. Probabilidades de transicion
Estimados los parametros por maxima verosimilitud, se han estimado las
funciones asociadas al modelo. En las figuras 3.2, 3.3, y 3.4 se presentan las
representaciones graficas de las probabilidades a lo largo del tiempo.
3.1.5. Funcion de supervivencia
Se ha calculado la funcion de supervivencia del modelo y se ha comparado
con la distribucion empırica (estimador de Kaplan Meier, 1958). La figura
3.5 muestra comparativamente las curvas de supervivencia empıricas, caso
homogeneo y caso no homogeneo. La funcion de supervivencia del modelo
viene dada por
S(n) = p11(n) + p12(n).
Si n < a
S(n) = pP111 (n) + pP1
12 (n).
Si n ≥ a
3.1. ANALISIS DE PACIENTES CON CANCER DE MAMA 43
Figura 3.2: Probabilidad de permanecer en el estado 1 a lo largo del tiempo
Figura 3.3: Probabilidad de recaıda a lo largo del tiempo
44 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA
Figura 3.4: Probabilidad de permanecer en el estado de recaıda a lo largo del
tiempo
S(n) = pP111 (a)[pP2
11 (n− a) + pP212 (n− a)] + pP1
12 (a)pP222 (n− a).
3.1.6. Tiempo de permanencia
Basandonos en la estructura de P , la matriz de tiempos de permanencia
M(n), tiene la siguiente forma.
Para n < a,
M(n) =n∑r=0
P r =n∑r=0
P r1 =
n∑r=0
(pP1
11 )r∑r
k=1(pP111 )r−kpP1
12 (pP122 )k−1I[r≥1]
1− (pP111 )r
−∑r
k=1(pP111 )r−kpP1
12 (pP122 )k−1I[n≥1]
0 (pP122 )r 1− (pP1
22 )r
0 0 1
3.1. ANALISIS DE PACIENTES CON CANCER DE MAMA 45
Figura 3.5: Curva de supervivencia empırica, estimada y estimada homogenea
Para n > a,
M(n) =n∑r=0
P r =a∑r=0
P r1 +
n∑r=a+1
P a1 P
r−a2 =
a∑r=0
(pP1
11 )r∑r
k=1(pP111 )r−k
pP112 (pP1
22 )k−1I[r≥1]
1− (pP111 )r
−∑r
k=1(pP111 )r−kpP1
12 (pP122 )k−1I[n≥1]
0 (pP122 )r 1− (pP1
22 )r
0 0 1
+
n∑r=a+1
(H ′1 H ′2
0 0 1
)
donde
H ′1 =(pP1
11 )a(pP211 )r−a
(pP111 )a
∑r−ak=1(p
P211 )r−a−kpP2
12 (pP222 )k−1I[r−a≥1]+
+(pP222 )r−a
∑ak=1(p
P111 )a−kpP1
12 (pP122 )k−1I[a≥1]
0 (pP122 )a(pP2
22 )n−a
,
46 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA
H ′2 =1− (pP1
11 )a(pP211 )r−a − (pP1
11 )a∑r−a
k=1(pP211 )r−a−kpP2
12 (pP222 )k−1I[r−a≥1]−
−(pP222 )r−a
∑ak=1(p
P111 )a−kpP1
12 (pP122 )k−1I[a≥1]
1− (pP122 )a(pP2
22 )r−a
,
Se ha implementado en R la matriz M(n) (ver anexo). Los tiempos medios
de permanencia en cada estado, transcurridos 10 anos, son
M(119) =
66, 1911 11, 60719 42, 20171
0 24, 33185 95, 66815
0 0 120
3.1.7. Tiempo de primer paso
La distribucion de probabilidad del tiempo de primer paso viene dada por
(2.2). Es interesante calcular la distribucion del tiempo de primer paso por
el estado recaıda (estado 2). Esta es igual a la distribucion geometrica, que
viene dada por la siguiente expresion.
Si n < a
p2(n) = P [T2 = n] = (pP111 )n−1pP1
12 ,
Si n ≥ a
p2(n) = P [T2 = n] = (pP111 )a(pP2
11 )n−a−1pP212 .
Por otra parte, el tiempo de primer paso por el estado absorbente tiene la
siguiente expresion.
Si n < a
p3(n) = αT n−11 T 01 .
Si n ≥ a
p3(n) = αT a1 Tn−a−12 T 0
2 .
donde α es la distribucion inicial de los estados transitorios.
3.2. ANALISIS DE SUPERVIVENCIA CON COVARIABLES 47
3.2. Analisis de supervivencia con covariables
3.2.1. Introduccion
El siguiente paso de este trabajo es el estudio de la influencia de los trata-
mientos en la evolucion de la enfermedad. Se considera la siguiente situacion.
En el estado 1, los tratamientos son preventivos, y todos los pacientes tie-
nen el mismo tratamiento: Quimioterapia (QT): se inyectan tres tipos de
medicamentos: cyclofosfamida, mathaterexate, 5-fluor-uracilo. Los otros tra-
tamientos, radioterapia (RT) y terapia hormonal (HT), son tambien para
todas las pacientes. Los tratamientos de QT y de RT se aplicaron para re-
cudir el tamano del tumor; el HT fue administrado teniendo en cuenta los
niveles hormonales de las receptoras. En el estado 2, los tratamientos son
mas agresivos. Reciben el mismo tipo de tratamiento que en el estado 1, pero
con dosis mayores.
Se procede a continuacion a la elaboracion del modelo para este caso con-
creto.
3.2.2. El modelo
Tambien en el caso con covariables, la matriz de probabilidades de transicion
es triangular superior dado que se esta interesado en estudiar los efectos de los
tratamientos en la enfermedad, se anadiran dichos tratamientos como cova-
riables. Se representa el vector de covariables z′ = (z1, z2, z3), correspondiente
a cada tratamiento, QT, RT y HT respectivamente. Las tres componentes
son variables dicotomicas que toman el valor 1 si no se ha aplicado el co-
rrespondiente tratamiento y 0 si, por contra, sı se ha aplicado. Se considera
que los tratamientos afectan a las probabilidades de transicion con un aporte
exponencial. Por tanto, las probabilidades de transicion en un paso vienen
dadas por,
pPlij (z) = pPl
ij ez′βl
ij ; l = 1, 2.
De este modo, la matriz de probabilidades de transicion sigue la siguiente
expresion
48 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA
P (z) =
(T (z) T 0(z)
0 1
).
Ası, la matriz de probabilidades de transicion en n pasos vendra dada por
P (n)(z) =
(T (n)(z) (I − T (n)(z))e
0 1
),
donde, si n < a
T (n)(z) =
(pP111e
z′β(1)11 )n
∑nk=1(p
P111e
z′β(1)11 )n−kpP1
12ez′β
(1)12 (pP1
22ez′β
(1)22 )k−1I[n≥1]
0 (pP122e
z′β(1)22 )n
,
si n ≥ a
T (n)(z) =
(Q1 Q2
0 Q3
).
donde
Q1 = (pP111e
z′β(1)11 )a(pP2
11ez′β
(2)11 )n−a
Q2 = (pP111e
z′β(1)11 )a
n−a∑k=1
(pP211e
z′β(2)11 )n−a(pP2
12ez′β
(2)12 )(pP2
22ez′β
(2)22 )k−1I[n≥1]
+ (pP222e
z′β(2)22 )n−a
a∑k=1
(pP111e
z′β(1)11 )a−k(pP1
12ez′β
(1)12 )(pP1
22ez′β
(1)22 )k−1I[n≥1]
Q3 = (pP122e
z′β(1)22 )a(pP2
22ez′β
(2)22 )n−a
3.2.3. Funcion de verosimilitud para el estudio con co-
variables
La funcion de verosimilitud incorporada al modelo es
3.2. ANALISIS DE SUPERVIVENCIA CON COVARIABLES 49
L =n∏h=1
mh∏r=2
pxhr−1,xhr(th,r−1, th,r; z).
Si se asume una matriz de probabilidades de transicion a trozos se puede
construir una aproximacion para el caso no homogeneo. La matriz de proba-
bilidades de transicion cambiara en cierto tiempo pero es constante en cada
intervalo, por eso consideramos
P (n; z) =
{P1(z) si n < a
P2(z) si n ≥ a
Para los calculos se definen los intervalos Ij = [aj−1, aj[, Jq =]aq−1, aq],
j, q = 1, 2, con a0 = 0, a2 =∞.
Sea pPlij (n; z) la probabilidad de transicion calculada usando la matriz de
probabilidad de transicion Pl(z). Entonces, los factores de la verosimilitud
tienen diferentes expresiones:
1. Si th,r−1 ∈ I1, th,r ∈ J1
pxhr−1,xhr(th,r−1, th,r; z) = pP1
xhr−1,xhr(th,r − th,r−1; z).
2. Si th,r−1 ∈ I1, th,r ∈ J2
pxhr−1,xhr(th,r−1, th,r; z) = pP1
xhr−1,xhr−1
(a− th,r−1; z)pP2
xhr−1,xhr(ti,r − a; z).
3. Si th,r−1 ∈ I2, th,r ∈ J2
pxhr−1,xhr(th,r−1, th,r; z) = pP2
xhr−1,xhr(th,r − th,r−1; z).
Las estimaciones obtenidas son
P1 = (0.993267, 0.00538935, 0.92725)
βP111 = (−0.0277,−0.00045525,−0.0074638)
βP112 = (1.6747, 0.176288, 0.10836)
50 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA
βP122 = (0.04321677,−0.003952, 0.00635)
P2 = (0.99499, 0.0008495, 0.9943872
βP211 = (−0.0006794,−0.0008113, 0.000009809)
βP212 = (0.960529, 0.27567, 0.4377756)
βP222 = (−0.015269,−0.016494, 0.0056286)
3.2.4. Probabilidades de transicion
A continuacion se muestran las representaciones graficas de las probabilida-
des de transicion en n pasos. En primer lugar, se muestra la correspondiente
a p11(n; z) (Figura 3.6 y Figura 3.7). Como se ha comentado anteriormente,
la probabilidad de permanecer en el estado 1 mas alta corresponde al caso
de pacientes tratadas con RT-HT-QT y las mas baja a las que no recibieron
tratamiento alguno.
En las figuras 3.8 y 3.9 se muestra la probabilidad de recaıda a lo largo del
tiempo. Se observa que todos los tratamientos tienen la misma tendencia, y
que los casos que resultaron con una probabilidad mas alta de recaıda fueron
los pacientes que no fueron tratados. Por contra, las pacientes que menos re-
caıdas tuvieron fueron las que fueron tratadas con RT o alguna combinacion
de esta con los restantes tratamientos.
Por ultimo, las figuras 3.10 y 3.11 muestran que las probabilidades mas bajas
de permanecer en el estado de recaıda son las que corresponden a los casos de
pacientes tratadas con RT o alguna combinacion de estas con las restantes.
Por otro lado, las probabilidades mas altas de permanencia corresponden a
las tratadas con HT.
3.2. ANALISIS DE SUPERVIVENCIA CON COVARIABLES 51
Figura 3.6: Probabilidad de permanencia en el estado 1 a lo largo del tiempo
segun los ocho tratamientos
Figura 3.7: Probabilidad de permanencia en el estado 1 a lo largo del tiempo
segun los ocho tratamientos
52 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA
Figura 3.8: Probabilidad de recaıda a lo largo del tiempo segun los ocho
tratamientos
Figura 3.9: Probabilidad de recaıda a lo largo del tiempo segun los ocho
tratamientos
3.2. ANALISIS DE SUPERVIVENCIA CON COVARIABLES 53
Figura 3.10: Probabilidad de permanecer en el estado de recaıda a lo largo
del tiempo segun los ocho tratamientos
Figura 3.11: Probabilidad de permanecer en el estado de recaıda a lo largo
del tiempo segun los ocho tratamientos
54 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA
Figura 3.12: Curva de supervivencia empırica, estimada y estimada homoge-
nea con el tratamiento RT
3.2.5. Funciones de supervivencia
Se presentan a continuacion las graficas comparativas de las curvas de su-
pervivencia empıricas (Kaplan-Meier, 1958) y estimadas para los tres trata-
mientos posibles (Figuras 3.12, 3.13, 3.14).
Las graficas de supervivencia estimadas de las pacientes que combinaban
dos tratamientos (Figuras 3.15, 3.16, 3.17) se ajustan mejor a las empıri-
cas, siendo la de mayor probabilidad de supervivencia la correspondiente a
la combinacion RT-QT.
Por ultimo, las Figuras 3.18 y 3.19 muestran las curvas de supervivencia de
las pacientes que se le aplicaron todos los tratamientos y de las pacientes que
no recibieron tratamiento alguno. Ambas se ajustan bien a la empırica hasta,
aproximadamente, los 120 meses. Como se puede observar, haber recibido RT-
HT-QT resulto con la mayor supervivencia de los ocho tratamientos posibles.
3.2. ANALISIS DE SUPERVIVENCIA CON COVARIABLES 55
Figura 3.13: Curva de supervivencia empırica, estimada y estimada homoge-
nea con el tratamiento HT
Figura 3.14: Curva de supervivencia empırica, estimada y estimada homoge-
nea con el tratamiento QT
56 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA
Figura 3.15: Curva de supervivencia empırica, estimada y estimada homoge-
nea con el tratamiento RT-HT
Figura 3.16: Curva de supervivencia empırica, estimada y estimada homoge-
nea con el tratamiento RT-QT
3.2. ANALISIS DE SUPERVIVENCIA CON COVARIABLES 57
Figura 3.17: Curva de supervivencia empırica, estimada y estimada homoge-
nea con el tratamiento HT-QT
Figura 3.18: Curva de supervivencia empırica, estimada y estimada homoge-
nea con el tratamiento RT-HT-QT
58 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA
Figura 3.19: Curva de supervivencia empırica, estimada y estimada homoge-
nea sin tratamiento
Anexo
Sintaxis del analisis sin covariables
Lectura de datos y probabilidades de transicion
#Se cargan los datos
datos<-read.table("Datos\\1.Datos.txt",header=F)
colnames(datos)<-c("Tiempo","Censura")
#Probabilidades de transicion estimadas
p11_1=0.986427387278718
p12_1=0.010652312266840
p22_1=0.955996732059164
p1<-c(p11_1,p12_1,p22_1)
p11_2=0.994330149445553
p12_2=0.001571286897456
p22_2=0.978367776985527
p2<-c(p11_2,p12_2,p22_2)
# Probabilidad de permanecer en el estado 1 a lo largo del tiempo
p11_paso_n<-function(p1,p2,n){
if(n<=48) p11_n<-p1[1]^n else p11_n<-p1[1]^48*p2[1]^(n-48)
return(p11_n)
}
list.p11<-vector("numeric",length=120)
59
60 ANEXO
for(n in 0:120) list.p11[n+1]<-p11_paso_n(p1,p2,n)
plot(list.p11,xlab="Tiempo (meses)",ylab="p11(n)",cex = .5)
# Probabilidad de recaıda a lo largo del tiempo
p12_paso_n<-function(p1,p2,n){
if(n<=48){
auxp12<-0
for(k in 1:n)
auxp12<-auxp12+((p1[1]^(n-k))*p1[2]*(p1[3]^(k-1)))
} else {
a<-0
b<-0
for(k in 1:(n-48)) a<-a+(p2[1]^(n-48)*p2[2]*p2[3]^(k-1))
for(k in 1:48) b<-b+p1[1]^(48-k)*p1[2]*p1[3]^(k-1)
auxp12<-p1[1]^48*a+p2[3]^(n-48)*b
}
return(auxp12)
}
list.p12<-vector("numeric",length=120)
for(n in 0:120) list.p12[n+1]<-p12_paso_n(p1,p2,n)
plot(list.p12,xlab="Tiempo (meses)",ylab="p12(n)",cex = .5)
#Probabilidad de permanecer en el estado de recaıda a los largo
#del tiempo
p22_paso_n<-function(p1,p2,n){
if(n<=48){
p22_n<-p1[3]^n
} else {
p22_n<-p1[3]^48*p2[3]^(n-48)
}
return(p22_n)
}
SINTAXIS DEL ANALISIS SIN COVARIABLES 61
list.p22<-vector("numeric",length=120)
for(n in 0:120) list.p22[n+1]<-p22_paso_n(p1,p2,n)
plot(list.p22,xlab="Tiempo (meses)",ylab="p22(n)",cex = .5)
Curva de Supervivencia empırica y estimada
p11_homo=0.989735569792829
p12_homo=0.007758653756938
p22_homo=0.960032026583221
p1_homo<-c(p11_homo,p12_homo,p22_homo)
p11_paso_n_homo<-function(p1_homo,n){
p11_n<-p1_homo[1]^n
return(p11_n)
}
p12_paso_n_homo<-function(p1_homo,n){
auxp12<-0
for(k in 0:n){
if(k==0){
auxp12<-auxp12+0
} else
auxp12<-auxp12+((p1_homo[1]^(n-k))*p1_homo[2]*
(p1_homo[3]^(k-1)))
}
return(auxp12)
}
p13_paso_n_homo<-function(p1_homo,n){
p13_n<-(1-p11_paso_n_homo(p1_homo,n)-
p12_paso_n_homo(p1_homo,n))
return(p13_n)
}
62 ANEXO
list.p13<-vector("numeric",length=120)
for(i in 0:120) list.p13[i+1]<-p13_paso_n_homo(p1_homo,i)
list.superv<-vector("numeric",length=120)
for (n in 1:120) list.superv[n]<-p11_paso_n(p1,p2,n)+
p12_paso_n(p1,p2,n)
list.superv.homogenea<-1-list.p13
superv<-survfit(Surv(time=Tiempo, event=Censura2,
type="right") ~ 1, conf.type="log",conf.int=0.95,
type="kaplan-meier", error="greenwood", data=datos)
plot(superv,col="black",xlab="Tiempo (meses)",
ylab="Supervivencia", xlim=c(0,120))
points(list.superv.homogenea,col="red",cex=1.5, pch=0)
points(list.superv,col="blue", cex=1.5)
legend("bottomleft", legend = c(
"Curva de supervivencia empırica",
"Curva de supervivencia homogenea estimada",
"Curva de supervivencia estimada"),
col = c(1,2,4), lty=c(1,0,0), pch=c(NA,0,1), cex=1.2,
text.width=65)
Tiempos de Permanencia
#Calculamos M(n).
m11<-function(n){
a<-0
for(r in 0:n) a<-a+p11_paso_n(p1,p2,r)
return(a)
}
SINTAXIS DEL ANALISIS SIN COVARIABLES 63
m12<-function(n){
a<-0
for(r in 0:n) a<-a+p12_paso_n(p1,p2,r)
return(a)
}
m22<-function(n){
a<-0
for(r in 0:n) a<-a+p22_paso_n(p1,p2,r)
return(a)
}
m13<-function(n){
a<-0
for(r in 0:n) a<-a+p13_paso_n(p1,p2,r)
return(a)
}
m23<-function(n){
a<-0
for(r in 0:n) a<-a+p23_paso_n(p1,p2,r)
return(a)
}
M_n<-function(p1,p2,n)
{
m11<-m11(n)
m12<-m12(n)
m22<-m22(n)
m13<-m13(n)
m23<-m23(n)
M<-matrix(c(m11,0,0,m12,m22,0,m13,m23,n+1),ncol=3)
return(M)
}
64 ANEXO
Sintaxis del analisis con covariables
Lectura de datos y probabilidades de transicion
#Se cargan los datos
datosHT<-read.table("Datos\\2.Datos_HT.txt",header=F)
colnames(datosHT)<-c("Tiempo","Censura")
datosQT<-read.table("Datos\\3.Datos_QT.txt",header=F)
colnames(datosQT)<-c("Tiempo","Censura")
datosRT<-read.table("Datos\\4.Datos_RT.txt",header=F)
colnames(datosRT)<-c("Tiempo","Censura")
datosHTQT<-read.table("Datos\\5.Datos_HTQT.txt",header=F)
colnames(datosHTQT)<-c("Tiempo","Censura")
datosHTRT<-read.table("Datos\\6.Datos_HTRT.txt",header=F)
colnames(datosHTRT)<-c("Tiempo","Censura")
datosQTRT<-read.table("Datos\\7.Datos_QTRT.txt",header=F)
colnames(datosQTRT)<-c("Tiempo","Censura")
datos3<-read.table("Datos\\8.Datos_HTQTRT.txt",header=F)
colnames(datos3)<-c("Tiempo","Censura")
datos_sin<-read.table("Datos\\9.Datos_sin_trat.txt",header=F)
colnames(datos_sin)<-c("Tiempo","Censura")
#Probabilidades de transicion
p11_1=0.993267054627101
p12_1=0.005389354715197
p22_1=0.927250667590140
SINTAXIS DEL ANALISIS CON COVARIABLES 65
p1<-c(p11_1,p12_1,p22_1)
b11_1<-c(-0.02770096439,-0.000455248133,-0.00746384010358)
b12_1<-c(1.674709493576,0.1762879346308,0.108359653015519)
b22_1<-c(0.043216771265,-0.003952044964,0.006349575196544)
p11_2=0.994991281686968
p12_2=0.000849484218409
p22_2=0.994387198087747
p2<-c(p11_2,p12_2,p22_2)
b11_2<-c(-0.000679395486,-0.0008113079996,0.00000980893233)
b12_2<-c(0.960528973948,0.275670478794546,0.43777558557594)
b22_2<-c(-0.015269010672,-0.016491230957,0.005628612875011)
prod_vectores<-function(z,b) {
z1<-z[1]
z2<-z[2]
z3<-z[3]
b1<-b[1]
b2<-b[2]
b3<-b[3]
producto<-(t(c(z1,z2,z3)))%*%c(b1,b2,b3)
return(producto)
}
#Se define p11^(n)
p11_z_paso_n<-function(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,
b22_2,z,n){
if(n<=48){ p11_n<-(p1[1]*(exp(prod_vectores(z,b11_1))))^n
} else {
66 ANEXO
p11_n<-(p1[1]*(exp(prod_vectores(z,b11_1))))^48*
(p2[1]*(exp(prod_vectores(z,b11_2))))^(n-48)
}
return(p11_n)
}
#Se define p12^(n)
p12_z_paso_n<-function(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,
b22_2,z,n){
auxp12<-0
for(k in 0:n)
if(k==0) {
auxp12<-auxp12+0
} else {
auxp12<-auxp12+
p11_z_paso_n(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,b22_2,
z,n-k)*
p1[2]*exp(prod_vectores(z,b12_1))*
p22_z_paso_n(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,b22_2,
z,k-1)
}
return(auxp12)
}
#Se define p22^(n)
p22_z_paso_n<-function(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,
b22_2,z,n){
if(n<=48){ p22_n<-(p1[3]*(exp(prod_vectores(z,b22_1))))^n
} else {
p22_n<-(p1[3]*(exp(prod_vectores(z,b22_1))))^48*
(p2[3]*(exp(prod_vectores(z,b22_2))))^(n-48)
}
return(p22_n)
}
SINTAXIS DEL ANALISIS CON COVARIABLES 67
#Se define p13^(n)
p13_z_paso_n<-function(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,
b22_2,z,n){
p13_n<-(1-p11_z_paso_n(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,
b22_2,z,n)-
p12_z_paso_n(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,b22_2,z,n))
return(p13_n)
}
#Se define p23^(n)
p23_z_paso_n<-function(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,
b22_2,z,n){
p23_n<-(1-p22_z_paso_n(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,
b22_2,z,n))
return(p23_n)
}
Representacion de las probabilidades de transicion
Se calcula la probabilidad de transicion. Se muestra para el caso RT, reali-
zando los otros siete de forma analoga.
#Probabilidad de permanecer en el estado uno
list.p11_RT<-vector("numeric",length=120)
for(i in 0:120){
list.p11_RT[i+1]<-p11_z_paso_n(p1,b11_1,b12_1,b22_1,p2,
b11_2,b12_2,b22_2,c(0,1,1),i)
}
plot(list.p11_RT_HT_QT,xlab="Tiempo (meses)",ylab="p11(n,z)",
ylim=c(0,1),
cex = .5,pch=0, col=1)
points(list.p11_RT_HT,col=2,cex = 0.5,pch=1)
points(list.p11_RT_QT,col=3,cex = 0.5,pch=2)
points(list.p11_RT,col=4,cex = 0.5,pch=3)
68 ANEXO
legend("topright", legend = c("p11(n,z) con RT-HT-QT",
"p11(n,z) con RT-HT",
"p11(n,z) con RT-QT",
"p11(n,z) con RT"),
cex=1,col = 1:4,pch= 0:3
#Probabilidad de recaıda
list.p12_RT<-vector("numeric",length=120)
for(i in 0:120){
list.p12_RT[i+1]<-p12_z_paso_n(p1,b11_1,b12_1,b22_1,p2,
b11_2,b12_2,b22_2, c(0,1,1),i)
}
plot(list.p12_RT_HT_QT,xlab="Tiempo (meses)",ylab="p12(n,z)",
ylim=c(0,1),cex = .5,pch=0, col=1)
points(list.p12_RT_HT,col=2,cex = 0.5,pch=1)
points(list.p12_RT_QT,col=3,cex = 0.5,pch=2)
points(list.p12_RT,col=4,cex = 0.5,pch=3)
legend("topright", legend = c("p12(n,z) con RT-HT-QT",
"p12(n,z) con RT-HT",
"p12(n,z) con RT-QT",
"p12(n,z) con RT"),
cex=1,col = 1:4,pch= 0:3)
#Probabilidad de permanecer en es estado recaıda.
list.p22_RT<-vector("numeric",length=120)
for(i in 0:120){
list.p22_RT[i+1]<-p22_z_paso_n(p1,b11_1,b12_1,b22_1,
p2,b11_2,b12_2,b22_2,c(0,1,1),i)
}
plot(list.p22_RT_HT_QT,xlab="Tiempo (meses)",ylab="p22(n,z)",
ylim=c(0,1),cex = .5,pch=0, col=1)
points(list.p22_RT_HT,col=2,cex = 0.5,pch=1)
points(list.p22_RT_QT,col=3,cex = 0.5,pch=2)
points(list.p22_RT,col=4,cex = 0.5,pch=3)
SINTAXIS DEL ANALISIS CON COVARIABLES 69
legend("topright", legend = c("p22(n,z) con RT-HT-QT",
"p22(n,z) con RT-HT",
"p22(n,z) con RT-QT",
"p22(n,z) con RT"),
cex=1,col = 1:4,pch= 0:3)
Curva de supervivencia
#Probabilidades de transicion homogeneas
P11=0.993752676077890
P12=0.003548128258377
P22=0.961128864123101
P1<-c(P11,P12,P22)
Beta11<-c(-0.01621487,-0.000647314,-0.0046187384)
Beta12<-c(1.654757463,0.2083718628,0.10798290724)
Beta22<-c(-0.00210874,-0.011697166,0.02038723018)
p11_z_paso_n_homo<-function(P1,Beta11,Beta12,Beta22,z,n){
p11_n<-(P1[1]*(exp(prod_vectores(z,Beta11))))^n
return(p11_n)
}
p22_z_paso_n_homo<-function(P1,Beta11,Beta12,Beta22,z,n){
p22_n<-(P1[3]*(exp(prod_vectores(z,Beta22))))^n
return(p22_n)
}
p12_z_paso_n_homo<-function(P1,Beta11,Beta12,Beta22,z,n){
auxp12<-0
for(k in 0:n){
if(k==0){auxp12<-auxp12+0} else {auxp12<-auxp12+
(p11_z_paso_n_homo(P1,Beta11,Beta12,Beta22,z,n-k))*
(p1[2]*exp(prod_vectores(z,Beta12)))*
70 ANEXO
(p22_z_paso_n_homo(P1,Beta11,Beta12,Beta22,z,k-1))
}
}
return(auxp12)
}
#Curva de supervivencia estimada homogenea con RT
#Analogamente con los siete tratamientos restantes
list.p11_z_RT<-vector("numeric",length=120)
for(i in 0:120)
{
list.p11_z_RT[i+1]<-
p11_z_paso_n_homo(P1,Beta11,Beta12,Beta22,c(0,1,1),i)
}
list.p12_z_RT<-vector("numeric",length=120)
for(i in 0:120)
{
list.p12_z_RT[i+1]<-
p12_z_paso_n_homo(P1,Beta11,Beta12,Beta22,c(0,1,1),i)
}
list.superv.RT.homogenea<-list.p11_z_RT+list.p12_z_RT
#Curva de supervivencia empırica y estimada con RT
#Analogamente con los siete tratamientos restantes
list.superv.RT<-list.p11_RT+list.p12_RT
supervRT<-survfit(Surv(Tiempo, Censura, type="right") ~ 1,
conf.type="log",conf.int=0.95, type="kaplan-meier",
error="greenwood", data=datosRT)
#Representacion de la curva de supervivencia empırica, estimada
#y estimada homogenea para el tratamiento RT.
#Analogamente para los siete tratamientos restantes
SINTAXIS DEL ANALISIS CON COVARIABLES 71
plot(supervRT,col="black",xlab="Tiempo (meses)",
ylab="Supervivencia con RT",xlim=c(0,120))
points(list.superv.RT.homogenea,col="red",cex=1.5, pch=0)
points(list.superv.RT,col="blue",cex=1.5)
legend("bottomleft", legend = c(
"Curva de supervivencia empırica con RT",
"Curva de supervivencia estimada homogenea con RT",
"Curva de supervivencia estimada con RT"),
col = c(1,2,4), lty=c(1,0,0), pch=c(NA,0,1), cex=1)
Bibliografıa
[1] Aalen, O. O. (1995) Phase-Type distributions in survival analysis. Scan-
dinavian Journal of Statistics, 22, 4, 447-463.
[2] Aalen, O.O., Farewell, W.T., Angelis, D., Day, N.E. and Gill, O.N. (1997)
A Markov model for HIV disease progression including the effect of HIV
diagnosis and treatment: application to aids prediction in England and
Wales. Statistics in Medicine, 16, 2191-2210.
[3] Barbu, V., Boussemart, M. and Limnios, N. (2004) Discrete-Time Semi-
Markov Model for Reliability and Survival Analysis. Communications in
Statistics - Theory and Methods, 33, 11, 2833-2868.
[4] Barbu, V. and Limnios, N. (2006) Empirical estimation for discrete-time
semi-Markov processes with applications in reliability. Journal of Nonpa-
rametric Statistics, 18, 7-8, 483-498.
[5] Basawa, I.V. and Prakasa Rao, B.L.S. (1980) Statistical inference for
stochastic processes. Academic Press INC (London) LTD.
[6] Chiang, C.L. (1968) Introduction to stochastic processes in bioestatistics.
John Wiley and Sons, Inc.
[7] Chiquet, J., Limnios, N. and Eid, M. (2009) Piecewise deterministic Mar-
kov processes applied to fatigue crack growth modelling. Journal of Sta-
tistical Planning and Inference, 139, 5, 1657-1667.
[8] Cox, D.R. (1972) Regression Models and life tables (with discussion).
Journal of the Royal Statistical Society, Series B, 34, 187-220.
[9] Duffy, S.W. and Chen, H. (1995) Estimation of mean sojourn time in
breast cancer screening using a Markov chain model of both entry to
73
and exit from the preclinical detectable phase. Statistics in Medicine, 14,
1531-1543.
[10] Frydmann, H. (1995) Semiparametric estimation in a three-state duration-
dependent Markov model from interval-censored observations with appli-
cation to AIDS data. Biometrics, 51, 502-511.
[11] Gentleman, R.C., Lawless, J.F., Lindsey, J.C. and Yan, P. (1994) Multi-
state Markov models for analyzing incomplete disease history data with
illustrations for HIV disease. Statistics in Medicine, 13, 805-821.
[12] Kalbeisch, J.D. and Lawless, J.F. (1985) The analysis of panel data under
a Markov assumption. Journal of the American Statistical Association,
80, 863-871.
[13] Kalbeisch, J.D. and Prentice, R.L. (1980) The statistical analysis of fai-
lure time data. Wiley Series in Probability and Mathematical Statistics.
[14] Kaplan, E.L. and Meier, P. (1958) Nonparametric estimation from in-
complete observations. Journal of the American Statistical Association,
53, 457-481.
[15] Kijima, M. (1997) Markov Processes for Stochastic Modeling. Chapman
and Hall.
[16] Kulkarni, V. G. (1999) Modeling, Analysis, Design, and Control of Sto-
chastic Systems. Springer-Verlag New York, Inc.
[17] Kulkarni, V. G. (1995) Modeling and Analysis of Stochastic Systems.
Chapman and Hall.
[18] Lawless, J.F. (1982) Statistical Models and Methods for lifetime data.
Wiley.
[19] Lu, Y. and Stitt, F.W. (1994) Using Markov processes to describe the
prognosis of HIV-1 infection. Medical Decision Making, 14, 266-272.
[20] Neuts, M.F. (1981) Matrix-Geometric Solutions in Stochastic Models: An
Algorithmic Approach. Courier Dover Publications.
[21] Perez-Ocon, R., Gamiz-Perez, M.L. and Ruiz-Castro, J. E. (1996) Apli-
cacion de Tecnicas Graficas en el Estudio de Tiempos de Supervivencia.
Estadıstica Espanola, 38, 141, 5-18.
[22] Perez-Ocon, R. and Ruiz-Castro, J.E. (2003) A multiple-absorbent Mar-
kov process in survival studies: application to breast cancer. Biometrical
Journal, 45,7, 783-797.
[23] Perez Ocon, R., Ruiz-Castro, J.E. and Gamiz-Perez, M. L. (1998) A
Multivariate model to measure the effect of treatments in survival to
breast cancer. Biometrical Journal, 40, 6, 703-715.
[24] Perez-Ocon, R., Ruiz-Castro, J.E. and Gamiz-Perez, M. L. (2000) Markov
Model with lognormal transition rates in the analysis of survival times.
TEST, 9, 2, 353-370.
[25] Perez-Ocon, R., Ruiz-Castro, J.E. and Gamiz-Perez, M.L. (2001a) Non-
homogeneous Markov Models in the analysis of survival to breast cancer.
Applied Statistics, 50, 1, 111-124.
[26] Perez-Ocon, R., Ruiz-Castro, J.E. and Gamiz-Perez, M.L. (2001b) Non-
homogeneous Markov Processes for analysing the effect of treatments to
breast cancer. Statistics in Medicine, 20, 109-122.
[27] Perez-Ocon, R., Ruiz-Castro, J.E. and Gamiz-Perez, M. L. (1999) Semi-
Markov Models for lifetime data analysis. In: Semi-Markov Models and
Applications, Eds. J. Janssen and N. Limnios, Kluwer Academic Publis-
hers, Dordrecht, The Nederlands, 229-238.
[28] Ross, S.M. (1983) Stochastic Processes. Wiley and Sons, Inc.
[29] Ruiz-Castro, J.E. (1998) Procesos de Markov en analisis de supervivencia.
Tesis Doctoral. Universidad de Granada.
[30] Ruiz Castro, Juan Eloy; Perez Ocon, Rafael (2004) A Semi-markov model
in biomedical studies. Communication in Statistics: Theory and Methods,
33(2), 437-455.
[31] Ruiz-Castro, J.E. and Zenga, M.A. (2015) A discrete piecewise multi-
state survival model: Application to breast cancer. Statistics in Medicine
(sometido).
[32] Santamarıa, C.; Garcıa-Mora, B.; Rubio, G. and Navarro, E. (2009) A
Markov model for analyzing the evolution of bladder carcinoma. Mathe-
matical and Computer Modelling, 50: 726-732.
[33] Tijms, H. C. (2003) A First Course in Stochastic Models. John Wiley
and Sons, Chichester.