universidad de granada

76
UNIVERSIDAD DE GRANADA DEPARTAMENTO DE ESTAD ´ ISTICA E INVESTIGACI ´ ON OPERATIVA TRABAJO FIN DE M ´ ASTER UN PROCESO DE MARKOV A TROZOS EN TIEMPO DISCRETO EN AN ´ ALISIS DE SUPERVIVENCIA: ESTUDIO DEL C ´ ANCER DE MAMA Daniel Collantes V´ ılchez 2014-2015

Upload: others

Post on 01-Oct-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNIVERSIDAD DE GRANADA

UNIVERSIDAD DE GRANADA

DEPARTAMENTO DE ESTADISTICA EINVESTIGACION OPERATIVA

TRABAJO FIN DE MASTER

UN PROCESO DE MARKOV A TROZOSEN TIEMPO DISCRETO EN ANALISIS DE

SUPERVIVENCIA: ESTUDIO DELCANCER DE MAMA

Daniel Collantes Vılchez

2014-2015

Page 2: UNIVERSIDAD DE GRANADA
Page 3: UNIVERSIDAD DE GRANADA

TRABAJO FIN DE MASTER

UN PROCESO DE MARKOV A TROZOS ENTIEMPO DISCRETO EN ANALISIS DE

SUPERVIVENCIA: ESTUDIO DEL CANCER DEMAMA

Trabajo realizado por Daniel Collantes Vılchez

Vº Bº

Dr. D. Juan Eloy Ruiz Castro

Departamento de Estadıstica e Investigacion Operativa

Universidad de Granada

Septiembre 2015

Page 4: UNIVERSIDAD DE GRANADA
Page 5: UNIVERSIDAD DE GRANADA

Indice general

Introduccion 9

1. Analisis de Cadenas de Markov 13

1.1. Cadenas de Markov en Tiempo Discreto . . . . . . . . . . . . 13

1.1.1. Procesos Estocasticos . . . . . . . . . . . . . . . . . . . 13

1.1.2. Introduccion a cadenas de Markov en Tiempo Discreto 14

1.1.3. Distribucion Transitoria . . . . . . . . . . . . . . . . . 15

1.1.4. Tiempos de Primer Paso . . . . . . . . . . . . . . . . . 19

1.1.5. Tiempos de Permanencia . . . . . . . . . . . . . . . . . 21

1.1.6. Distribuciones tipo fase discretas (DPH) . . . . . . . . 22

1.2. Maxima Verosimilitud en Cadenas de Markov . . . . . . . . . 23

1.2.1. Funcion de verosimilitud . . . . . . . . . . . . . . . . . 23

2. Cadenas de Markov a trozos en Supervivencia 27

2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.2.1. Medidas . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.3. Datos multicensurados. Censura aleatoria . . . . . . . . . . . . 31

2.4. Covariables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.5. El modelo con covariables . . . . . . . . . . . . . . . . . . . . 33

2.6. Funcion de Verosimilitud para el estudio de la evolucion de

una enfermedad . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3. Estudio de la evolucion del cancer de mama 37

3.1. Analisis de pacientes con cancer de mama . . . . . . . . . . . 37

3.1.1. Introduccion. Los datos. . . . . . . . . . . . . . . . . . 37

3.1.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . 38

5

Page 6: UNIVERSIDAD DE GRANADA

6 INDICE GENERAL

3.1.3. Funcion de verosimilitud para el estudio de la enfermedad 41

3.1.4. Probabilidades de transicion . . . . . . . . . . . . . . . 42

3.1.5. Funcion de supervivencia . . . . . . . . . . . . . . . . . 42

3.1.6. Tiempo de permanencia . . . . . . . . . . . . . . . . . 44

3.1.7. Tiempo de primer paso . . . . . . . . . . . . . . . . . . 46

3.2. Analisis de supervivencia con covariables . . . . . . . . . . . . 47

3.2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2.3. Funcion de verosimilitud para el estudio con covariables 48

3.2.4. Probabilidades de transicion . . . . . . . . . . . . . . . 50

3.2.5. Funciones de supervivencia . . . . . . . . . . . . . . . . 54

Anexo 59

Sintaxis del analisis sin covariables . . . . . . . . . . . . . . . . . . 59

Sintaxis del analisis con covariables . . . . . . . . . . . . . . . . . . 64

Bibliografıa 73

Page 7: UNIVERSIDAD DE GRANADA

Indice de figuras

3.1. Diagrama de transiciones . . . . . . . . . . . . . . . . . . . . . 39

3.2. Probabilidad de permanecer en el estado 1 a lo largo del tiempo 43

3.3. Probabilidad de recaıda a lo largo del tiempo . . . . . . . . . . 43

3.4. Probabilidad de permanecer en el estado de recaıda a lo largo

del tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.5. Curva de supervivencia empırica, estimada y estimada homo-

genea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.6. Probabilidad de permanencia en el estado 1 a lo largo del

tiempo segun los ocho tratamientos . . . . . . . . . . . . . . . 51

3.7. Probabilidad de permanencia en el estado 1 a lo largo del

tiempo segun los ocho tratamientos . . . . . . . . . . . . . . . 51

3.8. Probabilidad de recaıda a lo largo del tiempo segun los ocho

tratamientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.9. Probabilidad de recaıda a lo largo del tiempo segun los ocho

tratamientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.10. Probabilidad de permanecer en el estado de recaıda a lo largo

del tiempo segun los ocho tratamientos . . . . . . . . . . . . . 53

3.11. Probabilidad de permanecer en el estado de recaıda a lo largo

del tiempo segun los ocho tratamientos . . . . . . . . . . . . . 53

3.12. Curva de supervivencia empırica, estimada y estimada homo-

genea con el tratamiento RT . . . . . . . . . . . . . . . . . . . 54

3.13. Curva de supervivencia empırica, estimada y estimada homo-

genea con el tratamiento HT . . . . . . . . . . . . . . . . . . . 55

3.14. Curva de supervivencia empırica, estimada y estimada homo-

genea con el tratamiento QT . . . . . . . . . . . . . . . . . . . 55

7

Page 8: UNIVERSIDAD DE GRANADA

8 INDICE DE FIGURAS

3.15. Curva de supervivencia empırica, estimada y estimada homo-

genea con el tratamiento RT-HT . . . . . . . . . . . . . . . . . 56

3.16. Curva de supervivencia empırica, estimada y estimada homo-

genea con el tratamiento RT-QT . . . . . . . . . . . . . . . . 56

3.17. Curva de supervivencia empırica, estimada y estimada homo-

genea con el tratamiento HT-QT . . . . . . . . . . . . . . . . 57

3.18. Curva de supervivencia empırica, estimada y estimada homo-

genea con el tratamiento RT-HT-QT . . . . . . . . . . . . . . 57

3.19. Curva de supervivencia empırica, estimada y estimada homo-

genea sin tratamiento . . . . . . . . . . . . . . . . . . . . . . . 58

Page 9: UNIVERSIDAD DE GRANADA

Introduccion

El analisis estadıstico de tiempos de vida tiene un area de trabajo teorico

y aplicado muy amplio. Dependiendo del campo donde se realice el estudio,

se hablara de tiempo de vida, tiempo de supervivencia o tiempo de fallo.

Matematicamente, una variable tiempo de vida es una variable no negativa

de probabilidad. El analisis de los tiempos de vida se utiliza bajo distintos

nombres en disciplinas como Biomedicina, Demografıa o Ingenierıa. Cuando

se trabaja en un contexto de biomedicina se considera el termino superviven-

cia.

En analisis de supervivencia es habitual la realizacion de estudios estaticos

de tiempos de vida. Las tecnicas utilizadas pueden ser no parametricas, se-

miparametricas y parametricas. Entre las primeras, las mas frecuentes son el

estimador producto lımite (Kaplan Meier, 1958) y las tablas de vida. Cuando

se trabaja en el campo de la supervivencia es habitual disponer de datos cen-

surados y covariables (factores endogenos o exogenos que pueden afectar a la

supervivencia). Uno de los modelos semiparametricos mas habituales cuando

se introducen covariables es el modelo de azares proporcionales o modelo de

Cox (1972).

En los ultimos anos se advierte la introduccion de nuevos modelos cuyo

hecho diferencial es el estudio dinamico de los tiempos de vida incorporan-

do procesos estocasticos. La introduccion de estos modelos surge de manera

natural, ya que en este campo se analizan grupos cuyo estado evoluciona

aleatoriamente en el tiempo. Es deseable que estos modelos admitan el estu-

dio con datos censurados y la incorporacion de covariables en el modelo. En

esta memoria el estudio de modelos dinamicos en supervivencia se plantea

de forma que se satisfagan estas premisas; buena adecuacion de los datos

9

Page 10: UNIVERSIDAD DE GRANADA

10 INTRODUCCION

censurados y la posibilidad de incorporacion de variables. La estructura de

los procesos de Markov permite el estudio de la evolucion de tiempos de vida

con estas caracterısticas.

En general, cuando se desean modelizar tiempos de vida se considera que

la evolucion ocurre de forma continua en el tiempo. Los procesos de Markov

en tiempo continuo han sido utilizados en la modelizacion de tiempos de vida.

Kalbfleisch y Lawless (1985) estudiaron el habito de fumar mediante proce-

sos de Markov homogeneos. Los procesos de Markov en tiempo continuo han

sido aplicados para estudiar la evolucion del virus del sida en Frydmann, H.

(1995). Santamarıa y otros (2009) consideraron un modelo de Markov para

analizar el comportamiento del cancer de vejiga. Perez-Ocon y otros (1998,

2000, 2001a 2001b, 2003) tambien consideraron distintos modelos markovia-

nos para estudiar la evolucion del cancer de mama en tiempo continuo.

Pero el seguimiento continuo a lo largo del tiempo no siempre es posible.

En muchas ocasiones, en supervivencia, las revisiones de una enfermedad

tienen lugar en momentos temporales definidos protocolariamente, si no hay

necesidades previas. La incorporacion a la supervivencia de modelos discretos

es una necesidad y de interes de estudio. Los modelos en tiempo discreto no

son una consecuencia inmediata del caso continuo, la estructura de los mode-

los discretos y las medidas asociadas son estudiadas con distinta metodologıa.

El objetivo principal de esta memoria es modelizar mediante una cadena

de Markov homogenea a trozos en tiempo discreto (primera aproximacion al

caso no homogeneo) el comportamiento del cancer de mama. Se desarrolla

un modelo general considerando dos periodos de tiempo donde el compor-

tamiento de una enfermedad esta bien diferenciada. Una extension de este

trabajo, donde se considera un numero indefinido de puntos de corte, puede

verse en Ruiz-Castro y Zenga (2015). Se considera un caso particular de este

modelo para estusdiar la evolucion del cancer de mama. El trabajo de ha di-

vidido en tres capıtulos. En el primer capıtulo de la memoria se ha realizado

un estudio teorico de las cadenas de Markov homogeneas en tiempo discreto

(se ha calculado la distribucion transitoria, tiempos de permanencia y tiem-

pos de primer paso y se han presentado las distribuciones tipo fase dadas en

Page 11: UNIVERSIDAD DE GRANADA

INTRODUCCION 11

Neuts (1981)). Se hablara de los conceptos basicos para realizar inferencia

estadıstica a traves del enfoque de maxima verosimilitud .

Realizado el estudio anterior, en el segundo capıtulo el trabajo se centra en

el comportamiento de las cadenas de Markov a trozos (con un punto de corte)

en supervivencia. Se tiene un modelo con un conjunto de estados transitorios

y uno absorbente. Es de destacar que en este caso se ha calculado la matriz

de probabilidades de transicion, los tiempos de permanencia y los tiempos

de primer paso en forma algorıtmica matricial. En el modelo considerado pa-

ra la aplicacion, se va a trabajar con datos censurados aleatoriamente por lo

que se introduce este concepto, habitual en supervivencia. Finalmente un vec-

tor de covariables es introducido en la matriz de probabilidades de transicion.

La tercera parte de la memoria esta dedicada al estudio de la evolucion

del cancer de mama considerando cadenas de Markov homogeneas a trozos

en tiempo discreto. Los datos que se han tomado se refieren a tiempos de

permanencia de pacientes en distintos estados operadas de cancer de mama.

En total se tiene una cohorte de 300 pacientes a las que se les ha practicado

una mastectomıa. Estos datos fueron facilitados por el Departamento de Ra-

diologıa y Medicina Fısica de la Universidad de Granada. El seguimiento de

los estados ocupados por las pacientes se hace mediante observaciones perio-

dicas mensuales. Para cada una de las pacientes se observa su trayectoria y

tres covariables dicotomicas que son los tratamientos (radioterapia, hormo-

noterapia y quimioterapia). Estos datos fueron ya considerados para analizar

y modelizar la evolucion del cancer de mama mediante procesos de Markov

en tiempo continuo en Ruiz Castro (1998).

Dado que las observaciones ocurren en tiempo discreto (mensualmente),

en esta memoria se consideran las cadenas de Markov homogeneas a trozos

en tiempo discreto para analizar la evolucion del cancer de mama a partir

del conjunto de datos anterior. El estudio se realiza en primer lugar para el

modelo sin covariables y posteriormente se introduce en el modelo un vector

de covariables con los tratamientos. Tras realizar un analisis del conjunto de

datos y presentar el modelo, en ambos casos se estiman los parametros por

maxima verosimilitud, se calculan las probabilidades de transicion estimadas

Page 12: UNIVERSIDAD DE GRANADA

12 INTRODUCCION

y tiempos de permanencia estimados. Finalmente, se han representado de

forma comparativa las curvas de supervivencia, empıricas y estimadas, para

el modelo homogeneo y no homogeneo, sin covariables y para cada uno de

los distintos tratamientos (en total ocho). Este estudio permite comparar el

efecto de los tratamientos en la mejora de la supervivencia. Todo el trabajo se

ha implementado computacionalmente en R mostrando las distintas funciones

en el Anexo adjunto.

Page 13: UNIVERSIDAD DE GRANADA

Capıtulo 1

Analisis de Cadenas de Markov

En este primer capıtulo se introduce la base teorica de todo el trabajo. Se

desarrolla la teorıa de Cadenas de Markov en tiempo discreto. Consta de

tres secciones: introduccion y resultados de Cadenas de Markov en Tiempo

Discreto (CMTD), maxima verosimilitud de cadenas de Markov y cadenas

de Markov homogeneas a trozos en tiempo discreto en Supervivencia.

1.1. Cadenas de Markov en Tiempo Discreto

En esta seccion se analizan las cadenas de Markov y para ello, previamente se

introducira el concepto de proceso estocastico, ya que las cadenas de Markov

son un caso particular de este. Posteriormente se introducira la definicion

de cadena de Markov en tiempo discreto junto con algunas propiedades, se

estudiara las distribuciones transitorias y se definiran los tiempos de perma-

nencia y de primer paso, enunciandose tambien algunos teoremas sobre los

mismos.

1.1.1. Procesos Estocasticos

Se considera un sistema que evoluciona en el tiempo de forma aleatoria. Su-

pongamos que se observa en tiempos n = 0, 1, 2, ... Sea Xn el estado del

sistema en el tiempo n.

Definicion 1 Se denomina Proceso Estocastico (en tiempo discreto) a la

sucesion de variables aleatorias {X0, X1, ..., Xn} definidas en un mismo es-

13

Page 14: UNIVERSIDAD DE GRANADA

14 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV

pacio probabilıstico. Se denota por {Xn, n ≥ 0}.

Se nota por S al conjunto de valores que puede tomar Xn para cada

n. Dicho estado se denomina espacio de estados.Los procesos estocasticos

sirven para caracterizar y estudiar fenomenos que evolucionan con el paso

del tiempo.

1.1.2. Introduccion a cadenas de Markov en Tiempo

Discreto

En esta seccion se aborda el concepto de cadena de Markov, se definira la

probabilidad de transicion en un paso y la matriz de transicion en un paso,

junto con algunas propiedades.

Definicion 2 Sea {Xn, n ≥ 0} un proceso estocastico con espacio de esta-

dos S. Entonces, Xn, n ≥ 0 es una Cadena de Markov en Tiempo Discreto

(CMTD) si para todo i, j ∈ S,

P [Xn+1 = j|Xn = i,Xn−1, ..., X0] = P [Xn+1 = j|Xn = i]. (1.1)

La expresion (1.1) es lo que se conoce como la condicion de Markov: dado el

presente, pasado y futuro son independientes.

Definicion 3 Una CMTD se dice homogenea si, para todo n = 0, 1, 2, ...,

P [Xn+1 = j|Xn = i] = P [X1 = j|X0 = i]. (1.2)

Definicion 5 Se denomina probabilidad de transicion en un paso de la

CMTD y se denota por pij, a la probabilidad de transicion del estado i al

estado j,

pij = P [Xn+1 = j|Xn = i], i, j = 1, 2, ..., N.

Cuando la probabilidad de transicion en un paso no depende de n se habla

de CMTD homogenea (1.2).

Page 15: UNIVERSIDAD DE GRANADA

1.1. CADENAS DE MARKOV EN TIEMPO DISCRETO 15

Dado un espacio de estados finito, existen entonces N2 probabilidades de

transicion de un paso pij. Estas probabilidades pueden ser ordenadas en una

matriz N ×N de la siguiente forma,

P =

p11 p12 p13 ... p1Np21 p22 p23 ... p2Np31 p32 p33 ... p3N...

......

. . ....

pN1 pN2 pN3 ... pNN

Dicha matriz se denomina matriz de transicion en un paso o matriz de tran-

sicion de una CMTD. El elemento (i, j) representa la probabilidad de pasar

del estado i al estado j en un paso.

Teorema 1 (Propiedades de una matriz de probabilidades de transicion) Sea

P = (pij) una matriz de probabilidades de transicion N ×N de una CMTD

{Xn, n ≥ 0} con espacio de estados S = {1, 2, ..., N}. Entonces:

1. pij ≥ 0, 1 ≤ i, j ≤ N,

2.∑N

j=1 pij = 1, 1 ≤ i ≤ N,

Cualquier matriz que verifique estas propiedades se denomina matriz esto-

castica y es la matriz de probabilidades de transicion de una CMTD.

1.1.3. Distribucion Transitoria

Sea {Xn, n ≥ 0} una CMTD homogenea con espacio de estados S = {0, 1, ..., N}con matriz de transicion P y distribucion inicial a = [a1, ..., aN ] donde

ai = P [X0 = i].

Se esta interesado en conocer la distribucion de Xn, para cualquier n, es decir,

a(n)j = P [Xn = j)] =

N∑i=1

P [Xn = j|X0 = i]P [X0 = i] =N∑i=1

aiP [Xn = j|X0 = i].

(1.3)

Page 16: UNIVERSIDAD DE GRANADA

16 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV

Por tanto, es suficiente estudiar la probabilidad condicional P [Xn = j|X0 =

i], tambien denominada probabilidad de transicion en n pasos. Se puede, por

tanto, construir una matriz de transicion en n pasos como sigue.

P =

p(n)11 p

(n)12 p

(n)13 ... p

(n)1N

p(n)21 p

(n)22 p

(n)23 ... p

(n)2N

p(n)31 p

(n)32 p

(n)33 ... p

(n)3N

......

.... . .

...

p(n)N1 p

(n)N2 p

(n)N3 ... p

(n)NN

Donde p

(n)ij = P [Xn = j|X0 = i]. Se estudian los casos P (0) y P (1). Se tiene

que

p(0)ij = P [X0 = j|X0 = i] =

{1 si i = j

0 si i 6= j

Por tanto, P (0) = IN×N . Del mismo modo, se tiene que

p(1)ij = P [X1 = j|X0 = i] = pij.

Por tanto, P (1) = P.

Teorema 2 Sea P la matriz de probabilidades de transicion de una CM. En-

tonces se verifica que P (n) = P n para n ≥ 0.

Demostracion.

p(0)ij = P [X0 = j|X0 = i] =

{1 si i = j

0 si i 6= j

Donde se obtiene que P (0) = I.

Page 17: UNIVERSIDAD DE GRANADA

1.1. CADENAS DE MARKOV EN TIEMPO DISCRETO 17

p(n)ij = P [Xn = j|Xn = i] =

N∑k=1

P [Xn = j,Xn−1 = k|X0 = i]

=N∑k=1

P [Xn = j|Xn−1 = k,X0 = i]P [Xn−1 = k|X0 = i]

=N∑k=1

P [Xn = j|Xn−1 = k]P [Xn−1 = k|X0 = i]

=N∑k=1

P [Xn = j|Xn−1 = k]p(n−1)ik =

N∑k=1

p(n−1)ik pkj.

De donde se obtiene que P (n) = P (n−1)P = PP (n−1). Por tanto, P (n) = P n.

Del anterior teorema se obtienen los siguientes corolarios.

Corolario 1 Se define a(n) = (a(n)1 , a

(n)2 , ..., a

(n)N ), siendo a

(n)j = P [Xn = j].

Entonces se tiene que,

a(n)j = P [Xn = j] =

N∑i=1

aip(n)ij −→ a(n) = a · P n.

Corolario 2

P [Xn+m = j|Xn = i,Xn−1, ..., X0] = P [Xn+m = j|Xn = i] = p(m)ij .

Demostracion.

Por induccion sobre m se tiene lo siguiente.

Para m = 1

P [Xn−1 = j|Xn = i,Xn−1, ..., X0] = pij.

Suponemos que es cierto para m− 1.

Page 18: UNIVERSIDAD DE GRANADA

18 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV

P [Xn+m−1 = j|Xn = i,Xn−1, ..., X0] = P [Xn+m−1 = j|Xn = i] = p(m−1)ij

Se prueba para m

P [Xn+m = j|Xn = i,Xn−1, ..., X0]

=N∑k=1

P [Xn+m = j,Xn+m−1 = k|Xn = i,Xn−1, ..., X0]

=N∑k=1

P [Xn+m = j|Xn+m−1 = k,Xn = i,Xn−1, ..., X0]

P [Xn+m−1 = k|Xn = i,Xn−1, ..., X0]

=N∑k=1

P [Xn+m = j|Xn+m−1 = k,Xn = i,Xn−1, ..., X0]pm−1ik

=N∑k=1

p(m−1)ik pkj = p

(m)ij .

Teorema 3 (Ecuacion de Chapman-Kolmogorov). Las probabilidades de tran-

sicion en n pasos verifican la siguiente ecuacion llamada Chapman-Kolmogorov.

p(n+m)ij =

N∑k=1

p(n)ik p

(m)kj .

De forma matricial se expresa como

P (n+m) = P (n)P (m) = P (m)P (n) = P nPm = P n+m.

Page 19: UNIVERSIDAD DE GRANADA

1.1. CADENAS DE MARKOV EN TIEMPO DISCRETO 19

Demostracion.

p(n+m)ij = P [Xn+m = j|X0 = i] =

N∑k=1

P [Xn+m = j,Xn = k|X0 = i]

=N∑k=1

P [Xn+m = j|Xn = k,X0 = i]P [Xn = k|X0 = i] =N∑k=1

p(n)ik p

(m)kj .

1.1.4. Tiempos de Primer Paso

Se define el tiempo de primer paso como el tiempo esperado en el que una

CMTD alcanza un estado o una clase de estados.

Definicion 6 Sea {Xn;n > 0} una CMTD con espacio de estados S =

{1, 2, ..., N} y con matriz de probabilidades de transicion P . Se define el tiem-

po de primer paso por el estado j como

Tj = inf{n ≥ 0;Xn = j}.

Ademas, se nota por Tij al tiempo de primer paso por el estado j cuando ini-

cialmente el proceso esta en el estado i: Tij = infn{n ≥ 0;Xn = j,X0 = i}.

Definicion 7 Sea {Xn;n > 0} una CMTD con espacio de estados S =

{1, 2, ..., N} y con matriz de probabilidades de transicion P . Se define el tiem-

po esperado de primer paso por el estado j cuando se parte del estado i como

rij = E[Tij] = E[Tj|X0 = i].

El siguiente Teorema nos muestra un metodo de computacion para calcularlo.

Teorema 4 (Tiempo esperado de primer paso)

Para un j fijo, {rij; 1 ≤ i ≤ N, i 6= j}(rii = 0 ∀i) satisface

Page 20: UNIVERSIDAD DE GRANADA

20 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV

rij = 1 +N∑

k = 1

k 6= j

pikrkj.

Demostracion.

Supongamos que X0 = i y X1 = k. Si k = j entonces Tj = 1 y si k 6= j,

entonces la CMTD alcanzara el estado j en una unidad de tiempo, mas el

tiempo de espera que resta desde entonces para alcanzar el estado j, rki. Por

tanto se tiene que

E[Tj|X0 = i,X1 = k] =

{1 si k = j

1 + rkj si k 6= j.

Entonces se tiene que

rkj = E[Tj|X0 = i] =N∑k=1

E[Tj|X0 = i,X1 = k]P [X1 = k|X0 = i]

=N∑

k = 1

k 6= j

(1 + rkj)pik + pij = 1 +N∑

k = 1

k 6= j

pikrkj.

Definicion 8 (Tiempos de primer paso por una clase de estados). Sea A un

subconjunto de estados del espacio de estados. Se define el tiempo de primer

paso por el conjunto de estados A como

T = inf{n ≥ 0;Xn ∈ A}.

Teorema 5 (Tiempo espera de primer paso por una clase de estados)

ri(A) = 1 +N∑

k = 1

k /∈ A

pikrk(A).

Page 21: UNIVERSIDAD DE GRANADA

1.1. CADENAS DE MARKOV EN TIEMPO DISCRETO 21

siendo ri(A) = E[T |X0 = i] con ri(A) = 0 si i ∈ A.

Matricialmente se puede expresar de la siguiente manera,

r(A) = e+ P (A)r(A).

siendo r(A) un vector columna [ri(A)]i/∈A y P (A) = [pij]i,j /∈A.

1.1.5. Tiempos de Permanencia

Sea {Xn;n > 0} una CMTD homogenea con espacio de estados S = {1, 2, ..., N}y con matriz de probabilidades de transicion P y distribucion inicial a =

[a1, .., aN ]. En esta seccion se estudia el tiempo de permanencia en cada es-

tado durante un intervalo de tiempo.

Definicion 9 Se denomina Nj(n) al numero de veces que la cadena visita el

estado j tras n pasos

Nj(n) =n∑

m=0

1j(Xm).

Definicion 10 Sea mij(n) el numero esperado de visitas al estado j tras n

pasos partiendo del estado i

mij(n) = E[Nj(n)|X0 = i].

De esta forma, se puede formar una matriz cuyos elementos sean mij(n). Di-

cha matriz se denomina matriz de tiempos de permanencia y se denota por,

M(n) =

m11(n) m12(n) m13(n) ... m1N(n)

m21(n) m22(n) m23(n) ... m2N(n)

m31(n) m32(n) m33(n) ... m3N(n)...

......

. . ....

mN1(n) pN2(n) mN3(n) ... mNN(n)

Teorema 6 (Tiempos de permanencia). Sea {Xn;n > 0} una CMTD homo-

genea con espacio de estados S = {1, 2, ..., N} y con matriz de probabilidades

de transicion P. La matriz de tiempos de permanencia viene dada por

Page 22: UNIVERSIDAD DE GRANADA

22 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV

M(n) =n∑r=0

P r. (1.4)

Demostracion.

Fijando i y j, sea Zn = 1 si Xn = j, y Zn = 0 si Xn 6= j =. Entonces

Nj(n) = Z0 + Z1 + ...+ Zn.

Por tanto

mij(n) = E[Nj(n)|X0 = i] = E[Z0 + Z1 + ...+ Zn|X0 = i]

=n∑r=0

E[Zr|X0 = i] =n∑r=0

P [Xr = j|X0 = i]

=n∑r=0

p(r)ij .

Escribiendo la expresion anterior de forma matricial se obtendrıa (1.4)

1.1.6. Distribuciones tipo fase discretas (DPH)

Sea {Xn;n > 0} una CMTD homogenea con espacio de estados S = {A, A},siendo A una clase absorbente y A su complementario. Entonces, la matriz

de probabilidades de transicion P se puede expresar como,

P =

(T T 0

C D

)siendo T la matriz que contiene las probabilidades de transicion entre los esta-

dos A y T 0 la matriz de probabilidades entre los estados de A y A. Entonces,

se define la distribucion tipo fase como la distribucion del tiempo en alcanzar

la cadena por primera vez la clase A. La funcion masa de probabilidad viene

dada por

pn = αT n−1T 0e, n ≥ 1,

Page 23: UNIVERSIDAD DE GRANADA

1.2. MAXIMA VEROSIMILITUD EN CADENAS DE MARKOV 23

siendo α la distribucion inicial para los estados de A y e un vector columna

de unos de orden adecuado. Se considera que inicialmente la cadena no esta

en la clase A. Claramente se satisface que Te+ T 0e = e.

El tiempo esperado hasta alcanzar la case A es igual a la esperanza de la

variable,

∑n≥1

npn = α∞∑n=1

nT n−1T 0e = α(I − T )−2T 0e = α(I − T )−1e.

Por lo tanto, el elemento i del vector (I − T )−1e es igual a ri(A), es decir, el

tiempo esperado en alcanzar la clase A cuando se parte del estado i.

1.2. Maxima Verosimilitud en Cadenas de Mar-

kov

1.2.1. Funcion de verosimilitud

Para construir la funcion de verosimilitud se necesita primero conocer la dis-

tribucion conjunta de una cadena de Markov.

Sea {Xn, n ≥ 0} una CMTD homogenea con espacio de estados S =

{1, 2, ..., N} y sean i0, i1, ..., iN ∈ S un conjunto cualquiera de estados. Se

observan n tiempos consecutivos y se tiene que la distribucion de probabilidad

conjunta de la CMTD es,

P [X0 = i0, X1 = i1, ..., Xn = in] = ai0pi0i1 · · · pin−2in−1pin−1in . (1.5)

Con esto, se pasa a la construccion de la funcion de verosimilitud.

Caso Parametrico

Las probabilidades de transicion pueden ser indexadas por medio de un vec-

tor de parametros. Supongase pij = pij(θ), donde θ = (θ1, ..., θl) es un vector

de parametros desconocidos que toma valores en Rl.

Page 24: UNIVERSIDAD DE GRANADA

24 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV

Sea x = {x0, ..., xn} una relacion de observaciones de la cadena de Markov

de tamano n. Entonces, utilizando la probabilidad conjunta dada anterior-

mente, la funcion de verosimilitud para el caso parametrico viene dada por,

L(pij(θ)|x) =n∏k=1

pxk−1xk(θ) =N∏i=1

N∏j=1

{pij(θ)}nij .

donde nij es el numero de transiciones entre los estados i y j en un paso.

Tomando logaritmo se tiene la logverosimilitud

logL(pij(θ)|x) =N∑i=1

N∑j=1

nijlog(pij(θ)).

Los estimadores de maxima verosimilitud de los parametros θ1, ..., θl se ob-

tienen resolviendo el siguiente sistema de ecuaciones.

∂logL(pij(θ)|x)

∂θr= 0, r = 1, 2, 3, ..., l,

es decir,

N∑i,j=1

nij∂pij(θ)

∂θr· 1

pij(θ)= 0, r = 1, 2, 3, ..., l,

para θ1, ..., θl.

Page 25: UNIVERSIDAD DE GRANADA

1.2. MAXIMA VEROSIMILITUD EN CADENAS DE MARKOV 25

Caso no parametrico

Sea x = {x0, ..., xn} una relacion de observaciones de la cadena de Markov de

tamano n. Entonces, utilizando la probabilidad conjunta dada anteriormente

la funcion de verosimilitud para el caso no parametrico viene dada por,

L(pij|x) =n∏k=1

pxk−1xk =N∏i=1

N∏j=1

pnij

ij ,

donde nij es el numero de transiciones entre los estados i y j.

Se debe maximizar la funcion de verosimilitud para encontrar el EMV

de pij. Para ello, en primer lugar, se toma el logaritmo de la funcion de

verosimilitud anterior, obteniendo

logL(pij(θ)|x) =N∑i=1

N∑j=1

nijlog(pij(θ)),

sujeto a la restriccion∑N

j=1 pij = 1 y, utilizando multiplicadores de Langrange

se obtiene la siguiente expresion,

l∗(pij|x) =N∑

i,j=1

nijlog(pij) + λ(1−N∑j=1

pij).

Derivando l∗ con respecto a las pij y a λ, se tiene que

∂l∗

∂pij=nijpij− λ y

∂l∗

∂λ= 1−

N∑j=1

pij,

igualando ambas a cero, se obtiene que

λ =nijpij

⇒ pij =nijλ.

Sumando y usando la restriccion∑N

j=1 pij = 1, se deduce que

N∑j=1

pij =

∑Nj=1 nij

λ⇒ 1 =

∑Nj=1 nij

λ⇒

N∑j=1

nij = λ.

Page 26: UNIVERSIDAD DE GRANADA

26 CAPITULO 1. ANALISIS DE CADENAS DE MARKOV

Tomando λ = ni =∑N

j=1 nij, se obtiene el EMV, a saber

pij =nijni.

Page 27: UNIVERSIDAD DE GRANADA

Capıtulo 2

Cadenas de Markov a trozos en

Supervivencia

2.1. Introduccion

La introduccion de los modelos dinamicos en estudios de supervivencia pre-

senta ciertas ventajas que son utiles en este campo de aplicacion ya que la

enfermedad evoluciona a lo largo del tiempo y por lo tanto los sujetos de-

ben ser seguidos hasta el final dentro de un cierto periodo. Los procesos de

Markov han sido considerados en el estudio de la evolucion de enfermedades

cuando se desea realizar un estudio dinamico. En la mayorıa de los casos se

considera tiempo continuo pero el seguimiento de una enfermedad se realiza

en tiempos periodicos discretos. Es caracterıstico en estudios de supervivencia

que los datos sean frecuentemente censurados, sin embargo, a veces diferentes

factores que afectan a la evolucion del tiempo de vida de los sujetos deben

ser introducidos en el modelo cuando sean conocidos.

La hipotesis de homogeneidad no es realista en algunos casos, ya que con-

forme el tiempo pasa, la enfermedad evoluciona. En esta memoria se propone

un proceso de Markov homogeneo a trozos en tiempo discreto para estudiar

la evolucion del cancer de mama. La aproximacion no homogenea considera-

da es el proceso de Markov a trozos. El modelo se aplica considerando dos

periodos de tiempo durante la observaciones donde la enfermedad se muestra

bien diferenciada con respecto a la muerte y la recaıda.

27

Page 28: UNIVERSIDAD DE GRANADA

28 CAPITULO 2: MODELO NO HOMOGENEO A TROZOS

2.2. El modelo

Sea {Xn, n ≥ 0} la CMTD con espacio de estados S = {1, 2, ...N} que descri-

be el proceso de la evolucion de una enfermedad a lo largo del tiempo. Como

aproximacion no homogenea, se considera el proceso de Markov a trozos. El

modelo se aplica considerando una particion de la matriz de probabilidades

de transicion P en dos intervalos disjuntos con un unico punto de corte a. La

matriz del modelo puede ser expresada como,

P =

{P1 si 0 ≤ n < a

P2 si n ≥ a

donde P1 es la matriz de probabilidades de transicion del primer intervalo y

P2 la matriz de probabilidades de transicion del segundo. La matriz P1 esta

formada por las probabilidades de transicion

pP1ij = P [X1 = j|X0 = i], n ≤ a− 1,

lo que denota la probabilidad de pasar del estado i al estado j en un paso.

La matriz P2 esta formada por las probabilidades de transicion

pP2ij = P [X1 = j|X0 = i], n ≥ a,

que es la probabilidad de pasar del estado i al estado j en un paso.

Distribucion transitoria de probabilidad

Sea {Xn, n ≥ 0} la CMTD con espacio de estados S = {1, 2, ...N} que descri-

be el proceso de la evolucion de una enfermedad a lo largo del tiempo, siendo

este ultimo estado absorbente y el resto de estados transitorios. Las proba-

bilidades de transicion en un paso tienen la expresion matricial mencionada

anteriormente donde

P1 =

(T1 T 0

1

0 1

),

Page 29: UNIVERSIDAD DE GRANADA

2.2. EL MODELO 29

P2 =

(T2 T 0

2

0 1

),

donde Ti, i = 1, 2, es una matriz (m−1)× (m−1) que contiene las probabili-

dades de transicion en un paso entre los m− 1 primeros estados transitorios

y T 0i , i = 1, 2, es un vector (m − 1) × 1 que contiene las probabilidades de

transicion de los m− 1 primeros estados transitorios al estado absorbente.

Ası, por el teorema 2 y teniendo en cuenta que las matrices de proba-

bilidades de transicion en n pasos son matrices estocasticas, P (n) tiene la

siguiente estructura,

P (n) = P n =

(T n1 (I − T n1 )e

0 1

)si n < a(

T a1 (I − T a1 )e

0 1

)(T

(n−a)2 (I − T (n−a)

2 )e

0 1

)si n ≥ a

=

(T n1 (I − T n1 )e

0 1

)si n < a(

T a1 T(n−a)2 T a1 (I − T (n−a)

2 )e+ (I − T a1 )e

0 1

)si n ≥ a

siendo e un vector de unos con la longitud adecuada.

Dada la distribucion inicial α, la distribucion transitoria en el tiempo n

viene dada por

pn = αP n.

2.2.1. Medidas

A continuacion, mostramos algunas medidas interesantes para el calculo, co-

mo pueden ser los tiempos de permanencia y los tiempos de primer paso por

un estado.

Page 30: UNIVERSIDAD DE GRANADA

30 CAPITULO 2: MODELO NO HOMOGENEO A TROZOS

Tiempo de Permanencia

La matriz de los tiempos de permanencia para los estados transitorios, M t(n),

toma la siguiente estructura,

MT (n) =

{ ∑nm=0 P

m =∑n

m=0 Tm1 si n < a∑n

m=0 Pm =

∑a−1m=0 T

m1 +

∑nm=a T

a1 T

m−a2 si n ≥ a

MT (n) =

{(I − T n+1)(I − T )−1 si n < a

(I − T a1 )(I − T1)−1 + ta1(I − T n−a+12 )(I − T2)−1 si n ≥ a

(2.1)

donde las matrices inversas existen por la estructura del modelo.

Funcion de supervivencia

La funcion de supervivencia mide la probabilidad de que un sujeto sobreviva

mas alla de un periodo de tiempo dado. La funcion de supervivencia viene

dada por:

S(n) =

{αT ne si 0 ≤ n < a

αT a1 Tn−a2 e si n ≥ a

Tiempo de primer paso por el estado i o absorcion

Dado el estado transitorio i, la distribucion del tiempo de primer paso por

dicho estado o por el estado absorbente viene dada por

Si(n) =

{αiT

ni1e si 0 ≤ n ≤ a

αiTai1T

n−ai2 e si n ≥ a

.

siendo el vector αi y la matriz Tij el vector α y la matriz Tj eliminando el

elemento i de α y la fila y columna i de Tj para j = 1, 2.

El tiempo esperado en alcanzar el estado i por primera vez o el estado

absorbente viene dado por

Page 31: UNIVERSIDAD DE GRANADA

2.3. DATOS MULTICENSURADOS. CENSURA ALEATORIA 31

ri =∞∑n=0

Si(n) =a−1∑n=0

αiTni,1e+

∞∑n=a

αiTai,1T

n−ai,2 e

= αi(I − T ai,1)(I − Ti,1)−1e+ αiTai,1(I − Ti,2)−1e

= αi[(I − T ai,1)(I − Ti,1)−1 + T ai,1(I − Ti,2)−1]e

Ası, el tiempo esperado de primer paso al estado absorbente tiene la expre-

sion,

rN =∞∑n=0

S(n) =αa−1∑n=0

T n1 e+ α

∞∑n=a

T a1 Tn−a2 e

= α[(I − T a1 )(I − T1)−1 + T a1 (I − T2)−1]e.

(2.2)

2.3. Datos multicensurados. Censura aleato-

ria

En el estudio de tiempos de vida es habitual trabajar con datos censurados.

Segun el analisis que se este considerando, los datos obtenidos seran censu-

rados en tiempo (censura tipo I), censurados en numero de fallos (censura

tipo II), multicensurados o tener censura aleatoria. Centremonos en estos dos

ultimos casos.

La multicensura consiste en considerar que a cada individuo en estudio

se le asigna un tiempo de censura fijo, Li y un tiempo de vida aleatorio, Ti.

Los tiempos de vida para todos los individuos son variables aleatorias inde-

pendientes e identicamente distribuidas notando la funcion masa de proba-

bilidad (caso discreto) como f(n) = P [Ti = n] y la funcion de supervivencia

S(n) = P [Ti > n]. El tiempo de vida del individuo i es observado si Ti < Li,

siendo en otro caso un dato censurado. A cada individuo i se le asigna el par

(ti, δi) siendo ti = min{Θi, Li} y δi = 1 si Ti ≤ Li y δ = 0 en otro caso. Es

decir, se tiene tiempo de vida o censura y δi indica su tipologıa.

Otro caso de interes, es el de los datos censurados de forma aleatoria. Se

trata de considerar el mismo caso anterior pero en esta ocasion el tiempo

Page 32: UNIVERSIDAD DE GRANADA

32 CAPITULO 2: MODELO NO HOMOGENEO A TROZOS

de censura de cada individuo es aleatorio. En esta ocasion se tienen para m

individuos que las variables de tiempos de vida Ti y las de censura Li, para

i = 1, 2, ...,m, son variables aleatorias independientes con funciones masa de

probabilidad y de supervivencia igual a f(n) = P [Ti = n] y S(n) = P [Ti > n]

para el tiempo de vida y g(n) = P [Li = n] y G(n) = P [Li > n] para los

tiempos de censura, respectivamente.

En esta ocasion, los datos consisten en m observaciones (ti, δi), i =

1, 2, ...,m, siendo ti = min{Ti, Li} y δ = 1 si T1 < Li y δ = 0 en otro

caso. Se tiene entonces que

P [ti = n, δi] = [f(n) ·G(n)]δi · [g(n) · S(n)](1−δi).

2.4. Covariables

La presencia de variables endogenas y exogenas que interactuan en la evo-

lucion de una enfermedad es una realidad. Supongamos que se tienen d

covariables. Estas variables pueden introducirse en el modelo mediante un

vector de covariables de orden d. Se representa el vector de covariables co-

mo zT = (z1, z2, ..., zd). Nos preguntamos como introducir el efecto de estas

covariables en una CMTD. En los modelos de tiempo continuo es habitual in-

troducir las covariables multiplicativamente de forma exponencial sobre una

intensidad de transicion base en cada transicion. Para el caso discreto, una

posibilidad es introducir multiplicativamente las covariables de forma expo-

nencial sobre las probabilidades de transicion base en cada transicion. De

este modo, las probabilidades de transicion en un paso ahora dependeran del

vector de covariables z. Se tiene por tanto que,

pPlij (z) = pPl

ij exp{zTβ(l)ij }, i, j = 1, 2, ...m, (2.3)

donde β(l)ij = (β

(l)1ij , β

(l)2ij , ..., β

(l)dij ), i, j = 1, 2, ...,m es el vector de coeficientes

de regresion asociado con el vector z para la transicion i → j. El efecto de

la covariable h en la transicion i → j se mide mediante el coeficiente βhij,

h = 1, 2, ..., l. La matriz de probabilidades de transicion depende ahora de z

y se denotara por P (n)(z) = (pij(n; z)), i, j = 1, 2, ...,m. Distintas medidas

para los diferentes grupos de pacientes dados por el valor de las covariables

Page 33: UNIVERSIDAD DE GRANADA

2.5. EL MODELO CON COVARIABLES 33

se pueden calcular a partir de este modelo.

2.5. El modelo con covariables

Sea {Xn, n ≥ 0} la CMTD con espacio de estados S = {1, 2, ...N} que des-

cribe el proceso de la evolucion de una enfermedad a lo largo del tiempo.

Se estudia la influencia de los tratamientos en la evolucion de la enferme-

dad. Como aproximacion no homogenea, se considera el proceso de Markov

a trozos. El modelo se aplica considerando una particion de la matriz de pro-

babilidades de transicion P en dos intervalos disjuntos con un unico punto

de corte a. La matriz del modelo se expresa como

P (z) =

{P1(z) si 0 ≤ n < a

P2(z) si n ≥ a, (2.4)

Las probabilidades de transicion en un paso tienen expresion matricial men-

cionada anteriormente donde

P1(z) =

(T1(z) T 0

1 (z)

0 1

),

P2(z) =

(T2(z) T 0

2 (z)

0 1

),

donde Ti(z), i = 1, 2, es una matriz (m−1)×(m−1) que contiene las probabi-

lidades de transicion en un paso entre los m−1 primeros estados transitorios

y T 0i (z), i = 1, 2, es un vector (m− 1)× 1 que contiene las probabilidades de

transicion de los m− 1 primeros estados transitorios al estado absorbente.

Se considera que los tratamientos afectan a las probabilidades de transi-

cion con un aporte exponencial. Por tanto, las probabilidades de transicion

en un paso vienen dadas por,

pPlij (z) = pPl

ij ez′β

(l)ij ; l = 1, 2.

Page 34: UNIVERSIDAD DE GRANADA

34 CAPITULO 2: C.M. CON PUNTOS DE CORTE

Ası, por el teorema 2 y teniendo en cuenta que las matrices de probabi-

lidades de transicion en n pasos son matrices estocasticas, P (n)(z) tiene la

siguiente estructura,

P (n)(z) = P n(z) =

(T n1 (z) (I − T n1 (z))e

0 1

)si n < a(

T a1 (z) (I − T a1 (z))e

0 1

)(T

(n−a)2 (z) (I − T (n−a)

2 (z))e

0 1

)si n ≥ a

=

(T n1 (z) (I − T n1 (z))e

0 1

)si n < a(

T a1 (z)T(n−a)2 (z) T a1 (z)(I − T (n−a)

2 (z))e+ (I − T a1 (z))e

0 1

)si n ≥ a

siendo e un vector de unos con la longitud adecuada.

2.6. Funcion de Verosimilitud para el estudio

de la evolucion de una enfermedad

En esta seccion, se desarrolla el calculo de la funcion de verosimilitud para el

caso particular en que se tenga una muestra aleatoria de pacientes que tie-

nen una determinada enfermedad en estudio. Sea {Xn, n ≥ 0} la CMTD con

espacio de estados S = {1, 2, ..., N} que describe el proceso de la evolucion

de una enfermedad a lo largo del tiempo.

Para el analisis del proceso es habitual tener para cada paciente en estu-

dio un conjunto de variables endogenas y exogenas ademas de los tiempos y

estados observados.

Caso sin covariables

Se considera que para un paciente h se observa mh tiempos de transicion,

siendo el ultimo estado la muerte o una censura. Ası, se tiene una secuencia

Page 35: UNIVERSIDAD DE GRANADA

2.5. FUNCION DE VEROSIMILITUD 35

de tiempos

0 = th,0 < th,1 < ... < th,mh.

Como se ha dicho, se considera que todos los pacientes se encuentren en el

estado 1, y los estados sucesivos ocupados por cada paciente h vienen dados

por

1 = xh0 , xh1 , ..., x

hmh.

Cada paciente introduce en la funcion de verosimilitud diferentes factores de

acuerdo con su muestra. Ası, si el intervalo de transicion observado para un

paciente esta entre dos puntos de corte, la contribucion a la funcion de vero-

similitud es la probabilidad de transicion con el correspondiente matriz P. Si

el intervalo de transicion observado tiene un punto de corte, la contribucion a

la verosimilitud es el producto de dos factores: la probabilidad de transicion

en el intervalo entre el instante de salto y el punto de corte, y desde ese punto

al siguiente salto o censura, con la correspondiente matriz P en cada periodo.

La ultima observacion podrıa ser la muerte o la censura. En el primer caso,

el ultimo producto es la probabilidad de transicion al estado absorbente y,

en el segundo caso, la probabilidad de supervivencia en el ultimo estado vi-

sitado. La funcion de verosimilitud considerando una muestra de n pacientes

se expresa como

L =n∏h=1

mh∏r=2

pxhr−1,xhr(th,r−1, th,r), (2.5)

siendo

Si th,r−1 y th,r pertenecen al mismo intervalo Ij = [aj−1, aj)

Pxhr−1,xhr(th,r−1, th,r) = (T

th,r−−th,r−1

j e)xhr−1,xhr.

Si th,r−1 ∈ I1 y th,r ∈ I2

Pxhr−1,xhr(th,r−1, th,r) = (T

a−th,r−1

1 Tth,r−a2 )xhr−1,x

hr.

Page 36: UNIVERSIDAD DE GRANADA

36 CAPITULO 2: C.M. CON PUNTOS DE CORTE

Caso con covariables

Si se quieren tener en cuenta las covariables, se incorpora el vector de cova-

riables. De este modo, un paciente a contribuye a la funcion de verosimilitud

con el siguiente factor

ma∏r=1

pxar−1,xar(ta,r − ta,r−1; z),

donde za es el vector de covariables del paciente a. si el paciente pasa a cen-

surado, el ultimo factor en esta expresion es la funcion de supervivencia y

viene dado por la probabilidad de permanencia en el correspondiente estado

de censura.

Por tanto, la funcion de verosimilitud considerando una muestra de n

pacientes, teniendo en cuenta covariables, tendrıa la siguiente expresion.

L =n∏a=1

ma∏r=1

pxar−1,xar(ta,r − ta,r−1; za).

Page 37: UNIVERSIDAD DE GRANADA

Capıtulo 3

Estudio de la evolucion del

cancer de mama

En este capıtulo se lleva a cabo la parte practica del trabajo. Se va a mode-

lizar la evolucion del cancer de mama mediante cadenas de Markov a trozos

en tiempo discreto. En primer lugar se realizara el analisis sin covariables y,

una vez hallados y analizados los resultados, se introduciran los tratamientos

en el modelo a traves de un vector de covariables. De esta forma, se anali-

zara el comportamiento de la evolucion de la enfermedad sin y con distintos

tratamientos.

3.1. Analisis de pacientes con cancer de ma-

ma

3.1.1. Introduccion. Los datos.

Para la realizacion del trabajo se dispone de informacion mensual de la evo-

lucion de una muestra de 300 pacientes con cancer de mama que fueron

sometidos a mastectomıa. El seguimiento de estos pacientes data de 1973

en el Hospital Clınico, en Granada, y todos los sujetos fueron observados

longitudinalmente cada mes hasta diciembre de 1995. Esta cohorte de 300

pacientes tiene una edad media de 52.48 anos con un error estandar de 0.636.

El rango de edad esta comprendido entre 25 y 80 anos.

37

Page 38: UNIVERSIDAD DE GRANADA

38 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA

En la evolucion de la enfermedad se distinguen tres estados en los pa-

cientes: Estado 1 (sin recaıda), es el estado inicial para todos los pacientes

despues de la cirugıa. Estado 2 (recaıda), el tumor tiene una recurrencia en el

mismo lugar que el tumor inicial, o en el sitio de la cicatriz de la operacion, en

las regiones ganglionares supraclaviculares o axilar, o en la cadena mamaria

interna. Estado 3, estado absorbente, estado muerte. Inicialmente, todos los

pacientes se encuentran en el estado 1 y el tumor maligno se ha eliminado.

Con el paso del tiempo, cabe la posibilidad de que recaigan y pasen al estado

2, o que mueran y, por tanto, pasen al estado 3. De este modo, las posibles

transiciones observadas son las siguientes: 1→ 2, 1→ 3 y 2→ 3. Un paciente

censurado puede ser un paciente que ha muerto por otras causas, o que se ha

perdido el contacto, o que aun esta vivo al final del perıodo de observacion.

Un paciente que hace la transicion 1 → 3 puede ser o bien un paciente que

sufrıa metastasis en el estado 1 y despues murio o bien un paciente vivo que

tuvo una recaıda y posterior muerte en un corto periodo de tiempo.

En esta cohorte hay 76 enfermas (25,3 %) que recaen, de las cuales mueren

64 (84,21) y son censuradas 12 (15,79 %). Desde el estado 1 mueren 114

enfermas (38 % del total) y son censuradas 110 (36,67 % del total). En total

por lo tanto se tienen 122 tiempos de censura (40,67 % del total) y 178 tiempos

de muerte (59,33 % del total).

3.1.2. El modelo

Una vez analizada la informacion, se considera que la evolucion del cancer

de mama se modeliza por un proceso de Markov {Xn, n ≥ 0} a trozos con

espacio de estados S = {1, 2, 3}. Los estados 1 y 2 son transitorios y el estado

3 es absorbente. El estado inicial del proceso es 1, ya que todas las enfermas

parten de ser intervenidas quirurgicamente, es decir, X0 = 1. La figura 2.1

muestra las transiciones entre los estados.

La matriz de probabilidades de transicion viene definida como,

P =

{P1 si 0 ≤ n < a

P2 si n ≥ a, (3.1)

Page 39: UNIVERSIDAD DE GRANADA

3.1. ANALISIS DE PACIENTES CON CANCER DE MAMA 39

Figura 3.1: Diagrama de transiciones

donde

P1 =

(T1 T 0

1

0 1

)=

pP111 pP1

12 pP113

0 pP122 pP1

23

0 0 1

,

P2 =

(T2 T 0

2

0 1

)=

pP211 pP2

12 pP213

0 pP222 pP2

23

0 0 1

.

Por ser matrices estocasticas se cumple que pPi13 = 1 − pPi

11 − pPi12 y que

pPi23 = 1 − pPi

22 con i = 1, 2. Ademas, dada la estructura de P , P (n) puede

ser calculada por bloques, por tanto, bastara con realizar las estimaciones de

los valores de las matrices T .

Se tiene entonces que la matriz P n de transicion en n pasos es de la forma

P (n) =

{P n1 si 0 ≤ n < a

P a1 P

n−a2 si n ≥ a

.

Sea pPkij la probabilidad de transicion del estado i al estado j calculada usando

la matriz de transicion Pk, k = 1, 2. Para n < a se tiene entonces que

Page 40: UNIVERSIDAD DE GRANADA

40 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA

P(n)1 =

(G1 G2

0 0 1

),

donde

G1 = T n1 =

(pP111 )n

∑nk=1(p

P111 )n−kpP1

12 (pP122 )k−1I[n≥1]

0 (pP122 )n

,

G2 =

1− (pP111 )n −

∑nk=1(p

P111 )n−kpP1

12 (pP122 )k−1I[n≥1]

1− (pP122 )n

siendo I[.] la funcion indicadora.

Para n > a, P (n) = P a1 P

n−a2 donde P a

1 y P n−a2 se construyen en base

al mismo algoritmo que la matriz anterior. De esta forma, al ser matrices

estocasticas la suma de sus filas suman 1. Ademas, dada su estructura, se

puede calcular de forma matricial por bloques, por tanto, quedarıa de la

siguiente forma

P (n) = P a1 P

n−a2 =

(H1 H2

0 0 1

),

donde

H1 =T a1 Tn−a2 =(pP1

11 )a(pP211 )n−a

(pP111 )a

∑n−ak=1(pP2

11 )n−a−kpP212 (pP2

22 )k−1I[n−a≥1]+

+(pP222 )n−a

∑ak=1(p

P111 )a−kpP1

12 (pP122 )k−1I[a≥1]

0 (pP122 )a(pP2

22 )n−a

,

H2 =

1− (pP1

11 )a(pP211 )n−a − (pP1

11 )a∑n−a

k=1(pP211 )n−a−kpP2

12 (pP222 )k−1I[n−a≥1]−

−(pP222 )n−a

∑ak=1(p

P111 )a−kpP1

12 (pP122 )k−1I[a≥1]

1− (pP122 )a(pP2

22 )n−a

,

Page 41: UNIVERSIDAD DE GRANADA

3.1. ANALISIS DE PACIENTES CON CANCER DE MAMA 41

siendo I[.] la funcion indicadora.

3.1.3. Funcion de verosimilitud para el estudio de la

enfermedad

La funcion de verosimilitud incorporada al modelo es

L =n∏h=1

mh∏r=2

pxhr−1,xhr(th,r−1, th,r).

Si se asume una matriz de probabilidades de transicion a trozos se puede

construir una aproximacion para el caso no homogeneo. La matriz de proba-

bilidades de transicion cambiara en cierto tiempo pero es constante en cada

intervalo, por eso consideramos

P =

{P1 si n < a

P2 si n ≥ a.

Para los calculos se definen los intervalos Ij = [aj−1, aj[, Jq =]aq−1, aq],

j, q = 1, 2, con a0 = 0, a2 =∞.

Sea pPlij (n) la probabilidad de transicion calculada usando la matriz de

probabilidad de transicion Pl en n pasos. Entonces, los factores de la verosi-

militud tienen diferentes expresiones:

1. Si th,r−1 ∈ I1, th,r ∈ J1

pxhr−1,xhr(th,r−1, th,r) = pP1

xhr−1,xhr(th,r − th,r−1).

2. Si th,r−1 ∈ I1, th,r ∈ J2

pxhr−1,xhr(th,r−1, th,r) = pP1

xhr−1,xhr−1

(a− th,r−1)pP2

xhr−1,xhr(ti,r − a).

3. Si th,r−1 ∈ I2, th,r ∈ J2

pxhr−1,xhr(th,r−1, th,r) = pP2

xhr−1,xhr(th,r − th,r−1).

Page 42: UNIVERSIDAD DE GRANADA

42 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA

Construida la funcion de verosimilitud se ha implementado computacional-

mente con R (ver anexo). Se han tomado logaritmos (logL) y se han estimado

los parametros maximizando la misma.

Las estimaciones resultantes son,

P1 =

0.986427387 0.0106523 0.0029203

0 0.95599673 0.04400327

0 0 1

P2 =

0.99433 0.001571 0.00409856

0 0.97837 0.02163

0 0 1

3.1.4. Probabilidades de transicion

Estimados los parametros por maxima verosimilitud, se han estimado las

funciones asociadas al modelo. En las figuras 3.2, 3.3, y 3.4 se presentan las

representaciones graficas de las probabilidades a lo largo del tiempo.

3.1.5. Funcion de supervivencia

Se ha calculado la funcion de supervivencia del modelo y se ha comparado

con la distribucion empırica (estimador de Kaplan Meier, 1958). La figura

3.5 muestra comparativamente las curvas de supervivencia empıricas, caso

homogeneo y caso no homogeneo. La funcion de supervivencia del modelo

viene dada por

S(n) = p11(n) + p12(n).

Si n < a

S(n) = pP111 (n) + pP1

12 (n).

Si n ≥ a

Page 43: UNIVERSIDAD DE GRANADA

3.1. ANALISIS DE PACIENTES CON CANCER DE MAMA 43

Figura 3.2: Probabilidad de permanecer en el estado 1 a lo largo del tiempo

Figura 3.3: Probabilidad de recaıda a lo largo del tiempo

Page 44: UNIVERSIDAD DE GRANADA

44 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA

Figura 3.4: Probabilidad de permanecer en el estado de recaıda a lo largo del

tiempo

S(n) = pP111 (a)[pP2

11 (n− a) + pP212 (n− a)] + pP1

12 (a)pP222 (n− a).

3.1.6. Tiempo de permanencia

Basandonos en la estructura de P , la matriz de tiempos de permanencia

M(n), tiene la siguiente forma.

Para n < a,

M(n) =n∑r=0

P r =n∑r=0

P r1 =

n∑r=0

(pP1

11 )r∑r

k=1(pP111 )r−kpP1

12 (pP122 )k−1I[r≥1]

1− (pP111 )r

−∑r

k=1(pP111 )r−kpP1

12 (pP122 )k−1I[n≥1]

0 (pP122 )r 1− (pP1

22 )r

0 0 1

Page 45: UNIVERSIDAD DE GRANADA

3.1. ANALISIS DE PACIENTES CON CANCER DE MAMA 45

Figura 3.5: Curva de supervivencia empırica, estimada y estimada homogenea

Para n > a,

M(n) =n∑r=0

P r =a∑r=0

P r1 +

n∑r=a+1

P a1 P

r−a2 =

a∑r=0

(pP1

11 )r∑r

k=1(pP111 )r−k

pP112 (pP1

22 )k−1I[r≥1]

1− (pP111 )r

−∑r

k=1(pP111 )r−kpP1

12 (pP122 )k−1I[n≥1]

0 (pP122 )r 1− (pP1

22 )r

0 0 1

+

n∑r=a+1

(H ′1 H ′2

0 0 1

)

donde

H ′1 =(pP1

11 )a(pP211 )r−a

(pP111 )a

∑r−ak=1(p

P211 )r−a−kpP2

12 (pP222 )k−1I[r−a≥1]+

+(pP222 )r−a

∑ak=1(p

P111 )a−kpP1

12 (pP122 )k−1I[a≥1]

0 (pP122 )a(pP2

22 )n−a

,

Page 46: UNIVERSIDAD DE GRANADA

46 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA

H ′2 =1− (pP1

11 )a(pP211 )r−a − (pP1

11 )a∑r−a

k=1(pP211 )r−a−kpP2

12 (pP222 )k−1I[r−a≥1]−

−(pP222 )r−a

∑ak=1(p

P111 )a−kpP1

12 (pP122 )k−1I[a≥1]

1− (pP122 )a(pP2

22 )r−a

,

Se ha implementado en R la matriz M(n) (ver anexo). Los tiempos medios

de permanencia en cada estado, transcurridos 10 anos, son

M(119) =

66, 1911 11, 60719 42, 20171

0 24, 33185 95, 66815

0 0 120

3.1.7. Tiempo de primer paso

La distribucion de probabilidad del tiempo de primer paso viene dada por

(2.2). Es interesante calcular la distribucion del tiempo de primer paso por

el estado recaıda (estado 2). Esta es igual a la distribucion geometrica, que

viene dada por la siguiente expresion.

Si n < a

p2(n) = P [T2 = n] = (pP111 )n−1pP1

12 ,

Si n ≥ a

p2(n) = P [T2 = n] = (pP111 )a(pP2

11 )n−a−1pP212 .

Por otra parte, el tiempo de primer paso por el estado absorbente tiene la

siguiente expresion.

Si n < a

p3(n) = αT n−11 T 01 .

Si n ≥ a

p3(n) = αT a1 Tn−a−12 T 0

2 .

donde α es la distribucion inicial de los estados transitorios.

Page 47: UNIVERSIDAD DE GRANADA

3.2. ANALISIS DE SUPERVIVENCIA CON COVARIABLES 47

3.2. Analisis de supervivencia con covariables

3.2.1. Introduccion

El siguiente paso de este trabajo es el estudio de la influencia de los trata-

mientos en la evolucion de la enfermedad. Se considera la siguiente situacion.

En el estado 1, los tratamientos son preventivos, y todos los pacientes tie-

nen el mismo tratamiento: Quimioterapia (QT): se inyectan tres tipos de

medicamentos: cyclofosfamida, mathaterexate, 5-fluor-uracilo. Los otros tra-

tamientos, radioterapia (RT) y terapia hormonal (HT), son tambien para

todas las pacientes. Los tratamientos de QT y de RT se aplicaron para re-

cudir el tamano del tumor; el HT fue administrado teniendo en cuenta los

niveles hormonales de las receptoras. En el estado 2, los tratamientos son

mas agresivos. Reciben el mismo tipo de tratamiento que en el estado 1, pero

con dosis mayores.

Se procede a continuacion a la elaboracion del modelo para este caso con-

creto.

3.2.2. El modelo

Tambien en el caso con covariables, la matriz de probabilidades de transicion

es triangular superior dado que se esta interesado en estudiar los efectos de los

tratamientos en la enfermedad, se anadiran dichos tratamientos como cova-

riables. Se representa el vector de covariables z′ = (z1, z2, z3), correspondiente

a cada tratamiento, QT, RT y HT respectivamente. Las tres componentes

son variables dicotomicas que toman el valor 1 si no se ha aplicado el co-

rrespondiente tratamiento y 0 si, por contra, sı se ha aplicado. Se considera

que los tratamientos afectan a las probabilidades de transicion con un aporte

exponencial. Por tanto, las probabilidades de transicion en un paso vienen

dadas por,

pPlij (z) = pPl

ij ez′βl

ij ; l = 1, 2.

De este modo, la matriz de probabilidades de transicion sigue la siguiente

expresion

Page 48: UNIVERSIDAD DE GRANADA

48 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA

P (z) =

(T (z) T 0(z)

0 1

).

Ası, la matriz de probabilidades de transicion en n pasos vendra dada por

P (n)(z) =

(T (n)(z) (I − T (n)(z))e

0 1

),

donde, si n < a

T (n)(z) =

(pP111e

z′β(1)11 )n

∑nk=1(p

P111e

z′β(1)11 )n−kpP1

12ez′β

(1)12 (pP1

22ez′β

(1)22 )k−1I[n≥1]

0 (pP122e

z′β(1)22 )n

,

si n ≥ a

T (n)(z) =

(Q1 Q2

0 Q3

).

donde

Q1 = (pP111e

z′β(1)11 )a(pP2

11ez′β

(2)11 )n−a

Q2 = (pP111e

z′β(1)11 )a

n−a∑k=1

(pP211e

z′β(2)11 )n−a(pP2

12ez′β

(2)12 )(pP2

22ez′β

(2)22 )k−1I[n≥1]

+ (pP222e

z′β(2)22 )n−a

a∑k=1

(pP111e

z′β(1)11 )a−k(pP1

12ez′β

(1)12 )(pP1

22ez′β

(1)22 )k−1I[n≥1]

Q3 = (pP122e

z′β(1)22 )a(pP2

22ez′β

(2)22 )n−a

3.2.3. Funcion de verosimilitud para el estudio con co-

variables

La funcion de verosimilitud incorporada al modelo es

Page 49: UNIVERSIDAD DE GRANADA

3.2. ANALISIS DE SUPERVIVENCIA CON COVARIABLES 49

L =n∏h=1

mh∏r=2

pxhr−1,xhr(th,r−1, th,r; z).

Si se asume una matriz de probabilidades de transicion a trozos se puede

construir una aproximacion para el caso no homogeneo. La matriz de proba-

bilidades de transicion cambiara en cierto tiempo pero es constante en cada

intervalo, por eso consideramos

P (n; z) =

{P1(z) si n < a

P2(z) si n ≥ a

Para los calculos se definen los intervalos Ij = [aj−1, aj[, Jq =]aq−1, aq],

j, q = 1, 2, con a0 = 0, a2 =∞.

Sea pPlij (n; z) la probabilidad de transicion calculada usando la matriz de

probabilidad de transicion Pl(z). Entonces, los factores de la verosimilitud

tienen diferentes expresiones:

1. Si th,r−1 ∈ I1, th,r ∈ J1

pxhr−1,xhr(th,r−1, th,r; z) = pP1

xhr−1,xhr(th,r − th,r−1; z).

2. Si th,r−1 ∈ I1, th,r ∈ J2

pxhr−1,xhr(th,r−1, th,r; z) = pP1

xhr−1,xhr−1

(a− th,r−1; z)pP2

xhr−1,xhr(ti,r − a; z).

3. Si th,r−1 ∈ I2, th,r ∈ J2

pxhr−1,xhr(th,r−1, th,r; z) = pP2

xhr−1,xhr(th,r − th,r−1; z).

Las estimaciones obtenidas son

P1 = (0.993267, 0.00538935, 0.92725)

βP111 = (−0.0277,−0.00045525,−0.0074638)

βP112 = (1.6747, 0.176288, 0.10836)

Page 50: UNIVERSIDAD DE GRANADA

50 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA

βP122 = (0.04321677,−0.003952, 0.00635)

P2 = (0.99499, 0.0008495, 0.9943872

βP211 = (−0.0006794,−0.0008113, 0.000009809)

βP212 = (0.960529, 0.27567, 0.4377756)

βP222 = (−0.015269,−0.016494, 0.0056286)

3.2.4. Probabilidades de transicion

A continuacion se muestran las representaciones graficas de las probabilida-

des de transicion en n pasos. En primer lugar, se muestra la correspondiente

a p11(n; z) (Figura 3.6 y Figura 3.7). Como se ha comentado anteriormente,

la probabilidad de permanecer en el estado 1 mas alta corresponde al caso

de pacientes tratadas con RT-HT-QT y las mas baja a las que no recibieron

tratamiento alguno.

En las figuras 3.8 y 3.9 se muestra la probabilidad de recaıda a lo largo del

tiempo. Se observa que todos los tratamientos tienen la misma tendencia, y

que los casos que resultaron con una probabilidad mas alta de recaıda fueron

los pacientes que no fueron tratados. Por contra, las pacientes que menos re-

caıdas tuvieron fueron las que fueron tratadas con RT o alguna combinacion

de esta con los restantes tratamientos.

Por ultimo, las figuras 3.10 y 3.11 muestran que las probabilidades mas bajas

de permanecer en el estado de recaıda son las que corresponden a los casos de

pacientes tratadas con RT o alguna combinacion de estas con las restantes.

Por otro lado, las probabilidades mas altas de permanencia corresponden a

las tratadas con HT.

Page 51: UNIVERSIDAD DE GRANADA

3.2. ANALISIS DE SUPERVIVENCIA CON COVARIABLES 51

Figura 3.6: Probabilidad de permanencia en el estado 1 a lo largo del tiempo

segun los ocho tratamientos

Figura 3.7: Probabilidad de permanencia en el estado 1 a lo largo del tiempo

segun los ocho tratamientos

Page 52: UNIVERSIDAD DE GRANADA

52 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA

Figura 3.8: Probabilidad de recaıda a lo largo del tiempo segun los ocho

tratamientos

Figura 3.9: Probabilidad de recaıda a lo largo del tiempo segun los ocho

tratamientos

Page 53: UNIVERSIDAD DE GRANADA

3.2. ANALISIS DE SUPERVIVENCIA CON COVARIABLES 53

Figura 3.10: Probabilidad de permanecer en el estado de recaıda a lo largo

del tiempo segun los ocho tratamientos

Figura 3.11: Probabilidad de permanecer en el estado de recaıda a lo largo

del tiempo segun los ocho tratamientos

Page 54: UNIVERSIDAD DE GRANADA

54 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA

Figura 3.12: Curva de supervivencia empırica, estimada y estimada homoge-

nea con el tratamiento RT

3.2.5. Funciones de supervivencia

Se presentan a continuacion las graficas comparativas de las curvas de su-

pervivencia empıricas (Kaplan-Meier, 1958) y estimadas para los tres trata-

mientos posibles (Figuras 3.12, 3.13, 3.14).

Las graficas de supervivencia estimadas de las pacientes que combinaban

dos tratamientos (Figuras 3.15, 3.16, 3.17) se ajustan mejor a las empıri-

cas, siendo la de mayor probabilidad de supervivencia la correspondiente a

la combinacion RT-QT.

Por ultimo, las Figuras 3.18 y 3.19 muestran las curvas de supervivencia de

las pacientes que se le aplicaron todos los tratamientos y de las pacientes que

no recibieron tratamiento alguno. Ambas se ajustan bien a la empırica hasta,

aproximadamente, los 120 meses. Como se puede observar, haber recibido RT-

HT-QT resulto con la mayor supervivencia de los ocho tratamientos posibles.

Page 55: UNIVERSIDAD DE GRANADA

3.2. ANALISIS DE SUPERVIVENCIA CON COVARIABLES 55

Figura 3.13: Curva de supervivencia empırica, estimada y estimada homoge-

nea con el tratamiento HT

Figura 3.14: Curva de supervivencia empırica, estimada y estimada homoge-

nea con el tratamiento QT

Page 56: UNIVERSIDAD DE GRANADA

56 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA

Figura 3.15: Curva de supervivencia empırica, estimada y estimada homoge-

nea con el tratamiento RT-HT

Figura 3.16: Curva de supervivencia empırica, estimada y estimada homoge-

nea con el tratamiento RT-QT

Page 57: UNIVERSIDAD DE GRANADA

3.2. ANALISIS DE SUPERVIVENCIA CON COVARIABLES 57

Figura 3.17: Curva de supervivencia empırica, estimada y estimada homoge-

nea con el tratamiento HT-QT

Figura 3.18: Curva de supervivencia empırica, estimada y estimada homoge-

nea con el tratamiento RT-HT-QT

Page 58: UNIVERSIDAD DE GRANADA

58 CAPITULO 3. EVOLUCION DEL CANCER DE MAMA

Figura 3.19: Curva de supervivencia empırica, estimada y estimada homoge-

nea sin tratamiento

Page 59: UNIVERSIDAD DE GRANADA

Anexo

Sintaxis del analisis sin covariables

Lectura de datos y probabilidades de transicion

#Se cargan los datos

datos<-read.table("Datos\\1.Datos.txt",header=F)

colnames(datos)<-c("Tiempo","Censura")

#Probabilidades de transicion estimadas

p11_1=0.986427387278718

p12_1=0.010652312266840

p22_1=0.955996732059164

p1<-c(p11_1,p12_1,p22_1)

p11_2=0.994330149445553

p12_2=0.001571286897456

p22_2=0.978367776985527

p2<-c(p11_2,p12_2,p22_2)

# Probabilidad de permanecer en el estado 1 a lo largo del tiempo

p11_paso_n<-function(p1,p2,n){

if(n<=48) p11_n<-p1[1]^n else p11_n<-p1[1]^48*p2[1]^(n-48)

return(p11_n)

}

list.p11<-vector("numeric",length=120)

59

Page 60: UNIVERSIDAD DE GRANADA

60 ANEXO

for(n in 0:120) list.p11[n+1]<-p11_paso_n(p1,p2,n)

plot(list.p11,xlab="Tiempo (meses)",ylab="p11(n)",cex = .5)

# Probabilidad de recaıda a lo largo del tiempo

p12_paso_n<-function(p1,p2,n){

if(n<=48){

auxp12<-0

for(k in 1:n)

auxp12<-auxp12+((p1[1]^(n-k))*p1[2]*(p1[3]^(k-1)))

} else {

a<-0

b<-0

for(k in 1:(n-48)) a<-a+(p2[1]^(n-48)*p2[2]*p2[3]^(k-1))

for(k in 1:48) b<-b+p1[1]^(48-k)*p1[2]*p1[3]^(k-1)

auxp12<-p1[1]^48*a+p2[3]^(n-48)*b

}

return(auxp12)

}

list.p12<-vector("numeric",length=120)

for(n in 0:120) list.p12[n+1]<-p12_paso_n(p1,p2,n)

plot(list.p12,xlab="Tiempo (meses)",ylab="p12(n)",cex = .5)

#Probabilidad de permanecer en el estado de recaıda a los largo

#del tiempo

p22_paso_n<-function(p1,p2,n){

if(n<=48){

p22_n<-p1[3]^n

} else {

p22_n<-p1[3]^48*p2[3]^(n-48)

}

return(p22_n)

}

Page 61: UNIVERSIDAD DE GRANADA

SINTAXIS DEL ANALISIS SIN COVARIABLES 61

list.p22<-vector("numeric",length=120)

for(n in 0:120) list.p22[n+1]<-p22_paso_n(p1,p2,n)

plot(list.p22,xlab="Tiempo (meses)",ylab="p22(n)",cex = .5)

Curva de Supervivencia empırica y estimada

p11_homo=0.989735569792829

p12_homo=0.007758653756938

p22_homo=0.960032026583221

p1_homo<-c(p11_homo,p12_homo,p22_homo)

p11_paso_n_homo<-function(p1_homo,n){

p11_n<-p1_homo[1]^n

return(p11_n)

}

p12_paso_n_homo<-function(p1_homo,n){

auxp12<-0

for(k in 0:n){

if(k==0){

auxp12<-auxp12+0

} else

auxp12<-auxp12+((p1_homo[1]^(n-k))*p1_homo[2]*

(p1_homo[3]^(k-1)))

}

return(auxp12)

}

p13_paso_n_homo<-function(p1_homo,n){

p13_n<-(1-p11_paso_n_homo(p1_homo,n)-

p12_paso_n_homo(p1_homo,n))

return(p13_n)

}

Page 62: UNIVERSIDAD DE GRANADA

62 ANEXO

list.p13<-vector("numeric",length=120)

for(i in 0:120) list.p13[i+1]<-p13_paso_n_homo(p1_homo,i)

list.superv<-vector("numeric",length=120)

for (n in 1:120) list.superv[n]<-p11_paso_n(p1,p2,n)+

p12_paso_n(p1,p2,n)

list.superv.homogenea<-1-list.p13

superv<-survfit(Surv(time=Tiempo, event=Censura2,

type="right") ~ 1, conf.type="log",conf.int=0.95,

type="kaplan-meier", error="greenwood", data=datos)

plot(superv,col="black",xlab="Tiempo (meses)",

ylab="Supervivencia", xlim=c(0,120))

points(list.superv.homogenea,col="red",cex=1.5, pch=0)

points(list.superv,col="blue", cex=1.5)

legend("bottomleft", legend = c(

"Curva de supervivencia empırica",

"Curva de supervivencia homogenea estimada",

"Curva de supervivencia estimada"),

col = c(1,2,4), lty=c(1,0,0), pch=c(NA,0,1), cex=1.2,

text.width=65)

Tiempos de Permanencia

#Calculamos M(n).

m11<-function(n){

a<-0

for(r in 0:n) a<-a+p11_paso_n(p1,p2,r)

return(a)

}

Page 63: UNIVERSIDAD DE GRANADA

SINTAXIS DEL ANALISIS SIN COVARIABLES 63

m12<-function(n){

a<-0

for(r in 0:n) a<-a+p12_paso_n(p1,p2,r)

return(a)

}

m22<-function(n){

a<-0

for(r in 0:n) a<-a+p22_paso_n(p1,p2,r)

return(a)

}

m13<-function(n){

a<-0

for(r in 0:n) a<-a+p13_paso_n(p1,p2,r)

return(a)

}

m23<-function(n){

a<-0

for(r in 0:n) a<-a+p23_paso_n(p1,p2,r)

return(a)

}

M_n<-function(p1,p2,n)

{

m11<-m11(n)

m12<-m12(n)

m22<-m22(n)

m13<-m13(n)

m23<-m23(n)

M<-matrix(c(m11,0,0,m12,m22,0,m13,m23,n+1),ncol=3)

return(M)

}

Page 64: UNIVERSIDAD DE GRANADA

64 ANEXO

Sintaxis del analisis con covariables

Lectura de datos y probabilidades de transicion

#Se cargan los datos

datosHT<-read.table("Datos\\2.Datos_HT.txt",header=F)

colnames(datosHT)<-c("Tiempo","Censura")

datosQT<-read.table("Datos\\3.Datos_QT.txt",header=F)

colnames(datosQT)<-c("Tiempo","Censura")

datosRT<-read.table("Datos\\4.Datos_RT.txt",header=F)

colnames(datosRT)<-c("Tiempo","Censura")

datosHTQT<-read.table("Datos\\5.Datos_HTQT.txt",header=F)

colnames(datosHTQT)<-c("Tiempo","Censura")

datosHTRT<-read.table("Datos\\6.Datos_HTRT.txt",header=F)

colnames(datosHTRT)<-c("Tiempo","Censura")

datosQTRT<-read.table("Datos\\7.Datos_QTRT.txt",header=F)

colnames(datosQTRT)<-c("Tiempo","Censura")

datos3<-read.table("Datos\\8.Datos_HTQTRT.txt",header=F)

colnames(datos3)<-c("Tiempo","Censura")

datos_sin<-read.table("Datos\\9.Datos_sin_trat.txt",header=F)

colnames(datos_sin)<-c("Tiempo","Censura")

#Probabilidades de transicion

p11_1=0.993267054627101

p12_1=0.005389354715197

p22_1=0.927250667590140

Page 65: UNIVERSIDAD DE GRANADA

SINTAXIS DEL ANALISIS CON COVARIABLES 65

p1<-c(p11_1,p12_1,p22_1)

b11_1<-c(-0.02770096439,-0.000455248133,-0.00746384010358)

b12_1<-c(1.674709493576,0.1762879346308,0.108359653015519)

b22_1<-c(0.043216771265,-0.003952044964,0.006349575196544)

p11_2=0.994991281686968

p12_2=0.000849484218409

p22_2=0.994387198087747

p2<-c(p11_2,p12_2,p22_2)

b11_2<-c(-0.000679395486,-0.0008113079996,0.00000980893233)

b12_2<-c(0.960528973948,0.275670478794546,0.43777558557594)

b22_2<-c(-0.015269010672,-0.016491230957,0.005628612875011)

prod_vectores<-function(z,b) {

z1<-z[1]

z2<-z[2]

z3<-z[3]

b1<-b[1]

b2<-b[2]

b3<-b[3]

producto<-(t(c(z1,z2,z3)))%*%c(b1,b2,b3)

return(producto)

}

#Se define p11^(n)

p11_z_paso_n<-function(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,

b22_2,z,n){

if(n<=48){ p11_n<-(p1[1]*(exp(prod_vectores(z,b11_1))))^n

} else {

Page 66: UNIVERSIDAD DE GRANADA

66 ANEXO

p11_n<-(p1[1]*(exp(prod_vectores(z,b11_1))))^48*

(p2[1]*(exp(prod_vectores(z,b11_2))))^(n-48)

}

return(p11_n)

}

#Se define p12^(n)

p12_z_paso_n<-function(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,

b22_2,z,n){

auxp12<-0

for(k in 0:n)

if(k==0) {

auxp12<-auxp12+0

} else {

auxp12<-auxp12+

p11_z_paso_n(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,b22_2,

z,n-k)*

p1[2]*exp(prod_vectores(z,b12_1))*

p22_z_paso_n(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,b22_2,

z,k-1)

}

return(auxp12)

}

#Se define p22^(n)

p22_z_paso_n<-function(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,

b22_2,z,n){

if(n<=48){ p22_n<-(p1[3]*(exp(prod_vectores(z,b22_1))))^n

} else {

p22_n<-(p1[3]*(exp(prod_vectores(z,b22_1))))^48*

(p2[3]*(exp(prod_vectores(z,b22_2))))^(n-48)

}

return(p22_n)

}

Page 67: UNIVERSIDAD DE GRANADA

SINTAXIS DEL ANALISIS CON COVARIABLES 67

#Se define p13^(n)

p13_z_paso_n<-function(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,

b22_2,z,n){

p13_n<-(1-p11_z_paso_n(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,

b22_2,z,n)-

p12_z_paso_n(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,b22_2,z,n))

return(p13_n)

}

#Se define p23^(n)

p23_z_paso_n<-function(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,

b22_2,z,n){

p23_n<-(1-p22_z_paso_n(p1,b11_1,b12_1,b22_1,p2,b11_2,b12_2,

b22_2,z,n))

return(p23_n)

}

Representacion de las probabilidades de transicion

Se calcula la probabilidad de transicion. Se muestra para el caso RT, reali-

zando los otros siete de forma analoga.

#Probabilidad de permanecer en el estado uno

list.p11_RT<-vector("numeric",length=120)

for(i in 0:120){

list.p11_RT[i+1]<-p11_z_paso_n(p1,b11_1,b12_1,b22_1,p2,

b11_2,b12_2,b22_2,c(0,1,1),i)

}

plot(list.p11_RT_HT_QT,xlab="Tiempo (meses)",ylab="p11(n,z)",

ylim=c(0,1),

cex = .5,pch=0, col=1)

points(list.p11_RT_HT,col=2,cex = 0.5,pch=1)

points(list.p11_RT_QT,col=3,cex = 0.5,pch=2)

points(list.p11_RT,col=4,cex = 0.5,pch=3)

Page 68: UNIVERSIDAD DE GRANADA

68 ANEXO

legend("topright", legend = c("p11(n,z) con RT-HT-QT",

"p11(n,z) con RT-HT",

"p11(n,z) con RT-QT",

"p11(n,z) con RT"),

cex=1,col = 1:4,pch= 0:3

#Probabilidad de recaıda

list.p12_RT<-vector("numeric",length=120)

for(i in 0:120){

list.p12_RT[i+1]<-p12_z_paso_n(p1,b11_1,b12_1,b22_1,p2,

b11_2,b12_2,b22_2, c(0,1,1),i)

}

plot(list.p12_RT_HT_QT,xlab="Tiempo (meses)",ylab="p12(n,z)",

ylim=c(0,1),cex = .5,pch=0, col=1)

points(list.p12_RT_HT,col=2,cex = 0.5,pch=1)

points(list.p12_RT_QT,col=3,cex = 0.5,pch=2)

points(list.p12_RT,col=4,cex = 0.5,pch=3)

legend("topright", legend = c("p12(n,z) con RT-HT-QT",

"p12(n,z) con RT-HT",

"p12(n,z) con RT-QT",

"p12(n,z) con RT"),

cex=1,col = 1:4,pch= 0:3)

#Probabilidad de permanecer en es estado recaıda.

list.p22_RT<-vector("numeric",length=120)

for(i in 0:120){

list.p22_RT[i+1]<-p22_z_paso_n(p1,b11_1,b12_1,b22_1,

p2,b11_2,b12_2,b22_2,c(0,1,1),i)

}

plot(list.p22_RT_HT_QT,xlab="Tiempo (meses)",ylab="p22(n,z)",

ylim=c(0,1),cex = .5,pch=0, col=1)

points(list.p22_RT_HT,col=2,cex = 0.5,pch=1)

points(list.p22_RT_QT,col=3,cex = 0.5,pch=2)

points(list.p22_RT,col=4,cex = 0.5,pch=3)

Page 69: UNIVERSIDAD DE GRANADA

SINTAXIS DEL ANALISIS CON COVARIABLES 69

legend("topright", legend = c("p22(n,z) con RT-HT-QT",

"p22(n,z) con RT-HT",

"p22(n,z) con RT-QT",

"p22(n,z) con RT"),

cex=1,col = 1:4,pch= 0:3)

Curva de supervivencia

#Probabilidades de transicion homogeneas

P11=0.993752676077890

P12=0.003548128258377

P22=0.961128864123101

P1<-c(P11,P12,P22)

Beta11<-c(-0.01621487,-0.000647314,-0.0046187384)

Beta12<-c(1.654757463,0.2083718628,0.10798290724)

Beta22<-c(-0.00210874,-0.011697166,0.02038723018)

p11_z_paso_n_homo<-function(P1,Beta11,Beta12,Beta22,z,n){

p11_n<-(P1[1]*(exp(prod_vectores(z,Beta11))))^n

return(p11_n)

}

p22_z_paso_n_homo<-function(P1,Beta11,Beta12,Beta22,z,n){

p22_n<-(P1[3]*(exp(prod_vectores(z,Beta22))))^n

return(p22_n)

}

p12_z_paso_n_homo<-function(P1,Beta11,Beta12,Beta22,z,n){

auxp12<-0

for(k in 0:n){

if(k==0){auxp12<-auxp12+0} else {auxp12<-auxp12+

(p11_z_paso_n_homo(P1,Beta11,Beta12,Beta22,z,n-k))*

(p1[2]*exp(prod_vectores(z,Beta12)))*

Page 70: UNIVERSIDAD DE GRANADA

70 ANEXO

(p22_z_paso_n_homo(P1,Beta11,Beta12,Beta22,z,k-1))

}

}

return(auxp12)

}

#Curva de supervivencia estimada homogenea con RT

#Analogamente con los siete tratamientos restantes

list.p11_z_RT<-vector("numeric",length=120)

for(i in 0:120)

{

list.p11_z_RT[i+1]<-

p11_z_paso_n_homo(P1,Beta11,Beta12,Beta22,c(0,1,1),i)

}

list.p12_z_RT<-vector("numeric",length=120)

for(i in 0:120)

{

list.p12_z_RT[i+1]<-

p12_z_paso_n_homo(P1,Beta11,Beta12,Beta22,c(0,1,1),i)

}

list.superv.RT.homogenea<-list.p11_z_RT+list.p12_z_RT

#Curva de supervivencia empırica y estimada con RT

#Analogamente con los siete tratamientos restantes

list.superv.RT<-list.p11_RT+list.p12_RT

supervRT<-survfit(Surv(Tiempo, Censura, type="right") ~ 1,

conf.type="log",conf.int=0.95, type="kaplan-meier",

error="greenwood", data=datosRT)

#Representacion de la curva de supervivencia empırica, estimada

#y estimada homogenea para el tratamiento RT.

#Analogamente para los siete tratamientos restantes

Page 71: UNIVERSIDAD DE GRANADA

SINTAXIS DEL ANALISIS CON COVARIABLES 71

plot(supervRT,col="black",xlab="Tiempo (meses)",

ylab="Supervivencia con RT",xlim=c(0,120))

points(list.superv.RT.homogenea,col="red",cex=1.5, pch=0)

points(list.superv.RT,col="blue",cex=1.5)

legend("bottomleft", legend = c(

"Curva de supervivencia empırica con RT",

"Curva de supervivencia estimada homogenea con RT",

"Curva de supervivencia estimada con RT"),

col = c(1,2,4), lty=c(1,0,0), pch=c(NA,0,1), cex=1)

Page 72: UNIVERSIDAD DE GRANADA
Page 73: UNIVERSIDAD DE GRANADA

Bibliografıa

[1] Aalen, O. O. (1995) Phase-Type distributions in survival analysis. Scan-

dinavian Journal of Statistics, 22, 4, 447-463.

[2] Aalen, O.O., Farewell, W.T., Angelis, D., Day, N.E. and Gill, O.N. (1997)

A Markov model for HIV disease progression including the effect of HIV

diagnosis and treatment: application to aids prediction in England and

Wales. Statistics in Medicine, 16, 2191-2210.

[3] Barbu, V., Boussemart, M. and Limnios, N. (2004) Discrete-Time Semi-

Markov Model for Reliability and Survival Analysis. Communications in

Statistics - Theory and Methods, 33, 11, 2833-2868.

[4] Barbu, V. and Limnios, N. (2006) Empirical estimation for discrete-time

semi-Markov processes with applications in reliability. Journal of Nonpa-

rametric Statistics, 18, 7-8, 483-498.

[5] Basawa, I.V. and Prakasa Rao, B.L.S. (1980) Statistical inference for

stochastic processes. Academic Press INC (London) LTD.

[6] Chiang, C.L. (1968) Introduction to stochastic processes in bioestatistics.

John Wiley and Sons, Inc.

[7] Chiquet, J., Limnios, N. and Eid, M. (2009) Piecewise deterministic Mar-

kov processes applied to fatigue crack growth modelling. Journal of Sta-

tistical Planning and Inference, 139, 5, 1657-1667.

[8] Cox, D.R. (1972) Regression Models and life tables (with discussion).

Journal of the Royal Statistical Society, Series B, 34, 187-220.

[9] Duffy, S.W. and Chen, H. (1995) Estimation of mean sojourn time in

breast cancer screening using a Markov chain model of both entry to

73

Page 74: UNIVERSIDAD DE GRANADA

and exit from the preclinical detectable phase. Statistics in Medicine, 14,

1531-1543.

[10] Frydmann, H. (1995) Semiparametric estimation in a three-state duration-

dependent Markov model from interval-censored observations with appli-

cation to AIDS data. Biometrics, 51, 502-511.

[11] Gentleman, R.C., Lawless, J.F., Lindsey, J.C. and Yan, P. (1994) Multi-

state Markov models for analyzing incomplete disease history data with

illustrations for HIV disease. Statistics in Medicine, 13, 805-821.

[12] Kalbeisch, J.D. and Lawless, J.F. (1985) The analysis of panel data under

a Markov assumption. Journal of the American Statistical Association,

80, 863-871.

[13] Kalbeisch, J.D. and Prentice, R.L. (1980) The statistical analysis of fai-

lure time data. Wiley Series in Probability and Mathematical Statistics.

[14] Kaplan, E.L. and Meier, P. (1958) Nonparametric estimation from in-

complete observations. Journal of the American Statistical Association,

53, 457-481.

[15] Kijima, M. (1997) Markov Processes for Stochastic Modeling. Chapman

and Hall.

[16] Kulkarni, V. G. (1999) Modeling, Analysis, Design, and Control of Sto-

chastic Systems. Springer-Verlag New York, Inc.

[17] Kulkarni, V. G. (1995) Modeling and Analysis of Stochastic Systems.

Chapman and Hall.

[18] Lawless, J.F. (1982) Statistical Models and Methods for lifetime data.

Wiley.

[19] Lu, Y. and Stitt, F.W. (1994) Using Markov processes to describe the

prognosis of HIV-1 infection. Medical Decision Making, 14, 266-272.

[20] Neuts, M.F. (1981) Matrix-Geometric Solutions in Stochastic Models: An

Algorithmic Approach. Courier Dover Publications.

Page 75: UNIVERSIDAD DE GRANADA

[21] Perez-Ocon, R., Gamiz-Perez, M.L. and Ruiz-Castro, J. E. (1996) Apli-

cacion de Tecnicas Graficas en el Estudio de Tiempos de Supervivencia.

Estadıstica Espanola, 38, 141, 5-18.

[22] Perez-Ocon, R. and Ruiz-Castro, J.E. (2003) A multiple-absorbent Mar-

kov process in survival studies: application to breast cancer. Biometrical

Journal, 45,7, 783-797.

[23] Perez Ocon, R., Ruiz-Castro, J.E. and Gamiz-Perez, M. L. (1998) A

Multivariate model to measure the effect of treatments in survival to

breast cancer. Biometrical Journal, 40, 6, 703-715.

[24] Perez-Ocon, R., Ruiz-Castro, J.E. and Gamiz-Perez, M. L. (2000) Markov

Model with lognormal transition rates in the analysis of survival times.

TEST, 9, 2, 353-370.

[25] Perez-Ocon, R., Ruiz-Castro, J.E. and Gamiz-Perez, M.L. (2001a) Non-

homogeneous Markov Models in the analysis of survival to breast cancer.

Applied Statistics, 50, 1, 111-124.

[26] Perez-Ocon, R., Ruiz-Castro, J.E. and Gamiz-Perez, M.L. (2001b) Non-

homogeneous Markov Processes for analysing the effect of treatments to

breast cancer. Statistics in Medicine, 20, 109-122.

[27] Perez-Ocon, R., Ruiz-Castro, J.E. and Gamiz-Perez, M. L. (1999) Semi-

Markov Models for lifetime data analysis. In: Semi-Markov Models and

Applications, Eds. J. Janssen and N. Limnios, Kluwer Academic Publis-

hers, Dordrecht, The Nederlands, 229-238.

[28] Ross, S.M. (1983) Stochastic Processes. Wiley and Sons, Inc.

[29] Ruiz-Castro, J.E. (1998) Procesos de Markov en analisis de supervivencia.

Tesis Doctoral. Universidad de Granada.

[30] Ruiz Castro, Juan Eloy; Perez Ocon, Rafael (2004) A Semi-markov model

in biomedical studies. Communication in Statistics: Theory and Methods,

33(2), 437-455.

Page 76: UNIVERSIDAD DE GRANADA

[31] Ruiz-Castro, J.E. and Zenga, M.A. (2015) A discrete piecewise multi-

state survival model: Application to breast cancer. Statistics in Medicine

(sometido).

[32] Santamarıa, C.; Garcıa-Mora, B.; Rubio, G. and Navarro, E. (2009) A

Markov model for analyzing the evolution of bladder carcinoma. Mathe-

matical and Computer Modelling, 50: 726-732.

[33] Tijms, H. C. (2003) A First Course in Stochastic Models. John Wiley

and Sons, Chichester.