4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS

60 Análisis de Supervivencia

4. Inferencia no paramétrica

4.1 Estimadores puntuales y por intervalo de la funciones de supervivencia

y de riesgo acumulado para datos con censura a la derecha

Algunas representaciones gráficas de datos en estadística son: tablas de

frecuencias, histogramas, funciones de distribución empíricas, etc. En

análisis de supervivencia estas representaciones tabulares y gráficas

tienen que ser modificadas debido a la presencia de observaciones

censuradas.

En ausencia de observaciones censuradas, un estimador no paramétrico

de la función de supervivencia, basado en una muestra observada t1,…,tn,

es la función de supervivencia empírica definida como

n

tt#tTPtS i

Esta es una función escalonada con decrementos 1/n si todas las

observaciones son distintas y con decrementos d/n si hay d tiempos de

fallo iguales a t.

TABLA DE VIDA.

o Suponga que el eje del tiempo es divido en k+1 intervalos ]a,a(I j1jj ,

j1,…,k+1, donde 1kk10 aaaa0 , con ak el límite superior

de las observaciones. Para cada elemento de una muestra aleatoria de

PROFESOR: LUIS E. NIETO BARAJAS

61 Análisis de Supervivencia

tamaño n, suponga que uno observa un tiempo de fallo T o un valor

censurado por la derecha C.

o Definimos las siguientes cantidades:

nj número de individuos en riesgo (vivos o no censurados) al tiempo aj1.

dj número de fallas en el intervalo Ij.

cj número de individuos que se censuran en el intervalo Ij.

El número de individuos sin falla al inicio de Ij es nj, por lo tanto n1 n, y

1j1j1jj cdnn , j 2, …, k+1

o Suponga que la función de supervivencia para los tiempos de falla es

tTPtS y notemos que

1jj010jj aTaTPaTaTPaTPaTPaS

Definimos las siguientes cantidades:

jj aSS

1j

j1jjj

S

SaTaTPp

1j

j1j

1j

j1jjjj

S

SS

aTP

ITPaTaTPp1q

para j1,…,k+1, con S01, Sk+10, qk+11. Por lo tanto

j21j pppS

o El objetivo de la tabla de vida es estimar Sj a través del a estimación de pj.

El razonamiento es el siguiente:

PROFESOR: LUIS E. NIETO BARAJAS

62 Análisis de Supervivencia

Si en Ij no hay observaciones censuradas, entonces

j

jj

n

dq

Si en Ij sí hay observaciones censuradas, podemos suponer que las

censuras se distribuyen uniformes en el intervalo Ij y por lo tanto, los

individuos censurados estuvieron expuestos la mitad del intervalo, por

lo tanto

2cn

dq

jj

Finalmente podemos estimar jj q1p y j21j pppS , i.e,

j

1i ii

ij

2cn

d1S

o La tabla de vida es una tabulación que proporciona estimadores de la

función de supervivencia. Otros resúmenes que se presentan en una tabla

de vida son: nj, dj, cj, jq y jS .

o Estos estimadores están sujetos a variación muestral. Bajo ciertos

supuestos, es posible obtener estimadores de sus varianzas:

2cnpqqarV jjjjj

Usando en hecho de que los jq son asintóticamente no correlacionados,

un estimador de la varianza de jS es

PROFESOR: LUIS E. NIETO BARAJAS

63 Análisis de Supervivencia

j

1i iii

i2jj

2cnp

qSSarV .

La distribución asintótica de jS es

jjj SarV,SNS

Con esta distribución asintótica es posible obtener intervalos de confianza

para Sj y hacer pruebas de hipótesis.

EJEMPLO: A continuación se presenta la tabla de vida de unos datos de

supervivencia de 374 pacientes que recibieron una operación como

tratamiento de una enfermedad maligna.

Observaciones: La tabla de vida es un estimador útil de la función de

supervivencia, sin embargo presenta algunos problemas.

o No es claro el número de intervalos a elegir. Lawless (1982) sugiere de

8 a 10 intervalos.

PROFESOR: LUIS E. NIETO BARAJAS

64 Análisis de Supervivencia

o No es claro como escoger las divisiones aj. Lawless (1982) sugiere

tomar intervalos del mismo tamaño, tomando en cuenta que ak

corresponde con el tiempo máximo observado.

o Distintas elecciones de las aj, tanto en valor como en número, da lugar

a estimadores diferentes de la función de supervivencia.

ESTIMADOR PRODUCTO LÍMITE (KAPLAN MEIER).

o El estimador producto límite fue propuesto por Kaplan & Meier (1958)

como el estimador máximo verosímil de la función de supervivencia S(t).

o Para exponer las ideas consideremos un escenario discreto. Sean

n1 T,,T una muestra aleatoria de una población discreta con soporte

en ,u,u 21 . Recordemos que

jk

kjj h1huf y

tu:k

k

h1tS

Son las funciones de densidad y de supervivencia, respectivamente en

función de los riesgos hk.

o Si consideramos a las tasas de riesgo hk como parámetros desconocidos

del modelo, podemos usar técnicas de estimación máximo verosímil para

estimar hk.

o La muestra observada se puede representar como ii ,t , i1,…,n,

entonces la función de verosimilitud es de la forma

PROFESOR: LUIS E. NIETO BARAJAS

65 Análisis de Supervivencia

ii 1i

n

1ii tStfL

ii 1ijk

n

1iki1kk tu:)jmax(kIuSutIuSuh

la cual se puede re‐escribir en términos de las hk’s como

k

dnk

dk

kkk h1hL ,

donde

n

1i ikik 1,utId es el número de tiempos de fallo iguales a uk.

n

1i kik utIn es el número de individuos en riesgo. Incluye a todos

los tiempos de fallo, o de censura, mayores o iguales a uk.

o Una vez definida la función de verosimilitud procedemos a maximizarla en

función de hk. Obtenemos primero la log‐verosimilitud

k

kkkkk h1logdnhlogdLlog .

Luego derivamos con respecto a hk e igualamos a cero,

0h1

dn

h

dLlog

dh

d

k

kk

k

.

Al despejar obtenemos que el EMV de hk es

k

kk

n

dh

y se puede demostrar que kh es un estimador insesgado de hk.

o Finalmente, usando el principio de invarianza de los EMV’s, el EMV de S(t)

es

PROFESOR: LUIS E. NIETO BARAJAS

66 Análisis de Supervivencia

tu:k k

k

kn

d1tS

o El estimador producto límite es válido también en el caso continuo. Es

decir, el estimador de la función de supervivencia continua S(t) es discreto

con puntos de salto t1,t2,…,tk, los tiempos de fallo observados de manera

exacta, con kn. En este caso

tt:j j

j

jn

d1tS

donde

n

1i ijij 1,ttId es el número de tiempos de fallo iguales a tj.

n

1i jij ttIn es el número de individuos en riesgo al tiempo tj. Incluye

a todos los tiempos de fallo, o de censura, mayores o iguales a tj.

o Nótese que a diferencia de la función de supervivencia empírica, en donde

el denominador es siempre constante (igual a n), en el estimador

producto límite el denominador va cambiando reconociendo a los

individuos que están en riesgo en cada tiempo.

VARIANZA DEL ESTIMADOR PRODUCTO LÍMITE

o Para poder hacer inferencia más allá de estimación puntual, es necesario

tener una idea de la varianza de los estimadores.

PROFESOR: LUIS E. NIETO BARAJAS

67 Análisis de Supervivencia

o Primero notemos que

k

kkk

n

h1hharV

Como

kh1tS

Tomando logaritmo de ambos lados,

kh1logtSlog

Tomando varianza de ambos lados y suponiendo independencia

(asintótica) entre kh y jh

kh1logVartSlogVar

Para aproximar la varianza desarrollemos kh1log en series de Taylor

alrededor de kk hhE ,

1k

kkkk nO

h1

hhh1logh1log

Despejando y elevando al cuadrado tenemos

2k

2

kk2

kkh1

hhh1logh1log

Tomando esperanza de ambos lados nos queda que

2k

kk

h1

hVarh1logVar

Por lo tanto, un estimador de la varianza de tSlog es

k2k

hVarh1

1tSlogVar

PROFESOR: LUIS E. NIETO BARAJAS

68 Análisis de Supervivencia

Pero no queremos la varianza del logaritmo de S(t), sino varianza de S(t).

Expandiendo nuevamente en series de Taylor tSlog alrededor de su

media tSlog tenemos

1nOtS

tStStSlogtSlog

Entonces despejando, elevando al cuadrado y calculando esperanza,

tS

tSVartSlogVar

2

Por lo tanto

tSlogVartStSVar 2

Finalmente,

tt:k2

k

k2

kh1

hVartStSVar

o Al sustituir tS por S(t), kharV por khVar y kh por kh tenemos el

estimador de la varianza de S(t), comúnmente llamado estimador de

Greenwood

tt:j jjj

j2

jdnn

dtStSarV

o Finalmente, el error estándar del estimador producto límite es tSarV

.

INTERVALOS DE CONFIANZA PARA S(t)

PROFESOR: LUIS E. NIETO BARAJAS

69 Análisis de Supervivencia

o El estimador puntual de S(t) junto con su error estándar pueden ser

usados para obtener intervalos de confianza para la función de

supervivencia S(t0) en un punto del tiempo particular t0.

o Se puede demostrar que asintóticamente (i.e, cuando n) tS tiene

una distribución normal. Es decir,

tSarV,tSNtS

o Usando este resultado asintótico, un intervalo de confianza para S(t0) al

(1)100% de confianza es

0s02/0 ttSZtS ,

donde

tt:j jjj

j0

2s

jdnn

dt

o Al intervalo de confianza anterior se le conoce como intervalo lineal. Ese

intervalo tiene a desventaja de que no hay garantía que los límites de

confianza (superior e inferior) tomen valores dentro del (0,1).

o Intervalos de confianza alternativos se basan en transformar primero a

0tS en una escala real, construir el IC en la escala transformada y luego

re‐transformar. Por ejemplo, Borgan & Liestol (1990) propusieron

W0

W10 tS,tS

con

0

0s2

tSlog

tZexpW .

PROFESOR: LUIS E. NIETO BARAJAS

70 Análisis de Supervivencia

A continuación se presenta un ejemplo de cómo se construye el estimador

producto límite.

o Ver ejemplos de estimadores producto límite en R usando la librería

“survival”:

Surv: crea un objeto de supervivencia a partir de dos variables, tiempos

de fallo o censura t e indicador de censura .

PROFESOR: LUIS E. NIETO BARAJAS

71 Análisis de Supervivencia

survfit: calcula el estimador Kaplan‐Meier

print, summary & plot: comandos adicionales para presentación de

resultados.

ESTIMADORES DE LA FUNCIÓN DE RIESGO ACUMULADO.

o Existen dos estimadores de la función de riesgo acumulado. Estos

corresponden a las dos definiciones de la función de riesgo acumulado en

el caso discreto.

o La primera estimación se basa en la relación tSlogtH . Usando el

estimador producto límite para S(t), el estimador resultante para H(t) es

tSlogtH1 .

o La segunda estimación se basa en la relación

tu:j

j

htH como en el caso

discreto. Nelson (1972) y posteriormente Aalen (1978) propusieron el

siguiente estimador llamado estimador Nelson‐Aalen

tt:j j

j2

jn

dtH

con t1,t2,…,tk, los tiempos de fallo observados, kn.

o De manera análoga, el estimador Nelson‐Aalen puede ser usado como

estimador de la función de supervivencia mediante la transformación

tHexptS 22 .

PROFESOR: LUIS E. NIETO BARAJAS

72 Análisis de Supervivencia

o En la siguiente gráfica se muestra una comparación de los dos

estimadores de H(t).

o Un estimador de la varianza de tH2 es

tt:j

2j

j2

jn

dtHarV

PROFESOR: LUIS E. NIETO BARAJAS

73 Análisis de Supervivencia

o Nuevamente es posible obtener intervalos de confianza para H(t) al usar

la normalidad asintótica del estimador tH2 y la expresión de la varianza

anterior.

A continuación presentamos gráficas de estimadores producto límite y de

estimadores Nelson‐Aalen.

PROFESOR: LUIS E. NIETO BARAJAS

74 Análisis de Supervivencia

ESTIMADOR DE LA FUNCIÓN DE SUPERVIVENCIA CON DATOS TRUNCADOS POR LA IZQUIERDA

Y CENSURADOS POR LA DERECHA.

o Los datos consisten en observaciones (Ui,Ti,i), i=1,…,n, donde Ui es el

tiempo de truncamiento por la izquierda, Ti es el tiempo exacto de fallo, si

i=1, o el momento de censura por la derecha, si i=0.

PROFESOR: LUIS E. NIETO BARAJAS

75 Análisis de Supervivencia

o Identificamos los tiempos de fallo exactos t1,t2,…,tk, y para cada uno de

ellos definimos dj como el número de individuos que experimentan la falla

en el tiempo tj. Redefinimos a los individuos en riesgo nj como todos

aquellos individuos cuyo tiempo de truncamiento es menor a tj y su

tiempo de fallo/censura es mayor o igual a tj, i.e., nj contiene a todos los

individuos i=1,..,n tales que ui < tj ti.

o El estimador producto límite construido con estos elementos tj, dj y nj para

j=1,..,k es un estimador de la función de supervivencia condicional al

mínimo tiempo de truncamiento, i.e. P(T > t | T > min(ui) )=S(t)/S(min(ui)).

4.2 Estimación puntual de la media y la mediana del tiempo de

supervivencia

Como vimos anteriormente, algunos parámetros poblacionales de interés

en datos de tiempos de falla, son función de la función de supervivencia.

Por ejemplo la media, la mediana y en general cualquier cuantil o

percentil.

ESTIMACIÓN DE LA MEDIA. El tiempo medio a la ocurrencia del evento de

interés se puede obtener como

0

dttS . Por lo que si se reemplaza

S(t) por su correspondiente estimador producto límite se obtiene

0

dttSˆ

PROFESOR: LUIS E. NIETO BARAJAS

76 Análisis de Supervivencia

El estimador anterior sólo es apropiado cuando la observación más

grande de un conjunto de datos es un tiempo de falla y no una

observación censurada, porque en otro caso el estimador producto límite

no está definido más allá de la observación más grande.

Una solución al problema es “corregir” el estimador producto límite al

convertir la observación más grande en una observación exacta. Sin

embargo esta solución sesgaría la estimación de la media.

Otra solución es estimar la media restringida al intervalo [0,], donde es

un valor pre‐especificado que determina el tiempo más grande a la que

una persona puede sobrevivir. En este caso

0

dttSˆ

La varianza de este estimador es

k

1i iii

i2

t dnn

ddttSˆarV

i

Un intervalo de confianza al (1)100% para está dado por

ˆarVZˆ 2

Nota: La mayoría de los paquetes computacionales obtienen un estimador

puntual de la media. En todo caso es importante verificar si la última

PROFESOR: LUIS E. NIETO BARAJAS

77 Análisis de Supervivencia

observación es exacta o censurada. Si es censurada tenemos que revisar

el rango en donde la media es obtenida.

ESTIMACIÓN DE CUANTILES. Recordemos que el cuantil de orden p, tp, es el

mínimo valor de t tal que p1tS . Usando el estimador producto

límite, definimos un estimador pt como

p1tS:tinftp

Encontrar la varianza de pt es bastante complicado porque requiere de la

estimación de la densidad de T en pt . Es posible obtener un intervalo de

confianza para tp usando el intervalo de confianza para S(t). Un intervalo

al (1)100% para tp es

2ZtSarV

p1tS:t

Usando la misma idea del intervalo, un estimador puntual alternativo

sería el punto medio del intervalo de confianza anterior.

Ejemplo: Estimación puntual y por intervalo para el tiempo mediano para

un estudio de pacientes con cáncer.

PROFESOR: LUIS E. NIETO BARAJAS

78 Análisis de Supervivencia

4.3 Gráficas de diagnóstico

Una forma rápida de darnos una idea del comportamiento de un conjunto

de datos de tiempo de falla es mediante las gráficas del estimador

producto límite y del estimador Nelson‐Aalen.

Estas gráficas también pueden ser usadas para verificar el uso apropiado

de ciertos modelos paramétricos.

PROFESOR: LUIS E. NIETO BARAJAS

79 Análisis de Supervivencia

GRÁFICAS DE LA FUNCIÓN DE SUPERVIVENCIA. Suponga que un modelo

paramétrico tiene función de supervivencia tS y sea un estimador

del parámetro. Si el modelo paramétrico es adecuado para el conjunto de

datos particular, entonces tS y tS (el estimador KM) deben de ser

muy parecidos. La forma más simple de verificar el ajuste del modelo

paramétrico es graficar tS y tS en la misma gráfica. Graficar los

intervalos de confianza para S(t) ayuda a interpretar la gráfica.

GRÁFICA P‐P (PROBABILIDAD‐PROBABILIDAD). Esta gráfica compara las funciones

de supervivencia estimadas por un modelo paramétrico y es estimador

empírico KM. Consiste esencialmente en graficar los puntos jj tS,ˆtS ,

donde t1,t2,…,tk son los distintos tiempos de fallo exactos observados. Si el

modelo paramétrico es adecuado, los puntos deben de caer cerca de una

PROFESOR: LUIS E. NIETO BARAJAS

80 Análisis de Supervivencia

línea recta con pendiente uno. Alternativamente, si tS es continua en t,

se puede reemplazar jtS por

jj*j tS5.0tS5.0S .

Esto se puede interpretar como una corrección por continuidad.

GRÁFICA Q‐Q (CUANTIL‐CUANTIL). Esta gráfica consiste en graficar los cuantiles

del modelo paramétrico ajustado versus los cuantiles empíricos obtenidos

con el estimador KM. Por ejemplo, para el caso Weibull los cuantiles son

1

p p1log1

t

Una gráfica de los puntos )j(p t,tj

, j1,…,k, donde *jj Sp y

)k()2()1( ttt son los valores ordenados de los tiempos de fallo

exactos observados, debe de ser aproximadamente lineal para verificar el

supuesto Weibull en los datos.

LINEARIZACIÓN DE LA FUNCIÓN DE SUPERVIVENCIA. Si tS puede ser linearizada

mediante alguna transformación, es decir, si existen funciones g1 y g2 tales

que tSg1 sea una función lineal de tg2 . La idea es entonces graficar

tSg1 vs. tg2 , si la familia paramétrica es adecuada entonces la

gráfica debe de ser aproximadamente una línea recta. Este procedimiento

tiene la ventaja de que no requiere la estimación de los parámetros del

modelo.

PROFESOR: LUIS E. NIETO BARAJAS

81 Análisis de Supervivencia

o Caso Exponencial: Supongamos que se está considerando la opción de

que un modelo exponencial puede ser adecuado para un conjunto de

datos. La función de supervivencia exponencial satisface

ttSlog

Entonces una gráfica de tSlog vs. t debe de ser cercana a una línea

recta con pendiente negativa que pasa por el origen. Nótese que no es

necesario un estimador de .

o Caso Weibull: La función de supervivencia Weibull satisface

tloglogtSloglog .

Entonces, una gráfica de tSloglog vs. logt debe de ser

aproximadamente lineal si el modelo Weibull es adecuado para los

datos. La ordenada al origen puede ser positiva o negativa

dependiendo del valor de . La pendiente siempre debe de ser

positiva.

o Caso Log‐normal: Aunque la función de supervivencia log‐normal no es

precisamente linealizable, es posible verificar el ajuste de esta

distribución considerando que si TLog‐normal entonces logTNormal.

Por lo tanto una gráfica de cuantil‐cuantil normal para logt que

presente un comportamiento aproximadamente lineal apoya el

supuesto log‐normal de los datos.

PROFESOR: LUIS E. NIETO BARAJAS

82 Análisis de Supervivencia

Las gráficas de diagnóstico que acabamos de describir son en términos de

la función de supervicencia y por lo tanto en los saltos del estimador KM.

Alternativamente, es posible obtener gráficas de diagnóstico a partir de la

función de riesgo acumulado y usar los satos del estimador Nelson‐Aalen.

4.4 Métodos Bayesianos no paramétricos

Una forma alternativa a la estimación no paramétrica frecuentista es usar

los métodos de estimación Bayesianos no paramétricos.

La idea general de los métodos de estimación Bayesianos es incorporara al

proceso de inferencia cualquier tipo de información adicional que junto

con la información muestral producen una estimación que combina

ambas fuentes de información. La combinación de información (o proceso

PROFESOR: LUIS E. NIETO BARAJAS

83 Análisis de Supervivencia

de aprendizaje) se hace a través del Teorema de Bayes y las inferencias se

hacen dentro de un contexto de toma de decisión.

El conocimiento inicial del tomador de decisiones debe de representarse a

través de una distribución de probabilidades que refleje la incertidumbre

en sus creencias. Este conocimiento inicial se debe de proporcionar para

todas las cantidades desconocidas del modelo y puede estar basado en la

experiencia previa o en opinión de expertos.

En el problema de inferencia Bayesiano no paramétrico, las cantidades

desconocidas son funciones, las cuales se pueden ver como un conjunto

muy grande, incluso infinito, de parámetros. En este caso, la

representación del conocimiento inicial incierto se hace a través de

procesos estocásticos.

INICIAL PROCESO DE DIRICHLET. Hay varias definiciones y caracterizaciones de

un proceso de Dirichlet. En particular, para una variable aleatoria no

negativa T, sea A1, A2,…,Ak una partición de los reales positivos. La

distribución conjunta de k1 W,W , con jj ATPW , j=1,…,k, es una

distribución Dirichlet con parámetros k010 AcP,,AcP , donde c es el

parámetro de precisión del proceso y P0 es una medida de probabilidad y

se le conoce como medida de centralidad. Esta propiedad se debe de

satisfacer para cualquier partición de los reales positivos y para cualquier

valor de k.

PROFESOR: LUIS E. NIETO BARAJAS

84 Análisis de Supervivencia

Propiedades: Sea P la medida de probabilidad para la v.a. T con función de

supervivencia S(t). Sea P0 una medida de probabilidad con función de

supervivencia S0(t).

o Si PDP(c,P0) o equivalentemente SDP(c,S0), entonces

tStSE 0

1c

tS1tStSVar 00

o El procesode Dirichlet es casi seguramente discreto, es decir, asigna

probabilidad uno al espacio de medidas de probabilidad (funciones de

supervivencia) discretas.

PROFESOR: LUIS E. NIETO BARAJAS

85 Análisis de Supervivencia

Distribución final. Dada una muestra T1,…,Tn de observaciones exactas tal

que Ti|SS, i1,…,n y SDP(c,S0) entonces la distribución final de S, dados

los datos n1 t,tt , es otro proceso de Dirichlet con parámetro de

precisión c1c+n y medida de centralidad S1(t) igual a

tSnc

ntS

nc

ctS 01

con ntt#tS i . En notación, 11 S,cDPtS .

o El estimador Bayesiano, suponiendo una función de pérdida cuadrática

es la media del proceso final, es este caso, S1(t).

o Si la muestra observada contiene observaciones censuradas por la

derecha, la distribución final de S es un proceso llamado Beta‐Stacy,

cuyo valor esperado final es:

t,0 0

0

sMscS

sdNscdS1ttSE

con n

1i ii 1,ttItN el proceso de conteo para observaciones

exactas y n

1i i ttItM el proceso para los individuos en riesgo.

Ejemplo: Datos KM: 0.8, 1.0+, 2.7+, 3.1, 5.4, 7.0+, 9.2, 12.1+. Estimación

de 1S0S1,0TP usando una inicial proceso de Dirichlet vs.

Modelo paramétrico exponencial con inicial gamma para la tasa

constante.

PROFESOR: LUIS E. NIETO BARAJAS

86 Análisis de Supervivencia

4. inferencia no paramétrica - itam

Documents

estadística no paramétrica

inferencia no paramétrica-problemas resueltos con pruebas...

estadÍstica no paramÉtrica

algoritmos genéticos - itam

ninth edition - itam

reglamento itam

identificación paramétrica

itam. final

inmuno itam

guiaci2015-1 itam

ecuación paramétrica

u1. estadística no paramétrica

no paramétrica - bookdown

estimación paramétrica y no paramétrica de la tendencia...

identificación paramétrica de sistemas...

unidad v: estadÍstica no paramÉtrica

amery y freud itam

capítulo 3 - itam

misión del itam

publicaciones académicas del itam