4. inferencia no paramétrica - itam
Post on 13-Jul-2022
19 Views
Preview:
TRANSCRIPT
PROFESOR: LUIS E. NIETO BARAJAS
60 Análisis de Supervivencia
4. Inferencia no paramétrica
4.1 Estimadores puntuales y por intervalo de la funciones de supervivencia
y de riesgo acumulado para datos con censura a la derecha
Algunas representaciones gráficas de datos en estadística son: tablas de
frecuencias, histogramas, funciones de distribución empíricas, etc. En
análisis de supervivencia estas representaciones tabulares y gráficas
tienen que ser modificadas debido a la presencia de observaciones
censuradas.
En ausencia de observaciones censuradas, un estimador no paramétrico
de la función de supervivencia, basado en una muestra observada t1,…,tn,
es la función de supervivencia empírica definida como
n
tt#tTPtS i
Esta es una función escalonada con decrementos 1/n si todas las
observaciones son distintas y con decrementos d/n si hay d tiempos de
fallo iguales a t.
TABLA DE VIDA.
o Suponga que el eje del tiempo es divido en k+1 intervalos ]a,a(I j1jj ,
j1,…,k+1, donde 1kk10 aaaa0 , con ak el límite superior
de las observaciones. Para cada elemento de una muestra aleatoria de
PROFESOR: LUIS E. NIETO BARAJAS
61 Análisis de Supervivencia
tamaño n, suponga que uno observa un tiempo de fallo T o un valor
censurado por la derecha C.
o Definimos las siguientes cantidades:
nj número de individuos en riesgo (vivos o no censurados) al tiempo aj1.
dj número de fallas en el intervalo Ij.
cj número de individuos que se censuran en el intervalo Ij.
El número de individuos sin falla al inicio de Ij es nj, por lo tanto n1 n, y
1j1j1jj cdnn , j 2, …, k+1
o Suponga que la función de supervivencia para los tiempos de falla es
tTPtS y notemos que
1jj010jj aTaTPaTaTPaTPaTPaS
Definimos las siguientes cantidades:
jj aSS
1j
j1jjj
S
SaTaTPp
1j
j1j
1j
j1jjjj
S
SS
aTP
ITPaTaTPp1q
para j1,…,k+1, con S01, Sk+10, qk+11. Por lo tanto
j21j pppS
o El objetivo de la tabla de vida es estimar Sj a través del a estimación de pj.
El razonamiento es el siguiente:
PROFESOR: LUIS E. NIETO BARAJAS
62 Análisis de Supervivencia
Si en Ij no hay observaciones censuradas, entonces
j
jj
n
dq
Si en Ij sí hay observaciones censuradas, podemos suponer que las
censuras se distribuyen uniformes en el intervalo Ij y por lo tanto, los
individuos censurados estuvieron expuestos la mitad del intervalo, por
lo tanto
2cn
dq
jj
jj
Finalmente podemos estimar jj q1p y j21j pppS , i.e,
j
1i ii
ij
2cn
d1S
o La tabla de vida es una tabulación que proporciona estimadores de la
función de supervivencia. Otros resúmenes que se presentan en una tabla
de vida son: nj, dj, cj, jq y jS .
o Estos estimadores están sujetos a variación muestral. Bajo ciertos
supuestos, es posible obtener estimadores de sus varianzas:
2cnpqqarV jjjjj
Usando en hecho de que los jq son asintóticamente no correlacionados,
un estimador de la varianza de jS es
PROFESOR: LUIS E. NIETO BARAJAS
63 Análisis de Supervivencia
j
1i iii
i2jj
2cnp
qSSarV .
La distribución asintótica de jS es
jjj SarV,SNS
Con esta distribución asintótica es posible obtener intervalos de confianza
para Sj y hacer pruebas de hipótesis.
EJEMPLO: A continuación se presenta la tabla de vida de unos datos de
supervivencia de 374 pacientes que recibieron una operación como
tratamiento de una enfermedad maligna.
Observaciones: La tabla de vida es un estimador útil de la función de
supervivencia, sin embargo presenta algunos problemas.
o No es claro el número de intervalos a elegir. Lawless (1982) sugiere de
8 a 10 intervalos.
PROFESOR: LUIS E. NIETO BARAJAS
64 Análisis de Supervivencia
o No es claro como escoger las divisiones aj. Lawless (1982) sugiere
tomar intervalos del mismo tamaño, tomando en cuenta que ak
corresponde con el tiempo máximo observado.
o Distintas elecciones de las aj, tanto en valor como en número, da lugar
a estimadores diferentes de la función de supervivencia.
ESTIMADOR PRODUCTO LÍMITE (KAPLAN MEIER).
o El estimador producto límite fue propuesto por Kaplan & Meier (1958)
como el estimador máximo verosímil de la función de supervivencia S(t).
o Para exponer las ideas consideremos un escenario discreto. Sean
n1 T,,T una muestra aleatoria de una población discreta con soporte
en ,u,u 21 . Recordemos que
jk
kjj h1huf y
tu:k
k
k
h1tS
Son las funciones de densidad y de supervivencia, respectivamente en
función de los riesgos hk.
o Si consideramos a las tasas de riesgo hk como parámetros desconocidos
del modelo, podemos usar técnicas de estimación máximo verosímil para
estimar hk.
o La muestra observada se puede representar como ii ,t , i1,…,n,
entonces la función de verosimilitud es de la forma
PROFESOR: LUIS E. NIETO BARAJAS
65 Análisis de Supervivencia
ii 1i
n
1ii tStfL
ii 1ijk
n
1iki1kk tu:)jmax(kIuSutIuSuh
la cual se puede re‐escribir en términos de las hk’s como
k
dnk
dk
kkk h1hL ,
donde
n
1i ikik 1,utId es el número de tiempos de fallo iguales a uk.
n
1i kik utIn es el número de individuos en riesgo. Incluye a todos
los tiempos de fallo, o de censura, mayores o iguales a uk.
o Una vez definida la función de verosimilitud procedemos a maximizarla en
función de hk. Obtenemos primero la log‐verosimilitud
k
kkkkk h1logdnhlogdLlog .
Luego derivamos con respecto a hk e igualamos a cero,
0h1
dn
h
dLlog
dh
d
k
kk
k
k
k
.
Al despejar obtenemos que el EMV de hk es
k
kk
n
dh
y se puede demostrar que kh es un estimador insesgado de hk.
o Finalmente, usando el principio de invarianza de los EMV’s, el EMV de S(t)
es
PROFESOR: LUIS E. NIETO BARAJAS
66 Análisis de Supervivencia
tu:k k
k
kn
d1tS
o El estimador producto límite es válido también en el caso continuo. Es
decir, el estimador de la función de supervivencia continua S(t) es discreto
con puntos de salto t1,t2,…,tk, los tiempos de fallo observados de manera
exacta, con kn. En este caso
tt:j j
j
jn
d1tS
donde
n
1i ijij 1,ttId es el número de tiempos de fallo iguales a tj.
n
1i jij ttIn es el número de individuos en riesgo al tiempo tj. Incluye
a todos los tiempos de fallo, o de censura, mayores o iguales a tj.
o Nótese que a diferencia de la función de supervivencia empírica, en donde
el denominador es siempre constante (igual a n), en el estimador
producto límite el denominador va cambiando reconociendo a los
individuos que están en riesgo en cada tiempo.
VARIANZA DEL ESTIMADOR PRODUCTO LÍMITE
o Para poder hacer inferencia más allá de estimación puntual, es necesario
tener una idea de la varianza de los estimadores.
PROFESOR: LUIS E. NIETO BARAJAS
67 Análisis de Supervivencia
o Primero notemos que
k
kkk
n
h1hharV
Como
kh1tS
Tomando logaritmo de ambos lados,
kh1logtSlog
Tomando varianza de ambos lados y suponiendo independencia
(asintótica) entre kh y jh
kh1logVartSlogVar
Para aproximar la varianza desarrollemos kh1log en series de Taylor
alrededor de kk hhE ,
1k
kkkk nO
h1
hhh1logh1log
Despejando y elevando al cuadrado tenemos
2k
2
kk2
kkh1
hhh1logh1log
Tomando esperanza de ambos lados nos queda que
2k
kk
h1
hVarh1logVar
Por lo tanto, un estimador de la varianza de tSlog es
k2k
hVarh1
1tSlogVar
PROFESOR: LUIS E. NIETO BARAJAS
68 Análisis de Supervivencia
Pero no queremos la varianza del logaritmo de S(t), sino varianza de S(t).
Expandiendo nuevamente en series de Taylor tSlog alrededor de su
media tSlog tenemos
1nOtS
tStStSlogtSlog
Entonces despejando, elevando al cuadrado y calculando esperanza,
tS
tSVartSlogVar
2
Por lo tanto
tSlogVartStSVar 2
Finalmente,
tt:k2
k
k2
kh1
hVartStSVar
o Al sustituir tS por S(t), kharV por khVar y kh por kh tenemos el
estimador de la varianza de S(t), comúnmente llamado estimador de
Greenwood
tt:j jjj
j2
jdnn
dtStSarV
o Finalmente, el error estándar del estimador producto límite es tSarV
.
INTERVALOS DE CONFIANZA PARA S(t)
PROFESOR: LUIS E. NIETO BARAJAS
69 Análisis de Supervivencia
o El estimador puntual de S(t) junto con su error estándar pueden ser
usados para obtener intervalos de confianza para la función de
supervivencia S(t0) en un punto del tiempo particular t0.
o Se puede demostrar que asintóticamente (i.e, cuando n) tS tiene
una distribución normal. Es decir,
tSarV,tSNtS
o Usando este resultado asintótico, un intervalo de confianza para S(t0) al
(1)100% de confianza es
0s02/0 ttSZtS ,
donde
tt:j jjj
j0
2s
jdnn
dt
o Al intervalo de confianza anterior se le conoce como intervalo lineal. Ese
intervalo tiene a desventaja de que no hay garantía que los límites de
confianza (superior e inferior) tomen valores dentro del (0,1).
o Intervalos de confianza alternativos se basan en transformar primero a
0tS en una escala real, construir el IC en la escala transformada y luego
re‐transformar. Por ejemplo, Borgan & Liestol (1990) propusieron
W0
W10 tS,tS
con
0
0s2
tSlog
tZexpW .
PROFESOR: LUIS E. NIETO BARAJAS
70 Análisis de Supervivencia
A continuación se presenta un ejemplo de cómo se construye el estimador
producto límite.
o Ver ejemplos de estimadores producto límite en R usando la librería
“survival”:
Surv: crea un objeto de supervivencia a partir de dos variables, tiempos
de fallo o censura t e indicador de censura .
PROFESOR: LUIS E. NIETO BARAJAS
71 Análisis de Supervivencia
survfit: calcula el estimador Kaplan‐Meier
print, summary & plot: comandos adicionales para presentación de
resultados.
ESTIMADORES DE LA FUNCIÓN DE RIESGO ACUMULADO.
o Existen dos estimadores de la función de riesgo acumulado. Estos
corresponden a las dos definiciones de la función de riesgo acumulado en
el caso discreto.
o La primera estimación se basa en la relación tSlogtH . Usando el
estimador producto límite para S(t), el estimador resultante para H(t) es
tSlogtH1 .
o La segunda estimación se basa en la relación
tu:j
j
j
htH como en el caso
discreto. Nelson (1972) y posteriormente Aalen (1978) propusieron el
siguiente estimador llamado estimador Nelson‐Aalen
tt:j j
j2
jn
dtH
con t1,t2,…,tk, los tiempos de fallo observados, kn.
o De manera análoga, el estimador Nelson‐Aalen puede ser usado como
estimador de la función de supervivencia mediante la transformación
tHexptS 22 .
PROFESOR: LUIS E. NIETO BARAJAS
72 Análisis de Supervivencia
o En la siguiente gráfica se muestra una comparación de los dos
estimadores de H(t).
o Un estimador de la varianza de tH2 es
tt:j
2j
j2
jn
dtHarV
PROFESOR: LUIS E. NIETO BARAJAS
73 Análisis de Supervivencia
o Nuevamente es posible obtener intervalos de confianza para H(t) al usar
la normalidad asintótica del estimador tH2 y la expresión de la varianza
anterior.
A continuación presentamos gráficas de estimadores producto límite y de
estimadores Nelson‐Aalen.
PROFESOR: LUIS E. NIETO BARAJAS
74 Análisis de Supervivencia
ESTIMADOR DE LA FUNCIÓN DE SUPERVIVENCIA CON DATOS TRUNCADOS POR LA IZQUIERDA
Y CENSURADOS POR LA DERECHA.
o Los datos consisten en observaciones (Ui,Ti,i), i=1,…,n, donde Ui es el
tiempo de truncamiento por la izquierda, Ti es el tiempo exacto de fallo, si
i=1, o el momento de censura por la derecha, si i=0.
PROFESOR: LUIS E. NIETO BARAJAS
75 Análisis de Supervivencia
o Identificamos los tiempos de fallo exactos t1,t2,…,tk, y para cada uno de
ellos definimos dj como el número de individuos que experimentan la falla
en el tiempo tj. Redefinimos a los individuos en riesgo nj como todos
aquellos individuos cuyo tiempo de truncamiento es menor a tj y su
tiempo de fallo/censura es mayor o igual a tj, i.e., nj contiene a todos los
individuos i=1,..,n tales que ui < tj ti.
o El estimador producto límite construido con estos elementos tj, dj y nj para
j=1,..,k es un estimador de la función de supervivencia condicional al
mínimo tiempo de truncamiento, i.e. P(T > t | T > min(ui) )=S(t)/S(min(ui)).
4.2 Estimación puntual de la media y la mediana del tiempo de
supervivencia
Como vimos anteriormente, algunos parámetros poblacionales de interés
en datos de tiempos de falla, son función de la función de supervivencia.
Por ejemplo la media, la mediana y en general cualquier cuantil o
percentil.
ESTIMACIÓN DE LA MEDIA. El tiempo medio a la ocurrencia del evento de
interés se puede obtener como
0
dttS . Por lo que si se reemplaza
S(t) por su correspondiente estimador producto límite se obtiene
0
dttSˆ
PROFESOR: LUIS E. NIETO BARAJAS
76 Análisis de Supervivencia
El estimador anterior sólo es apropiado cuando la observación más
grande de un conjunto de datos es un tiempo de falla y no una
observación censurada, porque en otro caso el estimador producto límite
no está definido más allá de la observación más grande.
Una solución al problema es “corregir” el estimador producto límite al
convertir la observación más grande en una observación exacta. Sin
embargo esta solución sesgaría la estimación de la media.
Otra solución es estimar la media restringida al intervalo [0,], donde es
un valor pre‐especificado que determina el tiempo más grande a la que
una persona puede sobrevivir. En este caso
0
dttSˆ
La varianza de este estimador es
k
1i iii
i2
t dnn
ddttSˆarV
i
Un intervalo de confianza al (1)100% para está dado por
ˆarVZˆ 2
Nota: La mayoría de los paquetes computacionales obtienen un estimador
puntual de la media. En todo caso es importante verificar si la última
PROFESOR: LUIS E. NIETO BARAJAS
77 Análisis de Supervivencia
observación es exacta o censurada. Si es censurada tenemos que revisar
el rango en donde la media es obtenida.
ESTIMACIÓN DE CUANTILES. Recordemos que el cuantil de orden p, tp, es el
mínimo valor de t tal que p1tS . Usando el estimador producto
límite, definimos un estimador pt como
p1tS:tinftp
Encontrar la varianza de pt es bastante complicado porque requiere de la
estimación de la densidad de T en pt . Es posible obtener un intervalo de
confianza para tp usando el intervalo de confianza para S(t). Un intervalo
al (1)100% para tp es
2ZtSarV
p1tS:t
Usando la misma idea del intervalo, un estimador puntual alternativo
sería el punto medio del intervalo de confianza anterior.
Ejemplo: Estimación puntual y por intervalo para el tiempo mediano para
un estudio de pacientes con cáncer.
PROFESOR: LUIS E. NIETO BARAJAS
78 Análisis de Supervivencia
4.3 Gráficas de diagnóstico
Una forma rápida de darnos una idea del comportamiento de un conjunto
de datos de tiempo de falla es mediante las gráficas del estimador
producto límite y del estimador Nelson‐Aalen.
Estas gráficas también pueden ser usadas para verificar el uso apropiado
de ciertos modelos paramétricos.
PROFESOR: LUIS E. NIETO BARAJAS
79 Análisis de Supervivencia
GRÁFICAS DE LA FUNCIÓN DE SUPERVIVENCIA. Suponga que un modelo
paramétrico tiene función de supervivencia tS y sea un estimador
del parámetro. Si el modelo paramétrico es adecuado para el conjunto de
datos particular, entonces tS y tS (el estimador KM) deben de ser
muy parecidos. La forma más simple de verificar el ajuste del modelo
paramétrico es graficar tS y tS en la misma gráfica. Graficar los
intervalos de confianza para S(t) ayuda a interpretar la gráfica.
GRÁFICA P‐P (PROBABILIDAD‐PROBABILIDAD). Esta gráfica compara las funciones
de supervivencia estimadas por un modelo paramétrico y es estimador
empírico KM. Consiste esencialmente en graficar los puntos jj tS,ˆtS ,
donde t1,t2,…,tk son los distintos tiempos de fallo exactos observados. Si el
modelo paramétrico es adecuado, los puntos deben de caer cerca de una
PROFESOR: LUIS E. NIETO BARAJAS
80 Análisis de Supervivencia
línea recta con pendiente uno. Alternativamente, si tS es continua en t,
se puede reemplazar jtS por
jj*j tS5.0tS5.0S .
Esto se puede interpretar como una corrección por continuidad.
GRÁFICA Q‐Q (CUANTIL‐CUANTIL). Esta gráfica consiste en graficar los cuantiles
del modelo paramétrico ajustado versus los cuantiles empíricos obtenidos
con el estimador KM. Por ejemplo, para el caso Weibull los cuantiles son
1
p p1log1
t
Una gráfica de los puntos )j(p t,tj
, j1,…,k, donde *jj Sp y
)k()2()1( ttt son los valores ordenados de los tiempos de fallo
exactos observados, debe de ser aproximadamente lineal para verificar el
supuesto Weibull en los datos.
LINEARIZACIÓN DE LA FUNCIÓN DE SUPERVIVENCIA. Si tS puede ser linearizada
mediante alguna transformación, es decir, si existen funciones g1 y g2 tales
que tSg1 sea una función lineal de tg2 . La idea es entonces graficar
tSg1 vs. tg2 , si la familia paramétrica es adecuada entonces la
gráfica debe de ser aproximadamente una línea recta. Este procedimiento
tiene la ventaja de que no requiere la estimación de los parámetros del
modelo.
PROFESOR: LUIS E. NIETO BARAJAS
81 Análisis de Supervivencia
o Caso Exponencial: Supongamos que se está considerando la opción de
que un modelo exponencial puede ser adecuado para un conjunto de
datos. La función de supervivencia exponencial satisface
ttSlog
Entonces una gráfica de tSlog vs. t debe de ser cercana a una línea
recta con pendiente negativa que pasa por el origen. Nótese que no es
necesario un estimador de .
o Caso Weibull: La función de supervivencia Weibull satisface
tloglogtSloglog .
Entonces, una gráfica de tSloglog vs. logt debe de ser
aproximadamente lineal si el modelo Weibull es adecuado para los
datos. La ordenada al origen puede ser positiva o negativa
dependiendo del valor de . La pendiente siempre debe de ser
positiva.
o Caso Log‐normal: Aunque la función de supervivencia log‐normal no es
precisamente linealizable, es posible verificar el ajuste de esta
distribución considerando que si TLog‐normal entonces logTNormal.
Por lo tanto una gráfica de cuantil‐cuantil normal para logt que
presente un comportamiento aproximadamente lineal apoya el
supuesto log‐normal de los datos.
PROFESOR: LUIS E. NIETO BARAJAS
82 Análisis de Supervivencia
Las gráficas de diagnóstico que acabamos de describir son en términos de
la función de supervicencia y por lo tanto en los saltos del estimador KM.
Alternativamente, es posible obtener gráficas de diagnóstico a partir de la
función de riesgo acumulado y usar los satos del estimador Nelson‐Aalen.
4.4 Métodos Bayesianos no paramétricos
Una forma alternativa a la estimación no paramétrica frecuentista es usar
los métodos de estimación Bayesianos no paramétricos.
La idea general de los métodos de estimación Bayesianos es incorporara al
proceso de inferencia cualquier tipo de información adicional que junto
con la información muestral producen una estimación que combina
ambas fuentes de información. La combinación de información (o proceso
PROFESOR: LUIS E. NIETO BARAJAS
83 Análisis de Supervivencia
de aprendizaje) se hace a través del Teorema de Bayes y las inferencias se
hacen dentro de un contexto de toma de decisión.
El conocimiento inicial del tomador de decisiones debe de representarse a
través de una distribución de probabilidades que refleje la incertidumbre
en sus creencias. Este conocimiento inicial se debe de proporcionar para
todas las cantidades desconocidas del modelo y puede estar basado en la
experiencia previa o en opinión de expertos.
En el problema de inferencia Bayesiano no paramétrico, las cantidades
desconocidas son funciones, las cuales se pueden ver como un conjunto
muy grande, incluso infinito, de parámetros. En este caso, la
representación del conocimiento inicial incierto se hace a través de
procesos estocásticos.
INICIAL PROCESO DE DIRICHLET. Hay varias definiciones y caracterizaciones de
un proceso de Dirichlet. En particular, para una variable aleatoria no
negativa T, sea A1, A2,…,Ak una partición de los reales positivos. La
distribución conjunta de k1 W,W , con jj ATPW , j=1,…,k, es una
distribución Dirichlet con parámetros k010 AcP,,AcP , donde c es el
parámetro de precisión del proceso y P0 es una medida de probabilidad y
se le conoce como medida de centralidad. Esta propiedad se debe de
satisfacer para cualquier partición de los reales positivos y para cualquier
valor de k.
PROFESOR: LUIS E. NIETO BARAJAS
84 Análisis de Supervivencia
Propiedades: Sea P la medida de probabilidad para la v.a. T con función de
supervivencia S(t). Sea P0 una medida de probabilidad con función de
supervivencia S0(t).
o Si PDP(c,P0) o equivalentemente SDP(c,S0), entonces
tStSE 0
1c
tS1tStSVar 00
o El procesode Dirichlet es casi seguramente discreto, es decir, asigna
probabilidad uno al espacio de medidas de probabilidad (funciones de
supervivencia) discretas.
PROFESOR: LUIS E. NIETO BARAJAS
85 Análisis de Supervivencia
Distribución final. Dada una muestra T1,…,Tn de observaciones exactas tal
que Ti|SS, i1,…,n y SDP(c,S0) entonces la distribución final de S, dados
los datos n1 t,tt , es otro proceso de Dirichlet con parámetro de
precisión c1c+n y medida de centralidad S1(t) igual a
tSnc
ntS
nc
ctS 01
con ntt#tS i . En notación, 11 S,cDPtS .
o El estimador Bayesiano, suponiendo una función de pérdida cuadrática
es la media del proceso final, es este caso, S1(t).
o Si la muestra observada contiene observaciones censuradas por la
derecha, la distribución final de S es un proceso llamado Beta‐Stacy,
cuyo valor esperado final es:
t,0 0
0
sMscS
sdNscdS1ttSE
con n
1i ii 1,ttItN el proceso de conteo para observaciones
exactas y n
1i i ttItM el proceso para los individuos en riesgo.
Ejemplo: Datos KM: 0.8, 1.0+, 2.7+, 3.1, 5.4, 7.0+, 9.2, 12.1+. Estimación
de 1S0S1,0TP usando una inicial proceso de Dirichlet vs.
Modelo paramétrico exponencial con inicial gamma para la tasa
constante.
PROFESOR: LUIS E. NIETO BARAJAS
86 Análisis de Supervivencia
top related