curso de estadística no-paramétrica - sesión 3:...
Post on 02-Oct-2018
225 Views
Preview:
TRANSCRIPT
Curso de Estadística no-paramétricaSesión 3: Regresión no paramétrica y Contrastes de Aleatoriedad
y bondad de ajuste
Facundo Muñoz
Grup d’Estadística espacial i Temporal Departament d’Estadísticaen Epidemiologia i Medi Ambient i Investigació Operativa
Universitat de València
Junio 2013Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
EjemploMortalidad infantil vs. PIB
mortalidadInfantil-PIB.csv1
●
●
●
●
● ●●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●● ●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●● ●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●●
●
●
●
●
●
●
0
50
100
150
0 10000 20000 30000 40000PIB per cápita (US$)
Mor
talid
ad in
fant
il (x
100
0)
Relación entre las tasas demortalidad infantil (por mil nacidosvivos) y el PIB per cápita (endólares) para 193 países del mundo.
Las variables están claramente asociadas, pero la relación es no lineal.La línea de regresión no paramétrica fue producida por el método deregresión polinomial local lowess. Uno de los métodos noparamétricos más comunes.
1John Fox and Sanford Weisberg (2011). An R Companion to AppliedRegression, Second Edition. Thousand Oaks CA: Sage. URL:http://socserv.socsci.mcmaster.ca/jfox/Books/Companion 2 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Regresión paramétrica vs. no paramétrica
Métodos de regresiónObjetivo: estimar el valor central (media, mediana) de una variablerespuesta y (cuantitativa) como una función de una o más (co)variablespredictivas (también cuantitativas).
Hipótesis de la regresión lineal (paramétrica)Asociación lineal: E (y |x) = µ(x) = α+ βxNormalidad: y |x ∼ N
(µ(x), σ2(x)
)Homocedasticidad: σ2(x) = σ2
IndependenciaLa regresión no paramétrica sustituye la hipótesis de linealidad por la desuavidad en la función de regresión
3 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Transformación de variables
Hipótesis de linealidadCuando la hipótesis de linealidad falla, a veces es posible trabajar de formaparamétrica con una transformación de las variables.
Esto suele ser preferible a una regresión no paramétrica
●
●
●
●
● ●●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●● ●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●●
●
●
●
●
●
●
0
50
100
150
100 1000 10000log−PIB per cápita (US$)
log−
Mor
talid
ad in
fant
il (x
100
0)
Interpretabilidad de loscoeficientes. Pendiente−0,5: por cada puntoporcentual de incremento enel PIB per cápita se observauna reducción de un 0,5% enla mortalidad infantil(elasticidad).
Simplicidad del modelo
4 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Métodos de regresión no paramétrica
Medias móviles: calcular la media de y en una ventana alrededor decada valor de xMedias móviles ponderadas (suavización kernel): ponderar los datosen función de la distanciaRegresión polinomial local: ajustar un polinomio por mínimoscuadrados a los puntos en una ventana local, ponderados por ladistancia
5 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Parámetros de ajuste
Función kernelForma de la función de ponderaciónFunciones comunes: uniforme, triangular, gaussiana, tricúbica, etc.Difieren en la rapidez con que decae el peso relativo con la distancia
6 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Parámetros de ajuste
Ancho de bandaRegula a cuántos vecinos afecta la función KernelNormalmente es variable, y se regula para que en cada punto laponderación se realice sobre una cierta proporción de lasobservacionesA mayor ancho de banda, más suave es la curva de regresión
7 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Inferencia
En una regresión paramétrica, los objetos de estimación son loscoeficientes de regresión. Rutinariamente se calculan intervalos deconfianza o se contrasta la hipótesis de que sean diferentes de cero.En regresión no paramétrica no hay coeficientes de regresión. Elobjeto central de estimación es la función de regresión.En cambio, se pueden construir bandas de confianza sobre la mediade y para cada valor de x , a partir de las hipótesis de independencia,homocedasticidad y normalidad.
●
●
●
●
● ●●
● ●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●● ●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●● ●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●●
●
●
●
●
●
●
0
50
100
150
0 10000 20000 30000 40000PIB per cápita (US$)
Mor
talid
ad in
fant
il (x
100
0)
8 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Métodos de regresión no paramétricaImplementación
SPSSPuede añadirse manualmente una curva de regresión (lowess)Pero no parece haber forma de recoger los valores predichos en unanueva variable, ni de utilizar la curva como efecto estimado en unmodelo más complejo, ni de hacer inferenciaEstá disponible sólo como un elemento descriptivo para valorarvisualmente la relación entre dos variables
EjercicioAjustar una curva no paramétrica a los datos demortalidadInfantil-PIB.csv
Explorar las diferencias en el ajuste con diferentes anchos de banda yfunciones kernelAjustar un modelo lineal con las variables transformadas (log)
9 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Métodos de regresión no paramétricaMás cosas
En regresión múltiple (i.e., más de una variable predictiva) aparecennuevos problemas (e.g., correlación entre predictores, interacciones,etc.)Una estrategia popular son los Modelos de Regresión Aditivos en losque se especifica la media de la variable respuesta como la suma defunciones suaves de los regresores
E (y |x1, . . . , xk) = α+ f1(x1) + · · ·+ fk(xk)
Cuando la variable respuesta no es Normal, se generaliza todo loanterior a Modelos de Regresión (Aditivos) Generalizados.También aparecen el problema de selección de variables ycomparación de modelosTodo esto se escapa del alcance de este curso, y del software utilizado.
10 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Aleatoriedad o independencia
EjemploQueremos saber si la evolución de cierto valor es aleatoria o sigue algúnpatrón (tendencia, ciclo) que nos permita predecir las ganancias opérdidas.
Esta pregunta la podemos responder con un contraste de aleatoriedadEquivale a preguntarse si las observaciones son independientes entre síMuchos métodos no paramétricos asumen la independencia comohipótesis de trabajo.
11 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Test de aleatoriedad por Rachas
Contraste de Wald–WolfowitzTransformar los datos en una secuencia de dos símbolos, de acuerdo a suvalor, y contar el número de rachas de la muestra. Un número de rachasdemasiado alto o demasiado bajo será evidencia de una muestra noaleatoria.
++++++−−−−−− R = 2 rachas (correlación positiva)+−+−+−+−+−+− R = 12 rachas (correlación negativa)+++−−++++−−− R = 4 rachas (posiblem. independientes)
Ejemplo: variable continuaCodificar los datos como + si el valor está por encima de cierto valor,o como − si está por debajo.Si la muestra es aleatoria, se puede calcular el número aproximado deRachas que deberían observarseSe puede establecer cualquier punto de corte
12 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Test de aleatoriedad por RachasImplementación
SPSSLa variable debe ser Cuantitativa, o Nominal, con una codificaciónnuméricaSi es necesario, Transformar:Recodificación automática
Analizar:Pruebas no paramétricas:Rachas...
EjercicioRecodificar automáticamente la variable progenie enprogenie-cebada.csv
Comprobar si la muestra puede considerarse aleatoria utilizandodiversos puntos de corte
13 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Variables categóricas
Variables categóricas (o cualitativas, o factores)Aquellas que pueden tomar un número finito de valores
Ejemplos y clasificaciónNominales Grupo sanguíneo {A, B, AB, O}
Dicotómicas o binarias Sexo {H, M}; Factor RH {+, -}Ordinales Concentración {Baja, Media, Alta}; Grupo de edad {0-25,26-40, 40-60, 60+}
SPSSEs importante definir correctamente el tipo de variable en SPSS yaque los métodos disponibles dependen de elloVista de variables:Medida
14 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
EjemploCaracterísticas de una progenie
Ejemplo 1.- En un estudio sobre el cruce de variedades de cebada, seobservaron dos características: presentar 2 filas de granos (a) o no (A,dominante), y tener color verde (B, dominante) o ser planta clorótica (b).La combinación de estas características nos da cuatro posibilidades: verdessin dos filas de granos, verdes con dos filas, cloróticas sin dos filas ycloróticas con dos filas. Se recogieron datos de cruces entreheterozigóticos (AaBb), resultando:
Verde sin 2 filas 1178Verde con 2 filas 291
Clorótica sin 2 filas 273Clorótica con 2 filas 156
Total 1898
¿Se cumple la segregación normal dihíbrida con dominación completa(AaBb x AaBb –> 9 A-B- ; 3 A-bb ; 3 aaB- ; 1 aabb)?
15 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
AbstracciónBondad de ajuste de una población
Tenemos una población (la progenie de los cruces heterozigóticos)Una única variable respuesta: combinación del cruce (categórica con 4categorías).Objetivo: comprobar si se cumplen las proporciones (9/16, 3/16,3/16, 1/16).
16 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Test de bondad de ajuste
Consideremos una variable categórica con k categorías y una muestraaleatoria de N observaciones de esa variable. Las observaciones seclasifican según las k categorías y se representan en una tabla defrecuencias absolutas (O1, . . . ,Ok).Nuestro objetivo es contrastar si la proporción poblacional de cadacategoría (π1, . . . , πk) cumple unas proporciones prefijadas(p1, . . . , pk). H0: π1 = p1, . . . , πk = pk
Si la hipótesis H0 fuera cierta, las frecuencias esperadas seríanEi = Nπi .Para comparar las frecuencias observadas con las frecuenciasesperadas podemos utilizar el estadístico de contraste:
χ2s =
∑i
(Oi − Ei)2
Ei∼ χ2(k − 1)
17 / 18
Regresión no paramétrica Contraste de aleatoriedad Bondad de ajuste
Test de bondad de ajusteImplementación
SPSSLa variable debe ser Nominal, con una codificación numéricaSi no es así, utilizar Transformar:Recodificación automática
Analizar:Pruebas no paramétricas:Chi-cuadrado...
EjercicioComprobar las proporciones teóricas del banco de datosprogenie-cebada.csv
18 / 18
top related