analisis exploratorio de datos - …eio.usc.es/eipc1/base/basemaster/formularios-php...modelos de...
TRANSCRIPT
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
ANALISIS EXPLORATORIO DE DATOS
MODELOS DE REGRESION
Ana Perez [email protected]
18 de octubre de 2012
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Contenido
1 Modelos de regresion LinealModelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
2 Mınimos Cuadrados Ponderados
3 Modelos de regresion Polinomial
4 Regresion No Lineal
5 Modelos Lineales Generalizados
6 Regresion No ParametricaRegresion Tipo Kernel
7 Modelos Aditivos
8 Modelos Aditivos Generalizados
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Contenido
1 Modelos de regresion LinealModelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
2 Mınimos Cuadrados Ponderados
3 Modelos de regresion Polinomial
4 Regresion No Lineal
5 Modelos Lineales Generalizados
6 Regresion No ParametricaRegresion Tipo Kernel
7 Modelos Aditivos
8 Modelos Aditivos Generalizados
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Contenido
1 Modelos de regresion LinealModelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
2 Mınimos Cuadrados Ponderados
3 Modelos de regresion Polinomial
4 Regresion No Lineal
5 Modelos Lineales Generalizados
6 Regresion No ParametricaRegresion Tipo Kernel
7 Modelos Aditivos
8 Modelos Aditivos Generalizados
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Contenido
1 Modelos de regresion LinealModelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
2 Mınimos Cuadrados Ponderados
3 Modelos de regresion Polinomial
4 Regresion No Lineal
5 Modelos Lineales Generalizados
6 Regresion No ParametricaRegresion Tipo Kernel
7 Modelos Aditivos
8 Modelos Aditivos Generalizados
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Contenido
1 Modelos de regresion LinealModelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
2 Mınimos Cuadrados Ponderados
3 Modelos de regresion Polinomial
4 Regresion No Lineal
5 Modelos Lineales Generalizados
6 Regresion No ParametricaRegresion Tipo Kernel
7 Modelos Aditivos
8 Modelos Aditivos Generalizados
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Contenido
1 Modelos de regresion LinealModelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
2 Mınimos Cuadrados Ponderados
3 Modelos de regresion Polinomial
4 Regresion No Lineal
5 Modelos Lineales Generalizados
6 Regresion No ParametricaRegresion Tipo Kernel
7 Modelos Aditivos
8 Modelos Aditivos Generalizados
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Contenido
1 Modelos de regresion LinealModelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
2 Mınimos Cuadrados Ponderados
3 Modelos de regresion Polinomial
4 Regresion No Lineal
5 Modelos Lineales Generalizados
6 Regresion No ParametricaRegresion Tipo Kernel
7 Modelos Aditivos
8 Modelos Aditivos Generalizados
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Contenido
1 Modelos de regresion LinealModelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
2 Mınimos Cuadrados Ponderados
3 Modelos de regresion Polinomial
4 Regresion No Lineal
5 Modelos Lineales Generalizados
6 Regresion No ParametricaRegresion Tipo Kernel
7 Modelos Aditivos
8 Modelos Aditivos Generalizados
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Los modelos de regresion tratan de explicar la dependencia que existeentre una variable respuesta Y y un conjunto de variables depen-dientes X = (X1,X2, ...,Xp) , que se denominan generalmente co-mo covariables. Esta dependencia se estudia a traves de la funcionde regresion
E (Y/X = x)
En el caso de estudiar la dependencia lineal estarıamos tratandomodelos de regresion lineal. En particular, si trabajamos con unasola covariable X estarıamos en tratando un Modelo de RegresionLineal Simple.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
La formulacion del modelo de Regresion Lineal Simple es la si-guiente:
Y = β0 + β1X + ε,
donde ε es el termino de error, desconocido y que se supone quetiene media cero. Otra de las hipotesis basicas para los errores, esque tengan varianza constante(homocedasticidad), V ar (εi) = σ2
∀i.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Ejemplo (Sheather, 2009):Disponemos de una muestra que recoge el tiempo y las unidades pro-ducidas por una serie de 20 pedidos. Nos interesa analizar el tiempoen minutos (Run Time Y ) en funcion del tamano (Run Size X). Portanto tenemos una serie de pares de datos {(X1, Y1) , ..., (X20, Y20)}de las variables (X,Y ) .En primer lugar dibujamos un grafico de dis-persion:
50 100 150 200 250 300 350
160
180
200
220
240
Run Size
Run
Tim
e
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
El objetivo es buscar los parametros a y b que mejor ajustan lanube de puntos a la recta de regresion. Es decir buscamos β0, β1,de forma que Yi = β0 + β1Xi sea lo mas proximo posible a Yi. Ladiferencia entre el valor real Yi y el estimado Yi, se denomina resıduoei = Yi − Yi. Un metodo muy comun de estimar estos parametroses mediante Mınimos cuadrados, es decir, buscar los valores de β0 yβ1 que minimizen la siguiente suma de cuadrados:
n∑i=1
e2i =n∑
i=1
(Yi − Yi
)2=
n∑i=1
(Yi − β0 − β1Xi)2 .
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Realizando calculos sencillos llegamos a que el estimador de la pen-diente de la recta de regresion,β1, queda:
β1 =
n∑i=1
(Yi − Y
) (Xi −X
)n∑
i=1
(Xi −X
)2 =SXY
SXX
y la del otro parametro
β0 = Y − β1X
siendo X e Y las medias muestrales de X e Y respectivamente.Utilizando la funcion lm de R, podemos estimar el modelo de regre-sion lineal resultando:
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Call:
lm(formula = RunTime ~ RunSize)
Residuals:
Min 1Q Median 3Q Max
-28.597 -11.079 3.329 8.302 29.627
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 149.74770 8.32815 17.98 6.00e-13 ***
RunSize 0.25924 0.03714 6.98 1.61e-06 ***
---
Residual standard error: 16.25 on 18 degrees of freedom
Multiple R-squared: 0.7302, Adjusted R-squared: 0.7152
F-statistic: 48.72 on 1 and 18 DF, p-value: 1.615e-06
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
50 100 150 200 250 300 350
160
180
200
220
240
Run Size
Run
Tim
e
Figura : Grafico de dispersion ajustado por la recta de regresion.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Los resıduos, ei = Yi− Yi, pueden utilizarse para estimar la varianzade los errores, σ2 :
S2 =
n∑i=1
e2i
n− 2
Para hacer inferencias sobre el modelo de regresion, es necesariosuponer las siguientes hipotesis:
Los errores, εi, son independientes.
Homocedasticidad en los erroes.
Los errores siguen una distribucion normal de media cero yvarianza σ2.
Bajo estas hipotesis, podemos obtener la distribucion asintotica delos parametros de manera que podamos calcular intervalos de con-fianza y realizar contrastes de hipotesis sobre los mismos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
T1 =β1 − β1
st(β1)=
β1 − β1√S2/SXX
˜tn−2
T0 =β0 − β0
st(β0)
β0 − β0
S
√1n+
(X
2/SXX
)˜tn−2
donde st(β1) y st(β0) son las desviaciones estandar estimadas.En nuestro ejemploT1 =6.98 y st(β1) =0.03714T0 =17.98 st(β0) =8.32815
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Los p-valores que aparecen en la salida corresponden a los siguientescontrastes:H0 : β0 = 0H1 : β0 �= 0 El p-valor es 6.00e-13 , por lo que rechazamos lahipotesis nula.yH0 : β1 = 0H1 : β1 �= 0 El p-valor es 1.61e-06 , por lo que rechazamos lahipotesis nula.Este ultimo contraste sugiere una clara relacion lineal entre las va-riables.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Coeficiente de correlacion La funcion de R, cor, calcula el coefi-ciente de correlacion lineal entre un par de variables:
r =
n∑i=1
(Yi − Y
) (Xi −X
)√
n∑i=1
(Xi −X
)2 n∑i=1
(Yi − Y
)2Toma valores entre -1 y 1. Cuanto mas proximo sea a 0, menorsera la dependencia lineal entre las dos variables. Cuanto mas seaproxime a 1 o -1, mayor sera la dependencia lineal, creciente en elcaso de r > 0 y decreciente en el caso r < 0.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Prediccion El objetivo del analisis de regresion no es solamentela estimacion de la funcion de regresion, sino tambien la predic-cion de nuevos valores a partir de la funcion de regresion esti-mada. Dado un valor x0, el valor esperado de la variable Y , esy0 = E (Y/X = x0) = β0 + β1x0.Utilizando las hipotesis anteriores podemos obtener la distribucionaistotica de la prediccion de un valor:Sea Y0 = β0 + β1x0 + ε0,
T =Y0 − y0
st(β0)=
Y0 − y0
S
√1 + 1
n+((
x0 −X)2
/SXX
) ≈ tn−2
Lo que nos permite calcular Intervalos de Confianza para las predic-ciones.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
ANALISIS DE LA VARIANZA
Podemos obtener una descomposicion de la variabilidad de la forman∑
i=1
(Yi − Y
)2=
n∑i=1
(Yi − Y
)2+
n∑i=1
(Yi − Yi
)2
Variabilidad Total=Variabilidad explicada+Variabilidad no Explica-daPodemos utilizar esta descomposicion para realizar el test:H0 : β1 = 0H1 : β1 �= 0El estadıstico F:
F =
n∑i=1
(Yi − Y
)2/1
n∑i=1
(Yi − Yi
)2/n − 2
˜F1,n−2
Utilizando R podemos realizar la Tabla Anova del ejemplo anterior:Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
En el caso de regresion lineal simple, el Test de Analisis de la va-rianza y el test que realizabamos anteriormente sobre la pendientede la recta de regresion son equivalentes. Esto no ocurre para otrosmodelos o simplemente cuando tenemos mas de una covariable.Coeficiente de Determinacion: R2
Se define como la proporcion de varianza explicada.
R2 =Varianza Explicada
Variabilidad Total=
n∑i=1
(Yi − Y
)2
n∑i=1
(Yi − Y
)2Toma valores entre 0 y 1. Cuanto mas se aproxime al 1, mayor de-pendencia lineal entre las variables. En el caso particular de regresionlineal simple se verifica R2 = r2.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Calculo con el R de la tabla ANOVA, COEFICIENTE DE CO-RRELACION E INTERVALOS DE CONFIANZA PARA LOSPARAMETROS DEL MODELO
> anova(m1)
TABLA DE ANALISIS DE LA VARIANZA
Response: RunTime
Df Sum Sq Mean Sq F value Pr(>F)
RunSize 1 12868.4 12868.4 48.717 1.615e-06 ***
Residuals 18 4754.6 264.1
> cor(production$RunSize,production$RunTime)
[1] 0.8545206 COEFICIENTE DE CORRELACION
> confint(m1, level=0.95) INTERVALOS DE CONFIANZA AL 95%
2.5 % 97.5 %
(Intercept) 132.2509062 167.2444999
RunSize 0.1812107 0.3372755
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Estimaciones para EL VALOR MEDIO de la variable respuestay su intervalo de confianza en un nuevo punto x0
> predict(m1,newdata=data.frame(RunSize=c(50,100)),interval="confidence",level=0.95)
fit lwr upr
1 162.7099 148.6204 176.7994
2 175.6720 164.6568 186.6872
Estimaciones para la PREDICCION de la variable respuesta ysu intervalo de confianza en un nuevo punto x0
> predict(m1,newdata=data.frame(RunSize=c(50,100)),interval="prediction",level=0.95)
fit lwr upr
1 162.7099 125.772 199.6478
2 175.6720 139.794 211.5500
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
50 100 150 200 250 300 350
150
200
250
Size
pred
icte
d
Figura : Intervalos de confianza para el valor medio y la prediccion delmodelo lineal de regresion
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
DIAGNOSIS DEL MODELO Nuestro ojetivo ahora es ver si elmodelo de regresion verifica las hipotesis basicas para que sea validoy que podemos hacer cuando se viola alguna de las hipotesis basicasdel modelo como la normalidad, homocedasticidad o la independen-cia.
En el siguiente ejemplo se plantean 4 modelos de regresion linealsimple. A vista del grafico de dispersion, parece que el primero es elunico que verifica las hipotesis del modelo. El segundo parece queajustarıa mejor un polinomio de grado dos que una recta real, eltercero parece tener un dato atıpico(outlyer) y finalmente el 4, lapendiente de la recta de regresion esta fijada por un unico puntoaislado con un valor de x muy grande.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
5 10 15 20
46
810
1214
Data Set 1
x1
y1
5 10 15 20
46
810
1214
Data Set 2
x2
y2
5 10 15 20
46
810
1214
Data Set 3
x3
y3
5 10 15 20
46
810
1214
Data Set 4
x4
y4
Figura : Graficos de 4 conjuntos de datos
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Una de las herramientas claves para analizar la validez del modelode regresion son los Residuos.Si dibujamos los resıduos (ei = Yi− Yi)de las regresiones anteriores,podemos observar que en el caso 1, los residuos no siguen ningunatendencia, algo que sı ocurre en los otros casos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
5 10 15 20
−3−1
01
23
Data Set 1
x1
Res
idua
ls
5 10 15 20
−3−1
01
23
Data Set 2
x2
Res
idua
ls
5 10 15 20
−3−1
01
23
Data Set 3
x3
Res
idua
ls
5 10 15 20
−3−1
01
23
Data Set 4
x4
Res
idua
ls
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Puntos de alto peso (Leverage Points) Son puntos que pueden in-fluir considerablemente en el modelo estimado. Esto hace que suinfluencia pueda ser buena o mala.Ejemplo: Consideramos un conjunto de datos, donde uno de los pun-tos es un ”LeveragePoint”. El ejemplo esta adaptado para observartanto el bueno como el malo ”leverage point”.¿Como detectar un punto ”leverage¿
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
En el siguiente ejemplo tenemos dos conjuntos de datos iguales salvopor una observacion. Veremos como puede afectar dicha observacional ajuste lineal.
−4 0 2 4 6 8 10
−10
−50
x
YB
ad
−4 0 2 4 6 8 10
−10
−50
x
YG
ood
Fi P d l lAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
lm(formula = YBad ~ x)
Residuals:
1 2 3 4 5 6
2.0858 0.4173 -0.2713 -1.5898 -1.3883 0.7463
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.06833 0.63279 0.108 0.919
x -0.08146 0.13595 -0.599 0.581
Residual standard error: 1.55 on 4 degrees of freedom
Multiple R-squared: 0.08237, Adjusted R-squared: -0.147
F-statistic: 0.3591 on 1 and 4 DF, p-value: 0.5813
lm(formula = YGood ~ x)
Residuals:
1 2 3 4 5 6
0.47813 -0.31349 -0.12510 -0.56672 0.51167 0.01551
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.83167 0.19640 -9.326 0.000736 ***
x -0.95838 0.04219 -22.714 2.23e-05 ***
---
Residual standard error: 0.4811 on 4 degrees of freedom
Multiple R-squared: 0.9923, Adjusted R-squared: 0.9904
F-statistic: 515.9 on 1 and 4 DF, p-value: 2.225e-05Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Graficamente ya se observa las diferencias en el ajuste de ambosconjuntos de datos. Pero al ver el summary de los modelos estimadoslas diferencias son aun mas avismales.Observar el cambio sustancial en el R cuadrado, ası como en elp-valor del estadıstico del F-test.Podemos observar que la observacion que difiere en los dos conjuntosde datos influye sustancialmente en el ajuste.A continuacion comentaremos algunas medidas de influencia de lasobservaciones y podremos ver como de grande es esta medida paraesta observacion,si la comparamos con las otras observaciones.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Sea
hi =1
n+
(Xi −X
)2n∑
j=1
(Xj −X
)2un metodo clasico es clasificar Xi como punto de alto peso si
hi > 2 ∗ average(hi) = 4
n
En el ejemplo anterior, teniendo en cuenta que n=6, 4n
= 0,67,podemos calcular con la funcion lm.influence,el valor de hi paracada dato. Podemos observar que para el punto 6 la influencia esmuy superior a 0.67 en ambos casos tanto en el bueno como en elmalo.> lm.influence(mBad)$hat
1 2 3 4 5 6
0.2897436 0.2358974 0.1974359 0.1743590 0.1666667 0.9358974
> lm.influence(mGood)$hat
1 2 3 4 5 6Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Si observamos que un dato influye sustancialmente en lel modelo deregresion, tenemos dos opciones:
Eliminar ese dato si observamos que esos datos son daninos yla estimacion que nos sale no es correcta.
Probar a proximar un modelo de regresion diferente, porejemplo un modelo polinomico.
Uno de los problemas al trabajar con los residuos es que tiene unavarianza dada por V ar (ei) = σ2 [1− hi] .Esto puede causar un problema cuando hi se aproxima a 1. Por ellose trabaja generalmente con los residuos estandarizados
ri =ei
s√1− hi
En la practica se clasifica como outlyer a aquellos datos cuyo residuoestandarizado esta fuera del intervalo [−2, 2] .
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Un Mal Leverage Point es aquel Leverage Point cuyo resıduo estan-darizado esta fuera del intervalo [−2, 2] .
−4 0 2 4 6 8 10
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
x
Sta
nRes
Bad
−4 0 2 4 6 8 10
−1.0
−0.5
0.0
0.5
1.0
x
Sta
nRes
Goo
d
Figura : Graficos de los resıduos estandarizadosAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Cook(1977) propuso un coeficiente para medir la influencia indivi-dual de los casos. En el caso de regresion lineal simple viene dadopor:
Di =r2i2
hi1− hi
.
Varios autores recomiendan que si este valor excede 4n−2 , se estudie
el dato puesto que es susceptible a ser outlyer.Este estadıstico se puede calcular utilizando la funcion R de co-oks.distance
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
−4 0 2 4 6 8 10
05
1015
2025
x
Coo
k’s
Dis
tanc
e B
Ad
−4 0 2 4 6 8 10
0.00
0.05
0.10
0.15
0.20
0.25
x
Coo
k’s
Dis
tanc
e G
ood
Figura : Graficos de Estadıstico de la Distancia de Cook
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
El siguiente grafico combina los valores hat, los residuos estudenti-zados y la distancia de Cook. Las areas de los cırculos son propor-cionales a la distancia de Cook. El valor del parametro id.n poneetiquetas a aquellas observaciones con mayores resıduos estudenti-zados, valores hat o distancia de Cook.> influencePlot(mBad, id.n=3)
StudRes Hat CookD
1 2.296384 0.2897436 0.7211363
2 0.269935 0.2358974 0.1210008
4 -1.184181 0.1743590 0.3667927
6 5.316953 0.9358974 5.1379560
0.2 0.4 0.6 0.8
−10
12
34
5
Hat−Values
Stu
dent
ized
Res
idua
ls
1
2
4
6
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Normalidad de los Errores Otra de las hipotesis que utilizamosen los modelos de regresion es la normalidad de los errores. Exis-ten varias pruebas no Parametricas de Normalidad como el Test deShapiro Wilks(shapiro.test).
> shapiro.test(m1$residuals)
Shapiro-Wilk normality test
data: m1$residuals
W = 0.9771, p-value = 0.8917
Utilizar la funcion qqnorm() sobre los resıduos es un buen metodografico de testear la normalidad. Si utilizamos la funcion plot delobjeto que contine la regresion, obtenemos los siguientes graficos delos resıduos:
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
180 200 220 240
−30
−10
1030
Fitted values
Res
idua
ls
Residuals vs Fitted
9
810
−2 −1 0 1 2
−10
12
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q−Q
9
810
180 200 220 240
0.0
0.4
0.8
1.2
Fitted values
Sta
ndar
dize
d re
sidu
als
Scale−Location98
10
0.00 0.05 0.10 0.15
−2−1
01
2
Leverage
Sta
ndar
dize
d re
sidu
als
Cook’s distance0.5
0.5Residuals vs Leverage
9
1710
Figura : Grafico del analisis de regresion
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Homocedasticidad
Otra de las hipotesis que establecemos en el modelo de regresionsimple es la varianza constante de los errores.Graficamente se puede observar en los graficos de los resıduos, vien-do que no varıa la dispersion de los mismos.
50 100 150 200 250 300 350
12
34
5
Squ
are
Roo
t(|S
tand
ardi
zed
Res
idua
ls|)
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Varios autores recomiendan observar el grafico de la raiz del valorabsoluto los resıduos estandarizados frente a X. Si aproximamos esediagrama de dispersion por un modelo de regresion lineal y nos saleque tiene pendiente no nula, eso evidencia que no hay homocedas-ticidad en los errores. Cuando la varianza no es constante, existentransformaciones para estabilizarla como por ejemplo
√y, log (y) .
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Hemos visto en los modelos de regresion ejemplos donde es nece-sario realizar transformaciones de los datos para poder aplicar losmetodos deseados. Por ejemplo para la normalidad, simetrıa, homo-cedasticidad, etc.Existen una serie de transformaciones de los datos que permitenobtener caracterısticas deseables de los mismos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Logaritmos Los logaritmos son unas transformaciones muy simplespero a la vez muy importantes que podemos aplicar a variables po-sitivas. Bien sea el logaritmo en base e, en base 10, 2, o en otrasbases. Recordemos que los logaritmos en diferentes bases se obtienenmediante la multiplicacion de una constante. VEamos un ejemplo:El archivo ORnstein.txt tiene datos las corporaciones mas grandes deCanada. La variable assets que contiene los activos, tiene la siguientefuncion de densidad
0 50000 100000 150000
0.00
000
0.00
005
0.00
010
0.00
015
0.00
020
0.00
025
(Datos originales)
assets
Den
sity
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Si aplicamos la transformacion de logaritmos a los datos podemosver como desaparece la asimetrıa. Tambien observamos que la formade las densidades es semejante, aunque la escala es muy distinta.
2 3 4 5
0.0
0.1
0.2
0.3
0.4
0.5
0.6
(LOG10)
base−10 log of assets
Den
sity
5 10 15
0.00
0.05
0.10
0.15
0.20
(LOG2)
base−10 log of assets
Den
sity
4 6 8 10 12
0.00
0.05
0.10
0.15
0.20
0.25
(LOG NATURAL)
base−10 log of assets
Den
sity
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Si ahora fijamos los ejes y, vemos que las estimaciones son clara-mente distintas.
2 3 4 5
0.0
0.2
0.4
0.6
0.8
(LOG10)
base−10 log of assets
Den
sity
5 10 15
0.0
0.2
0.4
0.6
0.8
(LOG2)
base−10 log of assets
Den
sity
4 6 8 10 12
0.0
0.2
0.4
0.6
0.8
(LOG NATURAL)
base−10 log of assets
Den
sity
Los logaritmos tienen la capacidad de dispersar valores que estanmuy juntos y de ��comprimir�� valores muy dispersos De este modo
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Cuando trabajamos con dos varibles y queremos ver su grafico dedispersion, la funcion scatterplot tiene una opcion vara ver los da-tos en escala logaritmica. En el arhivo de datos UN, del paquetencar, conitene la tasa de mortalidad infantil por el producto interiorbruto(gdp)
0 10000 20000 30000 40000
050
100
150
Escala Original
PRod. Int. BRuto
Tasa
Mor
talid
ad In
fant
il
SwitzerlandJapan
Sierra.Leone
Luxembourg
50 100 200 500 1000 2000 5000 10000 20000 50000
25
1020
5010
020
0
(Escala Logarítmica)
PRod. Int. BRuto
Tasa
Mor
talid
ad In
fant
il
Tonga
Iraq
Afghanistan
Bosnia
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Transformaciones Potencia Definimos ��power transformations�� alas transformaciones del tipo xλ, donde x puede ser tanto la veria-ble respuesta como una predictora. Si consideramos las transforma-ciones sobre una covariable, se puede confundir la transformacionpor potencia con la regresion polinomial, pero la diferencia radicaen que este tipo de transformaciones son utiles generalmente en elrango[−2, 3].
Si tomamos λ = −1 tenemos la transformacion inversa. Porejemplo si x es el tiempo que tarda en realizarse un evento,x−1 representa la velocidad a la que se realizo el evento.
La potencia λ = 1/3 puede servir para convertir medidasvolumen en medidas lineales. Y al reves λ = 3 perite convertiruna medida lineal en una medida volumen.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
La familia de transformaciones de Box-Cox es una de las transfor-maciones por potencia mas conocidas. Generalmente se utiliza paratransformar la respuesta del modelo de regresion lineal. Esta di-senado para variables estrictamente positivas y busca la transforma-cion que mejor se ajusta a los datos. La familia de transformacionesviene parametrizada por un parametroλ
gλ =
⎧⎨⎩yλ−1
λsi λ�=0
log(y) si λ = 0
El metodo consiste en elegir λ de modo que maximize la verosimili-tud.En R se necesita la librerıa MASS y la funcion boxcox para utilizarel metodo
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Aplicandolo en el ejemplo anteriorlibrary(MASS)
production <- read.table("production.txt",header=TRUE)
attach(production)
m1 <- lm(RunTime~RunSize)
boxcox(m1,plotit=T)
boxcox(m1,plotit=T,lambda=seq(1,2,by=0.05))
−2 −1 0 1 2
−88
−87
−86
−85
λ
log−
Like
lihoo
d
95%
1.0 1.2 1.4 1.6 1.8 2.0
−86.
5−8
6.0
−85.
5−8
5.0
λ
log−
Like
lihoo
d
95%
Vemos que el valor de λ esta proximo a 1, por lo tanto no hay unarazon muy fuerte para realizar la transformacion.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
La funcion powerTransfor, indica numericamente resultados similaresa los obtenidos por la funcion boxcox
> summary(p1<-powerTransform(m1))
bcPower Transformation to Normality
Est.Power Std.Err. Wald Lower Bound Wald Upper Bound
Y1 1.3561 1.2038 -1.0034 3.7156
Likelihood ratio tests about transformation parameters
LRT df pval
LR test, lambda = (0) 1.26939593 1 0.2598800
LR test, lambda = (1) 0.08769953 1 0.7671224
λ = 1,35 con el intervalo de confianza para esta estimacion entre-1.0034 y 3.7156. La estimacion puede utilizarse mediante la funcion
y1<-bcPower(RunTime,coef(p1,round=TRUE))
Ver ejemplo simulado en archivo txt.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Transformaciones de Variables con Rango acotado En algunoscasos las variables con rango acotado necesitan diferentes transfor-maciones, como los porcentajes o las proporciones.
La transformacion T (x) = sin−1 (√x) se utiliza muchas
veces para proporciones.Para calcularla se utiliza la funcionasin(sqrt(X)). Si tenemos una muestra de una binomial, y ladividimos por el parametro n de la binomial, la distribucionfinal tiene una desviacion tıpica que dependen del parametro pde la binomial, con esta transformacion, la muestratransformada tendra una desv. tıpica de 0,5 (x)
√n mas
estable frente a p.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Otra transformacion de valores en el intervalo (0, 1) la logit
T (x) = log(
x1−x
). Sirve para linealizar los valores, reasigna
los valores que estan entre cero y uno en intervalos masamplios, de manera que podamos aplicar tecnicas como laregresion a estos nuevos valores transformados.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Regresion Lineal Multiple
En este caso se supone que disponemos de mas de una covariableque se relaciona con la variable respuesta mediante un modelo lineal.La formulacion del modelo es la siguiente:
Yi = β0 + β1X1,i + ...+ βpXp,i + εi, i = 1, ..., n
matricialmenteY = βX+ ε,
donde Yt = (Yi, ..., Yn) , ε
t = (εi, ..., εn) , βt=(β0, ..., βp) y
X =
⎛⎝ 1 X1,1 · · · Xp,1
· · · · · · · · · · · ·1 X1,n · · · Xp,n
⎞⎠Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Se supone que los errores siguen una Distribucion Normal N(0, σ2I
),
donde I es la matriz identidad.Utilizando mınimos cuadrados o el metodo de maxima verosimilitudpodemos obtener una estimacion para el vector de parametros β.Tambien se obtiene una descomposicion de la variabilidad total envariabilidad explicada por el modelo y variabilidad no explicada. Estonos permite calcular al tabla ANOVA asocida a este modelo. En estecaso el F-TEst de la tabla ANOVA realiza el siguiente contraste:H0 : β1 = β2 = ... = βp = 0 H1 : Hay al menos uno distinto decero.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
El coeficiente de Determinacion del modelo de regresion lineal sedefine como la proporcion de variabilidad total que es explicada porel modelo.
R2 =V ar Explicada
V ar Total= 1− V ar Error
V ar Total
En el caso de regresion lineal multiple, es adecuado ajustar por elnumero de covariables que aparecen en el modelo:
R2adj = 1−
V ar Error 1n−p−1
V ar Total 1n−1
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
EJEMPLO: ARchivo de datos nyc.csv
m1 <- lm(Price~Food+Decor+Service)
summary(m1)
Call:
lm(formula = Price ~ Food + Decor + Service)
Residuals:
Min 1Q Median 3Q Max
-14.8440 -3.7039 -0.1525 3.6218 19.0576
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -24.6409 4.7536 -5.184 6.33e-07 ***
Food 1.5556 0.3731 4.170 4.93e-05 ***
Decor 1.8473 0.2176 8.491 1.17e-14 ***
Service 0.1350 0.3957 0.341 0.733
---
Residual standard error: 5.803 on 164 degrees of freedom
Multiple R-squared: 0.617, Adjusted R-squared: 0.61
F-statistic: 88.06 on 3 and 164 DF, p-value: < 2.2e-16
Los coeficientes son interpretados del siguiente modo, b1=1.5556indica que manteniendo fijos los valores de las restantes variables, elincremento medio de la variable respuesta de este modelo(Precio)al aumentar una unidad Food es de 1.55
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
> anova(m1)
Analysis of Variance Table
Response: Price
Df Sum Sq Mean Sq F value Pr(>F)
Food 1 5670.3 5670.3 168.3552 <2e-16 ***
Decor 1 3223.7 3223.7 95.7130 <2e-16 ***
Service 1 3.9 3.9 0.1165 0.7333
Residuals 164 5523.6 33.7
Aquı se realiza un contraste secuencial:
1o Price ∼ cte versus Price∼Cte+Food
2o Price∼cte+Food versus Price∼cte+Food+Decor
3o Price∼cte+Food+Decor versusPrice∼cte+Food+Decor+Service
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Otros contrastes distintos son los que realiza la funcion Anova
Anova Table (Type II tests)
Response: Price
Sum Sq Df F value Pr(>F)
Food 585.5 1 17.3849 4.933e-05 ***
Decor 2428.5 1 72.1037 1.171e-14 ***
Service 3.9 1 0.1165 0.7333
Residuals 5523.6 164
Aquı se realiza un contraste secuencial:
1o Price∼cte+Decor+Service versusPrice∼cte+Food+Decor+Service
2o Price∼cte+Food+Service versusPrice∼cte+Food+Decor+Service
3o Price∼cte+Food+Decor versusPrice∼cte+Food+Decor+Service
Se contrasta el efecto principal de cada una de las predictorasAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Food
10 15 20 25
1618
2022
24
1015
2025
Decor
16 18 20 22 24 14 16 18 20 22 24
1416
1820
2224
Service
Figura : Diagrama de Dispersion de un modelo de Reg. Multiple
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
20 30 40 50 60
−10
010
20
Fitted values
Res
idua
ls
Residuals vs Fitted
5630
130
−2 −1 0 1 2
−2−1
01
23
4
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q−Q
5630
130
20 30 40 50 60
0.0
0.5
1.0
1.5
Fitted values
Sta
ndar
dize
d re
sidu
als
Scale−Location56
30130
0.00 0.05 0.10 0.15 0.20
−3−1
01
23
4
Leverage
Sta
ndar
dize
d re
sidu
als
Cook’s distance 0.5
0.5
1Residuals vs Leverage
130
56
83
Figura : Grafico del analisis de regresion multiple
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Estes contrastes tambien se pueden realizar comparando los dosmodelos de regresion:
> m1 <- lm(Price~Food+Decor+Service)
> m2 <- lm(Price~Food+Decor)
> anova(m2,m1)
Analysis of Variance Table
Model 1: Price ~ Food + Decor
Model 2: Price ~ Food + Decor + Service
Res.Df RSS Df Sum of Sq F Pr(>F)
1 165 5527.5
2 164 5523.6 1 3.9239 0.1165 0.7333
Estos resultados estan condicionados al resto de covariables. Con-siderando un modelo con covariables distintas, el p-valor asociadosaldrıa distinto.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Seleccion de Variables
A continuacion veremos algunos metodos para seleccionar aquellasvariables mas significativas de un modelo de regresion lineal multiple.
R2 ajustado: consite en elegir el subconjunto de covariblescuyo coeficiente de Determinacion ajustado sea el mas alto.
Utilizar el criterio de informacion de Akaike. AIC. Utilizandoresultdos de maxima verosimilitud se puede ver que
AIC = n log
(RSS
n
)+ 2p
siendo RSS la Suma residual de cuadrados. Se elegirıa elmodelo que minimiza esta cantidad.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Criterio de informacion de Akaike corregido. AICc. Estaversion introduce una correccion del sesgo para su uso en elcaso de que el tamano muestral sea pequeno con respecto alnumero de parametros.
AICc = AIC +2 (p+ 2) (p+ 3)
n− p− 1
Criterio de Informacion BAyesiana (BIC). Schwarz(1978)propuso el criterio de informacion bayesiana como
BIC = −2 log(L(β0, β1, ..., βp/Y
)+ (p+ 2) log (n)
Aquel modelo que minimize este valor sera el mejor.
A la hora de escoger las posibles variables predictoras tenemos dosmetodos distintos: evaluar todos los posibles subconjuntos o meto-dos por pasos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Ejemplo> m1 <- lm(Price~Food+Decor+Service)
> step(m1)
Start: AIC=594.79
Price ~ Food + Decor + Service
Df Sum of Sq RSS AIC
- Service 1 3.92 5527.5 592.91
<none> 5523.6 594.79
- Food 1 585.53 6109.2 609.72
- Decor 1 2428.50 7952.1 654.01
Step: AIC=592.91
Price ~ Food + Decor
Df Sum of Sq RSS AIC
<none> 5527.5 592.91
- Food 1 1327.2 6854.7 627.07
- Decor 1 3223.7 8751.2 668.10
Call:
lm(formula = Price ~ Food + Decor)
Coefficients:
(Intercept) Food Decor
-24.500 1.646 1.882
Primera etapa saca la covariable Service que tenıa un p-valor delestadıstico mas grande(0.733)(ver en summary(m1)) En la segundaetapa, vemos que ninguna de las dos covariables reduce el valor delcriterio AIC(592 91) por lo tanto quedan las variables Food y DecorAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
SE puede escoger el metodo de seleccion de variables hacia adelanteo ambos. Pueden salir resultados ligeramente distintos. Se buscarıaaquel modelo con menor valor del AIC
> step(m1, direction="forward")
Start: AIC=594.79
Price ~ Food + Decor + Service
Call:
lm(formula = Price ~ Food + Decor + Service)
Coefficients:
(Intercept) Food Decor Service
-24.641 1.556 1.847 0.135
o tambien step(m1, direction=”both”)Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Colinealidad
En el caso de regresion lineal multiple, nos podemos encontrar quela matriz XtX necesaria para la estimacion de los parametros delmodelo de regresion es singular.Por lo tanto no es invertible y causa problemas a la hora de estimarlos parametros.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
La Colinealidad o Multicolinealidad puede ser detectada de variasformas:
Examinar la matriz de correlaciones de las variablespredictoras que tendra grandes valores.Calcular las regresiones de cada variable Xi sobre el resto dede las variables predictoras. Calcular el coeficiente deDeterminacion. Aquellos que tengan valores cercanos a uno,indican problemasde colinealidad asociados a dichacombinacion lineal.Calcular los autovalores de la matriz XtX, Valores pequenosindican un prolema. La cantidad
κ =
√λ1
λp
Se define ”the condition number 2valores mayores que 30 sonconsiderados como grandesAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
> a1
[,1] [,2] [,3]
[1,] 1.0000000 0.5039161 0.7945248
[2,] 0.5039161 1.0000000 0.6453306
[3,] 0.7945248 0.6453306 1.0000000
> a<-matrix(c(Food, Decor, Service), ncol=3)
> a2<-eigen(t(a)%*%a).
Error: inesperado sımbolo en "a2<-eigen(t(a)%*%a)."
> a2<-eigen(t(a)%*%a)
> a2$val
[1] 188975.9315 568.1047 134.9639
> sqrt(a2$val[1]/a2$val)
[1] 1.0000 18.2385 37.4192
> vif(m1)
Food Decor Service
2.712989 1.714273 3.468564
El tercer autovalor es mayor que 30, puede haber colinealidad. Elfactor de inflaccion de la varianza toma valores pequenos(menoresque 5), por lo que indica que la varianza de esas covariables noinfluye sustancialmente en la estimacion del error standard en losparametros del modelo de regresion.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Modelos con predictores Numericos y Factores En la librerıacar nos podemos encontrar con el archivo de datos Prestige.
> head(Prestige)
education income women prestige census type
gov.administrators 13.11 12351 11.16 68.8 1113 prof
general.managers 12.26 25879 4.02 69.1 1130 prof
accountants 12.77 9271 15.70 63.4 1171 prof
...
> summary(Prestige$type)
bc prof wc NA’s
44 31 23 4
donde type es una variable factor. si analizamos el siguiente modelo
prestige.mod <- lm(prestige ~ education + log2(income) + ty
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Si estimamos el modelo de regresion lineal con factores pero sininteraccion
> summary(prestige.mod)
Call:
lm(formula = prestige ~ education + log2(income) + type, data = Prestige)
Residuals:
Min 1Q Median 3Q Max
-13.511 -3.746 1.011 4.356 18.438
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -81.2019 13.7431 -5.909 5.63e-08 ***
education 3.2845 0.6081 5.401 5.06e-07 ***
log2(income) 7.2694 1.1900 6.109 2.31e-08 ***
typeprof 6.7509 3.6185 1.866 0.0652 .
typewc -1.4394 2.3780 -0.605 0.5465
---
Residual standard error: 6.637 on 93 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.8555, Adjusted R-squared: 0.8493
F-statistic: 137.6 on 4 and 93 DF, p-value: < 2.2e-16
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
Si estimamos el modelo de regresion lineal con factores pero CONinteraccion
> prestige.mod2 <- lm(prestige ~ education + type+ education:type,data=Prestige)
> summary(prestige.mod2)
Call:
lm(formula = prestige ~ education + type + education:type, data = Prestige)
Residuals:
Min 1Q Median 3Q Max
-19.7095 -5.3938 0.8125 5.3968 16.1411
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.2936 8.6470 -0.497 0.621
education 4.7637 1.0247 4.649 1.11e-05 ***
typeprof 18.8637 16.8881 1.117 0.267
typewc -24.3833 21.7777 -1.120 0.266
education:typeprof -0.9808 1.4495 -0.677 0.500
education:typewc 1.6709 2.0777 0.804 0.423
Residual standard error: 7.827 on 92 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.8012, Adjusted R-squared: 0.7904
F-statistic: 74.14 on 5 and 92 DF, p-value: < 2.2e-16
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple
El termino independiente para el nivel bc es -4.293. Lapendiente de la variable educacion para ese nivel es 4.763.
Para el nivel prof, la constante es -4.2936+18.8637. Lapendiente de educacion para ese nivel es 4.7637-0.9808.
Para el nivel wc, la constante es -4.2936-24.3833. Lapendiente de educacion para ese nivel es 4.7637+1.6709.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Mınimos Cuadrados Ponderados En algunos casos tenemos queintroducir pesos en el modelo de regresion para obtener una estima-cion adecuada. Por ejemplo cuando la varianza no es constante.
Y = Xβ + ε
donde ε N (0,Σ) con Σ = σ2
{1
w2
1,..., 1
w2n
}Los estimadores de maxi-
ma verosimilitud de los parametros son:
β =(XtWX
)−1XtWY
y
σ2 =
∑wi (Yi −Xβ)2
n
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Algunos ejemplos:
errores con varianza dependiendo del valor de la covariableV ar (ε) ∝ xCuando la variable respuesta Yi es promedio de un numero deobservaciones mi, la varianza puede depender de ese numerode observaciones V ar (εi) ∝ mi
En el siguiente ejemplo aplicamos mınimos cuadrados ponderados.El peso es igual al inverso de la desviacion tıpica cuya estimacion esproporcionada en el archivo de datos. El archivo de datos es:> strongx<-read.table("strongx.txt", header=T,sep="")
> strongx
momentum energy crossx sd
1 4 0.345 367 17
2 6 0.287 311 9
3 8 0.251 295 9
4 10 0.225 268 7
5 12 0.207 253 7
6 15 0.186 239 6
7 20 0.161 220 6
8 30 0.132 213 6
9 75 0.084 193 5
10 150 0.060 192 5Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Aplicando Mınimos cuadrados Ponderados
> g <- lm(crossx~energy, strongx, weights=sd^-2)
> summary(g)
Call:
lm(formula = crossx ~ energy, data = strongx, weights = sd^-2)
Residuals:
Min 1Q Median 3Q Max
-2.323e+00 -8.842e-01 1.266e-06 1.390e+00 2.335e+00
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 148.473 8.079 18.38 7.91e-08 ***
energy 530.835 47.550 11.16 3.71e-06 ***
---
Residual standard error: 1.657 on 8 degrees of freedom
Multiple R-squared: 0.9397, Adjusted R-squared: 0.9321
F-statistic: 124.6 on 1 and 8 DF, p-value: 3.710e-06
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Aplicando Mınimos cuadrados Ordinarios
> gu <- lm(crossx ~ energy, strongx)
> summary(gu)
Call:
lm(formula = crossx ~ energy, data = strongx)
Residuals:
Min 1Q Median 3Q Max
-14.773 -9.319 -2.829 5.571 19.818
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 135.00 10.08 13.40 9.21e-07 ***
energy 619.71 47.68 13.00 1.16e-06 ***
---
Residual standard error: 12.69 on 8 degrees of freedom
Multiple R-squared: 0.9548, Adjusted R-squared: 0.9491
F-statistic: 168.9 on 1 and 8 DF, p-value: 1.165e-06
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Comparando ambas estimaciones> plot(crossx ~ energy, data=strongx)
> abline(g)
> abline(gu,lty=2)
0.05 0.10 0.15 0.20 0.25 0.30 0.35
200
250
300
350
energy
cros
sx
Figura : Comparacion de Mınimos Cuadrados Ordinarios y PonderadosAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos de regresion Polinomial En algunos casos para lograr unbuen ajuste del modelo de regresion es necesario utilizar terminospolinomicos. Por ejemplo, si trabajamos con una sola covariable, elmodelo polinomico de grado p, podrıamos escribirlo como:
Y = β0 + β1X + β2X2 + ...+ βpX
p + ε,
Para el analisis de este modelo se utiliza la metodologıa de modelosde regresion lineal multiple considerando
Xj = Xj
Dada esta construccion de las covariables es probable que existanproblemas de colinealidad. Para disminuir los efectos se puede tra-bajar con variables centradas y considerar
Y = β0 + β1(X − X
)+ β2
(X − X
)2+ ...+ βp
(X − X
)p+ ε,
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
El siguiente ejemplo modeliza el salario en funcion de los anos deexperiencia
0 5 10 15 20 25 30 35
4050
6070
Years of Experience
Sal
ary
Figura : Grafico del analisis de regresion polinomica
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Veamos como quedan los residuos al aproximarlo por un modelo deregresion lineal(DERECHA) y cuadratico(IZQUIERDA)
m1 <- lm(Salary~Experience)
m2 <- lm(Salary~Experience + I(Experience^2))
0 5 10 15 20 25 30 35
−2−1
01
Years of Experience
Sta
ndar
dize
d R
esid
uals
(a) Lineal
0 5 10 15 20 25 30 35
−10
12
Years of Experience
Sta
ndar
dize
d R
esid
uals
(b) Cuadratico
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
REGRESION NO LINEAL
Como ya hemos comentado aneriormente,no siempre una funcionlineal expresa del mejor modo posible la relacion entre una variabledependiente y un conjunto de covariables. En algunas ocasiones larelacion existente es No lineal, como por ejemplo:
Y = a+ b1
x+ ε
Y = a+ b ∗ log (x) + ε
Y = b ∗ xa + ε
En general, para un modelo de regresion simple
Y = a+ b ∗ g (x) + ε
donde g es una funcion especificadaAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Para obtener la estimacion de estos parametros a veces se recurre atransformaciones como logaritmos, etc y aproximar metodos comola optimizacion mınimo cuadratica.Pero si esto no es posible se podrıa aproximar la solucion optima.Por ello que es comun recurrir a metodos de optimizacion numerica.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Ejemplo A continuacion trataremos de aproximar el siguiente modelono lineal
Rate =Vm ∗ Concentration
K + Concentration+ ε
0 50 100 150 200
2040
6080
100
Substrate concentration (mmol m−3)
Upt
ake
rate
(wei
ght/h
)
Figura : Grafico de Dispersion L.minor
Utilizando la funcion de R nls, que figura en el paquete nrlwr, po-Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
> L.minor.m1 <- nls(rate ~ Vm*conc/(K+conc), data = L.minor, start = list(K=20, Vm=120), trace = TRUE)
624.3282 : 20 120
244.5460 : 15.92382 124.57148
234.5198 : 17.25299 126.43877
234.3595 : 17.04442 125.96181
234.3533 : 17.08574 126.04671
234.3531 : 17.07774 126.03016
234.3531 : 17.07930 126.03338
234.3531 : 17.07899 126.03276
Podemos ver en la lınea de comando la expresion de la funcion deregresion, supuesta conocida. El argumento de la funcion start, indi-ca los valores iniciales de los parametros. Trace indica si aparecen enpantalla los valores de los parameros a medida que vamos realizandoiteraciones. En este caso el valor optimo encontrado en la septimaiteracion es
Vm = 126,03276
K = 17,07899 + ε
Y el valor de la Suma residual de Cuadrados es 234.3531. Este valortambien se optiene con la funcion devianceAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Otra medida resumen es el logaritmo de la funcion de verosimilitud.Mediante la funcion logLik sepuede obtener el valor maximo dellogaritmo de la funcion de verosimilitud
> logLik(L.minor.m1)
’log Lik.’ -24.86106 (df=3)
Tambien podemos ver la estimacion de los parametros mediante
> coef(L.minor.m1)
K Vm
17.07899 126.03276
Finalmente utilizando la funcion summary, podemos observar un re-sumen mas detallado del analisis realizado
> summary(L.minor.m1)
Formula: rate ~ Vm * conc/(K + conc)
Parameters:
Estimate Std. Error t value Pr(>|t|)
K 17.079 2.953 5.784 0.00117 **
Vm 126.033 7.173 17.570 2.18e-06 ***
Residual standard error: 6.25 on 6 degrees of freedom
Number of iterations to convergence: 7
Achieved convergence tolerance: 8.144e-06
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Si comparamos el grafico de dispersion con la curva estimada
> plot(rate ~ conc, data = L.minor, ylim=c(10,130), ylab="Uptake rate (weight/h)",
+ xlab=Substrate~concentration~(mmol~m^-3))
> lines(L.minor$conc, fitted(L.minor.m1))
0 50 100 150 200
2040
6080
100
120
Substrate concentration (mmol m−3)
Upt
ake
rate
(wei
ght/h
)
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
La suma residual de cuadrados es una funcion de dos parametros Ky Vm.La funcion nlsContourRSS, genera la informacion necesaria para rea-lizar un grafico de contorno. Para ello es necesario instalar el paquetenlstools.> L.minor.m1con <- nlsContourRSS(L.minor.m1)
100%
RSS contour surface array returned
> plot(L.minor.m1con, col = FALSE, nlev = 10)
K
Vm
5 10 15 20 25 30
9010
011
012
013
014
015
016
0
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Diagnosis del modelo Las hipotesis subyacentes al modelo de re-gresion no lineal son
Que la funcion de regresion este bien especificada
Homocedasticidad en los errores
Los errores que sigan una distribucon Normal
Los errores que sean independientes
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Los modelos lineales Generalizados son una extension de losmodelos lineales a variables que tienen una distribucioncondicional especıfica que no es normal.
A menudo, nuestras variables respuestas no son cuantitativas,y es necesario recurrir a este tipo de modelos para poderestimar adecuadamente su distribucion condicional a otrasvariables.
Por ejemplo, si la variable respuesta es dicotomica podemospensar en modelos logit o probit.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Los modelos lineales generalizados consisten en tres componentes:Una componente aleatoria especificando la distribucion condicionalde la variable respuesta Y al conjunto de covariables X. Se supo-ne que Y sigue una distribucion de la familia exponencial(normal,binomial, poisson, gamma, etc) Un predictor lineal, es decir
ηi = β0 + β1Xi,1 + β2Xi,2 + ..+ βkXi,k (1)
Una funcion suave e invertible que permita linealizar media de lavariable respuesta (μi = E [Yi]), conocida como funcion link g
g (μi) = ηi = β0 + β1Xi,1 + β2Xi,2 + ..+ βkXi,k (2)
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Las funciones link que dan lugar a los Modelos lineales Generalizadosmas conocidos son las siguientesRecordemos que
η = μ es el caso de g es la funcion identidad. FamiliaGaussiana.
η = log(
μ1−μ
)μ = 1
1+exp(−η) Funcion logıstica. Familia
Binomial
η = Φ(μ) μ = Φ−1 (η) Funcion Probit. Tambien se puedeutilizar para la familia Binomial.
η = log (μ) μ = exp (η) funcion exponencial, familia poisson
η = μ−1 Inversa(Familia Gamma)
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Los parametros de un modelo lineal generalizado se estiman utili-zando el Metodo de Maxima Verosimilitud.Salvo en el caso de la FAmilia Gaussiana que es posible obteneruna expresion analıtica al maximizar la funcion de Verosimilitud,generalmente es necesario aplicar un algoritmo iterativo para obtenerlas estimaciones de los parametros.El metodo mas utilizado es el Algoritmo de Fisher-Scoring que essimilar a aplicar iterativament el metodo de mınimos cuadrados pon-derados.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Una vez estimados los parametros podemos realizar contrastes dehipotesis. PAra comparar dos modelos podemos utilizar estdadısticosde razon de verosimilitudes para comparar el modelo completo conun modelo determiando
2 (l (y, θ/y)− l (μ, θ/y)) (3)
A partir de esta diferencia de verosimilitud se obtiene la DEVIANCE,que es como una medida de error en los modelos lineales generaliza-dos. De hecho en el caso de que la familia sea Gaussiana, la Deviancecoincide con la Suma Cuadratica de los REsiduos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Logıstica Binaria En el caso de que nuestra variabledependiente sea una variable binaria(valores 0 o 1).
Y = 1 indica exitoY = 0 indica fracaso
Disponemos de un conjunto de covariables (X1, ...,Xp) que nos ayu-dan a predecir Y
P (Y = 1/x1, ..., xp) = π (x) = β0 + β1x1 + ...+ βpxp (4)
Esta formulacion tiene varios problemas graves, entre ellos que laestimacion debe ser una probabilidad. Por ese motivo se sugiereuna transformacion mediante una funcion logit por ejemplo, aunquepodrıa utilizarse tambien la probit.
Odd (x) =π (x)
1− π (x)(5)
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
El Odds toma valores entre 0 y +∞.
Un valor de 1 en el Odds quiere decir las dos categorias (0 y1) de la variable Y tienen la misma probabilidad de ocurrencia.
Un valor mayor que 1 indica que Y = 1 tiene mayorprobabilidad de ocurrencia.
Se utiliza una transformacion logaritmica de ODDs, dando ası valoresentre −∞ y +∞
Logit (x) = log (Odd (x)) = log
(π (x)
1− π (x)
)(6)
Un valor de cero en el logit equivale a ambos valores de la variableY son equiprobables. Un valor mayor que cero indica que la proba-bilidad del 1(exito) es mayor que 0.5.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
En los siguientes graficos podemos observar que forma tiene la fun-cion logit y probit.
−4 −2 0 2 4
0.0
0.4
0.8
eta
mu
LO
GIT
−4 −2 0 2 4
0.0
0.4
0.8
eta
mu
PR
OB
IT
Vemos que las diferencias son pequenas, la ventaja de los modeloslo sticos es e so as facil e te i te etables
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Los modelos logısticos permiten interpretar directamente los coefi-cientes a partir de la medida de asociacion denominada ODDs Ratio.Supongamos que tenemos una unica covariable X que toma los va-lores si y no, se define
OddsRatio =Logit (si)
Logit (no)(7)
si Odds Ratio<1 entonces X es un protector
si Odds Ratio=1 entonces no hay asociacion
si Odds Ratio>1 entonces X es un factor de riesgo
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Si Xj es una variable Factor que solo toma dos valores (si y no porejemplo), el Odds Ratio de Xj=exp (βj).Se dira que existe asociacion significativa cuando el valor uno noeste contenido en el intervalo de confianza para este Odds ratio.Se puede calcular con En el caso de queXj sea una variable contınuay xj,0 sea su valor de referencia, el valor exp (βj) indica el incrementode riesgo. Se puede generar el grafico {x, exp (βj (x− x0))} y er lacurva del riesgo en funcion del valor de referencia x0 y de una seriede valores x.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
En el siguiente ejemplo se muestra una base de datos de restaurantesde Nueva York que estan o no incluidos en la Guıa Michelın Veamosel grafico de dispersion en funcion de la covariable Food Rating
16 18 20 22 24 26 28
0.0
0.2
0.4
0.6
0.8
1.0
Food Rating
In M
iche
lin G
uide
? (0
=No,
1=Y
es)
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
> m1 <- glm(y~Food,family=binomial(),data=MichelinNY)
> summary(m1)
Call:
glm(formula = y ~ Food, family = binomial(), data = MichelinNY)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.3484 -0.8555 -0.4329 0.9028 1.9847
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -10.84154 1.86234 -5.821 5.83e-09 ***
Food 0.50124 0.08767 5.717 1.08e-08 ***
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 225.79 on 163 degrees of freedom
Residual deviance: 175.73 on 162 degrees of freedom
AIC: 179.73
Number of Fisher Scoring iterations: 4
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Los test de Wald para los parametros de la funcion dados por lasestimaciones de los coeficientes dividido por su desviacion stantard sedenotan ahora por zvalues porque ahora la distribucion de referenciaes la Distribucion Normal y no la T- student como tenıamos antes.The Null Deviance es la obtenida con todos los parametros, salvo laconstante, igual a cero.The Residual Deviance es la obtenida por este modelo(con estasvariables).
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Podemos representar un Box-Plots de los datos
0 1
1618
2022
2426
28
In Michelin Guide? (0=No, 1=Yes)
Food
Rat
ing
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Veamos un ejemplo de regresion logıstica pero con mas de una co-variable. En el paquete car, esta el arhcivo Mroz que contiene unavariable dicotomica(lfp) que indica si forman parte de la poblacionactiva las mujeres del estudio.> Mroz[1:3,]
lfp k5 k618 age wc hc lwg inc
1 yes 1 0 32 no no 1.2101647 10.91
2 yes 0 2 30 no no 0.3285041 19.50
3 yes 1 3 35 no no 1.5141279 12.04}
Resumiendo> summary(Mroz)
lfp k5 k618 age wc hc
no :325 Min. :0.0000 Min. :0.000 Min. :30.00 no :541 no :458
yes:428 1st Qu.:0.0000 1st Qu.:0.000 1st Qu.:36.00 yes:212 yes:295
Median :0.0000 Median :1.000 Median :43.00
Mean :0.2377 Mean :1.353 Mean :42.54
3rd Qu.:0.0000 3rd Qu.:2.000 3rd Qu.:49.00
Max. :3.0000 Max. :8.000 Max. :60.00
lwg inc
Min. :-2.0541 Min. :-0.029
1st Qu.: 0.8181 1st Qu.:13.025
Median : 1.0684 Median :17.700
Mean : 1.0971 Mean :20.129
3rd Qu.: 1.3997 3rd Qu.:24.466
Max. : 3.2189 Max. :96.000
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Aplico el modelo de regresion logıstica> mod<-glm(lfp~k5+k618+age+wc+hc+lwg+inc, family=binomial(link=logit), data=Mroz)
> summary(mod)
Call:
glm(formula = lfp ~ k5 + k618 + age + wc + hc + lwg + inc, family = binomial(link = logit),
data = Mroz)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.1062 -1.0900 0.5978 0.9709 2.1893
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.182140 0.644375 4.938 7.88e-07 ***
k5 -1.462913 0.197001 -7.426 1.12e-13 ***
k618 -0.064571 0.068001 -0.950 0.342337
age -0.062871 0.012783 -4.918 8.73e-07 ***
wcyes 0.807274 0.229980 3.510 0.000448 ***
hcyes 0.111734 0.206040 0.542 0.587618
lwg 0.604693 0.150818 4.009 6.09e-05 ***
inc -0.034446 0.008208 -4.196 2.71e-05 ***
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1029.75 on 752 degrees of freedom
Residual deviance: 905.27 on 745 degrees of freedom
AIC: 921.27
Number of Fisher Scoring iterations: 4
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
El parametro de dispersion para la binomial=1, se refiere aV ar (y/x) = 1× V ar [μ (x)]
Se realizaron 4 iteraciones hasta alcanzar el optimo.
La deviance del modelo estimado es 905.27
Las variables k618 y hcyes no son significativas en estemodelo siguiendo los resultados del test de wald.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Estimacion de los coeficientes Hemos visto que en el caso deregresion logıstica, el exponencial de los coeficientes del modelo tieneuna interpretacion muy interesante.
> exp(cbind(coef(mod),confint(mod)))
Waiting for profiling to be done...
2.5 % 97.5 %
(Intercept) 24.0982799 6.9377228 87.0347916
k5 0.2315607 0.1555331 0.3370675
k618 0.9374698 0.8200446 1.0710837
age 0.9390650 0.9154832 0.9625829
wcyes 2.2417880 1.4347543 3.5387571
hcyes 1.1182149 0.7467654 1.6766380
lwg 1.8306903 1.3689201 2.4768235
inc 0.9661401 0.9502809 0.9814042
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Por ejemplo, manteniendo el resto de variables constantes,aumentar un ano en la edad(age) aumenta el riesgo en 0.939de pasar una mujer a ser parte de la poblacion activa(pasar ay=1), es decir, reduce el riesgo de trabajar en un100-93.9=6%.
k618 no influye(su intervalo de confianza para el exponencialdel parametro contiene al uno)
Una mujer con wc=yes(wifes´s college attendance) tien unriesgo de 2.24 mas alto que una que no lo tiene de pasar a lacategorıa uno(yes) de la variable respuesta.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Repetimos el modelo sacando dos variables del modelo y compara-mos ambos modelos con la funcion anova
mod2<-glm(lfp~age+wc+hc+lwg+inc, family=binomial(link=logit), data=Mroz)
anova(mod2, mod, test="Chisq")
Analysis of Deviance Table
Model 1: lfp ~ age + wc + hc + lwg + inc
Model 2: lfp ~ k5 + k618 + age + wc + hc + lwg + inc
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1 747 971.75
2 745 905.27 2 66.485 3.655e-15 ***
El test estadıstico representa el cambio en la Deviance entre losdos modelos. El p-valor se calcula de acuerdo a una distribucionChi cuadrado. Nos sale que las variables k5 y 618 son significativas,resultando modelos significativamente distintos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
En cambio si sacamos las variables menos signfiicativas, los modelosno salen significativamente distintos.
> mod3<-glm(lfp~k5+age+wc+lwg+inc, family=binomial(link=logit), data=Mroz)
> anova(mod3, mod, test="Chisq")
Analysis of Deviance Table
Model 1: lfp ~ k5 + age + wc + lwg + inc
Model 2: lfp ~ k5 + k618 + age + wc + hc + lwg + inc
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1 747 906.46
2 745 905.27 2 1.1895 0.5517
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Tambien se puede aplicar la funcion ANOVA para realizar un con-traste sobre cada una de las variables
> Anova(mod)
Analysis of Deviance Table (Type II tests)
Response: lfp
LR Chisq Df Pr(>Chisq)
k5 66.484 1 3.527e-16 ***
k618 0.903 1 0.342042
age 25.598 1 4.204e-07 ***
wc 12.724 1 0.000361 ***
hc 0.294 1 0.587489
lwg 17.001 1 3.736e-05 ***
inc 19.504 1 1.004e-05 ***
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Podemos dibujar la grafica del odds- ratio para una de las variables,por ejemplo edad. Viendo que a medida que aumenta la edad elriesgo de estar dentro de la poblacion activa va decreciendo. Hemostomado como referencia una edad de 40 anos. Puede observarse queen el valor 40 la curva exp (a (x− x0)) toma el valor uno.
30 35 40 45 50 55 60
0.5
1.0
1.5
or
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Binomial Supongamos que la distribucion de la variablerespuesta condicionada al conjunto de covariables sigue una distri-bucion binomial.
Y/xi) = Binomial(mi, θ (xi))
Luego
E
[Yi
mi/xi
]= θ (xi)
y
V ar
[Yi
mi/xi
]= θ (xi) (1− θ (xi)) /mi
Esto nos indica que Yi
mies un estimador insesgado de θ (xi) y que
ademas toma valores entre cero y uno.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
LA funcion Logıstica
θ (x) =exp {β0 + β1x}
1 + exp {β0 + β1x} =1
1 + exp {−β0 − β1x}Da lugar a
β0 + β1x = log
(θ (x)
1− θ (x)
)Luego si el modelo es adecuado, log
(θ(x)
1−θ(x)
)frente a x se puede
aproximar por una lınea recta.Se define el ��odds�� a favor del suceso como θ
1−θ
Se define el ��odds�� en contra al suceso como1−θθ
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Ejemplo> MichelinFood <- read.table("MichelinFood.txt", header=TRUE)
> attach(MichelinFood)
> MichelinFood
Food InMichelin NotInMichelin mi proportion
1 15 0 1 1 0.00
2 16 0 1 1 0.00
3 17 0 8 8 0.00
4 18 2 13 15 0.13
5 19 5 13 18 0.28
6 20 8 25 33 0.24
.........................
16 18 20 22 24 26 28
0.0
0.2
0.4
0.6
0.8
1.0
Zagat Food Rating
Sam
ple
prop
ortio
n
Figura : Grafico de Dispersion de la proporcion muestral en funcion deFood
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
> m1 <- glm(cbind(InMichelin,NotInMichelin)~Food,family=binomial)
> summary(m1)
Call:
glm(formula = cbind(InMichelin, NotInMichelin) ~ Food, family = binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.4850 -0.7987 -0.1679 0.5913 1.5889
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -10.84154 1.86236 -5.821 5.84e-09 ***
Food 0.50124 0.08768 5.717 1.08e-08 ***
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 61.427 on 13 degrees of freedom
Residual deviance: 11.368 on 12 degrees of freedom
AIC: 41.491
Number of Fisher Scoring iterations: 4
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
El modelo aproximado es
θ (x) =1
1 + exp {10,842 − 0,50124x}
16 18 20 22 24 26 28
0.0
0.2
0.4
0.6
0.8
1.0
Zagat Food Rating
Pro
babi
lity
of in
clus
ion
in th
e M
iche
lin G
uide
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Podemos construir una tabla donde aparezcan los valores de x, θ (x)
y θ(x)
1−θ(x)
> cbind(Food,round(thetahat,3),round(odds_ratio,3))
Food
1 15 0.035 0.036
2 16 0.056 0.060
3 17 0.089 0.098
4 18 0.140 0.162
5 19 0.211 0.268
6 20 0.306 0.442
7 21 0.422 0.729
8 22 0.546 1.204
9 23 0.665 1.988
10 24 0.766 3.281
11 25 0.844 5.416
12 26 0.899 8.941
13 27 0.937 14.759
14 28 0.961 24.364
En aquellos valores donde el odds es mayor que uno corresponde adonde la probabilidad de exito es superior a 0.5.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
En regresion logıstica el concepto de suma residual de uadrados esreemplazado por el de DEViance. En el modelo logıstico viene dadopor:
G2 = 2∑{
yilog
(yiyi
)+ (yi −mi) log
(mi − yimi − yi
)}La Deviance nos sirve para realizar el siguiente contraste:En R, la deviance puede calcularse con:H0 :El modelo de regresion logıstica es adecuadoH1 :El modelo de regresion logıstica NO es adecuado> m1$deviance
[1] 11.36843
y el p-valor del contraste anterior> pchisq(m1$deviance,m1$df.residual,lower=FALSE)
[1] 0.4976357
Lo que nos impide rechazar la hipotesis nula.Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
Regresion No Parametrica En las ultimas decadas ha cobradogran interes la Inferencia No Parametrica. Se basa en realizar las es-timaciones y la inferencia sin suponer ninguna hipotesis parametricasobre los datos. En este punto nos ocuparemos en particular de laREgresion No Parametrica.En regresion No parametrica no se supone ningun modelo conocidosobre la funcion de regresion. A lo sumo se pide alguna condicionpara la misma como diferenciabilidad.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
Regresion Tipo Kernel Supongamos el siguiente modelo de regre-sion
Y = m (x) + ε
donde m es la funcion de regresion que se supone suave. y ε esel termino de error de media cero y varianza dependiendo de xV ar (ε/x) = σ2 (x). Modelo heterocedastico.El objetivo consiste en estimar la funcion de regresion sin suponerde antemano ningun modelo parametrico y a continuacion realizarpredicciones.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
El estimador tipo nucleo de Nadaraya-Watson de la funcion de re-gresion m viene dado por:
m (x) =
∑yiK
(xi−xh
)∑K
(xi−xh
)donde K es una funcion Kernel y h es el llamado parametro ventana.La idea consiste en que en cada punto se aproxima por una medialocal. La cantidad de datos que utilizamos para estimar esta medialocal viene dada por el parametro ventana.Pero existen otro tipo de estimadores :Estimador Polinomico Local que se define como
min
n∑i=1
⎧⎨⎩Yi −p∑
j=0
βj (Xi − x)j
⎫⎬⎭2
h−1K
(Xi − x
h
)Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
El suavizador por splines
mınn−1n∑
i=1
{m (Xi)− Yi}2 + λ
∫mr(r) (x)2 dx
Tambien existen estimadores basados en desarrollos por polino-
mios ortogonales.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
En el caso de regresion local polinomial existen varios factores atener en cuenta:
El grado del polinomio por el que queremos ajustar localmente
el parametro ventana h que controla las observaciones quecaen dentro del entorno y son utilizadas para la estimacion.
La funcion kernel k define los pesos que se dan a lasobservaciones en un entorno determinado por el parametroventana.
En el caso del estimador de Nadaraya-Watson, su ajuste es similara aplicar el local polinomial con un ajuste de grado p = 0.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
El parametro ventana, tambien conocido como ancho de banda, esun parametro positivo, en el caso de regresion unidimensional, quemide la ��cantidad�� de datos a considerar para la estimacion local.En el caso de regresion multiple, este parametro se convierte en unamatriz.Si tomamos valores muy pequenos solo se tendra en cuenta para laestimacion local aquellas observaciones que esten mas proximas alpunto donde queramos estimar. Esto puede dar lugar a una curvamuy variable.Por el contrario si el parametro es muy grande, se cogen muchasobservaciones y la curva varıa muy poco dando lugar a sesgos im-portantes.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
Uno de los problemas cruciales en estimacion tipo kernel es la elec-cion del parametro ventana. Existen numerosos metodos que hanido surgiendo durante los ultimos anos:
Plug-in: consistente en estimar el parametro a partir de laexpresion asintotica que minimize del Error Cuadratico MEdiodel estimador.
Validacion Cruzada
Bootstrap, etc.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
En cuanto a la eleccion de la funcion nucleo tenemos varias opciones,entre ellas:
Kernel Triangular:k (u) = (1− |u|) 1|u|≤1
Gaussiano:k (u) = (2π)−1 exp(−u2/2
)Epanechnikov:k (u) = 3
4 (1− u)2 1|u|≤1
El en libro de Wand and Jones, se puede ver que la eleccion de lafuncion kernel no es crucial para el comportamiento del estimador.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
En los siguientes graficos vemos el efecto del parametro ventana
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
0.5
0.6
x
h=0.
1
(a) h=0.1
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
0.5
0.6
x
h=0.
2
(b) h=0.2
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
0.5
0.6
x
h=0.
4
(c) h=0.4
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
Ejemplo, veamos la estimacion de la siguiente curva de regresion(lınea punteada). En las figuras aparecen tres estimaciones con parame-tros 0.1 y 0.2 y el optimo mediante el metodo plugin.
0.0 0.2 0.4 0.6 0.8 1.0
05
1015
2025
3035
x
Est
imat
ed h
=0.2
& T
rue
Cur
ves
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
(d) h=0.2
0.0 0.2 0.4 0.6 0.8 1.0
05
1015
2025
3035
x
Est
imat
ed h
=0.1
& T
rue
Cur
ves
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
(e) h=0.1
0.0 0.2 0.4 0.6 0.8 1.0
05
1015
2025
3035
x
Est
imat
ed &
Tru
e C
urve
s
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
(f) h optima
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
VEamos un ejemplo en los datos de geyser, disponibles en la librerıaMASS. Primero vamos a pintar los datosdata(geyser, package = "MASS")
x <- geyser$duration
y <- geyser$waiting
plot(x, y)
1 2 3 4 5
5060
7080
9010
011
0
x
y
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
A continuacion veamos la estimacion no parametrica por polinomioslocales utilizando polinomios de grado 0,1,y dos y un parametro an-cho ventana fijo. Para ello utilizamos la funcion locpoly del paquetekernsmooth
1 2 3 4 5
5060
7080
9010
011
0
x
y
p=1p=0p=2
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
A continuacion seleccionamos la ventana utilizando el metodo plug-in. Para ello existe una funcion en R, dpill del paquete kernsmooth.
1 2 3 4 5
5060
7080
9010
011
0
x
y
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
Esta librerıa tambien tiene funciones para calcular la estimacion noparametrica de la funcion de densidad. En este caso la ventana esestimada utilizando el metodo plugin.h <- dpik(x)
density<- bkde(x, bandwidth=h)
plot(density, type="l")
1 2 3 4 5 6
0.0
0.2
0.4
0.6
density$x
dens
ity$y
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
Regresion Multidimensional Tipo nucleo
Consideramos el siguiente modelo de regresion
Yt = m(xt) + εt = m(x1,t, ..., xd,t) + εt, 1 ≤ t ≤ n,
donde m es d-dimensional(d ≥ 1) definida in I1 × I2 × ...Id ⊂ Rd.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
Sea
Xn =
⎛⎜⎝ 1 (x1 − x)T
......
1 (xn − x)T
⎞⎟⎠n×(d+1)
y
W1,n = diag(n−1KH1,n
(x1 − x) , .., n−1KH1,n(xn − x)
),
donde KH1,n(u) = |H1,n|
−1
2 K
(H
−1
2
1,nu
), y la funcion nucleo K es
d-dimensional La matriz ventana es H1,n. El estimador de m es
mS,H1,n(x) = eT1
(X
TnW
δ1,nXn
)−1X
TnW
δ1,nYn
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
> ana2<-loess(formula = prestige ~ income + education, span = 0.5, degree = 1)
> summary(ana2)
Call:
loess(formula = prestige ~ income + education, span = 0.5, degree = 1)
Number of Observations: 102
Equivalent Number of Parameters: 8.03
Residual Standard Error: 6.906
Trace of smoother matrix: 10.5
Control settings:
normalize: TRUE
span : 0.5
degree : 1
family : gaussian
surface : interpolate cell = 0.2
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
Podemos calcular las estimaciones y los resıduos de este modelo
> mod.lo$fit
> mod.lo$residuals
inc ed
fit.prestige
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
Podemos chequear que variable es mas importante en el modelo
mod.lo.inc <- loess(prestige ~ income, span=.7, degree=1) # omitting education
mod.lo.ed <- loess(prestige ~ education, span=.7, degree=1) # omitting income
anova(mod.lo.inc, mod.lo)
Model 1: loess(formula = prestige ~ income, span = 0.7, degree = 1)
Model 2: loess(formula = prestige ~ income + education, span = 0.5, degree = 1)
Analysis of Variance: denominator df 90.66
ENP RSS F-value Pr(>F)
[1,] 3.85 12006.1
[2,] 8.03 4245.9 20.781 4.841e-16 ***
> anova(mod.lo.ed, mod.lo)
Model 1: loess(formula = prestige ~ education, span = 0.7, degree = 1)
Model 2: loess(formula = prestige ~ income + education, span = 0.5, degree = 1)
Analysis of Variance: denominator df 90.66
ENP RSS F-value Pr(>F)
[1,] 2.97 7640.2
[2,] 8.03 4245.9 7.7905 7.1e-08 ***
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Regresion Tipo Kernel
El problema de este tipo de estimadores es el llamado ��Desastre dela dimensionalidad�� cuanto mayor sea la dimension del espacio decovariables, mas datos necesitamos para obtener unas estimacionesadecuadas.La escasez de datos en el entorno infla la varianza de forma que losestimadores no son buenos.Para superar estas dificultades, Hastie y Tibshirani (1990), propu-sieron los modelos aditivos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos Aditivos
Los beneficios de una aproximacion de aditivos son al menos dos.En primer lugar, ya que cada uno de los terminos de aditivos indi-viduales se calcula utilizando un univariado mas suave, la maldicionde la dimensionalidad se evita.En segundo lugar, las estimaciones de los terminos individuales ex-plican como cambia la variable dependiente con las variables inde-pendientes que corresponden.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Un model aditivo se basa en el siguiente modelo de regresion
yi = αi + f1(xi1) + f2(xi2) + ...+ fk(xik) + εi
Estos modelos se estiman mediante el Algoritmo de backfitting.En R este tipo de modelos se estiman mediante la funcion gam delpaquete mgcv
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Las principales desventajas de los modelos aditivos estimados por elmecanismo de Backfitting son el desconocimiento de las propiedadesestadısiticas de la solucion y la no garantıa de convergencia numericadel algoritmo para cualquier suavizador. La solucion obtenida notiene solucion explıcita porlo que el desarrollo de las propiedadesasintoticas es muy complicado.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
> library(mgcv)
This is mgcv 1.6-2. For overview type ’help("mgcv-package")’.
> mod.gam <- gam(prestige ~ s(income) + s(education))
> mod.gam
Family: gaussian
Link function: identity
Formula:
prestige ~ s(income) + s(education)
Estimated degrees of freedom:
3.1178 3.1773 total = 7.29513
GCV score: 52.1428
La funcion mgcv tambien permite utilizar transformaciones bivaria-das.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
> summary(mod.gam)
Family: gaussian
Link function: identity
Formula:
prestige ~ s(income) + s(education)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 46.8333 0.6889 67.98 <2e-16 ***
---
Approximate significance of smooth terms:
edf Ref.df F p-value
s(income) 3.118 3.877 15.29 1.66e-09 ***
s(education) 3.177 3.952 38.78 < 2e-16 ***
---
R-sq.(adj) = 0.836 Deviance explained = 84.7%
GCV score = 52.143 Scale est. = 48.414 n = 102
Vemos el R cuadrado y el porcentaje de deviance explicada. Tambienpodemos observar que predictores son significativos, en este camsolos dos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Podemos ver las estimaciones de las dos funciones involucradas,ası como la banda de confianza al 95%. SE utiliza la misma escalaen los dos graficos loque permite comparar la contribucion de cadavariable al modelo.
0 5000 10000 15000 20000 25000
−20
020
income
s(in
com
e,3.
12)
6 8 10 12 14 16
−20
020
s(ed
ucat
ion,
3.18
)
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Podemos calcular las estimaciones
> mod.gam$fit
Los residuos
> mod.gam$residuals
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Podemos ver un grafico tridimensional de las predicciones en funcionde las dos covariables
income
educ
atio
n
linear predictor
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Tambien un grafico de contorno nos informa del comportamiento delas predicciones.
5000 10000 15000 20000 25000
810
1214
16
linear predictor
income
educ
atio
n
20 25
30 35
40
45 50
55
60
65
70
75
80
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Como la transformacion marginal de la variable educacion “parece”lineal, podemos comparar el modelo anterior con el modelo supo-niendo linealidad para esa variable, es decir:
> mod.gam2 <- gam(prestige ~ income + s(education))
> anova(mod.gam2,mod.gam, test="F")
Analysis of Deviance Table
Model 1: prestige ~ income + s(education)
Model 2: prestige ~ s(income) + s(education)
Resid. Df Resid. Dev Df Deviance F Pr(>F)
1 96.541 5484.9
2 94.705 4585.0 1.8357 899.89 10.126 0.0001639 ***
El p-valor solo es una paroximacion, pero sı parece que haya uncambio de tendencia en la variable educacion.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Chequeo del modelo(gam.check)
> gam.check(mod.gam)
Method: GCV Optimizer: magic
Smoothing parameter selection converged after 4 iterations.
The RMS GCV score gradiant at convergence was 9.783945e-05 .
The Hessian was positive definite.
The estimated model rank was 19 (maximum possible: 19)
Basis dimension (k) checking results. Low p-value (k-index<1) may
indicate that k is too low, especially if edf is close to k’.
k’ edf k-index p-value
s(income) 9.000 3.118 0.981 0.38
s(education) 9.000 3.177 1.025 0.50
Nos indica que el maximo numero posible de grados de libertadde nuestro modelo para cada variable es suficiente. Este numeropodrıamos cambiarlo en las opciones de la funcion
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Chequeo grafico del modelo. Lo que buscamos esobservar normali-dad en los dos graficos de la izquierda, falta de patron en el de laderecha arriba, y ajuste a una lınea recta en el de la derecha abajo
−15 −5 0 5 10 15
−15
−50
510
15
theoretical quantiles
devi
ance
resi
dual
s
30 40 50 60 70 80
−15
−50
510
15
Resids vs. linear pred.
linear predictor
resi
dual
s
Histogram of residuals
Residuals
Freq
uenc
y
−20 −10 0 10 20
010
2030
30 40 50 60 70 80
2040
6080
Response vs. Fitted Values
Fitted Values
Res
pons
e
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Modelos Aditivos Generalizados Hastie y Tibshirani (1990) pro-pusieron modelos aditivos generalizados. Estos modelos suponen quela media de la variable dependiente depende de un factor de predic-cion de aditivos a traves de una funcion link no lineal.Una alternativa al uso de modelos de regresion logıstica es usar losmodelos Additivos generalizados (GAM), incorporando funciones noparametricas que se adaptan mejor a estructuras no lineales de losdatos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Un model aditivo Generalizado se basa en el siguiente modelo deregresion
g (E [Yi]) = αi + f1(xi1) + f2(xi2) + ...+ fk(xik)
donde g es una funcion link suave conocida y la distribucion de lavariable respuesta pertenece a la familia exponencial.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Funcion gam
La funciom gam en la librerıa mgcv calcula el parametro de suaviza-cion mediante validacion cruzada generalizada GCV o bien medianteel criterio del estimador de riesgo insesgado ( Un-Biased Risk Esti-mator (UBRE )).En los modelos aditivos, aunque no especificabamos nada, la familiaconsiderada para la variable respuesta era la gaussiana, o lo que eslo mismo, se consideraba una funcion link identidad.En los modelos aditivos generalizados, utilizamos la misma funciongam, pero ahora la familia cambia. Por ejemplo en el caso de unalogıstica la familia que se considera es la binomial.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
En el siguiente ejemplo
> mod.1 <- gam(lfp ~ s(age) + s(inc)+s(lwg) , family=binomial)
> summary(mod.1)
Family: binomial
Link function: logit
Formula:
lfp ~ s(age) + s(inc) + s(lwg)
Parametric coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.0503 0.4296 2.445 0.0145 *
Approximate significance of smooth terms:
edf Ref.df Chi.sq p-value
s(age) 2.298 2.880 11.23 0.009750 **
s(inc) 1.481 1.831 15.97 0.000341 ***
s(lwg) 5.866 6.500 87.65 4e-16 ***
R-sq.(adj) = 0.257 Deviance explained = 23.3%
UBRE score = 0.077539 Scale est. = 1 n = 753
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Podemos observar la significacion de cada una de lascomponentes.
el Rcuadrado es de un 0.25. El modelo solo explica un 23.3%de la deviance.
TEnemos 753 obseraciones.
La complejidad de la curva ajustada es reflejada por loseffective degrees of freedom
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
Podemos ver las estimaciones de las dos funciones involucradas,ası como la banda de confianza al 95
30 35 40 45 50 55 60
−2.5
−0.5
age
s(ag
e,2.
13)
0 20 40 60 80
−2.5
−0.5
inc
s(in
c,1)
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial
Regresion No LinealModelos Lineales Generalizados
Regresion No ParametricaModelos Aditivos
Modelos Aditivos Generalizados
BIBLIOGRAFIA
Ritz, C. y Streibig, J. C. (2008). Nonlinear Regression with R,Springer.
Sheather, S.(2009). A Modern Approach to Regression withR, Springer.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS