analisis exploratorio de datos - …eio.usc.es/eipc1/base/basemaster/formularios-php...modelos de...

Modelos de regresion LinealMınimos Cuadrados PonderadosModelos de regresion Polinomial

Regresion No LinealModelos Lineales Generalizados

Regresion No ParametricaModelos Aditivos

Modelos Aditivos Generalizados

ANALISIS EXPLORATORIO DE DATOS

MODELOS DE REGRESION

Ana Perez [email protected]

18 de octubre de 2012

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS





Contenido

1 Modelos de regresion LinealModelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple

2 Mınimos Cuadrados Ponderados

3 Modelos de regresion Polinomial

4 Regresion No Lineal

5 Modelos Lineales Generalizados

6 Regresion No ParametricaRegresion Tipo Kernel

7 Modelos Aditivos

8 Modelos Aditivos Generalizados






Contenido







7 Modelos Aditivos







Contenido







7 Modelos Aditivos







Contenido







7 Modelos Aditivos







Contenido







7 Modelos Aditivos







Contenido







7 Modelos Aditivos







Contenido







7 Modelos Aditivos







Contenido







7 Modelos Aditivos







Modelos de regresion Lineal SimpleTransformacionesRegresion Lineal Multiple

Los modelos de regresion tratan de explicar la dependencia que existeentre una variable respuesta Y y un conjunto de variables depen-dientes X = (X1,X2, ...,Xp) , que se denominan generalmente co-mo covariables. Esta dependencia se estudia a traves de la funcionde regresion

E (Y/X = x)

En el caso de estudiar la dependencia lineal estarıamos tratandomodelos de regresion lineal. En particular, si trabajamos con unasola covariable X estarıamos en tratando un Modelo de RegresionLineal Simple.







La formulacion del modelo de Regresion Lineal Simple es la si-guiente:

Y = β0 + β1X + ε,

donde ε es el termino de error, desconocido y que se supone quetiene media cero. Otra de las hipotesis basicas para los errores, esque tengan varianza constante(homocedasticidad), V ar (εi) = σ2

∀i.







Ejemplo (Sheather, 2009):Disponemos de una muestra que recoge el tiempo y las unidades pro-ducidas por una serie de 20 pedidos. Nos interesa analizar el tiempoen minutos (Run Time Y ) en funcion del tamano (Run Size X). Portanto tenemos una serie de pares de datos {(X1, Y1) , ..., (X20, Y20)}de las variables (X,Y ) .En primer lugar dibujamos un grafico de dis-persion:

50 100 150 200 250 300 350

160

180

200

220

240

Run Size

Run

Tim

e







El objetivo es buscar los parametros a y b que mejor ajustan lanube de puntos a la recta de regresion. Es decir buscamos β0, β1,de forma que Yi = β0 + β1Xi sea lo mas proximo posible a Yi. Ladiferencia entre el valor real Yi y el estimado Yi, se denomina resıduoei = Yi − Yi. Un metodo muy comun de estimar estos parametroses mediante Mınimos cuadrados, es decir, buscar los valores de β0 yβ1 que minimizen la siguiente suma de cuadrados:

n∑i=1

e2i =n∑

i=1

(Yi − Yi

)2=

n∑i=1

(Yi − β0 − β1Xi)2 .







Realizando calculos sencillos llegamos a que el estimador de la pen-diente de la recta de regresion,β1, queda:

β1 =

n∑i=1

(Yi − Y

) (Xi −X

)n∑

i=1

(Xi −X

)2 =SXY

SXX

y la del otro parametro

β0 = Y − β1X

siendo X e Y las medias muestrales de X e Y respectivamente.Utilizando la funcion lm de R, podemos estimar el modelo de regre-sion lineal resultando:







Call:

lm(formula = RunTime ~ RunSize)

Residuals:

Min 1Q Median 3Q Max

-28.597 -11.079 3.329 8.302 29.627

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 149.74770 8.32815 17.98 6.00e-13 ***

RunSize 0.25924 0.03714 6.98 1.61e-06 ***

---

Residual standard error: 16.25 on 18 degrees of freedom

Multiple R-squared: 0.7302, Adjusted R-squared: 0.7152

F-statistic: 48.72 on 1 and 18 DF, p-value: 1.615e-06







50 100 150 200 250 300 350

160

180

200

220

240

Run Size

Run

Tim

e

Figura : Grafico de dispersion ajustado por la recta de regresion.







Los resıduos, ei = Yi− Yi, pueden utilizarse para estimar la varianzade los errores, σ2 :

S2 =

n∑i=1

e2i

n− 2

Para hacer inferencias sobre el modelo de regresion, es necesariosuponer las siguientes hipotesis:

Los errores, εi, son independientes.

Homocedasticidad en los erroes.

Los errores siguen una distribucion normal de media cero yvarianza σ2.

Bajo estas hipotesis, podemos obtener la distribucion asintotica delos parametros de manera que podamos calcular intervalos de con-fianza y realizar contrastes de hipotesis sobre los mismos.







T1 =β1 − β1

st(β1)=

β1 − β1√S2/SXX

˜tn−2

T0 =β0 − β0

st(β0)

β0 − β0

S

√1n+

(X

2/SXX

)˜tn−2

donde st(β1) y st(β0) son las desviaciones estandar estimadas.En nuestro ejemploT1 =6.98 y st(β1) =0.03714T0 =17.98 st(β0) =8.32815







Los p-valores que aparecen en la salida corresponden a los siguientescontrastes:H0 : β0 = 0H1 : β0 �= 0 El p-valor es 6.00e-13 , por lo que rechazamos lahipotesis nula.yH0 : β1 = 0H1 : β1 �= 0 El p-valor es 1.61e-06 , por lo que rechazamos lahipotesis nula.Este ultimo contraste sugiere una clara relacion lineal entre las va-riables.







Coeficiente de correlacion La funcion de R, cor, calcula el coefi-ciente de correlacion lineal entre un par de variables:

r =

n∑i=1

(Yi − Y

) (Xi −X

)√

n∑i=1

(Xi −X

)2 n∑i=1

(Yi − Y

)2Toma valores entre -1 y 1. Cuanto mas proximo sea a 0, menorsera la dependencia lineal entre las dos variables. Cuanto mas seaproxime a 1 o -1, mayor sera la dependencia lineal, creciente en elcaso de r > 0 y decreciente en el caso r < 0.







Prediccion El objetivo del analisis de regresion no es solamentela estimacion de la funcion de regresion, sino tambien la predic-cion de nuevos valores a partir de la funcion de regresion esti-mada. Dado un valor x0, el valor esperado de la variable Y , esy0 = E (Y/X = x0) = β0 + β1x0.Utilizando las hipotesis anteriores podemos obtener la distribucionaistotica de la prediccion de un valor:Sea Y0 = β0 + β1x0 + ε0,

T =Y0 − y0

st(β0)=

Y0 − y0

S

√1 + 1

n+((

x0 −X)2

/SXX

) ≈ tn−2

Lo que nos permite calcular Intervalos de Confianza para las predic-ciones.







ANALISIS DE LA VARIANZA

Podemos obtener una descomposicion de la variabilidad de la forman∑

i=1

(Yi − Y

)2=

n∑i=1

(Yi − Y

)2+

n∑i=1

(Yi − Yi

)2

Variabilidad Total=Variabilidad explicada+Variabilidad no Explica-daPodemos utilizar esta descomposicion para realizar el test:H0 : β1 = 0H1 : β1 �= 0El estadıstico F:

F =

n∑i=1

(Yi − Y

)2/1

n∑i=1

(Yi − Yi

)2/n − 2

˜F1,n−2

Utilizando R podemos realizar la Tabla Anova del ejemplo anterior:Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS






En el caso de regresion lineal simple, el Test de Analisis de la va-rianza y el test que realizabamos anteriormente sobre la pendientede la recta de regresion son equivalentes. Esto no ocurre para otrosmodelos o simplemente cuando tenemos mas de una covariable.Coeficiente de Determinacion: R2

Se define como la proporcion de varianza explicada.

R2 =Varianza Explicada

Variabilidad Total=

n∑i=1

(Yi − Y

)2

n∑i=1

(Yi − Y

)2Toma valores entre 0 y 1. Cuanto mas se aproxime al 1, mayor de-pendencia lineal entre las variables. En el caso particular de regresionlineal simple se verifica R2 = r2.







Calculo con el R de la tabla ANOVA, COEFICIENTE DE CO-RRELACION E INTERVALOS DE CONFIANZA PARA LOSPARAMETROS DEL MODELO

> anova(m1)

TABLA DE ANALISIS DE LA VARIANZA

Response: RunTime

Df Sum Sq Mean Sq F value Pr(>F)

RunSize 1 12868.4 12868.4 48.717 1.615e-06 ***

Residuals 18 4754.6 264.1

> cor(production$RunSize,production$RunTime)

[1] 0.8545206 COEFICIENTE DE CORRELACION

> confint(m1, level=0.95) INTERVALOS DE CONFIANZA AL 95%

2.5 % 97.5 %

(Intercept) 132.2509062 167.2444999

RunSize 0.1812107 0.3372755







Estimaciones para EL VALOR MEDIO de la variable respuestay su intervalo de confianza en un nuevo punto x0

> predict(m1,newdata=data.frame(RunSize=c(50,100)),interval="confidence",level=0.95)

fit lwr upr

1 162.7099 148.6204 176.7994

2 175.6720 164.6568 186.6872

Estimaciones para la PREDICCION de la variable respuesta ysu intervalo de confianza en un nuevo punto x0

> predict(m1,newdata=data.frame(RunSize=c(50,100)),interval="prediction",level=0.95)

fit lwr upr

1 162.7099 125.772 199.6478

2 175.6720 139.794 211.5500







50 100 150 200 250 300 350

150

200

250

Size

pred

icte

d

Figura : Intervalos de confianza para el valor medio y la prediccion delmodelo lineal de regresion







DIAGNOSIS DEL MODELO Nuestro ojetivo ahora es ver si elmodelo de regresion verifica las hipotesis basicas para que sea validoy que podemos hacer cuando se viola alguna de las hipotesis basicasdel modelo como la normalidad, homocedasticidad o la independen-cia.

En el siguiente ejemplo se plantean 4 modelos de regresion linealsimple. A vista del grafico de dispersion, parece que el primero es elunico que verifica las hipotesis del modelo. El segundo parece queajustarıa mejor un polinomio de grado dos que una recta real, eltercero parece tener un dato atıpico(outlyer) y finalmente el 4, lapendiente de la recta de regresion esta fijada por un unico puntoaislado con un valor de x muy grande.







5 10 15 20

46

810

1214

Data Set 1

x1

y1

5 10 15 20

46

810

1214

Data Set 2

x2

y2

5 10 15 20

46

810

1214

Data Set 3

x3

y3

5 10 15 20

46

810

1214

Data Set 4

x4

y4

Figura : Graficos de 4 conjuntos de datos







Una de las herramientas claves para analizar la validez del modelode regresion son los Residuos.Si dibujamos los resıduos (ei = Yi− Yi)de las regresiones anteriores,podemos observar que en el caso 1, los residuos no siguen ningunatendencia, algo que sı ocurre en los otros casos.







5 10 15 20

−3−1

01

23

Data Set 1

x1

Res

idua

ls

5 10 15 20

−3−1

01

23

Data Set 2

x2

Res

idua

ls

5 10 15 20

−3−1

01

23

Data Set 3

x3

Res

idua

ls

5 10 15 20

−3−1

01

23

Data Set 4

x4

Res

idua

ls







Puntos de alto peso (Leverage Points) Son puntos que pueden in-fluir considerablemente en el modelo estimado. Esto hace que suinfluencia pueda ser buena o mala.Ejemplo: Consideramos un conjunto de datos, donde uno de los pun-tos es un ”LeveragePoint”. El ejemplo esta adaptado para observartanto el bueno como el malo ”leverage point”.¿Como detectar un punto ”leverage¿







En el siguiente ejemplo tenemos dos conjuntos de datos iguales salvopor una observacion. Veremos como puede afectar dicha observacional ajuste lineal.

−4 0 2 4 6 8 10

−10

−50

x

YB

ad

−4 0 2 4 6 8 10

−10

−50

x

YG

ood

Fi P d l lAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS






lm(formula = YBad ~ x)

Residuals:

1 2 3 4 5 6

2.0858 0.4173 -0.2713 -1.5898 -1.3883 0.7463

Coefficients:


(Intercept) 0.06833 0.63279 0.108 0.919

x -0.08146 0.13595 -0.599 0.581


Multiple R-squared: 0.08237, Adjusted R-squared: -0.147

F-statistic: 0.3591 on 1 and 4 DF, p-value: 0.5813

lm(formula = YGood ~ x)

Residuals:

1 2 3 4 5 6

0.47813 -0.31349 -0.12510 -0.56672 0.51167 0.01551

Coefficients:


(Intercept) -1.83167 0.19640 -9.326 0.000736 ***

x -0.95838 0.04219 -22.714 2.23e-05 ***

---



F-statistic: 515.9 on 1 and 4 DF, p-value: 2.225e-05Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS






Graficamente ya se observa las diferencias en el ajuste de ambosconjuntos de datos. Pero al ver el summary de los modelos estimadoslas diferencias son aun mas avismales.Observar el cambio sustancial en el R cuadrado, ası como en elp-valor del estadıstico del F-test.Podemos observar que la observacion que difiere en los dos conjuntosde datos influye sustancialmente en el ajuste.A continuacion comentaremos algunas medidas de influencia de lasobservaciones y podremos ver como de grande es esta medida paraesta observacion,si la comparamos con las otras observaciones.







Sea

hi =1

n+

(Xi −X

)2n∑

j=1

(Xj −X

)2un metodo clasico es clasificar Xi como punto de alto peso si

hi > 2 ∗ average(hi) = 4

n

En el ejemplo anterior, teniendo en cuenta que n=6, 4n

= 0,67,podemos calcular con la funcion lm.influence,el valor de hi paracada dato. Podemos observar que para el punto 6 la influencia esmuy superior a 0.67 en ambos casos tanto en el bueno como en elmalo.> lm.influence(mBad)$hat

1 2 3 4 5 6

0.2897436 0.2358974 0.1974359 0.1743590 0.1666667 0.9358974

> lm.influence(mGood)$hat

1 2 3 4 5 6Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS






Si observamos que un dato influye sustancialmente en lel modelo deregresion, tenemos dos opciones:

Eliminar ese dato si observamos que esos datos son daninos yla estimacion que nos sale no es correcta.

Probar a proximar un modelo de regresion diferente, porejemplo un modelo polinomico.

Uno de los problemas al trabajar con los residuos es que tiene unavarianza dada por V ar (ei) = σ2 [1− hi] .Esto puede causar un problema cuando hi se aproxima a 1. Por ellose trabaja generalmente con los residuos estandarizados

ri =ei

s√1− hi

En la practica se clasifica como outlyer a aquellos datos cuyo residuoestandarizado esta fuera del intervalo [−2, 2] .







Un Mal Leverage Point es aquel Leverage Point cuyo resıduo estan-darizado esta fuera del intervalo [−2, 2] .

−4 0 2 4 6 8 10

−1.0

−0.5

0.0

0.5

1.0

1.5

2.0

x

Sta

nRes

Bad

−4 0 2 4 6 8 10

−1.0

−0.5

0.0

0.5

1.0

x

Sta

nRes

Goo

d

Figura : Graficos de los resıduos estandarizadosAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS






Cook(1977) propuso un coeficiente para medir la influencia indivi-dual de los casos. En el caso de regresion lineal simple viene dadopor:

Di =r2i2

hi1− hi

.

Varios autores recomiendan que si este valor excede 4n−2 , se estudie

el dato puesto que es susceptible a ser outlyer.Este estadıstico se puede calcular utilizando la funcion R de co-oks.distance







−4 0 2 4 6 8 10

05

1015

2025

x

Coo

k’s

Dis

tanc

e B

Ad

−4 0 2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

x

Coo

k’s

Dis

tanc

e G

ood

Figura : Graficos de Estadıstico de la Distancia de Cook







El siguiente grafico combina los valores hat, los residuos estudenti-zados y la distancia de Cook. Las areas de los cırculos son propor-cionales a la distancia de Cook. El valor del parametro id.n poneetiquetas a aquellas observaciones con mayores resıduos estudenti-zados, valores hat o distancia de Cook.> influencePlot(mBad, id.n=3)

StudRes Hat CookD

1 2.296384 0.2897436 0.7211363

2 0.269935 0.2358974 0.1210008

4 -1.184181 0.1743590 0.3667927

6 5.316953 0.9358974 5.1379560

0.2 0.4 0.6 0.8

−10

12

34

5

Hat−Values

Stu

dent

ized

Res

idua

ls

1

2

4

6







Normalidad de los Errores Otra de las hipotesis que utilizamosen los modelos de regresion es la normalidad de los errores. Exis-ten varias pruebas no Parametricas de Normalidad como el Test deShapiro Wilks(shapiro.test).

> shapiro.test(m1$residuals)

Shapiro-Wilk normality test

data: m1$residuals

W = 0.9771, p-value = 0.8917

Utilizar la funcion qqnorm() sobre los resıduos es un buen metodografico de testear la normalidad. Si utilizamos la funcion plot delobjeto que contine la regresion, obtenemos los siguientes graficos delos resıduos:







180 200 220 240

−30

−10

1030

Fitted values

Res

idua

ls

Residuals vs Fitted

9

810

−2 −1 0 1 2

−10

12

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

9

810

180 200 220 240

0.0

0.4

0.8

1.2

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location98

10

0.00 0.05 0.10 0.15

−2−1

01

2

Leverage

Sta

ndar

dize

d re

sidu

als

Cook’s distance0.5

0.5Residuals vs Leverage

9

1710

Figura : Grafico del analisis de regresion







Homocedasticidad

Otra de las hipotesis que establecemos en el modelo de regresionsimple es la varianza constante de los errores.Graficamente se puede observar en los graficos de los resıduos, vien-do que no varıa la dispersion de los mismos.

50 100 150 200 250 300 350

12

34

5

Squ

are

Roo

t(|S

tand

ardi

zed

Res

idua

ls|)







Varios autores recomiendan observar el grafico de la raiz del valorabsoluto los resıduos estandarizados frente a X. Si aproximamos esediagrama de dispersion por un modelo de regresion lineal y nos saleque tiene pendiente no nula, eso evidencia que no hay homocedas-ticidad en los errores. Cuando la varianza no es constante, existentransformaciones para estabilizarla como por ejemplo

√y, log (y) .







Hemos visto en los modelos de regresion ejemplos donde es nece-sario realizar transformaciones de los datos para poder aplicar losmetodos deseados. Por ejemplo para la normalidad, simetrıa, homo-cedasticidad, etc.Existen una serie de transformaciones de los datos que permitenobtener caracterısticas deseables de los mismos.







Logaritmos Los logaritmos son unas transformaciones muy simplespero a la vez muy importantes que podemos aplicar a variables po-sitivas. Bien sea el logaritmo en base e, en base 10, 2, o en otrasbases. Recordemos que los logaritmos en diferentes bases se obtienenmediante la multiplicacion de una constante. VEamos un ejemplo:El archivo ORnstein.txt tiene datos las corporaciones mas grandes deCanada. La variable assets que contiene los activos, tiene la siguientefuncion de densidad

0 50000 100000 150000

0.00

000

0.00

005

0.00

010

0.00

015

0.00

020

0.00

025

(Datos originales)

assets

Den

sity







Si aplicamos la transformacion de logaritmos a los datos podemosver como desaparece la asimetrıa. Tambien observamos que la formade las densidades es semejante, aunque la escala es muy distinta.

2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

(LOG10)

base−10 log of assets

Den

sity

5 10 15

0.00

0.05

0.10

0.15

0.20

(LOG2)


Den

sity

4 6 8 10 12

0.00

0.05

0.10

0.15

0.20

0.25

(LOG NATURAL)


Den

sity







Si ahora fijamos los ejes y, vemos que las estimaciones son clara-mente distintas.

2 3 4 5

0.0

0.2

0.4

0.6

0.8

(LOG10)


Den

sity

5 10 15

0.0

0.2

0.4

0.6

0.8

(LOG2)


Den

sity

4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

(LOG NATURAL)


Den

sity

Los logaritmos tienen la capacidad de dispersar valores que estanmuy juntos y de ��comprimir�� valores muy dispersos De este modo







Cuando trabajamos con dos varibles y queremos ver su grafico dedispersion, la funcion scatterplot tiene una opcion vara ver los da-tos en escala logaritmica. En el arhivo de datos UN, del paquetencar, conitene la tasa de mortalidad infantil por el producto interiorbruto(gdp)

0 10000 20000 30000 40000

050

100

150

Escala Original

PRod. Int. BRuto

Tasa

Mor

talid

ad In

fant

il

SwitzerlandJapan

Sierra.Leone

Luxembourg

50 100 200 500 1000 2000 5000 10000 20000 50000

25

1020

5010

020

0

(Escala Logarítmica)

PRod. Int. BRuto

Tasa

Mor

talid

ad In

fant

il

Tonga

Iraq

Afghanistan

Bosnia







Transformaciones Potencia Definimos ��power transformations�� alas transformaciones del tipo xλ, donde x puede ser tanto la veria-ble respuesta como una predictora. Si consideramos las transforma-ciones sobre una covariable, se puede confundir la transformacionpor potencia con la regresion polinomial, pero la diferencia radicaen que este tipo de transformaciones son utiles generalmente en elrango[−2, 3].

Si tomamos λ = −1 tenemos la transformacion inversa. Porejemplo si x es el tiempo que tarda en realizarse un evento,x−1 representa la velocidad a la que se realizo el evento.

La potencia λ = 1/3 puede servir para convertir medidasvolumen en medidas lineales. Y al reves λ = 3 perite convertiruna medida lineal en una medida volumen.







La familia de transformaciones de Box-Cox es una de las transfor-maciones por potencia mas conocidas. Generalmente se utiliza paratransformar la respuesta del modelo de regresion lineal. Esta di-senado para variables estrictamente positivas y busca la transforma-cion que mejor se ajusta a los datos. La familia de transformacionesviene parametrizada por un parametroλ

gλ =

⎧⎨⎩yλ−1

λsi λ�=0

log(y) si λ = 0

El metodo consiste en elegir λ de modo que maximize la verosimili-tud.En R se necesita la librerıa MASS y la funcion boxcox para utilizarel metodo







Aplicandolo en el ejemplo anteriorlibrary(MASS)

production <- read.table("production.txt",header=TRUE)

attach(production)

m1 <- lm(RunTime~RunSize)

boxcox(m1,plotit=T)

boxcox(m1,plotit=T,lambda=seq(1,2,by=0.05))

−2 −1 0 1 2

−88

−87

−86

−85

λ

log−

Like

lihoo

d

95%

1.0 1.2 1.4 1.6 1.8 2.0

−86.

5−8

6.0

−85.

5−8

5.0

λ

log−

Like

lihoo

d

95%

Vemos que el valor de λ esta proximo a 1, por lo tanto no hay unarazon muy fuerte para realizar la transformacion.







La funcion powerTransfor, indica numericamente resultados similaresa los obtenidos por la funcion boxcox

> summary(p1<-powerTransform(m1))

bcPower Transformation to Normality

Est.Power Std.Err. Wald Lower Bound Wald Upper Bound

Y1 1.3561 1.2038 -1.0034 3.7156

Likelihood ratio tests about transformation parameters

LRT df pval

LR test, lambda = (0) 1.26939593 1 0.2598800

LR test, lambda = (1) 0.08769953 1 0.7671224

λ = 1,35 con el intervalo de confianza para esta estimacion entre-1.0034 y 3.7156. La estimacion puede utilizarse mediante la funcion

y1<-bcPower(RunTime,coef(p1,round=TRUE))

Ver ejemplo simulado en archivo txt.







Transformaciones de Variables con Rango acotado En algunoscasos las variables con rango acotado necesitan diferentes transfor-maciones, como los porcentajes o las proporciones.

La transformacion T (x) = sin−1 (√x) se utiliza muchas

veces para proporciones.Para calcularla se utiliza la funcionasin(sqrt(X)). Si tenemos una muestra de una binomial, y ladividimos por el parametro n de la binomial, la distribucionfinal tiene una desviacion tıpica que dependen del parametro pde la binomial, con esta transformacion, la muestratransformada tendra una desv. tıpica de 0,5 (x)

√n mas

estable frente a p.







Otra transformacion de valores en el intervalo (0, 1) la logit

T (x) = log(

x1−x

). Sirve para linealizar los valores, reasigna

los valores que estan entre cero y uno en intervalos masamplios, de manera que podamos aplicar tecnicas como laregresion a estos nuevos valores transformados.







Regresion Lineal Multiple

En este caso se supone que disponemos de mas de una covariableque se relaciona con la variable respuesta mediante un modelo lineal.La formulacion del modelo es la siguiente:

Yi = β0 + β1X1,i + ...+ βpXp,i + εi, i = 1, ..., n

matricialmenteY = βX+ ε,

donde Yt = (Yi, ..., Yn) , ε

t = (εi, ..., εn) , βt=(β0, ..., βp) y

X =

⎛⎝ 1 X1,1 · · · Xp,1

· · · · · · · · · · · ·1 X1,n · · · Xp,n

⎞⎠Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS






Se supone que los errores siguen una Distribucion Normal N(0, σ2I

),

donde I es la matriz identidad.Utilizando mınimos cuadrados o el metodo de maxima verosimilitudpodemos obtener una estimacion para el vector de parametros β.Tambien se obtiene una descomposicion de la variabilidad total envariabilidad explicada por el modelo y variabilidad no explicada. Estonos permite calcular al tabla ANOVA asocida a este modelo. En estecaso el F-TEst de la tabla ANOVA realiza el siguiente contraste:H0 : β1 = β2 = ... = βp = 0 H1 : Hay al menos uno distinto decero.







El coeficiente de Determinacion del modelo de regresion lineal sedefine como la proporcion de variabilidad total que es explicada porel modelo.

R2 =V ar Explicada

V ar Total= 1− V ar Error

V ar Total

En el caso de regresion lineal multiple, es adecuado ajustar por elnumero de covariables que aparecen en el modelo:

R2adj = 1−

V ar Error 1n−p−1

V ar Total 1n−1







EJEMPLO: ARchivo de datos nyc.csv

m1 <- lm(Price~Food+Decor+Service)

summary(m1)

Call:

lm(formula = Price ~ Food + Decor + Service)

Residuals:


-14.8440 -3.7039 -0.1525 3.6218 19.0576

Coefficients:


(Intercept) -24.6409 4.7536 -5.184 6.33e-07 ***

Food 1.5556 0.3731 4.170 4.93e-05 ***

Decor 1.8473 0.2176 8.491 1.17e-14 ***

Service 0.1350 0.3957 0.341 0.733

---



F-statistic: 88.06 on 3 and 164 DF, p-value: < 2.2e-16

Los coeficientes son interpretados del siguiente modo, b1=1.5556indica que manteniendo fijos los valores de las restantes variables, elincremento medio de la variable respuesta de este modelo(Precio)al aumentar una unidad Food es de 1.55







> anova(m1)

Analysis of Variance Table

Response: Price

Df Sum Sq Mean Sq F value Pr(>F)

Food 1 5670.3 5670.3 168.3552 <2e-16 ***

Decor 1 3223.7 3223.7 95.7130 <2e-16 ***

Service 1 3.9 3.9 0.1165 0.7333

Residuals 164 5523.6 33.7

Aquı se realiza un contraste secuencial:

1o Price ∼ cte versus Price∼Cte+Food

2o Price∼cte+Food versus Price∼cte+Food+Decor

3o Price∼cte+Food+Decor versusPrice∼cte+Food+Decor+Service







Otros contrastes distintos son los que realiza la funcion Anova

Anova Table (Type II tests)

Response: Price

Sum Sq Df F value Pr(>F)

Food 585.5 1 17.3849 4.933e-05 ***

Decor 2428.5 1 72.1037 1.171e-14 ***

Service 3.9 1 0.1165 0.7333

Residuals 5523.6 164

Aquı se realiza un contraste secuencial:

1o Price∼cte+Decor+Service versusPrice∼cte+Food+Decor+Service

2o Price∼cte+Food+Service versusPrice∼cte+Food+Decor+Service

3o Price∼cte+Food+Decor versusPrice∼cte+Food+Decor+Service

Se contrasta el efecto principal de cada una de las predictorasAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS






Food

10 15 20 25

1618

2022

24

1015

2025

Decor

16 18 20 22 24 14 16 18 20 22 24

1416

1820

2224

Service

Figura : Diagrama de Dispersion de un modelo de Reg. Multiple







20 30 40 50 60

−10

010

20

Fitted values

Res

idua

ls

Residuals vs Fitted

5630

130

−2 −1 0 1 2

−2−1

01

23

4

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

5630

130

20 30 40 50 60

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location56

30130

0.00 0.05 0.10 0.15 0.20

−3−1

01

23

4

Leverage

Sta

ndar

dize

d re

sidu

als

Cook’s distance 0.5

0.5

1Residuals vs Leverage

130

56

83

Figura : Grafico del analisis de regresion multiple







Estes contrastes tambien se pueden realizar comparando los dosmodelos de regresion:

> m1 <- lm(Price~Food+Decor+Service)

> m2 <- lm(Price~Food+Decor)

> anova(m2,m1)

Analysis of Variance Table

Model 1: Price ~ Food + Decor

Model 2: Price ~ Food + Decor + Service

Res.Df RSS Df Sum of Sq F Pr(>F)

1 165 5527.5

2 164 5523.6 1 3.9239 0.1165 0.7333

Estos resultados estan condicionados al resto de covariables. Con-siderando un modelo con covariables distintas, el p-valor asociadosaldrıa distinto.







Seleccion de Variables

A continuacion veremos algunos metodos para seleccionar aquellasvariables mas significativas de un modelo de regresion lineal multiple.

R2 ajustado: consite en elegir el subconjunto de covariblescuyo coeficiente de Determinacion ajustado sea el mas alto.

Utilizar el criterio de informacion de Akaike. AIC. Utilizandoresultdos de maxima verosimilitud se puede ver que

AIC = n log

(RSS

n

)+ 2p

siendo RSS la Suma residual de cuadrados. Se elegirıa elmodelo que minimiza esta cantidad.







Criterio de informacion de Akaike corregido. AICc. Estaversion introduce una correccion del sesgo para su uso en elcaso de que el tamano muestral sea pequeno con respecto alnumero de parametros.

AICc = AIC +2 (p+ 2) (p+ 3)

n− p− 1

Criterio de Informacion BAyesiana (BIC). Schwarz(1978)propuso el criterio de informacion bayesiana como

BIC = −2 log(L(β0, β1, ..., βp/Y

)+ (p+ 2) log (n)

Aquel modelo que minimize este valor sera el mejor.

A la hora de escoger las posibles variables predictoras tenemos dosmetodos distintos: evaluar todos los posibles subconjuntos o meto-dos por pasos.







Ejemplo> m1 <- lm(Price~Food+Decor+Service)

> step(m1)

Start: AIC=594.79

Price ~ Food + Decor + Service

Df Sum of Sq RSS AIC

- Service 1 3.92 5527.5 592.91

<none> 5523.6 594.79

- Food 1 585.53 6109.2 609.72

- Decor 1 2428.50 7952.1 654.01

Step: AIC=592.91

Price ~ Food + Decor

Df Sum of Sq RSS AIC

<none> 5527.5 592.91

- Food 1 1327.2 6854.7 627.07

- Decor 1 3223.7 8751.2 668.10

Call:

lm(formula = Price ~ Food + Decor)

Coefficients:

(Intercept) Food Decor

-24.500 1.646 1.882

Primera etapa saca la covariable Service que tenıa un p-valor delestadıstico mas grande(0.733)(ver en summary(m1)) En la segundaetapa, vemos que ninguna de las dos covariables reduce el valor delcriterio AIC(592 91) por lo tanto quedan las variables Food y DecorAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS






SE puede escoger el metodo de seleccion de variables hacia adelanteo ambos. Pueden salir resultados ligeramente distintos. Se buscarıaaquel modelo con menor valor del AIC

> step(m1, direction="forward")

Start: AIC=594.79

Price ~ Food + Decor + Service

Call:

lm(formula = Price ~ Food + Decor + Service)

Coefficients:

(Intercept) Food Decor Service

-24.641 1.556 1.847 0.135

o tambien step(m1, direction=”both”)Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS






Colinealidad

En el caso de regresion lineal multiple, nos podemos encontrar quela matriz XtX necesaria para la estimacion de los parametros delmodelo de regresion es singular.Por lo tanto no es invertible y causa problemas a la hora de estimarlos parametros.







La Colinealidad o Multicolinealidad puede ser detectada de variasformas:

Examinar la matriz de correlaciones de las variablespredictoras que tendra grandes valores.Calcular las regresiones de cada variable Xi sobre el resto dede las variables predictoras. Calcular el coeficiente deDeterminacion. Aquellos que tengan valores cercanos a uno,indican problemasde colinealidad asociados a dichacombinacion lineal.Calcular los autovalores de la matriz XtX, Valores pequenosindican un prolema. La cantidad

κ =

√λ1

λp

Se define ”the condition number 2valores mayores que 30 sonconsiderados como grandesAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS






> a1

[,1] [,2] [,3]

[1,] 1.0000000 0.5039161 0.7945248

[2,] 0.5039161 1.0000000 0.6453306

[3,] 0.7945248 0.6453306 1.0000000

> a<-matrix(c(Food, Decor, Service), ncol=3)

> a2<-eigen(t(a)%*%a).

Error: inesperado sımbolo en "a2<-eigen(t(a)%*%a)."

> a2<-eigen(t(a)%*%a)

> a2$val

[1] 188975.9315 568.1047 134.9639

> sqrt(a2$val[1]/a2$val)

[1] 1.0000 18.2385 37.4192

> vif(m1)

Food Decor Service

2.712989 1.714273 3.468564

El tercer autovalor es mayor que 30, puede haber colinealidad. Elfactor de inflaccion de la varianza toma valores pequenos(menoresque 5), por lo que indica que la varianza de esas covariables noinfluye sustancialmente en la estimacion del error standard en losparametros del modelo de regresion.







Modelos con predictores Numericos y Factores En la librerıacar nos podemos encontrar con el archivo de datos Prestige.

> head(Prestige)

education income women prestige census type

gov.administrators 13.11 12351 11.16 68.8 1113 prof

general.managers 12.26 25879 4.02 69.1 1130 prof

accountants 12.77 9271 15.70 63.4 1171 prof

...

> summary(Prestige$type)

bc prof wc NA’s

44 31 23 4

donde type es una variable factor. si analizamos el siguiente modelo

prestige.mod <- lm(prestige ~ education + log2(income) + ty







Si estimamos el modelo de regresion lineal con factores pero sininteraccion

> summary(prestige.mod)

Call:

lm(formula = prestige ~ education + log2(income) + type, data = Prestige)

Residuals:


-13.511 -3.746 1.011 4.356 18.438

Coefficients:


(Intercept) -81.2019 13.7431 -5.909 5.63e-08 ***

education 3.2845 0.6081 5.401 5.06e-07 ***

log2(income) 7.2694 1.1900 6.109 2.31e-08 ***

typeprof 6.7509 3.6185 1.866 0.0652 .

typewc -1.4394 2.3780 -0.605 0.5465

---


(4 observations deleted due to missingness)









Si estimamos el modelo de regresion lineal con factores pero CONinteraccion

> prestige.mod2 <- lm(prestige ~ education + type+ education:type,data=Prestige)

> summary(prestige.mod2)

Call:

lm(formula = prestige ~ education + type + education:type, data = Prestige)

Residuals:


-19.7095 -5.3938 0.8125 5.3968 16.1411

Coefficients:


(Intercept) -4.2936 8.6470 -0.497 0.621

education 4.7637 1.0247 4.649 1.11e-05 ***

typeprof 18.8637 16.8881 1.117 0.267

typewc -24.3833 21.7777 -1.120 0.266

education:typeprof -0.9808 1.4495 -0.677 0.500

education:typewc 1.6709 2.0777 0.804 0.423


(4 observations deleted due to missingness)









El termino independiente para el nivel bc es -4.293. Lapendiente de la variable educacion para ese nivel es 4.763.

Para el nivel prof, la constante es -4.2936+18.8637. Lapendiente de educacion para ese nivel es 4.7637-0.9808.

Para el nivel wc, la constante es -4.2936-24.3833. Lapendiente de educacion para ese nivel es 4.7637+1.6709.






Mınimos Cuadrados Ponderados En algunos casos tenemos queintroducir pesos en el modelo de regresion para obtener una estima-cion adecuada. Por ejemplo cuando la varianza no es constante.

Y = Xβ + ε

donde ε N (0,Σ) con Σ = σ2

{1

w2

1,..., 1

w2n

}Los estimadores de maxi-

ma verosimilitud de los parametros son:

β =(XtWX

)−1XtWY

y

σ2 =

∑wi (Yi −Xβ)2

n






Algunos ejemplos:

errores con varianza dependiendo del valor de la covariableV ar (ε) ∝ xCuando la variable respuesta Yi es promedio de un numero deobservaciones mi, la varianza puede depender de ese numerode observaciones V ar (εi) ∝ mi

En el siguiente ejemplo aplicamos mınimos cuadrados ponderados.El peso es igual al inverso de la desviacion tıpica cuya estimacion esproporcionada en el archivo de datos. El archivo de datos es:> strongx<-read.table("strongx.txt", header=T,sep="")

> strongx

momentum energy crossx sd

1 4 0.345 367 17

2 6 0.287 311 9

3 8 0.251 295 9

4 10 0.225 268 7

5 12 0.207 253 7

6 15 0.186 239 6

7 20 0.161 220 6

8 30 0.132 213 6

9 75 0.084 193 5

10 150 0.060 192 5Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS





Aplicando Mınimos cuadrados Ponderados

> g <- lm(crossx~energy, strongx, weights=sd^-2)

> summary(g)

Call:

lm(formula = crossx ~ energy, data = strongx, weights = sd^-2)

Residuals:


-2.323e+00 -8.842e-01 1.266e-06 1.390e+00 2.335e+00

Coefficients:


(Intercept) 148.473 8.079 18.38 7.91e-08 ***

energy 530.835 47.550 11.16 3.71e-06 ***

---









Aplicando Mınimos cuadrados Ordinarios

> gu <- lm(crossx ~ energy, strongx)

> summary(gu)

Call:

lm(formula = crossx ~ energy, data = strongx)

Residuals:


-14.773 -9.319 -2.829 5.571 19.818

Coefficients:


(Intercept) 135.00 10.08 13.40 9.21e-07 ***

energy 619.71 47.68 13.00 1.16e-06 ***

---









Comparando ambas estimaciones> plot(crossx ~ energy, data=strongx)

> abline(g)

> abline(gu,lty=2)

0.05 0.10 0.15 0.20 0.25 0.30 0.35

200

250

300

350

energy

cros

sx

Figura : Comparacion de Mınimos Cuadrados Ordinarios y PonderadosAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS





Modelos de regresion Polinomial En algunos casos para lograr unbuen ajuste del modelo de regresion es necesario utilizar terminospolinomicos. Por ejemplo, si trabajamos con una sola covariable, elmodelo polinomico de grado p, podrıamos escribirlo como:

Y = β0 + β1X + β2X2 + ...+ βpX

p + ε,

Para el analisis de este modelo se utiliza la metodologıa de modelosde regresion lineal multiple considerando

Xj = Xj

Dada esta construccion de las covariables es probable que existanproblemas de colinealidad. Para disminuir los efectos se puede tra-bajar con variables centradas y considerar

Y = β0 + β1(X − X

)+ β2

(X − X

)2+ ...+ βp

(X − X

)p+ ε,






El siguiente ejemplo modeliza el salario en funcion de los anos deexperiencia

0 5 10 15 20 25 30 35

4050

6070

Years of Experience

Sal

ary

Figura : Grafico del analisis de regresion polinomica






Veamos como quedan los residuos al aproximarlo por un modelo deregresion lineal(DERECHA) y cuadratico(IZQUIERDA)

m1 <- lm(Salary~Experience)

m2 <- lm(Salary~Experience + I(Experience^2))

0 5 10 15 20 25 30 35

−2−1

01

Years of Experience

Sta

ndar

dize

d R

esid

uals

(a) Lineal

0 5 10 15 20 25 30 35

−10

12

Years of Experience

Sta

ndar

dize

d R

esid

uals

(b) Cuadratico






REGRESION NO LINEAL

Como ya hemos comentado aneriormente,no siempre una funcionlineal expresa del mejor modo posible la relacion entre una variabledependiente y un conjunto de covariables. En algunas ocasiones larelacion existente es No lineal, como por ejemplo:

Y = a+ b1

x+ ε

Y = a+ b ∗ log (x) + ε

Y = b ∗ xa + ε

En general, para un modelo de regresion simple

Y = a+ b ∗ g (x) + ε

donde g es una funcion especificadaAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS





Para obtener la estimacion de estos parametros a veces se recurre atransformaciones como logaritmos, etc y aproximar metodos comola optimizacion mınimo cuadratica.Pero si esto no es posible se podrıa aproximar la solucion optima.Por ello que es comun recurrir a metodos de optimizacion numerica.






Ejemplo A continuacion trataremos de aproximar el siguiente modelono lineal

Rate =Vm ∗ Concentration

K + Concentration+ ε

0 50 100 150 200

2040

6080

100

Substrate concentration (mmol m−3)

Upt

ake

rate

(wei

ght/h

)

Figura : Grafico de Dispersion L.minor

Utilizando la funcion de R nls, que figura en el paquete nrlwr, po-Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS





> L.minor.m1 <- nls(rate ~ Vm*conc/(K+conc), data = L.minor, start = list(K=20, Vm=120), trace = TRUE)

624.3282 : 20 120

244.5460 : 15.92382 124.57148

234.5198 : 17.25299 126.43877

234.3595 : 17.04442 125.96181

234.3533 : 17.08574 126.04671

234.3531 : 17.07774 126.03016

234.3531 : 17.07930 126.03338

234.3531 : 17.07899 126.03276

Podemos ver en la lınea de comando la expresion de la funcion deregresion, supuesta conocida. El argumento de la funcion start, indi-ca los valores iniciales de los parametros. Trace indica si aparecen enpantalla los valores de los parameros a medida que vamos realizandoiteraciones. En este caso el valor optimo encontrado en la septimaiteracion es

Vm = 126,03276

K = 17,07899 + ε

Y el valor de la Suma residual de Cuadrados es 234.3531. Este valortambien se optiene con la funcion devianceAna Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS





Otra medida resumen es el logaritmo de la funcion de verosimilitud.Mediante la funcion logLik sepuede obtener el valor maximo dellogaritmo de la funcion de verosimilitud

> logLik(L.minor.m1)

’log Lik.’ -24.86106 (df=3)

Tambien podemos ver la estimacion de los parametros mediante

> coef(L.minor.m1)

K Vm

17.07899 126.03276

Finalmente utilizando la funcion summary, podemos observar un re-sumen mas detallado del analisis realizado

> summary(L.minor.m1)

Formula: rate ~ Vm * conc/(K + conc)

Parameters:


K 17.079 2.953 5.784 0.00117 **

Vm 126.033 7.173 17.570 2.18e-06 ***


Number of iterations to convergence: 7

Achieved convergence tolerance: 8.144e-06






Si comparamos el grafico de dispersion con la curva estimada

> plot(rate ~ conc, data = L.minor, ylim=c(10,130), ylab="Uptake rate (weight/h)",

+ xlab=Substrate~concentration~(mmol~m^-3))

> lines(L.minor$conc, fitted(L.minor.m1))

0 50 100 150 200

2040

6080

100

120

Substrate concentration (mmol m−3)

Upt

ake

rate

(wei

ght/h

)






La suma residual de cuadrados es una funcion de dos parametros Ky Vm.La funcion nlsContourRSS, genera la informacion necesaria para rea-lizar un grafico de contorno. Para ello es necesario instalar el paquetenlstools.> L.minor.m1con <- nlsContourRSS(L.minor.m1)

100%

RSS contour surface array returned

> plot(L.minor.m1con, col = FALSE, nlev = 10)

K

Vm

5 10 15 20 25 30

9010

011

012

013

014

015

016

0






Diagnosis del modelo Las hipotesis subyacentes al modelo de re-gresion no lineal son

Que la funcion de regresion este bien especificada

Homocedasticidad en los errores

Los errores que sigan una distribucon Normal

Los errores que sean independientes






Los modelos lineales Generalizados son una extension de losmodelos lineales a variables que tienen una distribucioncondicional especıfica que no es normal.

A menudo, nuestras variables respuestas no son cuantitativas,y es necesario recurrir a este tipo de modelos para poderestimar adecuadamente su distribucion condicional a otrasvariables.

Por ejemplo, si la variable respuesta es dicotomica podemospensar en modelos logit o probit.






Los modelos lineales generalizados consisten en tres componentes:Una componente aleatoria especificando la distribucion condicionalde la variable respuesta Y al conjunto de covariables X. Se supo-ne que Y sigue una distribucion de la familia exponencial(normal,binomial, poisson, gamma, etc) Un predictor lineal, es decir

ηi = β0 + β1Xi,1 + β2Xi,2 + ..+ βkXi,k (1)

Una funcion suave e invertible que permita linealizar media de lavariable respuesta (μi = E [Yi]), conocida como funcion link g

g (μi) = ηi = β0 + β1Xi,1 + β2Xi,2 + ..+ βkXi,k (2)






Las funciones link que dan lugar a los Modelos lineales Generalizadosmas conocidos son las siguientesRecordemos que

η = μ es el caso de g es la funcion identidad. FamiliaGaussiana.

η = log(

μ1−μ

)μ = 1

1+exp(−η) Funcion logıstica. Familia

Binomial

η = Φ(μ) μ = Φ−1 (η) Funcion Probit. Tambien se puedeutilizar para la familia Binomial.

η = log (μ) μ = exp (η) funcion exponencial, familia poisson

η = μ−1 Inversa(Familia Gamma)






Los parametros de un modelo lineal generalizado se estiman utili-zando el Metodo de Maxima Verosimilitud.Salvo en el caso de la FAmilia Gaussiana que es posible obteneruna expresion analıtica al maximizar la funcion de Verosimilitud,generalmente es necesario aplicar un algoritmo iterativo para obtenerlas estimaciones de los parametros.El metodo mas utilizado es el Algoritmo de Fisher-Scoring que essimilar a aplicar iterativament el metodo de mınimos cuadrados pon-derados.






Una vez estimados los parametros podemos realizar contrastes dehipotesis. PAra comparar dos modelos podemos utilizar estdadısticosde razon de verosimilitudes para comparar el modelo completo conun modelo determiando

2 (l (y, θ/y)− l (μ, θ/y)) (3)

A partir de esta diferencia de verosimilitud se obtiene la DEVIANCE,que es como una medida de error en los modelos lineales generaliza-dos. De hecho en el caso de que la familia sea Gaussiana, la Deviancecoincide con la Suma Cuadratica de los REsiduos.






Regresion Logıstica Binaria En el caso de que nuestra variabledependiente sea una variable binaria(valores 0 o 1).

Y = 1 indica exitoY = 0 indica fracaso

Disponemos de un conjunto de covariables (X1, ...,Xp) que nos ayu-dan a predecir Y

P (Y = 1/x1, ..., xp) = π (x) = β0 + β1x1 + ...+ βpxp (4)

Esta formulacion tiene varios problemas graves, entre ellos que laestimacion debe ser una probabilidad. Por ese motivo se sugiereuna transformacion mediante una funcion logit por ejemplo, aunquepodrıa utilizarse tambien la probit.

Odd (x) =π (x)

1− π (x)(5)






El Odds toma valores entre 0 y +∞.

Un valor de 1 en el Odds quiere decir las dos categorias (0 y1) de la variable Y tienen la misma probabilidad de ocurrencia.

Un valor mayor que 1 indica que Y = 1 tiene mayorprobabilidad de ocurrencia.

Se utiliza una transformacion logaritmica de ODDs, dando ası valoresentre −∞ y +∞

Logit (x) = log (Odd (x)) = log

(π (x)

1− π (x)

)(6)

Un valor de cero en el logit equivale a ambos valores de la variableY son equiprobables. Un valor mayor que cero indica que la proba-bilidad del 1(exito) es mayor que 0.5.






En los siguientes graficos podemos observar que forma tiene la fun-cion logit y probit.

−4 −2 0 2 4

0.0

0.4

0.8

eta

mu

LO

GIT

−4 −2 0 2 4

0.0

0.4

0.8

eta

mu

PR

OB

IT

Vemos que las diferencias son pequenas, la ventaja de los modeloslo sticos es e so as facil e te i te etables






Los modelos logısticos permiten interpretar directamente los coefi-cientes a partir de la medida de asociacion denominada ODDs Ratio.Supongamos que tenemos una unica covariable X que toma los va-lores si y no, se define

OddsRatio =Logit (si)

Logit (no)(7)

si Odds Ratio<1 entonces X es un protector

si Odds Ratio=1 entonces no hay asociacion

si Odds Ratio>1 entonces X es un factor de riesgo






Si Xj es una variable Factor que solo toma dos valores (si y no porejemplo), el Odds Ratio de Xj=exp (βj).Se dira que existe asociacion significativa cuando el valor uno noeste contenido en el intervalo de confianza para este Odds ratio.Se puede calcular con En el caso de queXj sea una variable contınuay xj,0 sea su valor de referencia, el valor exp (βj) indica el incrementode riesgo. Se puede generar el grafico {x, exp (βj (x− x0))} y er lacurva del riesgo en funcion del valor de referencia x0 y de una seriede valores x.






En el siguiente ejemplo se muestra una base de datos de restaurantesde Nueva York que estan o no incluidos en la Guıa Michelın Veamosel grafico de dispersion en funcion de la covariable Food Rating

16 18 20 22 24 26 28

0.0

0.2

0.4

0.6

0.8

1.0

Food Rating

In M

iche

lin G

uide

? (0

=No,

1=Y

es)






> m1 <- glm(y~Food,family=binomial(),data=MichelinNY)

> summary(m1)

Call:

glm(formula = y ~ Food, family = binomial(), data = MichelinNY)

Deviance Residuals:


-2.3484 -0.8555 -0.4329 0.9028 1.9847

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -10.84154 1.86234 -5.821 5.83e-09 ***

Food 0.50124 0.08767 5.717 1.08e-08 ***

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 225.79 on 163 degrees of freedom

Residual deviance: 175.73 on 162 degrees of freedom

AIC: 179.73

Number of Fisher Scoring iterations: 4






Los test de Wald para los parametros de la funcion dados por lasestimaciones de los coeficientes dividido por su desviacion stantard sedenotan ahora por zvalues porque ahora la distribucion de referenciaes la Distribucion Normal y no la T- student como tenıamos antes.The Null Deviance es la obtenida con todos los parametros, salvo laconstante, igual a cero.The Residual Deviance es la obtenida por este modelo(con estasvariables).






Podemos representar un Box-Plots de los datos

0 1

1618

2022

2426

28

In Michelin Guide? (0=No, 1=Yes)

Food

Rat

ing






Veamos un ejemplo de regresion logıstica pero con mas de una co-variable. En el paquete car, esta el arhcivo Mroz que contiene unavariable dicotomica(lfp) que indica si forman parte de la poblacionactiva las mujeres del estudio.> Mroz[1:3,]

lfp k5 k618 age wc hc lwg inc

1 yes 1 0 32 no no 1.2101647 10.91

2 yes 0 2 30 no no 0.3285041 19.50

3 yes 1 3 35 no no 1.5141279 12.04}

Resumiendo> summary(Mroz)

lfp k5 k618 age wc hc

no :325 Min. :0.0000 Min. :0.000 Min. :30.00 no :541 no :458

yes:428 1st Qu.:0.0000 1st Qu.:0.000 1st Qu.:36.00 yes:212 yes:295

Median :0.0000 Median :1.000 Median :43.00

Mean :0.2377 Mean :1.353 Mean :42.54

3rd Qu.:0.0000 3rd Qu.:2.000 3rd Qu.:49.00

Max. :3.0000 Max. :8.000 Max. :60.00

lwg inc

Min. :-2.0541 Min. :-0.029

1st Qu.: 0.8181 1st Qu.:13.025

Median : 1.0684 Median :17.700

Mean : 1.0971 Mean :20.129

3rd Qu.: 1.3997 3rd Qu.:24.466

Max. : 3.2189 Max. :96.000






Aplico el modelo de regresion logıstica> mod<-glm(lfp~k5+k618+age+wc+hc+lwg+inc, family=binomial(link=logit), data=Mroz)

> summary(mod)

Call:

glm(formula = lfp ~ k5 + k618 + age + wc + hc + lwg + inc, family = binomial(link = logit),

data = Mroz)

Deviance Residuals:


-2.1062 -1.0900 0.5978 0.9709 2.1893

Coefficients:


(Intercept) 3.182140 0.644375 4.938 7.88e-07 ***

k5 -1.462913 0.197001 -7.426 1.12e-13 ***

k618 -0.064571 0.068001 -0.950 0.342337

age -0.062871 0.012783 -4.918 8.73e-07 ***

wcyes 0.807274 0.229980 3.510 0.000448 ***

hcyes 0.111734 0.206040 0.542 0.587618

lwg 0.604693 0.150818 4.009 6.09e-05 ***

inc -0.034446 0.008208 -4.196 2.71e-05 ***




AIC: 921.27







El parametro de dispersion para la binomial=1, se refiere aV ar (y/x) = 1× V ar [μ (x)]

Se realizaron 4 iteraciones hasta alcanzar el optimo.

La deviance del modelo estimado es 905.27

Las variables k618 y hcyes no son significativas en estemodelo siguiendo los resultados del test de wald.






Estimacion de los coeficientes Hemos visto que en el caso deregresion logıstica, el exponencial de los coeficientes del modelo tieneuna interpretacion muy interesante.

> exp(cbind(coef(mod),confint(mod)))

Waiting for profiling to be done...

2.5 % 97.5 %

(Intercept) 24.0982799 6.9377228 87.0347916

k5 0.2315607 0.1555331 0.3370675

k618 0.9374698 0.8200446 1.0710837

age 0.9390650 0.9154832 0.9625829

wcyes 2.2417880 1.4347543 3.5387571

hcyes 1.1182149 0.7467654 1.6766380

lwg 1.8306903 1.3689201 2.4768235

inc 0.9661401 0.9502809 0.9814042






Por ejemplo, manteniendo el resto de variables constantes,aumentar un ano en la edad(age) aumenta el riesgo en 0.939de pasar una mujer a ser parte de la poblacion activa(pasar ay=1), es decir, reduce el riesgo de trabajar en un100-93.9=6%.

k618 no influye(su intervalo de confianza para el exponencialdel parametro contiene al uno)

Una mujer con wc=yes(wifes´s college attendance) tien unriesgo de 2.24 mas alto que una que no lo tiene de pasar a lacategorıa uno(yes) de la variable respuesta.






Repetimos el modelo sacando dos variables del modelo y compara-mos ambos modelos con la funcion anova

mod2<-glm(lfp~age+wc+hc+lwg+inc, family=binomial(link=logit), data=Mroz)

anova(mod2, mod, test="Chisq")

Analysis of Deviance Table

Model 1: lfp ~ age + wc + hc + lwg + inc

Model 2: lfp ~ k5 + k618 + age + wc + hc + lwg + inc

Resid. Df Resid. Dev Df Deviance Pr(>Chi)

1 747 971.75

2 745 905.27 2 66.485 3.655e-15 ***

El test estadıstico representa el cambio en la Deviance entre losdos modelos. El p-valor se calcula de acuerdo a una distribucionChi cuadrado. Nos sale que las variables k5 y 618 son significativas,resultando modelos significativamente distintos.






En cambio si sacamos las variables menos signfiicativas, los modelosno salen significativamente distintos.

> mod3<-glm(lfp~k5+age+wc+lwg+inc, family=binomial(link=logit), data=Mroz)

> anova(mod3, mod, test="Chisq")


Model 1: lfp ~ k5 + age + wc + lwg + inc

Model 2: lfp ~ k5 + k618 + age + wc + hc + lwg + inc

Resid. Df Resid. Dev Df Deviance Pr(>Chi)

1 747 906.46

2 745 905.27 2 1.1895 0.5517






Tambien se puede aplicar la funcion ANOVA para realizar un con-traste sobre cada una de las variables

> Anova(mod)

Analysis of Deviance Table (Type II tests)

Response: lfp

LR Chisq Df Pr(>Chisq)

k5 66.484 1 3.527e-16 ***

k618 0.903 1 0.342042

age 25.598 1 4.204e-07 ***

wc 12.724 1 0.000361 ***

hc 0.294 1 0.587489

lwg 17.001 1 3.736e-05 ***

inc 19.504 1 1.004e-05 ***






Podemos dibujar la grafica del oddsratio para una de las variables,por ejemplo edad. Viendo que a medida que aumenta la edad elriesgo de estar dentro de la poblacion activa va decreciendo. Hemostomado como referencia una edad de 40 anos. Puede observarse queen el valor 40 la curva exp (a (x− x0)) toma el valor uno.

30 35 40 45 50 55 60

0.5

1.0

1.5

or






Regresion Binomial Supongamos que la distribucion de la variablerespuesta condicionada al conjunto de covariables sigue una distri-bucion binomial.

Y/xi) = Binomial(mi, θ (xi))

Luego

E

[Yi

mi/xi

]= θ (xi)

y

V ar

[Yi

mi/xi

]= θ (xi) (1− θ (xi)) /mi

Esto nos indica que Yi

mies un estimador insesgado de θ (xi) y que

ademas toma valores entre cero y uno.






LA funcion Logıstica

θ (x) =exp {β0 + β1x}

1 + exp {β0 + β1x} =1

1 + exp {−β0 − β1x}Da lugar a

β0 + β1x = log

(θ (x)

1− θ (x)

)Luego si el modelo es adecuado, log

(θ(x)

1−θ(x)

)frente a x se puede

aproximar por una lınea recta.Se define el ��odds�� a favor del suceso como θ

1−θ

Se define el ��odds�� en contra al suceso como1−θθ






Ejemplo> MichelinFood <- read.table("MichelinFood.txt", header=TRUE)

> attach(MichelinFood)

> MichelinFood

Food InMichelin NotInMichelin mi proportion

1 15 0 1 1 0.00

2 16 0 1 1 0.00

3 17 0 8 8 0.00

4 18 2 13 15 0.13

5 19 5 13 18 0.28

6 20 8 25 33 0.24

.........................

16 18 20 22 24 26 28

0.0

0.2

0.4

0.6

0.8

1.0

Zagat Food Rating

Sam

ple

prop

ortio

n

Figura : Grafico de Dispersion de la proporcion muestral en funcion deFood






> m1 <- glm(cbind(InMichelin,NotInMichelin)~Food,family=binomial)

> summary(m1)

Call:

glm(formula = cbind(InMichelin, NotInMichelin) ~ Food, family = binomial)

Deviance Residuals:


-1.4850 -0.7987 -0.1679 0.5913 1.5889

Coefficients:


(Intercept) -10.84154 1.86236 -5.821 5.84e-09 ***

Food 0.50124 0.08768 5.717 1.08e-08 ***




AIC: 41.491







El modelo aproximado es

θ (x) =1

1 + exp {10,842 − 0,50124x}

16 18 20 22 24 26 28

0.0

0.2

0.4

0.6

0.8

1.0

Zagat Food Rating

Pro

babi

lity

of in

clus

ion

in th

e M

iche

lin G

uide






Podemos construir una tabla donde aparezcan los valores de x, θ (x)

y θ(x)

1−θ(x)

> cbind(Food,round(thetahat,3),round(odds_ratio,3))

Food

1 15 0.035 0.036

2 16 0.056 0.060

3 17 0.089 0.098

4 18 0.140 0.162

5 19 0.211 0.268

6 20 0.306 0.442

7 21 0.422 0.729

8 22 0.546 1.204

9 23 0.665 1.988

10 24 0.766 3.281

11 25 0.844 5.416

12 26 0.899 8.941

13 27 0.937 14.759

14 28 0.961 24.364

En aquellos valores donde el odds es mayor que uno corresponde adonde la probabilidad de exito es superior a 0.5.






En regresion logıstica el concepto de suma residual de uadrados esreemplazado por el de DEViance. En el modelo logıstico viene dadopor:

G2 = 2∑{

yilog

(yiyi

)+ (yi −mi) log

(mi − yimi − yi

)}La Deviance nos sirve para realizar el siguiente contraste:En R, la deviance puede calcularse con:H0 :El modelo de regresion logıstica es adecuadoH1 :El modelo de regresion logıstica NO es adecuado> m1$deviance

[1] 11.36843

y el p-valor del contraste anterior> pchisq(m1$deviance,m1$df.residual,lower=FALSE)

[1] 0.4976357

Lo que nos impide rechazar la hipotesis nula.Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS





Regresion Tipo Kernel

Regresion No Parametrica En las ultimas decadas ha cobradogran interes la Inferencia No Parametrica. Se basa en realizar las es-timaciones y la inferencia sin suponer ninguna hipotesis parametricasobre los datos. En este punto nos ocuparemos en particular de laREgresion No Parametrica.En regresion No parametrica no se supone ningun modelo conocidosobre la funcion de regresion. A lo sumo se pide alguna condicionpara la misma como diferenciabilidad.







Regresion Tipo Kernel Supongamos el siguiente modelo de regre-sion

Y = m (x) + ε

donde m es la funcion de regresion que se supone suave. y ε esel termino de error de media cero y varianza dependiendo de xV ar (ε/x) = σ2 (x). Modelo heterocedastico.El objetivo consiste en estimar la funcion de regresion sin suponerde antemano ningun modelo parametrico y a continuacion realizarpredicciones.







El estimador tipo nucleo de Nadaraya-Watson de la funcion de re-gresion m viene dado por:

m (x) =

∑yiK

(xi−xh

)∑K

(xi−xh

)donde K es una funcion Kernel y h es el llamado parametro ventana.La idea consiste en que en cada punto se aproxima por una medialocal. La cantidad de datos que utilizamos para estimar esta medialocal viene dada por el parametro ventana.Pero existen otro tipo de estimadores :Estimador Polinomico Local que se define como

min

n∑i=1

⎧⎨⎩Yi −p∑

j=0

βj (Xi − x)j

⎫⎬⎭2

h−1K

(Xi − x

h

)Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS






El suavizador por splines

mınn−1n∑

i=1

{m (Xi)− Yi}2 + λ

∫mr(r) (x)2 dx

Tambien existen estimadores basados en desarrollos por polino-

mios ortogonales.







En el caso de regresion local polinomial existen varios factores atener en cuenta:

El grado del polinomio por el que queremos ajustar localmente

el parametro ventana h que controla las observaciones quecaen dentro del entorno y son utilizadas para la estimacion.

La funcion kernel k define los pesos que se dan a lasobservaciones en un entorno determinado por el parametroventana.

En el caso del estimador de Nadaraya-Watson, su ajuste es similara aplicar el local polinomial con un ajuste de grado p = 0.







El parametro ventana, tambien conocido como ancho de banda, esun parametro positivo, en el caso de regresion unidimensional, quemide la ��cantidad�� de datos a considerar para la estimacion local.En el caso de regresion multiple, este parametro se convierte en unamatriz.Si tomamos valores muy pequenos solo se tendra en cuenta para laestimacion local aquellas observaciones que esten mas proximas alpunto donde queramos estimar. Esto puede dar lugar a una curvamuy variable.Por el contrario si el parametro es muy grande, se cogen muchasobservaciones y la curva varıa muy poco dando lugar a sesgos im-portantes.







Uno de los problemas cruciales en estimacion tipo kernel es la elec-cion del parametro ventana. Existen numerosos metodos que hanido surgiendo durante los ultimos anos:

Plug-in: consistente en estimar el parametro a partir de laexpresion asintotica que minimize del Error Cuadratico MEdiodel estimador.

Validacion Cruzada

Bootstrap, etc.







En cuanto a la eleccion de la funcion nucleo tenemos varias opciones,entre ellas:

Kernel Triangular:k (u) = (1− |u|) 1|u|≤1

Gaussiano:k (u) = (2π)−1 exp(−u2/2

)Epanechnikov:k (u) = 3

4 (1− u)2 1|u|≤1

El en libro de Wand and Jones, se puede ver que la eleccion de lafuncion kernel no es crucial para el comportamiento del estimador.







En los siguientes graficos vemos el efecto del parametro ventana

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

0.5

0.6

x

h=0.

1

(a) h=0.1

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

0.5

0.6

x

h=0.

2

(b) h=0.2

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

0.5

0.6

x

h=0.

4

(c) h=0.4







Ejemplo, veamos la estimacion de la siguiente curva de regresion(lınea punteada). En las figuras aparecen tres estimaciones con parame-tros 0.1 y 0.2 y el optimo mediante el metodo plugin.

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

3035

x

Est

imat

ed h

=0.2

& T

rue

Cur

ves

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

(d) h=0.2

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

3035

x

Est

imat

ed h

=0.1

& T

rue

Cur

ves

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

(e) h=0.1

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

3035

x

Est

imat

ed &

Tru

e C

urve

s

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

(f) h optima







VEamos un ejemplo en los datos de geyser, disponibles en la librerıaMASS. Primero vamos a pintar los datosdata(geyser, package = "MASS")

x <- geyser$duration

y <- geyser$waiting

plot(x, y)

1 2 3 4 5

5060

7080

9010

011

0

x

y







A continuacion veamos la estimacion no parametrica por polinomioslocales utilizando polinomios de grado 0,1,y dos y un parametro an-cho ventana fijo. Para ello utilizamos la funcion locpoly del paquetekernsmooth

1 2 3 4 5

5060

7080

9010

011

0

x

y

p=1p=0p=2







A continuacion seleccionamos la ventana utilizando el metodo plug-in. Para ello existe una funcion en R, dpill del paquete kernsmooth.

1 2 3 4 5

5060

7080

9010

011

0

x

y







Esta librerıa tambien tiene funciones para calcular la estimacion noparametrica de la funcion de densidad. En este caso la ventana esestimada utilizando el metodo plugin.h <- dpik(x)

density<- bkde(x, bandwidth=h)

plot(density, type="l")

1 2 3 4 5 6

0.0

0.2

0.4

0.6

density$x

dens

ity$y







Regresion Multidimensional Tipo nucleo

Consideramos el siguiente modelo de regresion

Yt = m(xt) + εt = m(x1,t, ..., xd,t) + εt, 1 ≤ t ≤ n,

donde m es d-dimensional(d ≥ 1) definida in I1 × I2 × ...Id ⊂ Rd.







Sea

Xn =

⎛⎜⎝ 1 (x1 − x)T

......

1 (xn − x)T

⎞⎟⎠n×(d+1)

y

W1,n = diag(n−1KH1,n

(x1 − x) , .., n−1KH1,n(xn − x)

),

donde KH1,n(u) = |H1,n|

−1

2 K

(H

−1

2

1,nu

), y la funcion nucleo K es

d-dimensional La matriz ventana es H1,n. El estimador de m es

mS,H1,n(x) = eT1

(X

TnW

δ1,nXn

)−1X

TnW

δ1,nYn







> ana2<-loess(formula = prestige ~ income + education, span = 0.5, degree = 1)

> summary(ana2)

Call:

loess(formula = prestige ~ income + education, span = 0.5, degree = 1)

Number of Observations: 102

Equivalent Number of Parameters: 8.03

Residual Standard Error: 6.906

Trace of smoother matrix: 10.5

Control settings:

normalize: TRUE

span : 0.5

degree : 1

family : gaussian

surface : interpolate cell = 0.2







Podemos calcular las estimaciones y los resıduos de este modelo

> mod.lo$fit

> mod.lo$residuals

inc ed

fit.prestige







Podemos chequear que variable es mas importante en el modelo

mod.lo.inc <- loess(prestige ~ income, span=.7, degree=1) # omitting education

mod.lo.ed <- loess(prestige ~ education, span=.7, degree=1) # omitting income

anova(mod.lo.inc, mod.lo)

Model 1: loess(formula = prestige ~ income, span = 0.7, degree = 1)

Model 2: loess(formula = prestige ~ income + education, span = 0.5, degree = 1)

Analysis of Variance: denominator df 90.66

ENP RSS F-value Pr(>F)

[1,] 3.85 12006.1

[2,] 8.03 4245.9 20.781 4.841e-16 ***

> anova(mod.lo.ed, mod.lo)

Model 1: loess(formula = prestige ~ education, span = 0.7, degree = 1)

Model 2: loess(formula = prestige ~ income + education, span = 0.5, degree = 1)

Analysis of Variance: denominator df 90.66

ENP RSS F-value Pr(>F)

[1,] 2.97 7640.2

[2,] 8.03 4245.9 7.7905 7.1e-08 ***







El problema de este tipo de estimadores es el llamado ��Desastre dela dimensionalidad�� cuanto mayor sea la dimension del espacio decovariables, mas datos necesitamos para obtener unas estimacionesadecuadas.La escasez de datos en el entorno infla la varianza de forma que losestimadores no son buenos.Para superar estas dificultades, Hastie y Tibshirani (1990), propu-sieron los modelos aditivos.






Modelos Aditivos

Los beneficios de una aproximacion de aditivos son al menos dos.En primer lugar, ya que cada uno de los terminos de aditivos indi-viduales se calcula utilizando un univariado mas suave, la maldicionde la dimensionalidad se evita.En segundo lugar, las estimaciones de los terminos individuales ex-plican como cambia la variable dependiente con las variables inde-pendientes que corresponden.






Un model aditivo se basa en el siguiente modelo de regresion

yi = αi + f1(xi1) + f2(xi2) + ...+ fk(xik) + εi

Estos modelos se estiman mediante el Algoritmo de backfitting.En R este tipo de modelos se estiman mediante la funcion gam delpaquete mgcv






Las principales desventajas de los modelos aditivos estimados por elmecanismo de Backfitting son el desconocimiento de las propiedadesestadısiticas de la solucion y la no garantıa de convergencia numericadel algoritmo para cualquier suavizador. La solucion obtenida notiene solucion explıcita porlo que el desarrollo de las propiedadesasintoticas es muy complicado.






> library(mgcv)

This is mgcv 1.6-2. For overview type ’help("mgcv-package")’.

> mod.gam <- gam(prestige ~ s(income) + s(education))

> mod.gam

Family: gaussian

Link function: identity

Formula:

prestige ~ s(income) + s(education)

Estimated degrees of freedom:

3.1178 3.1773 total = 7.29513

GCV score: 52.1428

La funcion mgcv tambien permite utilizar transformaciones bivaria-das.






> summary(mod.gam)

Family: gaussian

Link function: identity

Formula:

prestige ~ s(income) + s(education)

Parametric coefficients:


(Intercept) 46.8333 0.6889 67.98 <2e-16 ***

---

Approximate significance of smooth terms:

edf Ref.df F p-value

s(income) 3.118 3.877 15.29 1.66e-09 ***

s(education) 3.177 3.952 38.78 < 2e-16 ***

---

R-sq.(adj) = 0.836 Deviance explained = 84.7%

GCV score = 52.143 Scale est. = 48.414 n = 102

Vemos el R cuadrado y el porcentaje de deviance explicada. Tambienpodemos observar que predictores son significativos, en este camsolos dos.






Podemos ver las estimaciones de las dos funciones involucradas,ası como la banda de confianza al 95%. SE utiliza la misma escalaen los dos graficos loque permite comparar la contribucion de cadavariable al modelo.

0 5000 10000 15000 20000 25000

−20

020

income

s(in

com

e,3.

12)

6 8 10 12 14 16

−20

020

s(ed

ucat

ion,

3.18

)






Podemos calcular las estimaciones

> mod.gam$fit

Los residuos

> mod.gam$residuals






Podemos ver un grafico tridimensional de las predicciones en funcionde las dos covariables

income

educ

atio

n

linear predictor






Tambien un grafico de contorno nos informa del comportamiento delas predicciones.

5000 10000 15000 20000 25000

810

1214

16

linear predictor

income

educ

atio

n

20 25

30 35

40

45 50

55

60

65

70

75

80






Como la transformacion marginal de la variable educacion “parece”lineal, podemos comparar el modelo anterior con el modelo supo-niendo linealidad para esa variable, es decir:

> mod.gam2 <- gam(prestige ~ income + s(education))

> anova(mod.gam2,mod.gam, test="F")


Model 1: prestige ~ income + s(education)

Model 2: prestige ~ s(income) + s(education)

Resid. Df Resid. Dev Df Deviance F Pr(>F)

1 96.541 5484.9

2 94.705 4585.0 1.8357 899.89 10.126 0.0001639 ***

El p-valor solo es una paroximacion, pero sı parece que haya uncambio de tendencia en la variable educacion.






Chequeo del modelo(gam.check)

> gam.check(mod.gam)

Method: GCV Optimizer: magic

Smoothing parameter selection converged after 4 iterations.

The RMS GCV score gradiant at convergence was 9.783945e-05 .

The Hessian was positive definite.

The estimated model rank was 19 (maximum possible: 19)

Basis dimension (k) checking results. Low p-value (k-index<1) may

indicate that k is too low, especially if edf is close to k’.

k’ edf k-index p-value

s(income) 9.000 3.118 0.981 0.38

s(education) 9.000 3.177 1.025 0.50

Nos indica que el maximo numero posible de grados de libertadde nuestro modelo para cada variable es suficiente. Este numeropodrıamos cambiarlo en las opciones de la funcion






Chequeo grafico del modelo. Lo que buscamos esobservar normali-dad en los dos graficos de la izquierda, falta de patron en el de laderecha arriba, y ajuste a una lınea recta en el de la derecha abajo

−15 −5 0 5 10 15

−15

−50

510

15

theoretical quantiles

devi

ance

resi

dual

s

30 40 50 60 70 80

−15

−50

510

15

Resids vs. linear pred.

linear predictor

resi

dual

s

Histogram of residuals

Residuals

Freq

uenc

y

−20 −10 0 10 20

010

2030

30 40 50 60 70 80

2040

6080

Response vs. Fitted Values

Fitted Values

Res

pons

e






Modelos Aditivos Generalizados Hastie y Tibshirani (1990) pro-pusieron modelos aditivos generalizados. Estos modelos suponen quela media de la variable dependiente depende de un factor de predic-cion de aditivos a traves de una funcion link no lineal.Una alternativa al uso de modelos de regresion logıstica es usar losmodelos Additivos generalizados (GAM), incorporando funciones noparametricas que se adaptan mejor a estructuras no lineales de losdatos.






Un model aditivo Generalizado se basa en el siguiente modelo deregresion

g (E [Yi]) = αi + f1(xi1) + f2(xi2) + ...+ fk(xik)

donde g es una funcion link suave conocida y la distribucion de lavariable respuesta pertenece a la familia exponencial.






Funcion gam

La funciom gam en la librerıa mgcv calcula el parametro de suaviza-cion mediante validacion cruzada generalizada GCV o bien medianteel criterio del estimador de riesgo insesgado ( Un-Biased Risk Esti-mator (UBRE )).En los modelos aditivos, aunque no especificabamos nada, la familiaconsiderada para la variable respuesta era la gaussiana, o lo que eslo mismo, se consideraba una funcion link identidad.En los modelos aditivos generalizados, utilizamos la misma funciongam, pero ahora la familia cambia. Por ejemplo en el caso de unalogıstica la familia que se considera es la binomial.






En el siguiente ejemplo

> mod.1 <- gam(lfp ~ s(age) + s(inc)+s(lwg) , family=binomial)

> summary(mod.1)

Family: binomial

Link function: logit

Formula:

lfp ~ s(age) + s(inc) + s(lwg)

Parametric coefficients:


(Intercept) 1.0503 0.4296 2.445 0.0145 *

Approximate significance of smooth terms:

edf Ref.df Chi.sq p-value

s(age) 2.298 2.880 11.23 0.009750 **

s(inc) 1.481 1.831 15.97 0.000341 ***

s(lwg) 5.866 6.500 87.65 4e-16 ***

R-sq.(adj) = 0.257 Deviance explained = 23.3%

UBRE score = 0.077539 Scale est. = 1 n = 753






Podemos observar la significacion de cada una de lascomponentes.

el Rcuadrado es de un 0.25. El modelo solo explica un 23.3%de la deviance.

TEnemos 753 obseraciones.

La complejidad de la curva ajustada es reflejada por loseffective degrees of freedom






Podemos ver las estimaciones de las dos funciones involucradas,ası como la banda de confianza al 95

30 35 40 45 50 55 60

−2.5

−0.5

age

s(ag

e,2.

13)

0 20 40 60 80

−2.5

−0.5

inc

s(in

c,1)






BIBLIOGRAFIA

Ritz, C. y Streibig, J. C. (2008). Nonlinear Regression with R,Springer.

Sheather, S.(2009). A Modern Approach to Regression withR, Springer.


analisis exploratorio de datos - …eio.usc.es/eipc1/base/basemaster/formularios-php...modelos de...

Documents