tema 4. modelo de regresión múltiple - unid · el contraste de la regresi´on suponiendo que se...

39
Tema 4. Modelo de regresi´ on m´ ultiple Estad´ ıstica (CC. Ambientales). Profesora: Amparo Ba´ ıllo Tema 4: Regresi´ on m´ ultiple 1

Upload: others

Post on 18-Mar-2020

23 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Tema 4. Modelo de regresion multiple

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 1

Page 2: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Objetivos del tema

• Construir un modelo que represente la dependencia lineal deuna variable respuesta cuantitativa Y simultaneamenterespecto de varias variables explicativas cuantitativasX1, . . . ,XK .

• Determinar la funcion de regresion lineal optima.

• Partiendo de un conjunto de regresores X1, . . . ,XK , estudiarcuales son significativos para explicar la respuesta.

• Estimar el valor esperado de la respuesta y predecir un valorfuturo de esta para unos valores prefijados de las variablesexplicativas. Determinar la precision de la estimacion y laprediccion.

• Analizando los residuos, estudiar si se verifican las hipotesisbasicas del modelo. Proponer alternativas si no es ası.

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 2

Page 3: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Ejemplo 4.1: Variable respuesta Y = Temperatura (en oF)maxima promedio durante el mes de enero en la estacionmeteorologica de un condado de Texas.Variables explicativas: X1 = Latitud, X2 = Altitud (en pies) y X3

= Longitud de la estacion.

Condado Temperatura Latitud Altitud LongitudHarris 56 29.767 41 95.367Dallas 48 32.85 440 96.85

Kennedy 60 26.933 25 97.8Midland 46 31.95 2851 102.183

Deaf Smith 38 34.8 3840 102.467Knox 46 33.45 1461 99.633

Maverick 53 28.7 815 100.483Nolan 46 32.45 2380 100.533

El Paso 44 31.8 3918 106.4Collington 41 34.85 2040 100.217

Pecos 47 30.867 3000 102.9Sherman 36 36.35 3693 102.083Travis 52 30.3 597 97.7Zapata 60 26.9 315 99.283Lasalle 56 28.45 459 99.217

Cameron 62 25.9 19 97.433

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 3

Page 4: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Ejemplo 4.1 (cont.):

20

30

40 1000 2000 3000 4000

40

50

60

Altitud

Temperaturas máximas promedio en enero (Texas)

Latitud

Tem

pera

tura

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 4

Page 5: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Ejemplo 4.2: Se estudia Y = la tasa de respiracion (no molesO2/(g·min)) del liquen Parmelia saxatilis bajo puntos de goteo conun recubrimiento galvanizado. El agua que cae sobre el liquencontiene zinc y potasio, que utilizamos como variables explicativas.(Fuente de datos: Wainwright (1993), J. Biol. Educ..)

Tasa de respiracion Potasio (ppm) Zinc (ppm)

71 388 241453 258 1069355 292 1168248 205 1256069 449 246484 331 260721 114 1620568 580 200568 622 1825

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 5

Page 6: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Ejemplo 4.2 (cont.):

200400

6005000

1000015000

20

40

60

80

PotasioZinc

Tas

a re

spira

ción

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 6

Page 7: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

El modelo de regresion lineal multiple

En la regresion lineal multiple de Y sobre X1, . . . ,XK se suponeque la funcion de regresion tiene la expresion

E (Y |X1 = x1, . . . ,XK = xK ) = β0 + β1x1 + . . . + βKxK .

Cuando K = 2 la funcion de regresion es un plano

01

23

01

230

2

4

6

x1

E(Y|X1=x

1,X

2=x

2) = 2+x

1−0.5x

2

x2

y

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 7

Page 8: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Tenemos una muestra de n individuos en los que observamos lasvariables Y y X = (X1, . . . ,XK )′ obteniendo (xi , yi ), i = 1, . . . , n,donde xi = (xi1, xi2, . . . , xiK )′.

El modelo de regresion lineal multiple supone que

Yi = β0 + β1xi1 + . . . + βKxiK + Ui , i = 1, . . . , n,

donde las perturbaciones Ui verifican las hipotesis

a) E (Ui ) = 0, para cada i = 1, . . . , n.

b) Var(Ui ) = σ2, para cada i = 1, . . . , n.

c) E (UiUj) = 0 , para todo i 6= j .

d) Ui ∼ Normal, para todo i .

e) n ≥ K + 2

f) Las variables Xi son linealmente independientes entre sı (no haycolinealidad).

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 8

Page 9: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Las hipotesis (a)-(d) se pueden reexpresar ası: los individuos de lamuestra son independientes entre sı con

Yi ∼ Normal(β0 + β1xi1 + . . . + βKxiK , σ2).

El modelo admite una expresion equivalente en forma matricial:Y1

Y2...

Yn

=

1 x11 . . . x1K

1 x21 . . . x2K...

...1 xn1 . . . xnK

β0

β1...

βK

+

U1

U2...

Un

o

Y = Xβ + U,

donde X es la matriz del diseno.

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 9

Page 10: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Cada coeficiente βi (i ≥ 1) mide el efecto marginal que, sobre lavariable respuesta Y , tiene un aumento de una unidad de lavariable explicativa xi cuando el resto de las variables xj , con j 6= i ,permanece constante.

Ejemplo 4.1 (cont.):

Ejemplo 4.2 (cont.):

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 10

Page 11: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Estimacion de los parametros del modelo

Parametros desconocidos: β0, β1, . . . , βK , σ2.

Estimamos β0, β1, . . . , βK por el metodo de mınimos cuadrados:minimizamos la suma de los residuos al cuadrado VNE =

∑ni=1 e2

i ,

donde ei = yi − yi e yi = β0 + β1xi1 + . . . + βKxiK .

Para K = 2, cada residuo ei es la distancia en vertical entre el(xi , yi ) observado y (xi , yi ).

x1

x2

y

ei

(xi1

,xi2

,yi)

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 11

Page 12: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Al derivar la VNE respecto a β0, β1, . . . , βK e igualar las derivadasa 0 obtenemos K + 1 ecuaciones de restriccion sobre los residuos:

n∑i=1

ei = 0,

n∑i=1

eixi1 = 0, . . . ,

n∑i=1

eixiK = 0.

Los residuos tienen n − K − 1 grados de libertad.

A partir de estas ecuaciones despejamos los estimadoresmınimo-cuadraticos de β0, β1, . . . , βK :

β =

β0

β1...

βK

= (X′X)−1X′y.

Podemos asegurar que la matriz X′X es invertible si se cumplen lashipotesis basicas (e) y (f).

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 12

Page 13: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Ejemplo 4.2 (cont.):

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 13

Page 14: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

200400

6005000

1000015000

20

40

60

80

Potasio

Ejemplo 4.2: Plano de regresión

Zinc

Tas

a re

spira

ción

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 14

Page 15: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Tasa de

respiración Potasio (ppm) Zinc (ppm)

71 388 2414 Resumen53 258 1069355 292 11682 Estadísticas de la regresión

48 205 12560 Coeficiente de correlación múltiple 0,92111277969 449 2464 Coeficiente de determinación R^2 0,84844875284 331 2607 R^2 ajustado 0,7979316721 114 16205 Error típico 8,17212231368 580 2005 Observaciones 968 622 1825

ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadradosPromedio de los cuadradosF Valor crítico de F

Regresión 2 2243,2985 1121,64925 16,7952841 0,0034808Residuos 6 400,701499 66,7835831Total 8 2644

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0%

Intercepción 101,0883957 18,8660471 5,35821813 0,00173104 54,9248076 147,251984 54,9248076 147,251984Variable X 1 -0,04034212 0,03423824 -1,17827673 0,28329567 -0,12412013 0,04343589 -0,12412013 0,04343589Variable X 2 -0,00387683 0,00100248 -3,86725087 0,00829226 -0,00632981 -0,00142386 -0,00632981 -0,00142386

Análisis de los residuales

Observación Pronóstico para Y ResiduosResiduos estándares

1 76,07698485 -5,07698485 -0,717365322 49,22518266 3,77481734 0,533372293 44,01936545 10,9806346 1,551536334 44,12527292 3,87472708 0,547489295 73,42227401 -4,42227401 -0,624856316 77,62825745 6,37174255 0,900311367 33,66535951 -12,6653595 -1,789583778 69,91692137 -1,91692137 -0,270856229 68,92038178 -0,92038178 -0,13004765

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 15

Page 16: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Ejemplo 4.1 (cont.):

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 16

Page 17: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Un estimador insesgado de σ2 es la varianza residual

s2R =

1

n − K − 1

n∑i=1

e2i .

Ejemplo 4.1 (cont.):

Ejemplo 4.2 (cont.):

Observacion: Se cumple que y = β0 + β1x1 + . . . + βK xK , siendo

y =1

n

n∑i=1

yi , x1 =1

n

n∑i=1

xi1, . . . , xK =1

n

n∑i=1

xiK .

Por tanto, si K = 2, el plano de regresion pasa por el punto demedias muestrales (x1, x2, y).

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 17

Page 18: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Inferencia sobre los parametros del modelo

Propiedades de los estimadores de los parametros

Para j = 0, 1, . . . ,K ,

βj − βj

error tıpico de βj

∼ tn−K−1,

donde(error tıpico de βj)

2 = s2R qjj

y qjj es el elemento j + 1 de la diagonal de (X′X)−1.

Ejemplo 4.2 (cont.):

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 18

Page 19: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Por tanto, para cualquier j = 0, 1, . . . ,K ,

IC1−α(βj) =(βj ∓ tn−K−1;α/2 sR

√qjj

).

Ejemplo 4.1 (cont.): Sabiendo que

(X′X)−1 =

996.1542 −4.1945 0.0215 −9.0039−4.1945 0.0293 −0.0001 0.0345

0.0215 −0.0001 0.0000 −0.0002−9.0039 0.0345 −0.0002 0.0824

,

calcular intervalos de confianza para los parametros βj de lafuncion de regresion.

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 19

Page 20: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Contrastes de hipotesis individuales sobre los coeficientes

Suponiendo que E (Y |X = x) = β0 + β1x1 + . . . + βKxK (secumple el modelo de regresion lineal multiple), estamos interesadosen determinar que variables Xj son significativas para explicar Y .

H0 : βj = 0 (Xj no influye sobre Y )

H1 : βj 6= 0 (Xj influye sobre Y )

La region de rechazo de H0 al nivel de significacion α es

Rj = {|t(βj)| > tn−K−1;α/2},

siendo t(βj) = βj/error tıpico de βj .

Ejemplo 4.2. (cont.):

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 20

Page 21: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

O tambienRj = {0 /∈ IC1−α(βj)}

Ejemplo 4.1. (cont.):

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 21

Page 22: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

El contraste de la regresion

Suponiendo que se cumple el modelo de regresion lineal multiple,queremos contrastar

H0 : β1 = . . . = βK = 0 (el modelo no es explicativo:

ninguna de las variables explicativas influye en la respuesta)

H1 : βj 6= 0 para algun j = 1, . . . ,K (el modelo es explicativo:

al menos una de las variables Xj influye en la respuesta)

Hacemos un analisis de la varianza: examinamos que proporcion de

la variabilidad total VT =n∑

i=1

(yi − y)2 es explicada por el modelo

regresion Y = β0 + β1x1 + . . . + βKxK + U. Se verifica que

VT = VE + VNE, donde VE =n∑

i=1

(yi − y)2.

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 22

Page 23: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Tabla ANOVA para el contraste de la regresion:

FV SC gl CM F

Explicada VE K s2e =

VE

KF =

s2e

s2R

Residual VNE n − K − 1 s2R

Total VT n − 1

Bajo H0 : β1 = . . . = βK = 0 el estadıstico F sigue unadistribucion FK ,n−K−1. Por tanto, la region de rechazo de H0 anivel de significacion α sera R = {F > FK ,n−K−1,α}.

Ejemplo 4.1. (cont.):

ANÁLISIS DE VARIANZASC gl CM F p-valor

Regresión 934,328006 3 311,442669 491,138015 8,1236E-13Residuos 7,60949449 12 0,63412454Total 941,9375 15

Ejemplo 4.2. (cont.):

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 23

Page 24: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Interpretacion de los contrastes

Contrasteglobal (F )

Contrastesindividuales (t) Conclusion

Modeloexplicativo Todas las Xi explicativas Nos quedamos

con todas las Xi

Modeloexplicativo Algunas Xi explicativas Nos quedamos con

las Xi explicativas

Modeloexplicativo Ninguna Xi explicativa Colinealidad

Modelo noexplicativo Todas las Xi explicativas Colinealidad

Modelo noexplicativo Algunas Xi explicativas Colinealidad

Modelo noexplicativo Ninguna Xi explicativa

Modelo no adecuadopara describir larelacion entre Y yX1, . . . ,XK .

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 24

Page 25: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

El coeficiente de determinacion

Es una medida de la bondad del ajuste en el modelo de regresionmultiple

R2 =VE

VT.

A R se le denomina coeficiente de correlacion multiple.

Propiedades:

(i) 0 ≤ R2 ≤ 1. Cuando R2 = 1 existe una relacion lineal exactaentre la respuesta y las variables predictivas. Cuando R2 = 0,sucede que β0 = y y β1 = . . . = βK = 0 y no existe relacionlineal aparente entre Y y las Xi .

(ii) El coeficiente de regresion multiple es el coeficiente deregresion simple entre la respuesta Y y el valor previsto Y .

(iii) Se verifica que F =R2

1− R2

n − K − 1

K.

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 25

Page 26: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

No conviene utilizar el coeficiente de determinacion para comparardistintos modelos de regresion entre sı: siempre que introduzcamosun nuevo regresor en el modelo, R2 aumentara, aunque el efectodel regresor sobre la respuesta no sea significativo.

Por ello se define el coeficiente de determinacion ajustado ocorregido por grados de libertad

R2 = 1−s2R

s2y

,

siendo s2y = VT/(n− 1). R2 solo disminuye al introducir una nueva

variable explicativa en el modelo, si la varianza residual disminuye.

Se cumple que R2 = R2 − (1− R2)K

n − K − 1. Por tanto,

R2 ≤ R2.

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 26

Page 27: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Contrastes de grupos de coeficientes

Queremos contrastar que un subconjunto (β1, . . . , βi ), con i < K ,del total de coeficientes β1, . . . , βK son cero:

H0 : β1 = . . . = βi = 0

H1 : Alguno de los βj 6= 0, j = 1, . . . , i .

Primero efectuamos la regresion con todos los regresores

y = β0 + β1x1 + . . . + βKxK .

Denotamos por VE(K ) y VNE(K ) la variabilidad explicada yresidual con este modelo.

Luego planteamos el modelo de regresion bajo H0

y = β′0 + β′

i+1xi+1 + . . . + β′KxK

y llamamos VE(K − i) a la variabilidad explicada por este modelo.Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 27

Page 28: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Definiremos la variabilidad incremental explicada por las variablesX1, . . . ,Xi como

∆VE(i) = VE(K )− VE(K − i) > 0

Rechazaremos H0, al nivel de significacion α, cuando

F =∆VE(i)/i

s2R

> Fi ,n−K−1,α.

Ejemplo 4.1. (cont.):

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 28

Page 29: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Estimacion y prediccion

Supongamos que queremos estimar E (Y0) o predecir Y0, siendo

Y0 = (Y |X = x0) = β0 + β1x10 + . . . + βKxK0 + U.

Entonces una estimacion/prediccion puntual es

y0 = β0 + β1x10 + . . . + βKxK0.

Ejemplo 4.2. (cont.): Estimar la tasa media de respiracion delParmelia saxatilis cuando el agua que cae sobre el liquen tiene unaconcentracion de Potasio de 300 p.p.m. y una concentracion deZinc de 10000 p.p.m.

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 29

Page 30: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Colinealidad

La estimacion β de los parametros en regresion multiple requiereinvertir la matriz X′X. Cuando una de las Xj es combinacion linealde los restantes regresores, X1, . . . ,Xj−1,Xj+1, . . . ,XK , entonces|X′X| = 0. Entonces diremos que las variables explicativas soncolineales.

En la practica esto nunca se dara de manera exacta, aunque sı esposible que en un conjunto de datos algunas de las variables sepuedan describir muy bien como funcion lineal de las restantesvariables. En ese caso, |X′X| es casi cero. Este problema, llamadomulticolinealidad, hace que los estimadores de los parametros βi

tengan alta variabilidad y sean muy dependientes entre sı.

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 30

Page 31: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Para identificar las variables colineales primero se examina lamatriz de correlacion R entre las variables explicativas. Si existencorrelaciones altas entre parejas de regresores, tenemos unasituacion clara de multicolinealidad. Sin embargo, es posible queuna de las variables explicativas Xi se pueda expresar comocombinacion lineal de las restantes y que su correlacion con cadauna de estas otras sea baja (ver Pena 2002).

Ejemplo 4.1. (cont.):

R =

1 0.731 0.4310.731 1 0.8890.431 0.889 1

Ejemplo 4.2. (cont.):

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 31

Page 32: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Diagnosis del modelo

Se realiza igual que en regresion simple: mediante el analisis de los

residuos estandarizados ei =ei

sR√

1− hi, donde hi = x′i (X′X)−1xi .

Bajo las hipotesis del modelo de regresion multiple, los ei siguenaproximadamente una N(0,1).

Ejemplo 4.1. (cont.):

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 32

Page 33: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Las hipotesis de linealidad y homocedasticidad se comprueban conun grafico de residuos estandarizados ei frente a valores previstosyi . Este grafico tambien sirve para detectar datos atıpicos.

Ejemplo 4.1. (cont.):

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 33

Page 34: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Transformacion de los datos

Ejemplo 4.3: Harrison y Rubinfeld (1978), “Hedonic HousingPrices and the Demand for Clean Air”, Journal of EnvironmentalEconomics and Management, observaron las siguientes variablespara n = 506 secciones censales del area metropolitana de Boston.Su objetivo era estudiar si los precios de las casas dependıan de lacontaminacion en la zona (regresion hedonica).

MEDV Mediana del precio de las casas (en miles de $)DIS Media ponderada de distancias a 5 centros de trabajoRAD Accesibilidad a autopistas radialesINDUS Proporcion de superficie de la zona dedicada a empresas e industriaCHAS 1 junto al rıo Charles, 0 si noNOX Concentracion de oxido nıtrico (p.p.109)RM Numero medio de habitaciones en las casasAGE proporcion de casas construidas antes de 1940CRIM Tasa de delincuencia per capitaZN Proporcion de superficie residencial dividida en parcelas de mas de 25000 pies2

TAX Tasa de impuestos de las propiedades por cada $10,000PT No de estudiantes por profesorB 1000(pB − 0.63)2, siendo pB la proporcion de habitantes de raza negraLSTAT Porcentaje de poblacion con bajo nivel adquisitivo

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 34

Page 35: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Los datos estan disponibles enhttp://lib.stat.cmu.edu/datasets/boston.Estudiemos MEDV en funcion de NOX, RM y LSTAT.

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 35

Page 36: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Regresion lineal de MEDV en funcion de NOX, RM y LSTAT:Resumen del modelob

,799a ,639 ,637 5,54310

Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), RM, NOX, LSTATa.

Variable dependiente: MEDVb.

Página 1

ANOVAb

27291,884 3 9097,295 296,079 ,000a

15424,411 502 30,726

42716,295 505

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), LSTAT, NOX, RMa.

Variable dependiente: MEDVb.

Página 1

Coeficientesa

-,767 3,286 -,233 ,816

5,124 ,447 ,391 11,471 ,000

-1,846 2,651 -,023 -,696 ,487

-,623 ,052 -,484 -11,994 ,000

(Constante)

RM

NOX

LSTAT

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizado

s

t Sig.

Variable dependiente: MEDVa.

Página 1

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 36

Page 37: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 37

Page 38: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Ahora estudiemos log(MEDV) en funcion de NOX2, RM2 y

log(LSTAT).

Resumen del modelob

,835a ,698 ,696 ,22536

Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), LOG_LSTAT, NOX2, RM2a.

Variable dependiente: LOG_MEDVb.

Página 1

ANOVAb

58,882 3 19,627 386,467 ,000a

25,495 502 ,051

84,376 505

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), LOG_LSTAT, NOX2, RM2a.

Variable dependiente: LOG_MEDVb.

Página 1

Coeficientesa

3,841 ,104 37,054 ,000

-,243 ,087 -,083 -2,776 ,006

,008 ,001 ,183 5,493 ,000

-,446 ,026 -,656 -17,116 ,000

(Constante)

NOX2

RM2

LOG_LSTAT

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizado

s

t Sig.

Variable dependiente: LOG_MEDVa.

Página 1

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 38

Page 39: Tema 4. Modelo de regresión múltiple - UNID · El contraste de la regresi´on Suponiendo que se cumple el modelo de regresi´on lineal mul´ tiple, queremos contrastar H 0: β 1

Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 39