prueba de la importancia de la relacion entre variables

33
SEMANA 9 Prueba de la Importancia de la Relación entre la Variable dependiente y las Variables Explicativas

Upload: m4gn3to

Post on 11-Apr-2016

21 views

Category:

Documents


2 download

DESCRIPTION

Prueba de La Importancia de La Relacion Entre Variables

TRANSCRIPT

Page 1: Prueba de La Importancia de La Relacion Entre Variables

SEMANA 9

Prueba de la Importancia de la Relación entre la

Variable dependiente y las Variables Explicativas

Page 2: Prueba de La Importancia de La Relacion Entre Variables

Ahora que hemos utilizado el análisis de residuos para

asegurarnos de que el modelo de regresión múltiple es

apropiado, podemos determinar si existe una relación

significativa entre la variable dependiente y el conjunto

de variables explicativas.

Puesto que se tiene más de una variable independiente,

las hipótesis nula y alternativa pueden establecerse de la

manera siguiente:

Prueba de la Importancia de la Relación entre la

Variable Dependiente y las Variables Explicativas

Page 3: Prueba de La Importancia de La Relacion Entre Variables

0: 210 H (No existe relación lineal entre la variable dependiente y las

variables explicativas).

:1H Al menos una 0j (Al menos un coeficiente de regresión no es igual a cero)

Esta hipótesis nula puede probarse utilizando una prueba F,

como se indica en la siguiente tabla:

Page 4: Prueba de La Importancia de La Relacion Entre Variables

TABLA: Análisis de Varianza para probar la significación

de un conjunto de coeficientes de regresión de un modelo de

regresión múltiple que contiene p = 2 variables explicatorias

Fuente

G.L.

Cuadrado medio

(Varianza)

F

Regresión

Error

P

n– p - 1

p

SSRMSR

1

pn

SSEMSE

MSE

MSRF

Page 5: Prueba de La Importancia de La Relacion Entre Variables

Cuando probamos la significación de los coeficientes de

regresión, la medida del error aleatorio se conoce como

varianza de error, de modo que la prueba F es el cociente de la

varianza debida a la regresión dividida entre la varianza de

error. P es el número de variables explicatorias del modelo de

regresión, y F sigue una distribución F con p y n – p – 1

grados de libertad.

P es el número de variables explicatorias del modelo de

regresión, y F sigue una distribución F con p y n – p – 1

grados de libertad.

Page 6: Prueba de La Importancia de La Relacion Entre Variables

La regla de decisión es:

Rechace H0 al nivel de significación si )1,( pnpUFF ; en cualquier otro caso, no

rechace H0.

Para los datos correspondientes al problema del consumo de

petróleo para calefacción, presentado en la Tabla Anova, es F =

168.47.

Page 7: Prueba de La Importancia de La Relacion Entre Variables

Si se elige un nivel de significación de 0.05, determinamos

que el valor crítico en la distribución F (con 2 y 12 grados

de libertad) es 3.89

Puesto que F = 168.47 > FU(2,12)= 3.89, podemos rechazar

H0 y llegar a la conclusión de que al menos una de las

variables explicativas (temperatura y/o aislamiento) está

relacionada con el consumo de petróleo para calefacción

Page 8: Prueba de La Importancia de La Relacion Entre Variables

Prueba de Porciones del Modelo de Regresión

Múltiple

En el desarrollo de un modelo de regresión múltiple, el

objetivo consiste en emplear solamente aquellas variables

que son de utilidad en la predicción del valor de una variable

dependiente.

Si una variable explicativa no resulta de ayuda para hacer

tal predicción, puede ser eliminada del modelo de

regresión múltiple y se puede usar en su lugar un modelo

con menos variables independientes

Page 9: Prueba de La Importancia de La Relacion Entre Variables

Uno de los métodos para determinar la contribución de

una variable explicativa es el conocido como criterio de

la prueba F parcial.

Este explica la determinación de la contribución a la

suma de cuadrados de regresión hecha por cada variable

independiente después de que todas ellas han sido

incluidas en un modelo.

Una nueva variable explicativa sería incluida sólo si

mejora significativamente el modelo

Page 10: Prueba de La Importancia de La Relacion Entre Variables

Para aplicar el criterio de la prueba F parcial a nuestro

problema concerniente al consumo de petróleo para

calefacción, que contiene dos variables explicativas,

necesitamos evaluar:

• la contribución de la variable aislamiento en ático (X2)

cuando la variable temperatura atmosférica diaria

promedio (X1) ya ha sido incluida en el modelo

• la contribución de la variable temperatura atmosférica

diaria promedio (X1) cuando ya se ha incluido en el

modelo la variable aislamiento en el ático (X2).

Page 11: Prueba de La Importancia de La Relacion Entre Variables

La contribución de cada variable independiente que se va a

incluir en el modelo puede ser determinada si se toma en

cuenta la suma de cuadrados de regresión de un modelo que

incluya a todas las variables explicativas excepto a la que nos

interesa, SSR (todas las variables excepto k).

Page 12: Prueba de La Importancia de La Relacion Entre Variables

Por consiguiente, en general, para determinar la

contribución de la variable k dado que todas las demás

variables ya han sido incluidas, tendríamos:

SSR(Xk / todas las variables excepto k)

= SSR(todas las variables incluida k) – SSR(todas las variables excepto k)

Si, como en el problema del consumo de petróleo para

calefacción, se tienen dos variables independientes, se puede

determinar la contribución de cada una de ellas con las

siguientes ecuaciones:

Page 13: Prueba de La Importancia de La Relacion Entre Variables

Contribución de la variable X1 sabiendo que X2 está incluida

SSR(X1 / X2) = SSR(X1 y X2) – SSR(X2)

Contribución de la variable X2 sabiendo que X1 está incluida

SSR(X2 / X1) =SSR(X1 y X2) – SSR(X1)

El término SSR(X2) representa la suma de cuadrados debida a

la regresión, correspondiente a un modelo que sólo incluye la

variable explicativa X2 (cantidad de aislamiento en el ático)

El término SSR(X1) representa la suma de cuadrados para un

modelo que únicamente incluye la variable explicativa X1

(temperatura atmosférica diaria promedio).

Page 14: Prueba de La Importancia de La Relacion Entre Variables

En las siguientes figuras se presentan los resultados obtenidos mediante el

paquete MINITAB, correspondiente a estos dos modelos.

Fig. 1: Resultado parcial de un modelo de regresión lineal simple de la

cantidad de petróleo para calefacción consumido y la cantidad de

aislamiento en el ático

Análisis de regresión The regression equation is

Consumo = 345 - 20.4 Aislam

Predictor Coef StDev T P

Constant 345.38 74.69 4.62 0.000

Aislam -20.35 10.74 -1.89 0.081

S = 119.3 R-Sq = 21.6% R-Sq(adj) = 15.6%

Análisis de Varianza

Source DF SS MS F P

Regression 1 51076 51076 3.59 0.081 Residual Error 13 185059 14235

Total 14 236135

Page 15: Prueba de La Importancia de La Relacion Entre Variables

FIG. 2: Resultado parcial del modelo de regresión lineal simple de la

cantidad de petróleo para calefacción consumido y la temperatura

atmosférica diaria promedio.

Análisis de regresión The regression equation is

Consumo = 436 - 5.46 Temp

Predictor Coef StDev T P

Constant 436.44 38.64 11.30 0.000

Temp -5.4622 0.8596 -6.35 0.000

S = 66.51 R-Sq = 75.6% R-Sq(adj) = 73.8%

Análisis de Varianza

Source DF SS MS F P

Regression 1 178624 178624 40.38 0.000 Residual Error 13 57511 4424

Total 14 236135

Page 16: Prueba de La Importancia de La Relacion Entre Variables

Podemos observar que

SSR(X2) = 51,076

y, por consiguiente, de la ecuación:

SSR(X1 / X2) = SSR(X1 y X2) – SSR(X2)

tenemos,

SSR(X1 / X2) = 228,015 – 51,076 = 176,939

Page 17: Prueba de La Importancia de La Relacion Entre Variables

Con el propósito de determinar si X1 mejora significativamente el

modelo después de que X2 ha sido incluida en éste, ahora podemos

dividir la suma de cuadrados de regresión en dos partes componentes,

como se muestra en la siguiente tabla:

TABLA: Tabla de Análisis de Varianza que divide la suma de

cuadrados de regresión en componentes para determinar la

contribución de la variable Xi

Fuente

G.L.

Suma de cuadrados

Cuadrado medio

(Varianza)

F

Regresión

21

2

/ XX

X

Error

2

1

1

12

228,015

939,176

076,51

8,120

114,007.5

51,076

176,939

MSE=676.67

261.48

Total 14 236,135

Page 18: Prueba de La Importancia de La Relacion Entre Variables

Las hipótesis nula y alternativa para probar la contribución

de X1 al modelo serían:

H0: La variable X1 no mejora significativamente el

modelo ya que se ha incluido la variable X2

H1: La variable X1 mejora significativamente el modelo

ya que se ha incluido la variable X2

El criterio de la prueba F parcial se expresa como:

Page 19: Prueba de La Importancia de La Relacion Entre Variables

Así pues, de la tabla anterior, tenemos:

Puesto que se tienen, respectivamente, uno y doce grados de

libertad, si se selecciona un nivel de significación de 0.05,

podemos observar que el valor crítico es de 4.75

Como el valor de F calculado es mayor que este valor de F

crítico (261.48 > 4.75), nuestra decisión sería rechazar H0.

Page 20: Prueba de La Importancia de La Relacion Entre Variables

Se llega a la conclusión de que la adición de la variable

X1 (temperatura atmosférica diaria promedio) mejora

significativamente el modelo de regresión múltiple que ya

tiene incluida la variable X2 (aislamiento en el ático).

Page 21: Prueba de La Importancia de La Relacion Entre Variables

Con el fin de evaluar la contribución de la variable X2

(aislamiento en el ático) a un modelo que ya tiene incluida

la variable X1, necesitamos utilizar la ecuación:

SSR(X2 / X1) = SSR(X1 y X2) – SSR(X1)

Podemos observar en la figura 2 que:

SSR(X1) = 178,624

Page 22: Prueba de La Importancia de La Relacion Entre Variables

Por consiguiente,

SSR(X2 / X1) = 228,015 – 178,624 = 49,391

Así pues, con el fin de determinar si X2 mejora

significativamente un modelo después de que X1 ha

sido incluida en éste, la suma de cuadrados de

regresión puede dividirse en dos partes como se

muestra en la siguiente tabla:

Page 23: Prueba de La Importancia de La Relacion Entre Variables

TABLA: Tabla de Análisis de Varianza que divide la suma de

cuadrados de regresión en componentes para determinar la

contribución de la variable X2

Fuente

G.L.

Suma de cuadrados

Cuadrado medio

(Varianza)

F

Regresión

Error

XX

X

12

1

/

2

1

1

12

228,015

391,49

624,178

8,120

114,007.5

178,624

49,391

MSE=676.67

72.99

Total 14 236,135

Page 24: Prueba de La Importancia de La Relacion Entre Variables

La hipótesis nula y alternativa para probar la contribución

de X2 al modelo serían:

H0: La variable X2 no mejora significativamente el modelo

ya que se ha incluido la variable X1

H1: La variable X2 mejora significativamente el modelo

ya que se ha incluido la variable X1.

Así pues, de la tabla anterior, tenemos:

Page 25: Prueba de La Importancia de La Relacion Entre Variables

Puesto que se tienen uno y doce grados de libertad,

respectivamente, si se elige un nivel de significación de

0.05, observamos que el valor crítico de F es 4.75

Ya que el valor calculado de F es mayor que este valor

crítico (72.99 > 4.75), nuestra decisión es rechazar la

hipótesis nula.

Se llega a la conclusión de que la adición de la variable X2

(aislamiento en el ático) mejora significativamente el

modelo de regresión múltiple que ya contiene a la variable

X1 (temperatura atmosférica diaria promedio).

Page 26: Prueba de La Importancia de La Relacion Entre Variables

Así pues, al probar la contribución de cada variable

explicativa después de que la otra ya ha sido incluida en

el modelo, determinamos que cada una de las dos

variables independientes contribuye mejorando

significativamente el modelo.

Por consiguiente, nuestro modelo de regresión múltiple

debería incluir tanto la temperatura atmosférica diaria

promedio, X1, como la cantidad de aislamiento en el

ático, X2, en la predicción del consumo de petróleo para

calefacción.

Page 27: Prueba de La Importancia de La Relacion Entre Variables

Inferencias Relativas a los Coeficientes de Regresión de

Población

Prueba de Hipótesis

P: número de variables explicatorias del modelo de

regresión

y t sigue una distribución t con n – P – 1 grados de

libertad

Page 28: Prueba de La Importancia de La Relacion Entre Variables

Si deseamos determinar si la variable X2 (cantidad de

aislamiento en el ático) tiene efecto significativo en el

consumo de petróleo para calefacción doméstica, tomando

en cuenta la temperatura atmosférica diaria promedio, las

hipótesis nula y alternativa serían:

tenemos:

Page 29: Prueba de La Importancia de La Relacion Entre Variables

y de los datos correspondientes al problema,

012.202 b y 343.22bS

de manera que:

Si se selecciona un nivel de significación de 0.05, podemos

observar que, para 12 grados de libertad, los valores críticos

de t son –2.1788 y +2.1788.

Page 30: Prueba de La Importancia de La Relacion Entre Variables

Puesto que tenemos t = -8.5412 < -2.1788, rechazamos

H0.

Llegamos a la conclusión de que existe una relación

significativa entre la variable X2 (cantidad de aislamiento

en el ático) y el consumo de petróleo para calefacción,

tomando en cuenta la temperatura atmosférica diaria

promedio, X1.

Page 31: Prueba de La Importancia de La Relacion Entre Variables

Estimación del Intervalo de Confianza

En el análisis de regresión múltiple se puede obtener una

estimación de intervalo de confianza con:

Page 32: Prueba de La Importancia de La Relacion Entre Variables

Como el valor crítico de t al nivel de confianza de 95%,

con 12 grados de libertad, es 2.1788, tenemos:

Así pues, tomando en cuenta el efecto del aislamiento en ático,

estimamos que el efecto de la temperatura atmosférica diaria

promedio es reducir el consumo de petróleo para calefacción

en una cantidad que se encuentra aproximadamente entre 4.7 y

6.17 galones por cada grado Fahrenheit de aumento en la

temperatura

Page 33: Prueba de La Importancia de La Relacion Entre Variables

Además, tenemos una confianza de 95% de que este

intervalo estima correctamente la relación verdadera

entre tales variables.