prueba de la importancia de la relacion entre variables
DESCRIPTION
Prueba de La Importancia de La Relacion Entre VariablesTRANSCRIPT
SEMANA 9
Prueba de la Importancia de la Relación entre la
Variable dependiente y las Variables Explicativas
Ahora que hemos utilizado el análisis de residuos para
asegurarnos de que el modelo de regresión múltiple es
apropiado, podemos determinar si existe una relación
significativa entre la variable dependiente y el conjunto
de variables explicativas.
Puesto que se tiene más de una variable independiente,
las hipótesis nula y alternativa pueden establecerse de la
manera siguiente:
Prueba de la Importancia de la Relación entre la
Variable Dependiente y las Variables Explicativas
0: 210 H (No existe relación lineal entre la variable dependiente y las
variables explicativas).
:1H Al menos una 0j (Al menos un coeficiente de regresión no es igual a cero)
Esta hipótesis nula puede probarse utilizando una prueba F,
como se indica en la siguiente tabla:
TABLA: Análisis de Varianza para probar la significación
de un conjunto de coeficientes de regresión de un modelo de
regresión múltiple que contiene p = 2 variables explicatorias
Fuente
G.L.
Cuadrado medio
(Varianza)
F
Regresión
Error
P
n– p - 1
p
SSRMSR
1
pn
SSEMSE
MSE
MSRF
Cuando probamos la significación de los coeficientes de
regresión, la medida del error aleatorio se conoce como
varianza de error, de modo que la prueba F es el cociente de la
varianza debida a la regresión dividida entre la varianza de
error. P es el número de variables explicatorias del modelo de
regresión, y F sigue una distribución F con p y n – p – 1
grados de libertad.
P es el número de variables explicatorias del modelo de
regresión, y F sigue una distribución F con p y n – p – 1
grados de libertad.
La regla de decisión es:
Rechace H0 al nivel de significación si )1,( pnpUFF ; en cualquier otro caso, no
rechace H0.
Para los datos correspondientes al problema del consumo de
petróleo para calefacción, presentado en la Tabla Anova, es F =
168.47.
Si se elige un nivel de significación de 0.05, determinamos
que el valor crítico en la distribución F (con 2 y 12 grados
de libertad) es 3.89
Puesto que F = 168.47 > FU(2,12)= 3.89, podemos rechazar
H0 y llegar a la conclusión de que al menos una de las
variables explicativas (temperatura y/o aislamiento) está
relacionada con el consumo de petróleo para calefacción
Prueba de Porciones del Modelo de Regresión
Múltiple
En el desarrollo de un modelo de regresión múltiple, el
objetivo consiste en emplear solamente aquellas variables
que son de utilidad en la predicción del valor de una variable
dependiente.
Si una variable explicativa no resulta de ayuda para hacer
tal predicción, puede ser eliminada del modelo de
regresión múltiple y se puede usar en su lugar un modelo
con menos variables independientes
Uno de los métodos para determinar la contribución de
una variable explicativa es el conocido como criterio de
la prueba F parcial.
Este explica la determinación de la contribución a la
suma de cuadrados de regresión hecha por cada variable
independiente después de que todas ellas han sido
incluidas en un modelo.
Una nueva variable explicativa sería incluida sólo si
mejora significativamente el modelo
Para aplicar el criterio de la prueba F parcial a nuestro
problema concerniente al consumo de petróleo para
calefacción, que contiene dos variables explicativas,
necesitamos evaluar:
• la contribución de la variable aislamiento en ático (X2)
cuando la variable temperatura atmosférica diaria
promedio (X1) ya ha sido incluida en el modelo
• la contribución de la variable temperatura atmosférica
diaria promedio (X1) cuando ya se ha incluido en el
modelo la variable aislamiento en el ático (X2).
La contribución de cada variable independiente que se va a
incluir en el modelo puede ser determinada si se toma en
cuenta la suma de cuadrados de regresión de un modelo que
incluya a todas las variables explicativas excepto a la que nos
interesa, SSR (todas las variables excepto k).
Por consiguiente, en general, para determinar la
contribución de la variable k dado que todas las demás
variables ya han sido incluidas, tendríamos:
SSR(Xk / todas las variables excepto k)
= SSR(todas las variables incluida k) – SSR(todas las variables excepto k)
Si, como en el problema del consumo de petróleo para
calefacción, se tienen dos variables independientes, se puede
determinar la contribución de cada una de ellas con las
siguientes ecuaciones:
Contribución de la variable X1 sabiendo que X2 está incluida
SSR(X1 / X2) = SSR(X1 y X2) – SSR(X2)
Contribución de la variable X2 sabiendo que X1 está incluida
SSR(X2 / X1) =SSR(X1 y X2) – SSR(X1)
El término SSR(X2) representa la suma de cuadrados debida a
la regresión, correspondiente a un modelo que sólo incluye la
variable explicativa X2 (cantidad de aislamiento en el ático)
El término SSR(X1) representa la suma de cuadrados para un
modelo que únicamente incluye la variable explicativa X1
(temperatura atmosférica diaria promedio).
En las siguientes figuras se presentan los resultados obtenidos mediante el
paquete MINITAB, correspondiente a estos dos modelos.
Fig. 1: Resultado parcial de un modelo de regresión lineal simple de la
cantidad de petróleo para calefacción consumido y la cantidad de
aislamiento en el ático
Análisis de regresión The regression equation is
Consumo = 345 - 20.4 Aislam
Predictor Coef StDev T P
Constant 345.38 74.69 4.62 0.000
Aislam -20.35 10.74 -1.89 0.081
S = 119.3 R-Sq = 21.6% R-Sq(adj) = 15.6%
Análisis de Varianza
Source DF SS MS F P
Regression 1 51076 51076 3.59 0.081 Residual Error 13 185059 14235
Total 14 236135
FIG. 2: Resultado parcial del modelo de regresión lineal simple de la
cantidad de petróleo para calefacción consumido y la temperatura
atmosférica diaria promedio.
Análisis de regresión The regression equation is
Consumo = 436 - 5.46 Temp
Predictor Coef StDev T P
Constant 436.44 38.64 11.30 0.000
Temp -5.4622 0.8596 -6.35 0.000
S = 66.51 R-Sq = 75.6% R-Sq(adj) = 73.8%
Análisis de Varianza
Source DF SS MS F P
Regression 1 178624 178624 40.38 0.000 Residual Error 13 57511 4424
Total 14 236135
Podemos observar que
SSR(X2) = 51,076
y, por consiguiente, de la ecuación:
SSR(X1 / X2) = SSR(X1 y X2) – SSR(X2)
tenemos,
SSR(X1 / X2) = 228,015 – 51,076 = 176,939
Con el propósito de determinar si X1 mejora significativamente el
modelo después de que X2 ha sido incluida en éste, ahora podemos
dividir la suma de cuadrados de regresión en dos partes componentes,
como se muestra en la siguiente tabla:
TABLA: Tabla de Análisis de Varianza que divide la suma de
cuadrados de regresión en componentes para determinar la
contribución de la variable Xi
Fuente
G.L.
Suma de cuadrados
Cuadrado medio
(Varianza)
F
Regresión
21
2
/ XX
X
Error
2
1
1
12
228,015
939,176
076,51
8,120
114,007.5
51,076
176,939
MSE=676.67
261.48
Total 14 236,135
Las hipótesis nula y alternativa para probar la contribución
de X1 al modelo serían:
H0: La variable X1 no mejora significativamente el
modelo ya que se ha incluido la variable X2
H1: La variable X1 mejora significativamente el modelo
ya que se ha incluido la variable X2
El criterio de la prueba F parcial se expresa como:
Así pues, de la tabla anterior, tenemos:
Puesto que se tienen, respectivamente, uno y doce grados de
libertad, si se selecciona un nivel de significación de 0.05,
podemos observar que el valor crítico es de 4.75
Como el valor de F calculado es mayor que este valor de F
crítico (261.48 > 4.75), nuestra decisión sería rechazar H0.
Se llega a la conclusión de que la adición de la variable
X1 (temperatura atmosférica diaria promedio) mejora
significativamente el modelo de regresión múltiple que ya
tiene incluida la variable X2 (aislamiento en el ático).
Con el fin de evaluar la contribución de la variable X2
(aislamiento en el ático) a un modelo que ya tiene incluida
la variable X1, necesitamos utilizar la ecuación:
SSR(X2 / X1) = SSR(X1 y X2) – SSR(X1)
Podemos observar en la figura 2 que:
SSR(X1) = 178,624
Por consiguiente,
SSR(X2 / X1) = 228,015 – 178,624 = 49,391
Así pues, con el fin de determinar si X2 mejora
significativamente un modelo después de que X1 ha
sido incluida en éste, la suma de cuadrados de
regresión puede dividirse en dos partes como se
muestra en la siguiente tabla:
TABLA: Tabla de Análisis de Varianza que divide la suma de
cuadrados de regresión en componentes para determinar la
contribución de la variable X2
Fuente
G.L.
Suma de cuadrados
Cuadrado medio
(Varianza)
F
Regresión
Error
XX
X
12
1
/
2
1
1
12
228,015
391,49
624,178
8,120
114,007.5
178,624
49,391
MSE=676.67
72.99
Total 14 236,135
La hipótesis nula y alternativa para probar la contribución
de X2 al modelo serían:
H0: La variable X2 no mejora significativamente el modelo
ya que se ha incluido la variable X1
H1: La variable X2 mejora significativamente el modelo
ya que se ha incluido la variable X1.
Así pues, de la tabla anterior, tenemos:
Puesto que se tienen uno y doce grados de libertad,
respectivamente, si se elige un nivel de significación de
0.05, observamos que el valor crítico de F es 4.75
Ya que el valor calculado de F es mayor que este valor
crítico (72.99 > 4.75), nuestra decisión es rechazar la
hipótesis nula.
Se llega a la conclusión de que la adición de la variable X2
(aislamiento en el ático) mejora significativamente el
modelo de regresión múltiple que ya contiene a la variable
X1 (temperatura atmosférica diaria promedio).
Así pues, al probar la contribución de cada variable
explicativa después de que la otra ya ha sido incluida en
el modelo, determinamos que cada una de las dos
variables independientes contribuye mejorando
significativamente el modelo.
Por consiguiente, nuestro modelo de regresión múltiple
debería incluir tanto la temperatura atmosférica diaria
promedio, X1, como la cantidad de aislamiento en el
ático, X2, en la predicción del consumo de petróleo para
calefacción.
Inferencias Relativas a los Coeficientes de Regresión de
Población
Prueba de Hipótesis
P: número de variables explicatorias del modelo de
regresión
y t sigue una distribución t con n – P – 1 grados de
libertad
Si deseamos determinar si la variable X2 (cantidad de
aislamiento en el ático) tiene efecto significativo en el
consumo de petróleo para calefacción doméstica, tomando
en cuenta la temperatura atmosférica diaria promedio, las
hipótesis nula y alternativa serían:
tenemos:
y de los datos correspondientes al problema,
012.202 b y 343.22bS
de manera que:
Si se selecciona un nivel de significación de 0.05, podemos
observar que, para 12 grados de libertad, los valores críticos
de t son –2.1788 y +2.1788.
Puesto que tenemos t = -8.5412 < -2.1788, rechazamos
H0.
Llegamos a la conclusión de que existe una relación
significativa entre la variable X2 (cantidad de aislamiento
en el ático) y el consumo de petróleo para calefacción,
tomando en cuenta la temperatura atmosférica diaria
promedio, X1.
Estimación del Intervalo de Confianza
En el análisis de regresión múltiple se puede obtener una
estimación de intervalo de confianza con:
Como el valor crítico de t al nivel de confianza de 95%,
con 12 grados de libertad, es 2.1788, tenemos:
Así pues, tomando en cuenta el efecto del aislamiento en ático,
estimamos que el efecto de la temperatura atmosférica diaria
promedio es reducir el consumo de petróleo para calefacción
en una cantidad que se encuentra aproximadamente entre 4.7 y
6.17 galones por cada grado Fahrenheit de aumento en la
temperatura
Además, tenemos una confianza de 95% de que este
intervalo estima correctamente la relación verdadera
entre tales variables.