capÍtulo 5 validaciÓn del modelo de … · manual de econometría. capítulo 5, página 2 ©...
TRANSCRIPT
______________________________________Manual de Econometría. Capítulo 5, página 1
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
Fichero: capitulo 5
CAPÍTULO 5
VALIDACIÓN DEL MODELO DE REGRESIÓN: CONTRASTES DE
ESPEFICIACIÓN INCORRECTA Y CONTRASTES DE ESPECIFICACIÓN
1. INTRODUCCION. TIPOS DE PRUEBAS DE VALIDACIÓN DE LOS
RESULTADOS DE LA ESTIMACIÓN MCO DEL MODELO DE REGRESIÓN
Después de la estimación de los parámetros conviene efectuar un conjunto de
pruebas de validación de los resultados obtenidos. Estableceremos dos tipos de
pruebas. Las primeras consisten en la realización de comprobaciones de la calidad de
la información muestral utilizada, del ajuste de dicha información al modelo teórico
subyacente y la estabilidad de los datos frente a la estructura que debió generarlos en
relación con el modelo especificado. Asimismo, es conveniente señalar las posibles
divergencias, si las hubiere, en relación con las hipótesis mantenidas y que definieron
lo que hemos venido en calificar como modelo de regresión estándar.
Si existen discrepancias en el resultado de estas pruebas con respecto a las hipótesis
iniciales tendremos indicios de una especificación incorrecta del modelo. En
consecuencia, se procederá a revisar su construcción formal, los datos utilizados para
la inferencia o, acaso, los procedimientos de estimación y contraste de las hipótesis.
Este proceso cíclico de revisión, re-especificación y nueva validación concluye en el
punto en el que convenimos que el modelo especificado está corroborado por los
datos.
El segundo tipo de pruebas de validación consisten en la comparación del modelo
______________________________________Manual de Econometría. Capítulo 5, página 2
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
estimado con otros posibles modelos. Estos modelos alternativos pueden incluir más,
o menos, variables explicativas que las utilizadas hasta el momento. También cabe la
posibilidad de realizar comparaciones con modelos diferentes tanto por la forma
funcional especificada como por las variables utilizadas como predeterminadas. En
cualquier caso se trata de señalar las pautas que nos permitan aproximarnos, en la
medida de lo posible, a inferencias que garanticen la adecuación de los datos al
modelo subyacente desconocido.
Siguiendo la terminología habitual nos referiremos al primer tipo de pruebas como
pruebas de especificación errónea del modelo, mientras que las segundas las
reconoceremos sencillamente como pruebas de especificación entre modelos
alternativos. Para establecer una cierta sistemática en la aplicación de estas pruebas
ahora las presentaremos en forma de una batería ordenada. En la práctica, esta etapa
de validación se realiza de manera mucho más automática y simultánea. Sin
embargo, con objeto de presentar separadamente los conceptos e hipótesis que se
cuestionan junto con las pruebas aconsejadas, reseñaremos, en lo que sigue, dichas
pruebas de manera ordenada clasificadas según la hipótesis nula establecida.
La página siguiente contiene un esquema de las pruebas y contrastes de validación y
especificación del modelo.
______________________________________Manual de Econometría. Capítulo 5, página 3
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
ESQUEMA DE VALIDACIÓN DEL MODELOS: CONTRASTES DE ESPECIFICACIÓN INCORRECTA
Y CONTRASTES DE ESPECIFICACIÓN
Significado de los parámetros ¿Concuerdan el signo y el valor con lo esperado, según la teoría?
Significación estadística de la
ecuación y de los parámetros
Contrastes de significación individual (t)
Contrastes de significación de subconjuntos de parámetros (F)
Contrastes de restricciones lineales sobre los parámetros (F)
Contraste de significación global del ajuste (F)
¿Multicolinealidad?
¿Outliers?
Matriz de correlaciones de X
Gráficos de los residuos
Otros (ver capítulo específico)
¿Autocorrelación entre los
errores?
Gráfico de los residuos
Contraste Durbin-Watson (DW)
Otros (ver capítulo específico)
¿Heterocedasticidad? Gráficos
Contraste de Breusch y Pagan (BP)
Otros contrastes (ver capítulo específico)
¿Errores normales? Histograma de los residuos
Contraste Jarque y Bera (JB)
Otros (ver capítulo específico)
Pruebas de linealidad de la
relación (especificación de la
forma funcional)
Gráficos
Contraste RESET de Ramsey
CONTRASTES DE
ESPECIFICACIÓN
INCORRECTA Y
CALIDAD DE LOS
DATOS
Análisis de Estabilidad Contraste de Chow
Contraste de Hansen
Contrastes basados en la estimación recursiva: CUSUM,
CUSUMQ
Contrastes anidados Contrastes de la F de significación de subconjuntos de parámetrosCONTRASTES DE
ESPECIFICACIÓN
ENTRE MODELOS
ALTERNATIVOS (¿Qué
variables?, ¿Qué forma
funcional?
Contrastes no anidados Contraste J de Davidson y MacKinnon (1993)
Contrastes de abarcamiento (“Encompassing”)
Contraste PE (¿Modelo lineal o modelo log-lineal?
______________________________________Manual de Econometría. Capítulo 5, página 4
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
2. PRUEBAS DE ESPECIFICACIÓN ERRÓNEA Y DE CALIDAD DE LOS DATOS.
El tipo de pruebas que vamos ahora a proponer tiene por objeto diagnosticar la
calidad de la especificación realizada y de la información muestral utilizada. Las
hipótesis H1 y H4 establecían como supuestos de partida que el modelo econométrico
elegido era correcto. Cualquier discrepancia acerca de dicho supuesto repercute en
los resultados de la estimación por MCO, así como en la potencia de los contrastes
estadísticos propuestos, tal como tendremos ocasión de analizar con mayor detalle en
próximos capítulos. Por el momento nos basta con disponer de instrumentos de
diagnóstico de la evidencia empírica disponible para estar en favor, o en contra, del
mantenimiento de los supuestos. De la misma forma, hemos realizado la inferencia
por MCO con la confianza de que la base de datos de la muestra utilizada era
suficiente como para garantizar el mantenimiento de las propiedades de los
estimadores y de los contrastes propuestos. También analizaremos los resultados de
la estimación por MCO para obtener apoyo en favor del mantenimiento de este tipo de
supuestos. Presentamos a continuación un conjunto de pruebas a realizar con los
resultados de la estimación mínimocuadrática de los parámetros del modelo de
regresión. Estas pruebas nos permitirán disponer de evidencia suficiente para creer
que las hipótesis establecidas al comienzo del estudio son válidas o, por el contrario,
si se apuntan graves divergencias que aconsejen la reformulación del modelo o de los
procedimientos inferenciales utilizados hasta el momento.
2.1. Significado de los parámetros
En el modelo econométrico especificado habremos señalado previamente los signos,
y en ocasiones los valores, esperados de todos o algunos de sus coeficientes. Por
ejemplo, si se trata de una ecuación representativa del comportamiento de los
consumidores y como variable explicativa aparece la renta y los precios, esperamos
un signo positivo para el coeficiente que acompaña a la renta y signo negativo para el
coeficiente de la variable precio. Si la relación es entre los logaritmos de las variables
______________________________________Manual de Econometría. Capítulo 5, página 5
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
indicadas, los coeficientes en la regresión son, respectivamente, las elasticidades del
consumo respecto de la renta y el precio. Si el bien es un bien normal, esperamos que
la elasticidad renta sea mayor que la unidad.
La primera de las pruebas propuestas consiste sencillamente en la comprobación de
que los signos, o valores, de las estimaciones de los parámetros del modelo
especificado coinciden con los signos, o valores, esperados de los parámetros. Se
trata, en definitiva, de un mecanismo elemental de interpretación del significado
económico de los resultados más que de una prueba estadística.
2.2. Significación estadística de la ecuación estimada y de los parámetros del modelo
Este segundo instrumento de validación del modelo consiste en la realización de
pruebas de hipótesis estadísticas. La primera de ellas sirve para señalar la
significación estadística del modelo econométrico en su conjunto. Formalmente se
trata de efectuar una prueba de significación conjunta del modelo, es decir de los
parámetros que acompañan a las variables explicativas (excluyendo la constante):
siendo el contraste propuesto el indicado en (3.15), es decir:
KnKa
a
aa
aa FKnSCE
KSCESCE
Knee
Keeee−−−
−−=
−−−
;1000 ~
)/(
)1/()(
)/(´
)1/()´´(
en el que eo y ea indican, respectivamente, los errores del modelo bajo la hipótesis
nula (o sea, Yi=ß1+ui) y el modelo que contiene todos los parámetros. Si el estadístico
de prueba proporciona valores mayores que el valor tabulado de F con K-1 y n-K
grados de libertad, entonces se rechaza la hipótesis nula. En este caso decimos que
la regresión globalmente considerada explica las variaciones intramuestrales de la
variable endógena.
0==...== :H K32o βββ
______________________________________Manual de Econometría. Capítulo 5, página 6
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
Además de esta prueba global deben establecerse las pruebas de significación
individual de cada uno de los parámetros del modelo de regresión, así como pruebas
de significación de subconjuntos paramétricos y de relaciones entre los parámetros. El
planteamiento de estas pruebas de relación entre parámetros está inspirado en el
significado económico de los mismos. En una ecuación que represente una función de
producción tipo Cobb-Douglas esteremos interesados, por ejemplo, en contrastar que
existen rendimientos constantes de escala. Esto equivale a decir, si la ecuación es
una relación entre los logaritmos del producto como variable explicada y de los inputs
capital y trabajo como explicativas, que la suma de los coeficientes de las dos
explicativas es igual a la unidad.
El contraste de significación individual se realiza mediante el estadístico definido en
(3.12):
El estadístico de prueba de q restricciones lineales independientes sobre los
parámetros, que incluye como caso particular la significación conjunta de q
coeficientes de regresión, es el siguiente:
K)-nF(q; K)-/(n SCE
/q )SCE-SCE(
a
ao ~
En ambos casos, si los estadísticos de prueba superan los valores tabulados se
rechazan las hipótesis nulas planteadas. En el caso del contraste de significación
individual de un parámetro esto cuestionaría la presencia de la variable explicativa
correspondiente en la regresión. Si se rechaza la hipótesis nula de significación
estadística de alguna relación lineal entre parámetros, establecida en base a la
información teórica a priori, entonces estamos cuestionando la existencia de alguna
K)-t(n ( es
k
k ~)ˆ
ˆ
ββ
______________________________________Manual de Econometría. Capítulo 5, página 7
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
relación con significado económico.
2.3. Calidad de la información muestral
La información muestral utilizada debe ser homogénea o, dicho de otro modo, no
debe contener elementos extraños. Un elemento atípico (outlier en la terminología
anglosajona) es una observación para la que resulta forzado creer que se generó por
la misma estructura que la restante información muestral. Otra debilidad, habitual por
lo demás, de la información muestral es la que resulta del hecho de que las variables
explicativas presenten entre sí correlaciones lineales altas, lo que resta precisión a los
estimadores minimocuadráticos. Esta cuestión será analizada posteriormente con
mayor detalle en el ámbito de lo que en la literatura econométrica se conoce como el
problema de la multicolinealidad.
Por el momento, efectuaremos las siguientes pruebas. En primer lugar analizaremos
la matriz de correlaciones entre las variables explicativas. Si esta matriz presenta
valores elevados, digamos que correlaciones entre pares de variables con valores
superiores a 0.7, hay una elevada correlación entre las variables explicativas que
disminuirá la precisión de las estimaciones efectuadas. En consecuencia, al aumentar
la varianza de los estimadores será más probable no rechazar la hipótesis nula de
significación individual de los parámetros de regresión (al aumentar la varianza,
aumenta el denominador en (2.13) y por lo tanto disminuye el valor del estadístico de
prueba y es más difícil rechazar la hipótesis nula).
El análisis de existencia de valores atípicos se puede efectuar de distintas formas. Por
una parte, obtendremos una representación gráfica de los residuos de la estimación
MCO. Los residuos que estén situados más allá de 2 desviaciones estándar (2se) de
la distribución de los errores son, en principio, candidatos a señalar para la
observación a la que correspondan la existencia de un valor atípico. Sin embargo,
hemos de precisar que si se trabaja con un nivel de confianza del 95%, entonces es
______________________________________Manual de Econometría. Capítulo 5, página 8
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
correcto esperar que, aproximadamente, el 5% de los residuos estén situados fuera
de las bandas de dos desviaciones estándar.
El gráfico de la izquierda en la figura 5.1 muestra un ejemplo con datos simulados de
la distribución de los residuos. La distribución no presenta ninguna estructura
determinada (no son sistemáticamente crecientes o decrecientes, no están dispuestos
en forma de V o V invertida, etc.) lo que no indica la existencia de errores sistemáticos
en la especificación del modelo. Por otra parte aparecen algunos residuos fuera de las
bandas de confianza, pero no suficientemente alejados de las mismas como para
sospechar que se trate de algún dato extraño. El gráfico de la derecha muestra una
distribución de los errores en el que aparecen dos valores muy alejados de la media.
Los valores situados más allá de 3 desviaciones estándar deben considerarse valores
anormalmente diferentes en la distribución y posiblemente asociados con algún dato
atípico.
Figura 5.1
-3
-2
-1
0
1
2
3
76 78 80 82 84 86 88 90 92 94 96 98 00
Residuos estandariazados
-4
-2
0
2
4
20 40 60 80 100
Residuos estandariazados
Ejemplo de residuos con outliers
______________________________________Manual de Econometría. Capítulo 5, página 9
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
2.4. Pruebas relativas a la pertinencia de las hipótesis mantenidas sobre el término de
perturbación aleatoria (homoscedasticidad, ausencia de autocorrelación y normalidad)
Las hipótesis relativas a las características de la distribución de probabilidad de las
variables aleatorias que constituyen los términos de perturbación aleatoria del modelo
de regresión, pueden ser revisadas mediante dos enfoques distintos. Por una parte,
con el recurso de ilustraciones gráficas del comportamiento de los residuos de la
estimación MCO y, por otra, con pruebas estadísticas específicamente diseñadas
para estos objetivos. Ya hemos visto cómo la distribución del vector de residuos se
asemeja, en el límite, a la distribución del vector de perturbaciones aleatorias incluidas
en el modelo de regresión. Este es el fundamento sobre el que se construyen los
contrastes para calibrar la validez de las hipótesis sobre U, así como las pruebas
gráficas que ayudan de una manera más sencilla, aunque más elemental y menos
precisa, a valorar el mantenimiento de dichos supuestos.
Ausencia de autocorrelación
Para analizar la independencia en la distribución de los distintos términos de
perturbación aleatoria en la regresión, podemos empezar observando la
representación gráfica de los residuos MCO de la estimación. Ya hemos comentado
repetidamente que esta hipótesis es especialmente importante en inferencias
realizadas con modelos que utilizan datos temporales. Los residuos se ordenarán de
acuerdo con la secuencia temporal de los datos en la muestra. Si observamos
cualquier patrón de comportamiento sistemático en la distribución en el tiempo de los
residuos, entonces estamos en condiciones de dudar de la conveniencia de mantener
la hipótesis H6 de no autocorrelación en la distribución de los términos de
perturbación aleatoria. La figura 5.2 muestra dos situaciones distintas de la
distribución de residuos de dos estimaciones realizadas por MCO. En la primera de
______________________________________Manual de Econometría. Capítulo 5, página 10
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
ellas no hay sospechas de violación de la hipótesis de no autocorrelación de los
términos de perturbación aleatoria (la distribución de los residuos parece generada de
manera aleatoria), mientras que en el segundo la estructura observada (a cada
residuo con valor negativo le sigue otro con valor positivo) señala que no puede
sostenerse la hipótesis aludida.
Figura 5.2
Distribución de residuos MCO de dos modelos de regresión
-3
-2
-1
0
1
2
3
20 40 60 80 100
Residuos estandarizados
Ejemplo de residuos no autocorrelacionados
Las pruebas relativas a la distribución del término de perturbación aleatoria sirven
para detectar problemas de especificación del modelo. Teniendo presente que su
justificación analítica y su deducción formal debe hacerse en el ámbito del análisis de
las consecuencias de la alteración de las hipótesis relativas al comportamiento del
término de perturbación de la regresión, indicaremos ahora la mecánica de estos
contrastes. Los resultados del rechazo de la hipótesis nula, que sostienen las
hipótesis mantenidas en el modelo de regresión estándar, deberán interpretarse por el
momento como pruebas de incorrecta especificación. Un resultado así es indicativo de
que hay algo mal construido en la relación y que deben revisarse los supuestos
establecidos.
Sin embargo, enunciaremos ahora una prueba elemental de ausencia de correlación
-3
-2
-1
0
1
2
3
78 80 82 84 86 88 90 92
Residuos estandariazados
Ejemplo de residuos autocorrelacionados
______________________________________Manual de Econometría. Capítulo 5, página 11
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
serial en el término de perturbación. Este contraste lo proporciona la prueba propuesta
por Durbin y Watson (1950, 1951) que definen el siguiente estadístico:
que tiene una distribución tabulada por estos mismos autores. Para que la aplicación
de este contraste tenga sentido es preciso que las observaciones muestrales estén
ordenadas. Un criterio de ordenación inmediato es el proporcionado por el argumento
temporal. Si los datos provienen de series en el tiempo entonces las observaciones
muestrales las ordenamos según su aparición en el tiempo. Cuando los datos son de
corte transversal una ordenación lógica no siempre es posible con lo que el contraste,
y en general todos los contrastes de autocorrelación, no tendrán interpretación y no
serán instrumentos útiles a estos efectos. El estadístico d toma valores en el rango
comprendido entre 0 y 4. Las tablas proporcionan los valores de los límites inferior (dl)
y superior (du) del contraste. La hipótesis nula de ausencia de autocorrelación se
rechaza cuando:
Es un contraste de una cola. La hipótesis alternativa es , o bien que hay
autocorrelación de primer orden entre las perturbaciones positiva, o bien que hay
autocorrelación negativa.
Por el momento bastará con interpretar este contraste como una prueba de
especificación errónea. Por ello diremos que nuestra hipótesis nula es la correcta
especificación de modelo. El rechazo de la hipótesis nula señalará algún error en la
construcción del modelo. Estos errores pueden deberse, entre otras causas, a la mala
especificación de la forma funcional, es decir de la linealidad, y a la omisión de
e
)e-e(=d
2i
n=i
=1i
21-ii
n=i
2=i
∑
∑
42,
20,
<<<<dsi4 < d< d-4
dsi d< d < 0
u
l
______________________________________Manual de Econometría. Capítulo 5, página 12
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
variables explicativas importantes. Cuando abordemos el tema de la autocorrelación
encontraremos mayor explicación del funcionamiento del contraste y mejores pistas
para su interpretación. Dejamos para entonces el análisis más detallado del contraste.
Heterocedasticidad
Con respecto a la hipótesis de varianza constante apuntaremos ahora, como en el
caso del tratamiento de la no autocorrelación, dos instrumentos de naturaleza distinta:
en primer lugar, un conjunto de gráficos para analizar la forma de la distribución de los
residuos y, en segundo lugar, un contraste estadístico de fácil construcción. Los
gráficos que insinúan el comportamiento de la varianza del término de perturbación
aleatoria son de dos tipos. El primero de ellos compara los valores de los residuos de
la estimación MCO con los valores ajustados de la variable dependiente. El segundo
tipo de gráfico describe la distribución de los residuos en comparación con los de cada
variable explicativa. Si se observan variaciones sistemáticas de la dispersión de los
residuos cuando varian los valores de la variable dependiente y/o alguna de las
explicativas, entonces podemos dudar de la validez de la hipótesis H7 de
homoscedasticidad, es decir de varianza constante en el término de perturbación.
En los gráficos que aparecen en la figura 5.3 se representan distintas situaciones que
evidencian en unos casos el mantenimiento de la hipótesis de homoscedasticidad,
cuando la distribución de los residuos no varía sistemáticamente al hacerlo Y , o la
variable explicativa X, y en otros la duda sobre el cumplimiento de dicha hipótesis.
Obsérvese que cuando el término de perturbación deja de ser homoscedástico, los
residuos tienden a comportarse con una variación distinta según cuales sean los
valores de Y , o de alguna de las variables explicativas en el modelo de regresión.
Figura 5.3
______________________________________Manual de Econometría. Capítulo 5, página 13
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
0
2
4
6
8
20 40 60 80 100
Valores ajustados de Y
Va
lor
ab
solu
to d
e lo
s re
sid
uo
s M
CO Ejemplo de homocedasticidad
Para contrastar la homoscedasticidad utilizaremos el contraste de Breusch y Pagan
(1979), que definen el siguiente estadístico:
en el que SCR es la suma de cuadrados explicada en la regresión cuya variable
dependiente es
nee
i
i
∑ 2
2
donde e son los residuos MCO de la regresión original, cuya homocedasticidad
queremos contrastar. Las variables explicativas de la regresión auxiliar del contraste
son un conjunto de q variables explicativas que, además de un término constante,
recojan los posibles argumentos de variación de la varianza del término de
χ 2
q
2
SCR = LM ~
-1000
0
1000
2000
3000
10 20 30 40 50
Xj
Valo
r abso
luto
de lo
s re
siduos
MC
O Ejemplo de heterocedasticidad
______________________________________Manual de Econometría. Capítulo 5, página 14
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
perturbación1.
Al igual que en el caso del contraste relativo a la autocorrelación, la prueba de
Breusch y Pagan debe contemplarse en este contexto como un contraste para poder
rechazar, si este es el caso, la hipótesis de especificación correcta. Si el estadístico de
prueba es mayor que el valor en tablas de la χ2, entonces se rechaza la buena
especificación del modelo y deben revisarse las etapas de su construcción. Es posible
que el rechazo de la hipótesis nula que proporciona el contraste de Breusch y Pagan
esté asociado con problemas de homogeneidad de los datos o, sencillamente, con
situaciones en las que resulta muy forzado el supuesto de constancia en la varianza
de la distribución de los distintos términos de perturbación aleatoria en la ecuación de
regresión.
Normalidad
Finalmente, para el supuesto de normalidad en la distribución de las u's, señalaremos
la existencia de un contraste, además de otra representación gráfica de los residuos.
En una primera instancia utilizaremos el gráfico de la distribución de las frecuencias
(histograma) de los valores de los residuos. La comparación de la forma de esta
distribución con la que teóricamente presenta la distribución normal (unimodal,
simétrica y acampanada) señala las similitudes, o discrepancias, con respecto al
supuesto de normalidad en la distribución de las perturbaciones, tal como señalan los
gráficos de la figura 5.4
Figura 5.4
1
El conjunto de variables explicativas en esta regresión puede coincidir con las variables explicativas de la ecuación queestemos evaluando. En este caso q=K-1. Cuando utilizemos este contraste como prueba efectiva de homoscedasticidadcontemplaremos otras posibilidades para esta regresión auxiliar.
______________________________________Manual de Econometría. Capítulo 5, página 15
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
0
5
10
15
20
25
-0.75 -0.50 -0.25 0.00 0.25 0.50 0.75
Series: ResidualsSample 1 200Observations 200
Mean -9.99E-17Median -0.010369Maximum 0.844970Minimum -0.891293Std. Dev. 0.293782Skewness 0.038570Kurtosis 3.103209
Jarque-Bera 0.138357Probability 0.933160
Histograma de los residuos:Ejemplo de residuos normales
0
10
20
30
40
-1 0 1 2 3 4 5
Series: ResidualsSample 1 200Observations 200
Mean -2.16E-16Median -0.262040Maximum 5.002113Minimum -1.625097Std. Dev. 1.065914Skewness 1.546720Kurtosis 6.274814
Jarque-Bera 169.1148Probability 0.000000
Histograma de los residuosEjemplo de residuos no normales
El contraste propuesto por Jarque y Bera (1980) está construido a partir de los
momentos de tercer y cuarto orden o, expresado de otra forma, de los coeficientes de
asimetría y curtosis de los residuos de la regresión. Estos autores demuestran que el
estadístico:
siendo,
(2) ] -2
3n[+])3-(
24
1+
6n[ 2
2
2
13
2
2
12
2
2
4
3
2
2
3 χµµµ
µµ
µµ
µµ
~
______________________________________Manual de Econometría. Capítulo 5, página 16
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
y, por lo tanto, se rechaza la hipótesis nula de normalidad en la distribución de los
errores en la regresión cuando el estadístico de prueba supera el valor tabulado según
una ley χ2 con 2 grados de libertad.
2.5. Pruebas relativas a la linealidad de la relación
Una forma sencilla de analizar la existencia de relación lineal entre las variables en el
modelo especificado consiste en la observación del gráfico resultante de representar
sobre un plano los valores de los errores de la regresión con los valores ajustados de
la endógena. También se utilizan en ocasiones los gráficos de los errores con cada
una de las variables explicativas. Si en cualquiera de estos gráficos se aprecia un
comportamiento sistemático, podemos sospechar que la especificación lineal no es la
más adecuada. La figuras 5.5 sirve de ejemplo de representación gráfica de un
modelo en el que cabe sospechar que se incumple la linealidad formulada como
hipótesis.
Figura 5.5
1,2...=sne=
sin=i
=1is ∑µ
______________________________________Manual de Econometría. Capítulo 5, página 17
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
-20
-10
0
10
20
-10 -5 0 5 10
Y ajustada
Re
sid
uo
s M
CO
Ejemplo de sospecha de relación no lineal
Un contraste estadístico, debido a Ramsey, y conocido como contraste RESET, es el
siguiente. Se estima la ecuación de regresión y se guardan los valores ajustados de la
endógena. Se estima a continuación la misma ecuación, añadiendo como variable
explicativa la endógena ajustada elevada al cuadrado y se contrasta la significación
individual de ésta, con el contraste t habitual. Si el coeficiente de esta nueva variable
es significativamente distinto de cero entonces se rechaza la linealidad de la relación.
Expresado formalmente este contraste, se estima la regresión auxiliar:
y, a continuación, se hace el contraste de hipótesis nula sobre el parámetro α, en la
forma acostumbrada:
1,2...n=iu + Y + X +...+ X + = Y iiKiK2i21i ;ˆ 2αβββ
______________________________________Manual de Econometría. Capítulo 5, página 18
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
Nótese que los grados de libertad en la distribución de t son n-K-1 puesto que en la
regresión efectuada hemos añadido un regresor y el número total de parámetros es
K+1.
Se pueden incluir en la ecuación auxiliar varias potencias de los valores ajustados de
Y, empezando por el cuadrado. En este caso, se emplea el contraste F habitual de
significación de un subconjunto de parámetros:
1,2...n=iu YY+ Y + X +...+ X + = Y i
h
ihiiKiK2i21i ;ˆ...ˆˆ 3
3
2
2+++ αααβββ
0...
...
2
32
≠≠===
ha
ho
o0 :H
0= :H
ααααα
2.6. Análisis de la estabilidad
La hipótesis de relación estable debe también analizarse. El diagnóstico de la
existencia de indicios en contra de este supuesto se realiza tanto a nivel intra-muestral
como extra-muestral. La estabilidad dentro de la muestra, estabilidad intra-muestral,
se refiere a la información utilizada para la inferencia. Cuando los datos corresponden
a observaciones en un corte transversal y se dispone de muestra suficiente, es
aconsejable realizar una prueba de validación cruzada. Esta prueba consiste en lo
siguiente. Se divide la muestra disponible en dos partes no necesariamente iguales
1)-K-t(n )( es
0 :H
0= :H
a
o
~ˆ
ˆ
αα
α
α
≠
______________________________________Manual de Econometría. Capítulo 5, página 19
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
(se puede utilizar, por ejemplo, dos tercios de la muestra para la primera submuestra y
el tercio restante para la segunda submuestra). Con los datos que configuran la
primera submuestra se efectúa la estimación del modelo de regresión propuesto. Esta
inferencia permite efectuar predicciones para la segunda submuestra. Para ello
tomamos como conocidos los valores de las variables explicativas y obtenemos los
predictores utilizando (3.18). Los valores predichos se comparan con los observados
que hemos reservado en la segunda submuestra. Se trata, en definitiva, de evaluar el
resultado de esta comparación entre pronósticos y observaciones reales.
Si la información utilizada es del tipo de serie temporal entonces esta prueba de
validación se reduce a la subdivisión de la muestra en subperiodos. Se estima el
modelo propuesto para cada subperiodo y se comparan los resultados alcanzados. Si
no existe evidencia suficiente de cambios decimos que la muestra es estable y puede
realizarse la estimación definitiva con todos los datos disponibles.
Las pruebas de estabilidad post-muestral funcionan de manera similar, con la
salvedad que la información utilizada para la comparación es información externa a la
muestra. En sentido estricto debemos obtener datos nuevos para elementos distintos,
en el caso de información en un corte transversal, o dejar transcurrir el tiempo con
objeto de disponer de una serie temporal más larga, y estar en condiciones de
efectuar la comparación sugerida, en el caso de modelos para datos de serie
temporal.
2.6.1. El contraste de Chow
Es uno de los más utilizados para probar la estabilidad de la estructura que ha
generado los datos. El constraste se refiere a la constancia de los parámetros en las
dos submuestras. Para ello habremos dividido la muestra total en dos submuestras de
tamaño igual, respectivamente, a n1 y n2:
______________________________________Manual de Econometría. Capítulo 5, página 20
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
Recordemos que la hipótesis a contrastar se formula de la forma siguiente:
siendo la hipótesis alternativa que al menos una de estas igualdades no sea cierta. El
estadístico de prueba es:
en donde SCE1, SCE2 y SCET son, respectivamente, las sumas de los cuadrados de
los errores en la estimación de las submuestras primera, segunda y total. Si el
estadístico de prueba es mayor que el valor en tablas, rechazaremos la hipótesis nula
planteada (la estabilidad de la muestra total).
2.6.2. El contraste de Hansen
Un inconveniente del contraste de Chow es que su resultado es sensible a la partición
de la muestra. Parece razonable aplicarlo cuando sospechamos un cambio estructural
determinado, con submuestras bien definidas. En caso de datos temporales, cuando
1,2...n=iu + X ...++ X + = Y
2...n+n1,+n=iu+X...++X+ = Y
n1,2...=iu+X...++X+ = Y
iKiK2i21i
11(2)iKi
(2)K2i
(2)2
(2)1i
1(1)iKi
(1)K21
(1)2
(1)1i
βββ
βββ
βββ
βββ
βββ
βββ
K
(2)
K
(1)
K
2
(2)
2
(1)
2
1
(2)
1
(1)
1o
==
..
==
==: H
.
2K)-nF(K; 2K)-/(n )SCE + SCE(
/K)] SCE+SCE( - SCE[
21
21T ~
______________________________________Manual de Econometría. Capítulo 5, página 21
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
en un determinado período ocurrió un suceso (cambio de legislación, por ejemplo) que
podría ser el causante del cambio de estructura. Si nuestros datos son transversales,
cuando hay dos o más submuestras bien definidas que podrían comportarse de
manera distinta (por ejemplo, familias rurales y urbanas). Pero muchas veces
tenemos que contrastar a ciegas. El contraste de Hansen (1992)2 salva esta dificultad.
Sea el modelo de regresión con K variables explicativas, incluyendo una constante
(X1), que se estima por MCO con datos de una muestra de T elementos (t=1,2,...T).
Definimos
T
e
Kief
KieXf
T
tt
tit
titit
∑==
+=−=
==
1
2
2
22
ˆ
1ˆ
,...,1
σ
σ
donde et es el residuo MCO de la observación t.
El ajuste de MCO garantiza, como del lector puede comprobar, que
∑=
+==T
tit
Kif1
1,...1;0
El contraste de Hansen se basa en los sumatorios acumulados de f. Permite
contrastar la estabilidad de cada parámetro individualmente, y también la estabilidad
conjunta de todos los parámetros del modelo.
El estadístico de prueba para contrastar la estabilidad individual del parámetro i es el
siguiente:
∑ ∑∑= ==
==+==t
j
T
titiijit
T
titi
fVfT
SKiSTV
L1 1
2
1
2
1
;1
;1,...1;1
Su distribución asintótica bajo la hipótesis nula (el parámetro i es estable) fue
estudiada por Hansen. Los valores críticos asintóticos están tabulados. El valor crítico
del contraste de inestabilidad individual,al 5% de significación, es 0.47. Si nuestro
estadístico de prueba toma un valor mayor que 0.47 rechazaremos la hipótesis nula,
2 Para una exposición más detallada, véase Johnston y Dinardo (2001), pp.133-135
______________________________________Manual de Econometría. Capítulo 5, página 22
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
decidiendo, por tanto, que el parámetro en cuestión es inestable.
Para contrastar la estabilidad conjunta de los K+1 parámetros (los K coeficientes de la
regresión y la varianza de la perturbación), se emplea el estadístico de prueba
siguiente:
}´...{
}´...{
´
´1
,11
,11
1
1
1
tKtt
tKtt
T
ttt
T
tttc
SSs
fff
ffV
sVsT
L
+
+
=
=
−
=
=
=
=
∑
∑
En las tablas correspondientes pueden consultarse los valores críticos asintóticos de
este contraste, que dependen del número de parámetros cuya estabilidad se somete a
prueba.
2.6.3. Los contrastes basados en la estimación recursiva: el CUSUM y el
CUSUMQ
Cuando los datos de la muestra están ordenados (si son de serie temporal lo están. Si
los datos son transversales, habría que ordenar la muestra previamente por una
variable representativa del “tamaño”), para evaluar la estabilidad de los coeficientes a
lo largo del tiempo se pueden hacer estimaciones recursivas del modelo. La idea es
estimar el modelo secuencialmente, añadiendo cada vez una nueva observación
muestral, desde K+1 hasta T, y ver cómo cambian los coeficientes y demás
resultados. Empezamos ajustando el modelo a las primeras K observaciones (K es el
número de variables explicativas, incluyendo la constante). El ajuste es perfecto, y el
vector de estimadores lo notamos por bK. Reestimamos el modelo, añadiendo la
observación K+1, así obtenemos el vector de estimadores bK+1. Y así sucesivamente,
______________________________________Manual de Econometría. Capítulo 5, página 23
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
hasta terminar estimando el modelo con la muestra total (t=1,...T). Este proceso de
estimación genera, por tanto, una secuencia de vectores de estimaciones MCO:
tttttYXXXb ´)´( 1−=
donde t indica que la estimación emplea los datos de los t primeros elementos de la
muestra (t=K,K+1,...T). Una simple inspección visual de los K gráficos (uno por
coeficiente), y sus errores estándar, nos indica si los coeficientes se mantienen o no
estables a lo largo de la muestra.
Para hacer la estimación recursiva, y calcular los intervalos de confianza
correspondientes a cada vector de estimadores MCO, no es preciso realizar todos los
cálculos con las fórmulas habituales. En los manuales de econometría pueden
consultarse las fórmulas de cálculo recursivo, que actualizan los valores de los
estimadores, y sus errores estándar, a partir de los obtenidos con la muestra previa y
de los datos del período t. Estas fórmulas de actualización son las que, de hecho,
emplean los paquetes econométricos al uso.
Los contrastes CUSUM y CUSUMQ
Ambos se deben a Brown y otros (1975) y parten de la estimación recursiva del
modelo. Definen los residuos recursivos reescalados (wt) de la siguiente forma:
TKtxXXx
vw
tttt
t
t,...1
)´(´1 1
11
+=+
=−
−−
donde 1
´ −−=tttt
bxyv es el error de predicción un paso adelante (diferencia entre el
valor real de y en el periodo t y su valor predicho por el modelo estimado con la
información muestral hasta t-1). Xt es el vector de datos de las variables explicativas
en el periodo t, y Xt-1 es la matriz de datos de los regresores hasta el periodo t-1. Si
las perturbaciones son ruído blanco y no hay cambio estructural, los residuos
recursivos reescalados w siguen una distribución Normal con media cero, varianza
constante y no están autocorrelacionados:
______________________________________Manual de Econometría. Capítulo 5, página 24
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
TttttwwENwttt
,...1´,´0)();,0(~´
2 =≠=σ
Contraste CUSUM
El estadístico de prueba del contraste CUSUM es:
KTeeTKt
wW T
t
Kj
j
t −=+== ∑+=
´ˆ;,...1;ˆ
2
1
σσ
Cuando los parámetros son constantes, la esperanza de W es cero. Se calculan los
límites de confianza mediante las expresiones siguientes:
)3,(:sup
),(:inf
KTaTeriorLimite
KTaKeriorLimite
−±
−±
donde a es un parámetro que depende del nivel de significación que se use en el
contraste:
Contraste CUSUM. Correspondencia entre el nivel de significación y el valor de a
Nivel de significación Valor de a
0.01 1.143
0.05 0.948
0.10 0.850
Contraste CUSUMQ
Se basa en los sumatorios acumulados de los cuadrados de los residuos recursivos
reescalados. Su estadístico de prueba es:
TKtw
wCUSUMQ T
Kjj
t
Kjj
,...1;
1
2
1
2
+==∑
∑
+=
+=
______________________________________Manual de Econometría. Capítulo 5, página 25
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
Bajo la hipótesis nula, el valor esperado del estadístico de prueba es, como el lector
puese constatar fácilmente, KT
KtSE
t −−
=)(
Los valores críticos para calcular las bandas de confianza están tabulados y se
recogen en los paquetes econométricos al uso.
Hansen muestra la equivalencia del contraste CUSUM con el L1 (estabilidad del
término independiente) y del CUSUMQ con el contraste LK+1 de estabilidad de la
varianza del error.
Un Ejemplo de contraste de estabilidad de los coeficientes CUSUM y CUSUMQ, para
datos temporales:
Test CUSUM
Test CUSUMQ
-15
-10
-5
0
5
10
15
20
48 50 52 54 56 58 60 62
CUSUM 5% Significance
______________________________________Manual de Econometría. Capítulo 5, página 26
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
Error de predicción a un período
-0.4
0.0
0.4
0.8
1.2
1.6
48 50 52 54 56 58 60 62
CUSUM of Squares 5% Significance
0.15
0.10
0.05
0.00-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
48 50 52 54 56 58 60 62
One-Step Probability Recursive Residuals
______________________________________Manual de Econometría. Capítulo 5, página 27
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
Estabilidad del coeficiente de una de las variablesexplicativas del modelo
3. PRUEBAS DE ESPECIFICACIÓN ENTRE MODELOS ALTERNATIVOS
Con cierta frecuencia, hay varios modelos compatibles con la teoría que difieren en
sus variables explicativas. El proceso de búsqueda de especificación, o conjunto de
procedimientos para pasar de una especificación inicial a otra final que nos reconcilie
con los datos incluye herramientas estadísticas capaces de ayudarnos a tomar la
decisión adecuada sobre qué regresores introducir. No es ésta, como sabemos desde
el capítulo anterior, una cuestión baladí ya que los errores de especificación se pagan.
Hay un precio de omitir variables relevantes (sesgo) y otro por añadir variables
irrelevantes (pérdida de eficiencia).
Diferenciaremos entre los contrastes de modelos anidados y los de modelos no
anidados. En ambos, se trata de contrastrar, para una muestra dada de tamaño n, dos
modelos, M1 y M2 que se diferencian en las columnas de la matriz X. Si uno de los
modelos (digamos M2) contiene todos los regresores del otro y algunos más, se dice
-0.15
-0.10
-0.05
0.00
0.05
0.10
0.15
51 52 53 54 55 56 57 58 59 60 61 62 63
Recursive C(2) Estimates ± 2 S.E.
______________________________________Manual de Econometría. Capítulo 5, página 28
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
que los modelos son anidados. Una definición más precisa es la siguiente: dos
modelos están anidados cuando las variables de uno de ellos se pueden expresar
como combinación lineal de las del otro. Si esto ocurre, una de las hipótesis a
contrastar es un caso particular o versión restringida de la otra. En caso contrario,
estamos frente a un contraste de familias de hipótesis separadas.
3.1. CONTRASTES DE ESPECIFICACION DE MODELOS ANIDADOS
Los contrastes anidados son casos particulares de empleo del estadístico F de
subconjuntos paramétricos o de combinaciones lineales de parámetros. La hipótesis
nula es el modelo restringido (M1) que sólo tiene los K1 regresores X. La hipótesis
alternativa es M2 que contiene, además de X, el subconjunto Z formado por K2
regresores. Ambas matrices se suponen de rango pleno y las perturbaciones bien
comportadas:
El contraste de inclusión de los regresores Z se basa en el conocido estadístico F que
computa cuánto se reduce la suma de cuadrados de los errores si se añaden las
variables Z al modelo restringido que solo tiene los regresores X:
donde, como siempre, e1 y e2 se refieren a los vectores nx1 de residuos
minimocuadráticos de las regresiones de M1 y M2 respectivamente.
El contraste de omisión de Z tiene como hipótesis nula M2 y se emplea para decidir si
vale la pena mantener al subconjunto Z de regresores en el modelo estimado. Su
estadístico de prueba evalúa cuánto se pierde de la explicación de Y (cuánto empeora
)N(0,U U+Z+X=Y :H (M2)
)N(0,U U+X=Y :H (M1)
2221
2110
ωγβ
σβ
_;
_;
)K-K-/(ne eK)/e e-e (e
=)K-K-n ,KF(2122
22211212
′′′
______________________________________Manual de Econometría. Capítulo 5, página 29
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
el ajuste) si se omiten las variables contenidas en Z.
Casos particulares de los contrastes de significación y de omisión de subconjuntos de
parámetros son aquellos en que K2=1, evaluándose la pertinencia de añadir o de
eliminar una variable explicativa. Existe como sabemos una versión t de Student
equivalente del estadístico F.
Los procedimientos paso a paso (stepwise) automáticos de selección de variables en
regresión, que ofrecen los paquetes de software estadístico en uso, se basan en una
batería de contrastes secuenciales para decidir sobre los regresores, uno por uno. Los
procedimientos hacia adelante (forward) ejecutan automáticamente contrastes de
inclusión. A partir del modelo que solo contiene la constante, se decide cuál de las
posibles variables explicativas contribuye más a explicar la variabilidad de Y,
obteniendo un modelo de regresión simple. En cada paso del proceso iterativo una
nueva variable entra en el modelo, aquella que mayor coeficiente de correlación
parcial posee, siempre que al nivel de significación prefijado contribuya
significativamente a mejorar el ajuste (es decir, que el coeficiente de correlación
parcial ha de ser significativamente distinto de cero). El procedimiento opuesto se
denomina hacia atrás (backward), y consiste en ejecutar secuencialmente una batería
de contrastes de omisión de variables, cada uno de ellos restringiendo el modelo en la
hipótesis nula de forma que se omite uno de los regresores en cada paso.
La mayor parte de paquetes estadísticos y varios econométricos ofrecen rutinas de
selección automática de regresores stepwise que deben ser utilizadas con precaución
o, mejor todavía, no utilizadas. Entre sus limitaciones apuntamos que prescinden por
completo de la teoría, que debe ser la base de la especificación de cualquier modelo
econométrico, dejando 'hablar' demasiado a los datos. Es en definitiva la búsqueda de
la especificación que mejor ajuste presenta para la muestra. Si las variables
candidatas a ser regresores están muy correlacionadas, es posible que la
especificación obtenida sea muy poco robusta en el sentido de que cambiando
______________________________________Manual de Econometría. Capítulo 5, página 30
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
mínimamente la muestra, eliminando unos pocos individuos, por ejemplo, se
modifique sustencialmente la selección de variables. Además, cuando se realiza una
batería de contrastes secuencialmente, los test sucesivos no son independientes de
forma que sus niveles de significación no son los aparentes porque las decisiones
sobre qué escribir como hipótesis nula y alternativa dependen de los resultados de los
contrastes previos y en último término del nivel de significación que se haya fijado
para hacerlos.
3.2. CONTRASTES DE ESPECIFICACION DE MODELOS NO ANIDADOS
Los contrastes de familias separadas de hipótesis se plantean cuando nos
encontramos con teorías competitivas que sustentan posibles especificaciones del
modelo con diferentes conjuntos de regresores, X y Z, sin que ninguna de esas dos
matrices esté contenida en la otra. Puede ocurrir que enfrentemos dos formas
funcionales diferentes (contraste entre un modelo lineal y otro doble log), o
transformación diferente de las variables (métodos de deflactación de las series de
precios, por ejemplo) o bien definiciones alternativas de un mismo constructo
abstracto (diferentes escalas de likert para medir actitudes, motivaciones o influencia).
Son éstos ejemplos de situaciones que en la práctica encontraremos con relativa
frecuencia.
Se suele diferenciar entre los contrastes emparejados y los múltiples. En los primeros
se enfrentan dos modelos, el de la H0 y el de la H1. Su hipótesis alternativa, un solo
modelo, es simple. En los contrastes múltiples el modelo de la hipótesis nula se
enfrenta a varios modelos alternativos candidatos. Nos limitaremos al primer caso3,
cuyo planteamiento genérico es el siguiente: Dudamos entre los modelos M1 y M2
que contienen K1 y K2 regresores, X y Z respectivamente, no anidados:
3
Para una revisión de los contrastes de especificación no anidados, incluyendo los múltiples, M.McAleer (1995)."Sherlock Holmes and the Search for Truth: A Diagnostic Tale", en L. Oxley, D.A.George, C.J. Roberts y S.Sayer (comp.)Surveys in Econometrics. Basil Blackwell, cap.5 (pp. 91-138)
______________________________________Manual de Econometría. Capítulo 5, página 31
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
El contraste J de Davidson y MacKinnon (1981, 1993) entre M1 y M2, consiste en
seguir los siguientes pasos:
1. Estimar el modelo M2 por MCO, y guardar los valores ajustados de Y
2. Estimar M1 añadiendo como explicativa la variable que contiene los valores
ajustados de Y resultantes de M2, guardados en el paso previo
3. Contrastar la significación individual del coeficiente de la variable añadida. Si es
significativa, rechazamos M1
La regresión auxiliar es, por tanto:
donde β 2es el vector de estimadores MCO de M2. El estadístico de prueba es el ratio
t de λ (coeficiente estimado por MCO dividido entre su error estándar). Bajo la
hipótesis nula, es decir, si el modelo correcto es M1, se distribuye asintóticamente
como una Normal estandar. Si el ratio t es mayor que el valor crítico de la N(0,1),
rechazamos H0 (M1).
Otros contrastes se basan en el anidamiento artificial de un modelo en el otro y
reciben el nombre genérico de abarcamiento (encompassing). Se hace la regresión
combinada, incluyendo como regresores X y las p columnas de Z linealmente
independientes de X (es decir, las K1 variables X y las p variables contenidas en Z que
no se pueden expresar como combinación lineal de las de X):
donde Z* es la matriz nxp de variables en Z linealmente independientes de las
variables en X. El estadístico de prueba es el clásico del contraste F para el
)N(0,U U+Z=Y :H (M2)
)N(0,U U+X=Y :H (M1)
222221
211110
σβ
σβ
_
_
U+)(Z+X=Y21 βλβ ˆ
U+Z+X=Y *δβ
______________________________________Manual de Econometría. Capítulo 5, página 32
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
subconjunto de parámetros añadidos en la regresión auxiliar:
Llamando e* al vector de residuos MCO de la regresión conjunta y e1 al de la
regresión M1, el estadístico de prueba se calcula mediante:
que es la expresión habitual del estadístico F para el contraste de significación de los
p coeficientes de Z independientes de X. Observe que los grados de libertad del
numerador (p) son el número de restricciones de nulidad que se imponen y los del
denominador son los que corresponden a los errores del modelo conjunto (número de
observaciones efectivas, igual a tamaño de la muestra menos número de parámetros
estimados).
Además de éstos, existen otros contrastes no anidados. Pero ninguno de ellos es
siempre mejor que los demás y la elección entre ellos no es una cuestión fácil. Para
muestras grandes parece preferible el test J, mientras que el contraste F tiene
claramente menos potencia asintótica local. Con muestras pequeñas, sin embargo,
ocurre lo contrario. El contraste J tiene, según estudios de simulación Monte Carlo,
probabilidades de error de tipo I muy grandes pero, por otra parte, el test F puede
tener potencias menores que el J cuando la hipótesis nula es falsa.
Naturalmente, deben formularse y probarse versiones de los contrastes no anidados
en las que M2 es la hipótesis nula y M1 la alternativa, sin más que reformular
adecuadamente las expresiones anteriores. Los paquetes econométricos suelen
ofrecer ambas versiones de cada contraste. Si en ambos casos se rechaza la
hipótesis nula, debemos considerar que ninguno de los modelos considerados se
ajusta aceptablemente a la realidad que estudiamos.
0=:H 0 δ
p)-K-/(ne e
)/pe e-e (e =p)-K-n ,F(p
1**
**111
′′′
______________________________________Manual de Econometría. Capítulo 5, página 33
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
Un contraste para decidir entre la especificación lineal y la log-lineal: el
contraste PE
Con frecuencia dudamos entre un modelo lineal, donde X explican a Y, y un modelo
log-lineal, en el que todas las variables están en logaritmos, y se supone elasticidades
constantes. Un contraste específico entre ambos es el PE, que generaliza el contraste
J que se presentó en el epígrafe anterior. No es tan potente como los contrastes de
RV, Wald o ML (ver apartado siguiente), pero es muy sencillo y da buenos resultados
en la práctica.
La hipótesis nula es el modelo lineal de Y contra X, y la alternativa es el modelo doble-
log:
vXYH
uXyH
+=+=
γβ
)ln(ln:
:
1
0
Se estima una regresión auxiliar, que es el modelo lineal (H0) al que se añade como
regresor la diferencia entre las predicciones del logaritmo de Y obtenidas de la
estimación de M2 y el logaritmo de las predicciones de Y obtenidas de estimar M1:
εβαβ +−+= )}ˆln()n{(l XYXY
El estadístico de prueba es el ratio t del coeficiente (α) de la variable añadida. Su valor
se compara con el de la N(0,1). Si es mayor, se rechaza la hipótesis nula, es decir, el
modelo lineal. Debe hacerse la prueba en los dos sentidos, es decir, poniendo como
hipótesis nula el modelo lineal primero y el log-lineal después.
εαγ
βγ
β +−+=
+=+=
}ˆ{)(
:
)ln(ln
ˆln(
1
0
XeYXLnLnY
uXYH
vXYH
______________________________________Manual de Econometría. Capítulo 5, página 34
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
PRINCIPIOS GENERALES DE CONTRASTACIÓN ESTADÍSTICA
Hay tres principios de contrastación estadística que pueden aplicarse a los
contrastes de hipótesis anidados. La hipótesis nula es el modelo restringido, y la
alternativa, el modelo general no restringido. Son los principios de Razón de
Verosimilitudes (RV), Wald (W) y Multiplicadores de Lagrange (ML).
Ilustramos gráficamente los tres principios en la siguiente figura:
0θ
LnL(θ)
θMV
dLnL(θ)d θLnL
LnLR
θ^R
C(θ)
WaldML
RV
El contraste de razón de verosimilitudes se basa en la estimación de ambos
modelos, el restringido (H0) y el no restringido (H1), y calcular el cociente entre las
verosimilitudes maximizadas en ambos casos , o lo que es lo mismo, la diferencia
entre los logaritmos de ambas funciones de verosimilitud maximizadas. Si la diferencia
es pequeña, se acepta la restricción (H0). Bajo condiciones de regularidad, el
estadístico de prueba se distribuye, cuando se cumple la H0, así:
______________________________________Manual de Econometría. Capítulo 5, página 35
© Carlos Murillo Fort1 y Beatriz González López-Valcárcel2 (2000)1 Catedrático Universidad Pompeu Fabra
2 Catedrática Universidad de Las Palmas de GC
2
1
~)(2q
H
R
L
LLn χ−
donde q es el número de restricciones impuestas por el modelo restringido (H1).
El contraste de Wald se basa en los resultados de estimar el modelo no
restringido, es decir, bajo la hipótesis alternativa. El estadístico de prueba del
contraste de k restricciones es:
21
1
0
~)}ˆ(}{)ˆ({)´})ˆ({(
)(:
)(:
hqcqcVarqcW
qcH
qcH
χθθθ
θθ
−−−=
≠=
−
El principio de multiplicadores de Lagrange requiere estimar el modelo bajo la
hipótesis nula, y medir la “distancia” entre los estimadores restringidos y los valores
que hipotetizan las restricciones. El estadístico de prueba es:
)ˆ
)ˆ(()ˆ()´(
ˆ)ˆ(
( 1
R
R
R
R
RLnL
ILnL
LMθδθδθ
θδθδ −=
que, bajo la hipótesis nula, se distribuye asintóticamente como una Ji-Cuadrado con
tantos grados de libertad como restricciones se imponen en la hipótesis nula.
Los tres principios con asintóticamente equivalentes, aunque en muestras pequeñas
pueden dar resultados contradictorios