4. inferencia estadistica - just another … inferencia • hasta ahora nos hemos ocupado solamente...
TRANSCRIPT
Econometria4. Modelo de Regresión Lineal Simple: Inferencia
Prof. Ma. Isabel Santana
MRLS: Inferencia
• Hasta ahora nos hemos ocupado solamente de la
estimación de los parámetros del modelo de regresión
lineal simple.
• Pero los estimadores MICO son variables aleatorias,
que cambiarán según la muestra. Nuestro objetivo no
es solamente estimar la FRM, sino poder hacer
inferencia respecto de la FRP.
• Para poder hacer inferencia sobre los estimadores, es
necesario conocer sus distribuciones de probabilidad,
algo que no hemos estudiado hasta ahora.
• La inferencia estadística nos sirve para
saber:
– Que tan cerca están los β estimados de los
parámetros poblacionales.
– Que tan cerca está del verdaderoiY ( )XYE /
MRLS: Inferencia
MRLS: InferenciaDistribución de probabilidad de µi
∑= iiYk2β
( )∑ ++= iii Xk µβββ 212ˆ
• Dado que las X son fijas, es una función lineal de Yi.
• A su vez, ki, las betas y las Xi son fijas, por lo que es una
función lineal de µi.
• La distribución de probabilidad de dependerá de la
suposición que se hizo de la distribución de probabilidad de
µi.
∑=
2
i
ii
x
xk
2β
2β2β
• Para obtener los estimadores de β1 y β2 que sean MELI, no
hicimos ningún supuesto sobre la distribución de
probabilidades de u.
• Ahora, para tener intervalos de confianza para los parámetros
y probar cualquier hipótesis requerimos el supuesto:
MLRS: InferenciaSupuestos de Normalidad
( ) 0=iE µMedia
Varianza
Covarianza
( )[ ] ( ) 222 σµµµ ==− iii EEE
( )[ ]{ ( )[ ]} ( ) 0==−− jijjii EEEE µµµµµµ
( )2
i ,0~ σµ N
Razones para suponer distribución normal
1. El argumento más común es que como u es la suma de muchos factores distintos no observados que influyen en Y, por el teorema del limite central, llegamos a la conclusión de que u tiene una distribución normal.
2. Una variante del teorema del límite central, establece que aunque el número de variables no sea muy grande o no sea estrictamente independiente, su suma puede ser aún normal.
3. La distribución de probabilidad de los estimadores MICO puede derivarse fácilmente.
4. La distribución normal es una distribución sencilla, con tan sólo dos parámetros: media y varianza.
5. Podemos hacer pruebas de hipótesis (t, F, X 2) sobre los verdaderos parámetros
1. Los factores que afecta u pueden tener distribuciones poblacionales muy distintas. Aunque puede sostenerse el teorema central del límite, los resultados van a depender de cuantos factores afecten a u y que tan diferentes sean sus distribuciones.
2. Supone además que todos los factores afectan a u en forma lineal y aditiva
3. La normalidad es un problema empírico (no teórico). Por ejemplo, como el salario siempre es mayor que cero, estrictamente hablando no tiene una distribución normal; además hay leyes de salario mínimo que hacen que una parte de la población gane exactamente el mínimo. Una solución es transformar la variable, por ejemplo utilizando logaritmos [log(salario)], lo cual puede generar una distribución que se acerque más a la normal
Críticas al Supuesto
Propiedades de los estimadores MCO bajo Normalidad
1. Son insesgados
2. Tienen varianza mínima. Combinado con (1), son
estimadores con varianza mínima, o eficientes.
3. Son consistentes. A medida que el tamaño de la
muestra aumenta indefinidamente, los estimadores
convergen hacia sus verdaderos valores
poblacionales.
Propiedades de los estimadores MCO bajo Normalidad
4. y (al ser función lineal de µi) están
normalmente distribuidos con:1β
( ) 22ˆ ββ =E
2
2
2
2
ˆ1
σσβ ∑
∑=i
i
Xn
X
( )1,0~Z N
2
ˆ
11
1
ˆ
βσββ −
=Z
( )2
ˆ111
,~ˆβ
σββ N
( ) 11ˆ ββ =E
∑=
2
22
ˆ2
iX
σσ
β
2
ˆ
22
2
ˆ
βσ
ββ −=Z
( )2
ˆ222
,~ˆβ
σββ N
2β
Media:
Varianza:
Distribución normal
estandarizada:
Donde
1β 2β
Propiedades de los estimadores MCO bajo Normalidad
5. está distribuida como la distribución
(ji-cuadrada), con (n-2) grados de libertad.
6. se distribuyen de manera independiente
con respecto a .
7. y tienen varianza mínima entre todas las
clases de estimadores insesgados, lineales o
no lineales.
1β
( )( )22 /ˆ2 σσ−n
2β
( )21ˆ,ˆ ββ
2σ
Si se supone ( ) ii XYE 21 ββ +=
( ) 2var σ=iY
( )2
21 ,~ σββ ii XNY +Podemos decir
Intervalos de confianza • La estimación de un intervalo de confianza consiste en
construir un intervalo alrededor del estimador puntual (ej. Dentro de dos o tres errores estándar a cada lado del estimador puntual), tal que el intervalo tenga un 95% de probabilidad de incluir el verdadero valor del parámetro.
• Ej. Suponga que deseamos encontrar que tan cerca estáde . Con este fin se trata de encontrar dos números positivos, δ y α (este último entre 0 y 1), tal que la probabilidad de que el intervalo aleatorio ( - δ, + δ) contenga el verdadero β2 sea 1 – α.
2βˆ
2β
2β 2β
( ) αδββδβ −=+≤≤− 1ˆˆPr 222Intervalo de confianza
Coeficiente de confianza α−1
Nivel de Significancia α
Limite de confianza superior
δβ −2ˆLimite de confianza inferior
δβ +2ˆ
• Antes es preciso recordar que:
– El intervalo no dice la probabilidad de que β2 esté en el
intervalo con una probabilidad de (1-α); sino que la probabilidad
de construir un intervalo que contenga β2 es de (1-α).
– El intervalo es aleatorio; va a depender de la muestra, ya que β2
es aleatorio.
– Si se construyen intervalos de confianza, en promedio tales
intervalos contendrán, en (1-α) de los casos, el valor verdadero del parámetro.
– Una vez obtenido un valor numérico específico de β2 (en base a una muestra específica), no puedo decir que el intervalo contiene
al verdadero parámetro con probabilidad (1-α), sino que la probabilidad es 1ó 0.
ˆ
ˆ
Intervalos de confianza
ˆ
Sin embargo, no se conoce, y en la práctica se
estima con . En lugar de utilizar la distribución
normal se usa la distribución t.
Intervalos de confianza β1 y β2
( )σ
ββ ∑−=
2
22ˆ
ixZ
2σ ( )σ
ββ
ˆ
ˆ 2
22 ∑−=
ixt
Se puede utilizar la distribución normal para hacer
afirmaciones probabilísticas sobre β1 y β2 siempre
que se conozca la varianza poblacional
( ) ααα −=≤≤− 1Pr 2/2/ ttt
( ) αβββ
αα −=
≤
−≤− 1
ˆ
ˆPr 2/
2
222/ t
eet
2σ
El intervalo de confianza se construye entonces con:
( ) ( )( ) αβββββ αα −=+≤≤− 1ˆˆˆˆPr 22/2222/2 eeteet
( ) ( )( ) αβββββ αα −=+≤≤− 1ˆˆˆˆPr 12/1112/1 eeteet
Para β2
Para β1
( )22/2ˆˆ ββ α eet±
( )12/1ˆˆ ββ α eet±
Intervalos de confianza
Para β1 y β2 al 100(1-α)%:
Entre más grande el error estándar, más amplio el intervalo de confianza, y mayor la incertidumbre de
estimar el verdadero valor del parámetro.
Con n-2 g de l
,o valor crítico t, es el valor de la variable t obtenida de la distribución t para un nivel de significancia
de α/2 y n – 2 g de l. 2/αt
Prueba de Hipótesis
• Se utiliza para mostrar si una observación dada es
compatible o no con alguna hipótesis planteada, es
decir, si la observación está lo suficientemente cerca al
valor hipotético de manera que no se rechaza la
hipótesis planteada.
• Hipótesis Planteada: hipótesis nula (H0).
• Hipótesis contra la cual se prueba la hipótesis nula:
Hipótesis alternativa (H1).
• 2 métodos para decidir si se rechaza o no la hipótesis
nula:
1. Intervalo de confianza
2. Prueba de significancia
1. Intervalo de confianza
• Ej. de modelo de consumo. Supongamos que se postula:
• Hipótesis nula: La PMC=0.3
• Hipótesis alterna: La PMC es menor o mayor a 0.3
• H0 es una hipótesis simple y H1 compleja, dado que puede ser
mayor o menor al valor de H0. Se conoce también como hipótesis
de dos colas.
• Para probar si es compatible con H0 se utiliza la estimación de
intervalos.
H0: β2=0.3
H1: β2≠0.3
Regla de decisión: Constrúyase un intervalo de confianza para β2 al 100(1 – α)%.
Si β2 bajo H0 se encuentra dentro de este intervalo de confianza, no se rechace H0,
pero si está por fuera del intervalo, rechace H0.
1. Intervalo de confianza
• En el ej. de consumo-ingreso estimamos que el intervalo de
confianza para β2 era de (0.4268,0.5914). Siguiendo la regla
planteada, es claro que H0: β2=0.3 está fuera del intervalo de
confianza al 95%.
• Se rechaza la hipótesis nula de que la verdadera PMC sea 0.3 con
95% de confianza.
0.4268 0.5914
Cuando se rechaza H0, se dice que el hallazgo es estadísticamente significativo.
Cuando no se rechaza H0, el hallazgo no es estadísticamente significativo.
2. Prueba de Significancia• El procedimiento se basa en utilizar un estadístico de prueba
(estimador) y su distribución muestral bajo la hipótesis nula.
( )σ
ββ
ˆ
ˆ 2
22 ∑−=
ixt
Bajo el supuesto de normalidad: Con n-2 g de l
Bajo la hipótesis nula: ( ) ( )( ) ;1ˆˆˆPr 22/
*
2222/
*
2 αβββββ αα −=+≤≤− eeteet =*
2β Valor de β2
bajo H0.
Región de aceptación de H0: ( )22/
*
2 ββ α eet±
Región de rechazo: Región por fuera del intervalo de aceptación de H0.
Bajo H0:( )
2-n
ˆ
22 t~ˆ
ˆ
2βσ
ββ −
Rechazo H0:
( )( )22/
*
22ˆˆ βββ α eet−< ( )( )22/
*
22ˆˆ βββ α eet+>
Rechazo H0:No rechazo H0
Rechazamos H0:
t > tc
t < -tc
Rechazo H0 si
|t| > tc
( ),
ˆ
ˆ
2ˆ
22
βσ
ββ −=tComo
Rechazo H0 si ( )ct>
−
2ˆ
22
ˆ
ˆ
βσ
ββ
2. Prueba de Significancia
• Test de una cola
*
220 : ββ =H
*
221 : ββ >H
2. Prueba de Significancia• Test de dos colas
*
220 : ββ =H
*
221 : ββ ≠H
Rechazo H0 si | t | > tc
2. Prueba de Significancia
Cola izquierda
Cola derecha
Dos colas
Regla de
decisión:
rechazar H0 si
H1: Hipótesis
alterna
H0: Hipótesis
nula
Tipo de
Hipótesis
Reglas de decisión
*
22 ββ =*
22 ββ ≤*
22 ββ ≥
*
22 ββ ≠*
22 ββ >*
22 ββ <
ldegtt ..,2/α>
ldegtt ..,α>
ldegtt ..,α−<Notas:
-Es el valor numérico de β2 hipotético.
-|t| significa valor absoluto de t.
-tα o tα/2 significa el valor crítico de t al nivel de significancia α o α/2.
-g de l: grados de libertad, (n – 2) para el modelo de dos variables, (n – 3) para el modelo de 3 variables, y así sucesivamente.
-Para probar hipótesis sobre β1 se sigue un procedimiento similar.
“Aceptar” o Rechazar la H0
• Al momento de emitirse un dictamen sobre la hipótesis nula, este debe de emitirse como “Rechazar H0” o “No Rechazar H0”.
• No se puede “aceptar” una hipótesis nula, puesto que no conocemos el verdadero valor, sino que hacemos una inferencia del mismo.
• Las hipótesis nulas “aceptadas” pueden ser muchas dependiendo de cuáles hipótesis estéplanteando.
Hipótesis nula o “cero” y regla práctica “2-t”
• La hipótesis nula H0:β2=0 es usada frecuentemente en el trabajo empírico, e implica que el coeficiente de la pendiente es cero.
• Esta H0 es un mecanismo para establecer si Y tiene relación con la variable X.
• Estas pruebas pueden abreviarse adoptando la regla de significancia “2-t”:
Regla práctica “2-t”: Si el número de grados de libertad es 20 y si α, el
nivel de significancia, se fija en 0.05, entonces la hipótesis nula β2=0
puede ser rechazada si el valor calculado excede a 2 en valor
absoluto.
( )2
ˆ
22
ˆ
ˆ
βσ
ββ −=t
• Si cae en alguna de las colas de la distribución (Rechazo H0), puede ser por dos razones.
– La hipótesis nula es cierta, pero se ha elegido una muestra equivocada
– La hipótesis nula es efectivamente falsa
• La probabilidad de cometer un error de tipo I está dada por α, el nivel de significancia.
• La probabilidad de cometer un error tipo II esta dada por β, en tanto que la probabilidad de no cometer este error (1- β) se denomina potencia de la prueba.
Error tipo I y tipo II
Error tipo IINo Rechazo H0
Error tipo IRechazo H0
H0 es falsoH0 es cierto
2β
El problema relacionado con la selección del valor apropiado de α puede ser
evitado si se utiliza el valor p o “P-value” que veremos a continuación.
• Lo deseable sería minimizar simultáneamente tanto los errores tipo I como tipo II, pero como se puede apreciar en los gráficos esto no es posible. En la práctica por lo general el error tipo I es más grave, por lo que se trata de minimizar primero este error y luego el error tipo II.
Error tipo I y tipo II
Valor p o “P-value”
• Nivel observado o exacto de significancia
o la probabilidad exacta de cometer un
error tipo I.
• Se define como el nivel de significancia
más bajo al cual puede rechazarse una
hipótesis nula.
Análisis de Varianza (ANOVA)• Test de significancia global del modelo. Intenta medir el
ajuste de la recta de regresión con el conjunto de datos
provenientes de la muestra.
• Este test, para el caso del modelo de regresión lineal
simple, tiene como hipótesis nula:
Sabemos que
Elevando al cuadrado(2)
(1)
• También sabemos que
• Se puede demostrar que (2) y (3) son independientes, por lo que:
(3)
(4)
• Simplificando tenemos que:
• Si sustituimos la hipótesis nula en (5)
(5)
(6)
• Recordando, cuando descompusimos la suma de cuadrados
teníamos:
• Asociado a cada suma de cuadrados existen sus respectivos grados
de libertad:
– SCT: tiene n-1 grados de libertad, pues se pierde un grado de libertad al
calcular la media de Y.
– SCE: un sólo grado de libertad de calcular ˆβ2
– SCR: tiene n-2 grados de libertad, pues se pierden dos grados de libertad
en las ecuaciones normales.
� El numerador de (6) es la SCE y el denominador es la SCR divida
por sus grados de libertad.
� Entonces, rechazo H0 si el valor calculado del estadístico F, es
mayor que Fα1, n-2
(7)
Otra forma alternativa de expresar (7):
(8)
• Las pruebas de hipótesis e intervalos de confianza
estudiados, tienen como punto de partida el supuesto de
normalidad del residuo, por lo que si u no es normal,
estas pruebas no son válidas.
• Existen diferentes test que permiten verificar si los
residuos calculados para una muestra en particular (ei)
provienen de una distribución normal. Uno de ellos es el
test de Jarque-Bera.
Pruebas de Normalidad
• Esta es una prueba asintótica que se basa en el tercer y cuarto
momento de la distribución (asimetría y curtosis respectivamente).
• Recordando:
• Coeficiente de simetría:
• En el caso de una distribución normal, el coeficiente de simetría es
cero (S=0) y el de curtosis 3 (C=3).
Test de Jarque Bera
• Bajo la hipótesis nula de que los residuos están normalmente
distribuidos, Jarque y Bera demostraron que asintóticamente el
estadístico JB sigue una distribución chicuadrado con dos grados
de libertad.
• Es decir, si JB es mayor que una chi-cuadrado con 2 g.l, rechazo la
hipótesis nula, o sea, rechazo normalidad.
Test de Jarque-Bera
¿Qué pasa si los errores no se distribuyen normal?• La normalidad exacta de los estimadores MICO depende
crucialmente de la distribución del error en la población (u).
• Si los errores u1, u2, ...., un son elecciones aleatorias de alguna distribución que no es la normal, las βj no estarán distribuidas en forma normal, lo que significa que los estadísticos t y F no tendrán distribuciones t y F, respectivamente.
• Este es un problema potencialmente grave porque nuestra inferencia depende de que seamos capaces de obtener valores críticos o valores p de las distribuciones t o F.
• La inferencia basada en los estadísticos t y F exige el supuesto de normalidad. En caso contrario ¿quiere decir que no debemos utilizar el estadístico t para determinar qué variables son significativas estadísticamente?
– La respuesta es no.
• En resumen, si el tamaño de la muestra
no es muy grande y u no se distribuye
normal, debemos de tener mucho cuidado
al momento de hacer inferencia sobre los
estimadores.
¿Qué pasa si los errores no se distribuyen normal?