4. inferencia estadistica - just another … inferencia • hasta ahora nos hemos ocupado solamente...

Econometria4. Modelo de Regresión Lineal Simple: Inferencia

Prof. Ma. Isabel Santana

MRLS: Inferencia

• Hasta ahora nos hemos ocupado solamente de la

estimación de los parámetros del modelo de regresión

lineal simple.

• Pero los estimadores MICO son variables aleatorias,

que cambiarán según la muestra. Nuestro objetivo no

es solamente estimar la FRM, sino poder hacer

inferencia respecto de la FRP.

• Para poder hacer inferencia sobre los estimadores, es

necesario conocer sus distribuciones de probabilidad,

algo que no hemos estudiado hasta ahora.

• La inferencia estadística nos sirve para

saber:

– Que tan cerca están los β estimados de los

parámetros poblacionales.

– Que tan cerca está del verdaderoiY ( )XYE /

MRLS: Inferencia

MRLS: InferenciaDistribución de probabilidad de µi

∑= iiYk2β

( )∑ ++= iii Xk µβββ 212ˆ

• Dado que las X son fijas, es una función lineal de Yi.

• A su vez, ki, las betas y las Xi son fijas, por lo que es una

función lineal de µi.

• La distribución de probabilidad de dependerá de la

suposición que se hizo de la distribución de probabilidad de

µi.

∑=

2

i

ii

x

xk

2β

2β2β

• Para obtener los estimadores de β1 y β2 que sean MELI, no

hicimos ningún supuesto sobre la distribución de

probabilidades de u.

• Ahora, para tener intervalos de confianza para los parámetros

y probar cualquier hipótesis requerimos el supuesto:

MLRS: InferenciaSupuestos de Normalidad

( ) 0=iE µMedia

Varianza

Covarianza

( )[ ] ( ) 222 σµµµ ==− iii EEE

( )[ ]{ ( )[ ]} ( ) 0==−− jijjii EEEE µµµµµµ

( )2

i ,0~ σµ N

Razones para suponer distribución normal

1. El argumento más común es que como u es la suma de muchos factores distintos no observados que influyen en Y, por el teorema del limite central, llegamos a la conclusión de que u tiene una distribución normal.

2. Una variante del teorema del límite central, establece que aunque el número de variables no sea muy grande o no sea estrictamente independiente, su suma puede ser aún normal.

3. La distribución de probabilidad de los estimadores MICO puede derivarse fácilmente.

4. La distribución normal es una distribución sencilla, con tan sólo dos parámetros: media y varianza.

5. Podemos hacer pruebas de hipótesis (t, F, X 2) sobre los verdaderos parámetros

1. Los factores que afecta u pueden tener distribuciones poblacionales muy distintas. Aunque puede sostenerse el teorema central del límite, los resultados van a depender de cuantos factores afecten a u y que tan diferentes sean sus distribuciones.

2. Supone además que todos los factores afectan a u en forma lineal y aditiva

3. La normalidad es un problema empírico (no teórico). Por ejemplo, como el salario siempre es mayor que cero, estrictamente hablando no tiene una distribución normal; además hay leyes de salario mínimo que hacen que una parte de la población gane exactamente el mínimo. Una solución es transformar la variable, por ejemplo utilizando logaritmos [log(salario)], lo cual puede generar una distribución que se acerque más a la normal

Críticas al Supuesto

Propiedades de los estimadores MCO bajo Normalidad

1. Son insesgados

2. Tienen varianza mínima. Combinado con (1), son

estimadores con varianza mínima, o eficientes.

3. Son consistentes. A medida que el tamaño de la

muestra aumenta indefinidamente, los estimadores

convergen hacia sus verdaderos valores

poblacionales.


4. y (al ser función lineal de µi) están

normalmente distribuidos con:1β

( ) 22ˆ ββ =E

2

2

2

2

ˆ1

σσβ ∑

∑=i

i

Xn

X

( )1,0~Z N

2

ˆ

11

1

ˆ

βσββ −

=Z

( )2

ˆ111

,~ˆβ

σββ N

( ) 11ˆ ββ =E

∑=

2

22

ˆ2

iX

σσ

β

2

ˆ

22

2

ˆ

βσ

ββ −=Z

( )2

ˆ222

,~ˆβ

σββ N

2β

Media:

Varianza:

Distribución normal

estandarizada:

Donde

1β 2β


5. está distribuida como la distribución

(ji-cuadrada), con (n-2) grados de libertad.

6. se distribuyen de manera independiente

con respecto a .

7. y tienen varianza mínima entre todas las

clases de estimadores insesgados, lineales o

no lineales.

1β

( )( )22 /ˆ2 σσ−n

2β

( )21ˆ,ˆ ββ

2σ

Si se supone ( ) ii XYE 21 ββ +=

( ) 2var σ=iY

( )2

21 ,~ σββ ii XNY +Podemos decir

Intervalos de confianza • La estimación de un intervalo de confianza consiste en

construir un intervalo alrededor del estimador puntual (ej. Dentro de dos o tres errores estándar a cada lado del estimador puntual), tal que el intervalo tenga un 95% de probabilidad de incluir el verdadero valor del parámetro.

• Ej. Suponga que deseamos encontrar que tan cerca estáde . Con este fin se trata de encontrar dos números positivos, δ y α (este último entre 0 y 1), tal que la probabilidad de que el intervalo aleatorio ( - δ, + δ) contenga el verdadero β2 sea 1 – α.

2βˆ

2β

2β 2β

( ) αδββδβ −=+≤≤− 1ˆˆPr 222Intervalo de confianza

Coeficiente de confianza α−1

Nivel de Significancia α

Limite de confianza superior

δβ −2ˆLimite de confianza inferior

δβ +2ˆ

• Antes es preciso recordar que:

– El intervalo no dice la probabilidad de que β2 esté en el

intervalo con una probabilidad de (1-α); sino que la probabilidad

de construir un intervalo que contenga β2 es de (1-α).

– El intervalo es aleatorio; va a depender de la muestra, ya que β2

es aleatorio.

– Si se construyen intervalos de confianza, en promedio tales

intervalos contendrán, en (1-α) de los casos, el valor verdadero del parámetro.

– Una vez obtenido un valor numérico específico de β2 (en base a una muestra específica), no puedo decir que el intervalo contiene

al verdadero parámetro con probabilidad (1-α), sino que la probabilidad es 1ó 0.

ˆ

ˆ

Intervalos de confianza

ˆ

Sin embargo, no se conoce, y en la práctica se

estima con . En lugar de utilizar la distribución

normal se usa la distribución t.

Intervalos de confianza β1 y β2

( )σ

ββ ∑−=

2

22ˆ

ixZ

2σ ( )σ

ββ

ˆ

ˆ 2

22 ∑−=

ixt

Se puede utilizar la distribución normal para hacer

afirmaciones probabilísticas sobre β1 y β2 siempre

que se conozca la varianza poblacional

( ) ααα −=≤≤− 1Pr 2/2/ ttt

( ) αβββ

αα −=

≤

−≤− 1

ˆ

ˆPr 2/

2

222/ t

eet

2σ

El intervalo de confianza se construye entonces con:

( ) ( )( ) αβββββ αα −=+≤≤− 1ˆˆˆˆPr 22/2222/2 eeteet

( ) ( )( ) αβββββ αα −=+≤≤− 1ˆˆˆˆPr 12/1112/1 eeteet

Para β2

Para β1

( )22/2ˆˆ ββ α eet±

( )12/1ˆˆ ββ α eet±

Intervalos de confianza

Para β1 y β2 al 100(1-α)%:

Entre más grande el error estándar, más amplio el intervalo de confianza, y mayor la incertidumbre de

estimar el verdadero valor del parámetro.

Con n-2 g de l

,o valor crítico t, es el valor de la variable t obtenida de la distribución t para un nivel de significancia

de α/2 y n – 2 g de l. 2/αt

Prueba de Hipótesis

• Se utiliza para mostrar si una observación dada es

compatible o no con alguna hipótesis planteada, es

decir, si la observación está lo suficientemente cerca al

valor hipotético de manera que no se rechaza la

hipótesis planteada.

• Hipótesis Planteada: hipótesis nula (H0).

• Hipótesis contra la cual se prueba la hipótesis nula:

Hipótesis alternativa (H1).

• 2 métodos para decidir si se rechaza o no la hipótesis

nula:

1. Intervalo de confianza

2. Prueba de significancia


• Ej. de modelo de consumo. Supongamos que se postula:

• Hipótesis nula: La PMC=0.3

• Hipótesis alterna: La PMC es menor o mayor a 0.3

• H0 es una hipótesis simple y H1 compleja, dado que puede ser

mayor o menor al valor de H0. Se conoce también como hipótesis

de dos colas.

• Para probar si es compatible con H0 se utiliza la estimación de

intervalos.

H0: β2=0.3

H1: β2≠0.3

Regla de decisión: Constrúyase un intervalo de confianza para β2 al 100(1 – α)%.

Si β2 bajo H0 se encuentra dentro de este intervalo de confianza, no se rechace H0,

pero si está por fuera del intervalo, rechace H0.


• En el ej. de consumo-ingreso estimamos que el intervalo de

confianza para β2 era de (0.4268,0.5914). Siguiendo la regla

planteada, es claro que H0: β2=0.3 está fuera del intervalo de

confianza al 95%.

• Se rechaza la hipótesis nula de que la verdadera PMC sea 0.3 con

95% de confianza.

0.4268 0.5914

Cuando se rechaza H0, se dice que el hallazgo es estadísticamente significativo.

Cuando no se rechaza H0, el hallazgo no es estadísticamente significativo.

2. Prueba de Significancia• El procedimiento se basa en utilizar un estadístico de prueba

(estimador) y su distribución muestral bajo la hipótesis nula.

( )σ

ββ

ˆ

ˆ 2

22 ∑−=

ixt

Bajo el supuesto de normalidad: Con n-2 g de l

Bajo la hipótesis nula: ( ) ( )( ) ;1ˆˆˆPr 22/

*

2222/

*

2 αβββββ αα −=+≤≤− eeteet =*

2β Valor de β2

bajo H0.

Región de aceptación de H0: ( )22/

*

2 ββ α eet±

Región de rechazo: Región por fuera del intervalo de aceptación de H0.

Bajo H0:( )

2-n

ˆ

22 t~ˆ

ˆ

2βσ

ββ −

Rechazo H0:

( )( )22/

*

22ˆˆ βββ α eet−< ( )( )22/

*

22ˆˆ βββ α eet+>

Rechazo H0:No rechazo H0

Rechazamos H0:

t > tc

t < -tc

Rechazo H0 si

|t| > tc

( ),

ˆ

ˆ

2ˆ

22

βσ

ββ −=tComo

Rechazo H0 si ( )ct>

−

2ˆ

22

ˆ

ˆ

βσ

ββ

2. Prueba de Significancia

• Test de una cola

*

220 : ββ =H

*

221 : ββ >H

2. Prueba de Significancia• Test de dos colas

*

220 : ββ =H

*

221 : ββ ≠H

Rechazo H0 si | t | > tc

2. Prueba de Significancia

Cola izquierda

Cola derecha

Dos colas

Regla de

decisión:

rechazar H0 si

H1: Hipótesis

alterna

H0: Hipótesis

nula

Tipo de

Hipótesis

Reglas de decisión

*

22 ββ =*

22 ββ ≤*

22 ββ ≥

*

22 ββ ≠*

22 ββ >*

22 ββ <

ldegtt ..,2/α>

ldegtt ..,α>

ldegtt ..,α−<Notas:

-Es el valor numérico de β2 hipotético.

-|t| significa valor absoluto de t.

-tα o tα/2 significa el valor crítico de t al nivel de significancia α o α/2.

-g de l: grados de libertad, (n – 2) para el modelo de dos variables, (n – 3) para el modelo de 3 variables, y así sucesivamente.

-Para probar hipótesis sobre β1 se sigue un procedimiento similar.

“Aceptar” o Rechazar la H0

• Al momento de emitirse un dictamen sobre la hipótesis nula, este debe de emitirse como “Rechazar H0” o “No Rechazar H0”.

• No se puede “aceptar” una hipótesis nula, puesto que no conocemos el verdadero valor, sino que hacemos una inferencia del mismo.

• Las hipótesis nulas “aceptadas” pueden ser muchas dependiendo de cuáles hipótesis estéplanteando.

Hipótesis nula o “cero” y regla práctica “2-t”

• La hipótesis nula H0:β2=0 es usada frecuentemente en el trabajo empírico, e implica que el coeficiente de la pendiente es cero.

• Esta H0 es un mecanismo para establecer si Y tiene relación con la variable X.

• Estas pruebas pueden abreviarse adoptando la regla de significancia “2-t”:

Regla práctica “2-t”: Si el número de grados de libertad es 20 y si α, el

nivel de significancia, se fija en 0.05, entonces la hipótesis nula β2=0

puede ser rechazada si el valor calculado excede a 2 en valor

absoluto.

( )2

ˆ

22

ˆ

ˆ

βσ

ββ −=t

• Si cae en alguna de las colas de la distribución (Rechazo H0), puede ser por dos razones.

– La hipótesis nula es cierta, pero se ha elegido una muestra equivocada

– La hipótesis nula es efectivamente falsa

• La probabilidad de cometer un error de tipo I está dada por α, el nivel de significancia.

• La probabilidad de cometer un error tipo II esta dada por β, en tanto que la probabilidad de no cometer este error (1- β) se denomina potencia de la prueba.

Error tipo I y tipo II

Error tipo IINo Rechazo H0

Error tipo IRechazo H0

H0 es falsoH0 es cierto

2β

El problema relacionado con la selección del valor apropiado de α puede ser

evitado si se utiliza el valor p o “P-value” que veremos a continuación.

• Lo deseable sería minimizar simultáneamente tanto los errores tipo I como tipo II, pero como se puede apreciar en los gráficos esto no es posible. En la práctica por lo general el error tipo I es más grave, por lo que se trata de minimizar primero este error y luego el error tipo II.

Error tipo I y tipo II

Valor p o “P-value”

• Nivel observado o exacto de significancia

o la probabilidad exacta de cometer un

error tipo I.

• Se define como el nivel de significancia

más bajo al cual puede rechazarse una

hipótesis nula.

Análisis de Varianza (ANOVA)• Test de significancia global del modelo. Intenta medir el

ajuste de la recta de regresión con el conjunto de datos

provenientes de la muestra.

• Este test, para el caso del modelo de regresión lineal

simple, tiene como hipótesis nula:

Sabemos que

Elevando al cuadrado(2)

(1)

• También sabemos que

• Se puede demostrar que (2) y (3) son independientes, por lo que:

(3)

(4)

• Simplificando tenemos que:

• Si sustituimos la hipótesis nula en (5)

(5)

(6)

• Recordando, cuando descompusimos la suma de cuadrados

teníamos:

• Asociado a cada suma de cuadrados existen sus respectivos grados

de libertad:

– SCT: tiene n-1 grados de libertad, pues se pierde un grado de libertad al

calcular la media de Y.

– SCE: un sólo grado de libertad de calcular ˆβ2

– SCR: tiene n-2 grados de libertad, pues se pierden dos grados de libertad

en las ecuaciones normales.

� El numerador de (6) es la SCE y el denominador es la SCR divida

por sus grados de libertad.

� Entonces, rechazo H0 si el valor calculado del estadístico F, es

mayor que Fα1, n-2

(7)

Otra forma alternativa de expresar (7):

(8)

• Las pruebas de hipótesis e intervalos de confianza

estudiados, tienen como punto de partida el supuesto de

normalidad del residuo, por lo que si u no es normal,

estas pruebas no son válidas.

• Existen diferentes test que permiten verificar si los

residuos calculados para una muestra en particular (ei)

provienen de una distribución normal. Uno de ellos es el

test de Jarque-Bera.

Pruebas de Normalidad

• Esta es una prueba asintótica que se basa en el tercer y cuarto

momento de la distribución (asimetría y curtosis respectivamente).

• Recordando:

• Coeficiente de simetría:

• En el caso de una distribución normal, el coeficiente de simetría es

cero (S=0) y el de curtosis 3 (C=3).

Test de Jarque Bera

• Bajo la hipótesis nula de que los residuos están normalmente

distribuidos, Jarque y Bera demostraron que asintóticamente el

estadístico JB sigue una distribución chicuadrado con dos grados

de libertad.

• Es decir, si JB es mayor que una chi-cuadrado con 2 g.l, rechazo la

hipótesis nula, o sea, rechazo normalidad.

Test de Jarque-Bera

¿Qué pasa si los errores no se distribuyen normal?• La normalidad exacta de los estimadores MICO depende

crucialmente de la distribución del error en la población (u).

• Si los errores u1, u2, ...., un son elecciones aleatorias de alguna distribución que no es la normal, las βj no estarán distribuidas en forma normal, lo que significa que los estadísticos t y F no tendrán distribuciones t y F, respectivamente.

• Este es un problema potencialmente grave porque nuestra inferencia depende de que seamos capaces de obtener valores críticos o valores p de las distribuciones t o F.

• La inferencia basada en los estadísticos t y F exige el supuesto de normalidad. En caso contrario ¿quiere decir que no debemos utilizar el estadístico t para determinar qué variables son significativas estadísticamente?

– La respuesta es no.

• En resumen, si el tamaño de la muestra

no es muy grande y u no se distribuye

normal, debemos de tener mucho cuidado

al momento de hacer inferencia sobre los

estimadores.

¿Qué pasa si los errores no se distribuyen normal?

4. inferencia estadistica - just another … inferencia • hasta ahora nos hemos ocupado solamente...

Documents