el problema de la endogeneidad variables proxy variables

44
El problema de la endogeneidad Variables proxy Variables instrumentales Endogeneidad Gabriel V. Montes-Rojas Gabriel Montes-Rojas Problemas

Upload: others

Post on 12-Jul-2022

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Endogeneidad

Gabriel V. Montes-Rojas

Gabriel Montes-Rojas Problemas

Page 2: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

Gabriel Montes-Rojas Problemas

Page 3: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

Gabriel Montes-Rojas Problemas

Page 4: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

Gabriel Montes-Rojas Problemas

Page 5: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

Sesgo por variables omitidas

Supongamos el modelo verdadero o estructural es

y = β0 + β1x1 + β2x2 + v ,

donde E (v |x1, x2) = 0 satisface los supuestos de Gauss-Markov, pero estimamos (lollamamos modelo estimado)

y = γ0 + γ1x1 + e,

donde E (e|x1) = 0. Entonces decimos que omitimos x2 (es decir, deberıa estar perono la usamos, x2 es una variable omitida).

Teorema: E (γ1|x1, x2) = β1 + β2 × δ12 donde δ12 es el coeficiente de la regresion dex2 en x1, es decir, x2 = δ0 + δ12x1 +w .

Gabriel Montes-Rojas Problemas

Page 6: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

Sesgo por variables omitidas

El sesgo por variables omitidas es entonces, β2 × δ12.

signo(β2) signo(δ12) signo(Sesgo) Coefs. Efecto+ + + γ1 > β1 Sobre-estimacion+ - - γ1 < β1 Sub-estimacion- + - γ1 < β1 Sub-estimacion- - + γ1 > β1 Sobre-estimacion

Si β2 = 0 o δ12 = 0 entonces no hay sesgo por omitir x2.

Ejemplo 1: y = wage, x1 = educ, x2 = habilidad . En este caso β2 > 0, δ12 > 0,entonces en STATA cuando hacemos reg wage educ estamos sobre estimando elefecto de educacion.

Ejemplo 2: y = crec.PBI , x1 = gasto pub/PBI , x2 = PBI inicial . Muchas vecesescuchamos que mayor gasto publico conlleva menor crecimiento, γ1 < 0. Perose omite que el gasto publico depende de riqueza (δ12 > 0) y la tasa decrecimiento esta negativamente asociado a PBI inicial (modelo de Solow,β2 < 0). Entonces γ1 < β1.

Gabriel Montes-Rojas Problemas

Page 7: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

Sesgo por variables omitidas

Prueba:Para simplificar la notacion escribimos E (.) en vez de E (.|x1, x2), o sea que lasesperanzas son en realidad esperanzas condicionales.

E [γ1] = E

[∑N

i=1(x1i − x1)(yi − y )

∑Ni=1(x1i − x1)2

]= E

[∑N

i=1(xi − x)(yi )

∑Ni=1(x1i − x1)2

]

= E

[∑N

i=1(x1i − x1)(β0 + β1x1i + β2x2i + vi )

∑Ni=1(x1i − x1)2

]

=∑N

i=1(x1i − x1)(β0 + β1x1i + β2x2i + E [vi ])

∑Ni=1(x1i − x1)2

=∑N

i=1(x1i − x1)(β1x1i + β2x2i )

∑Ni=1(x1i − x1)2

= β1 + β2∑N

i=1(x1i − x1)(x2i − x2)

∑Ni=1(x1i − x1)2

= β1 + β2 δ12

Gabriel Montes-Rojas Problemas

Page 8: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

Regresion simpleUna forma de interpretacion

Una forma de ver los modelos de regresion es la siguiente. Notemos que para elmodelo y = γ0 + γ1x1 + e,

γ1 =Cov (y , x1)

Var (x1),

bajo el supuesto Cov (x1, e) = 0, o sea que la variable explicativa no tienerelacion con los errores.

La prueba es sencilla:

Cov (y , x1)

Var (x1)=

Cov (γ0 + γ1x1 + e, x1)

Var (x1)=

γ1Cov (x1, x1) + Cov (x1, e)

Var (x1)

= γ1 +Cov (x1, e)

Var (x1)= γ1

(porque Cov (x1, x1) = Var (x1) y Cov (e, x1) = 0) Esto significa que γ1 midecuanto y se relaciona con x , estandarizado por la varianza de x .

Ver la equivalencia con la teorıa asintotica: γ1p→ Cov (y ,x1)

Var (x1), cuando N → ∞.

Gabriel Montes-Rojas Problemas

Page 9: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

Sesgo por variables omitidas (cont.)

Entonces el sesgo por variables omitidas lo podemos ver como

γ1 =Cov (y , x1)

Var (x1)=

Cov (β0 + β1x1 + β2x2 + v , x1)

Var (x1)= β1 + β2

Cov (x2, x1)

Var (x1).

¿Como se interpreta δ12 = Cov (x2,x1)Var (x1)

?

Ver la equivalencia con la teorıa asintotica: γ1p→ Cov (y ,x1)

Var (x1), cuando N → ∞.

Gabriel Montes-Rojas Problemas

Page 10: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

Sobre-especificacion: agregar variables irrelevantes

Si el modelo verdadero o estructural es

y = γ0 + γ1x1 + e

donde E (e|x1, x2) = 0 satisface los supuestos de Gauss-Markov, pero se estima(modelo estimado)

y = β0 + β1x1 + β2x2 + v ,

donde E (v |x1, x2) = 0, entonces decimos que x2 es una variable irrelevante paraestimar γ1 (es decir, no deberıa estar en el modelo).Teorema: E (β1) = γ1. Teorema: Var (γ1) >=< Var (β1).

RESULTADO: Agregar variables irrelevantes no afecta la insesgadez de losestimadores MCO. Si las variables irrelevantes no se correlacionan con x1 entoncesse reduce la varianza, si estan correlacionados entonces lo puede aumentar odisminuir.La razon es que Var (βj ) =

σ2v

SCTj (1−R2j )

, j = 1, 2, ...,K , donde SCTj es la suma de

cuadrados totales de xj , R2j es el R2 de regresar xj en todas las demas variables

(cuanto mas variables mayor sera R2j ). Sin embargo, σ2

v es la varianza del errorresultante.

Gabriel Montes-Rojas Problemas

Page 11: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

El problema de la endogeneidad

En Econometrıa la endogeneidad tiene una definicion particular:

Una variable xj es endogena si Cov(xj , error) 6= 0 en el modelo aestimar.

Una variable xj es exogena si Cov(xj , error) = 0 en el modelo aestimar.

Gabriel Montes-Rojas Problemas

Page 12: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

El problema de la endogeneidad

Consideremos el modelo estructural

log(wage) = β0 + β1 educ + β2 exper + β3 abil + v

Nuestro interes es estimar β1 y β2. Sin embargo, abil (ability en ingles) no sepuede observar. Por ello obtendrıamos estimadores sesgados (por variablesomitidas).

En la practica tenemos este modelo:

log(wage) = β0 + β1 educ + β2 exper + u

donde u ≡ β3 abil + v .

En este caso podemos argumentar que: Cov (educ, u) 6= 0,Cov (exper , u) 6= 0,siempre y cuando Cov (educ, abil) 6= 0,Cov (exper , abil) 6= 0. Es decir educ yexper son variables endogenas.

Otra forma de verlo es que en el modelo estimado con la variable omitida abil ,

log(wage) = γ0 + γ1 educ + γ2 exper + e,

los parametros γ no van a ser los β.

Gabriel Montes-Rojas Problemas

Page 13: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

El problema de la endogeneidad

En el modelo anterior planteamos

abil = δ0 + δ1educ + δ2exper + r .

Podemos expresar el sesgo por endogeneidad o variables omitidas a partir dereemplazar abil en la ecuacion estructural,

log (wage) = (β0 + β3δ0) + (β1 + β3δ1)educ + (β2 + β3δ2)exper + (β3r + v ).

En este caso, los parametros γ del modelo con la variable omitida abil sonγ0 = β0 + β3δ0, γ1 = β1 + β3δ1, γ2 = β2 + β3δ2. Tambien el error ese = β3r + v .

Gabriel Montes-Rojas Problemas

Page 14: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

El problema de la endogeneidad

Consideremos un modelo estructural general:

y = β0 + β1x1 + β2x2 + ... + βK xK + βqq + v ,

E (v |x1, x2, ..., xK , q) = 0.

Supongamos que q es no observable. Entonces forma parte del error.Asumamos sin perdida de generalidad que E (q) = 0 (como hay un intercepto noes ningun problema)

y = β0 + β1x1 + β2x2 + ... + βK xK + u,

u ≡ βqq + v .

Ahora consideremos la proyeccion de q en x como

q = δ0 + δ1x1 + ... + δK xK + r ,

donde por definicion E (r ) = 0,Cov (xj , r ) = 0, j = 1, 2, ...,K .

Entonces,

y = (β0 + βqδ0)+ (β1 + βqδ1)x1 +(β2 + βqδ2)x2 + ...+(βK + βqδK )xK +(βqr + v ),

Gabriel Montes-Rojas Problemas

Page 15: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

Errores de medicion en los regresores

Supongamos que queremos estimar el siguiente modelo, yi = β0 + β1x∗i + vi ,

donde Cov (x∗, v ) = 0.

Sin embargo, la variable x observada es xi = x∗i +wi donde w ∼ (0, σ2w ) es un

error de medicion aditivo. Se asume que cov (w , v ) = cov (w , x∗) = 0.

Planteemos el modelo yi = β0 + β1x∗i + vi = β0 + β1(xi −wi ) + vi =

β0 + β1xi + (vi − β1wi ) = β0 + β1xi + ui , donde ui = vi − β1wi es el nuevotermino del error (notar que cov (x , u) 6= 0).

El modelo estimado es y = γ0 + γ1x + e con E (e|x) = 0, tal que

γ1 =Cov (y , x)

Var (x)=

Cov (β0 + β1x∗ + v , x∗ +w )

Var (x∗ +w )= β1

σ2x∗

σ2x∗ + σ2

w

Notar que 0 ≤ σ2x∗

σ2x∗+σ2

w≤ 1, sesgo de atenuacion (attenuation bias).

Gabriel Montes-Rojas Problemas

Page 16: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

Errores de medicion en la variable dependiente

Supongamos que queremos estimar el siguiente modelo, y ∗i = β0 + β1xi + vi ,donde Cov (x , v ) = 0.

Sin embargo, la variable y observada es yi = y ∗i +wi donde w ∼ (0, σ2w ) es un

error de medicion. Se asume que cov (w , x) = 0.

Planteemos el modelo yi = γ0 + γ1xi + ei , donde ui es el nuevo termino delerror tal que E (e|x) = 0.

γ1 =Cov (y , x)

Var (x)=

Cov (y ∗ +w , x)

Var (x)=

Cov (β0 + β1x + v +w , x)

Var (x)= β1.

Notar que errores de medicion de la variable dependiente no afectan laestimacion, es decir, sigue siendo insesgado.

Gabriel Montes-Rojas Problemas

Page 17: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Variables omitidasVariables irrelevantesEndogeneidad

Soluciones

Hay 3 posibles soluciones:

1 Agregar la variable no observada.

2 Encontrar una variable proxy.

3 Encontrar una variable instrumental.

Gabriel Montes-Rojas Problemas

Page 18: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Proxy perfectaProxy imperfecta

Variables proxy: proxy perfecta

Consideremos el modelo

log(wage) = β0 + β1 educ + β2 exper + β3 abil + v

Tomemos x = (educ, exper).

Una potencial variable proxy para abil es IQ.

La variable proxy perfecta deberıa satisfacer lo siguiente:

1 abil = α0 + α3IQ+v3, donde v3 no esta correlacionado con educ, exper yIQ.

2 v no esta correlacionado con educ, exper y abil . Otra forma de expresarloes E (log (wage)|x , abil , IQ) = E (log (wage)|x , abil), y decimos que laproxy es irrelevante para explicar los salarios una vez que las variablesobservables x y la variable abil son usadas.

Entonces podemos estimarlog(wage) = (β0 + β3α0) + β1educ + β2exper + β3α3IQ + (v + β3v3).

Gabriel Montes-Rojas Problemas

Page 19: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Proxy perfectaProxy imperfecta

Ejemplo: IQ como proxy para habilidad

use http://fmwww.bc.edu/ec-p/data/wooldridge/wage2, clear

reg lwage educ exper tenure married south urban black

reg lwage educ exper tenure married south urban black IQ

gen educIQ=educ*IQ

reg lwage educ exper tenure married south urban black IQ educIQ

Variables (1) (2) (3)educ .065 .054 .018

(.006) (.007) (.041)exper .014 .014 .014

(.002) (.002) (.003)tenure .012 .011 .011

(.002) (.002) (.002)married .199 .200 .201

(.039) (.039) (.039)south -.091 -.080 -.080

(.026) (.026) (.026)urban .184 .182 .184

(.027) (.027) (.027)black -.188 -.143 -.147

(.038) (.039) (.040)IQ - .0036 -.0009

(.0010) (.0052)educIQ - - -.00034

(.00038)

Gabriel Montes-Rojas Problemas

Page 20: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Proxy perfectaProxy imperfecta

Sesgo potencial usando una proxy: proxy imperfecta

Asumamos por el contrario que

abil = α0 + α1educ + α2exper + α3IQ + v3

⇒ log(wage) = (β0 + β3α0) + (β1 + β3α1)educ

+(β2 + β3α2)exper + β3α3IQ + (v + β3v3)

En este caso, IQ se define como una variable proxy imperfecta. Como puede verseMCO con proxy imperfecta tiene sesgo.

Ejercicio: Comparar (β1 + β3α1) con (β1 + β3δ1) obtenido en el problema de variablesomitidas.

Gabriel Montes-Rojas Problemas

Page 21: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Variables instrumentales

Consideremos la siguiente regresion:

y = β0 + β1x + u

donde Cov (x , u) 6= 0 (o sea, x is endogena).

Una variable instrumental (VI) z deberıa satisfacer:

1 Exogeneidad. No estar correlacionada con el error: Cov (z, u) = 0

2 Relevancia. Estar correlacionada con la variable endogena: Cov (x , z) 6= 0

Gabriel Montes-Rojas Problemas

Page 22: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Variables instrumentales

¿Como podrıamos estimar β1 usando z?Notar que

β1 =Cov (z, y )

Cov (z, x)

¿Por que?

Cov (z, y ) = Cov (z, β0 + β1x + u)

= Cov (z, β0) + Cov (z, β1x) + Cov (z, u)

Entonces podemos plantear el siguiente estimador de β1 usando variablesinstrumentales:

βVI1 =

Cov (z, y )

Cov (z, x)=

1N ∑N

i=1(zi − z)(yi − y )1N ∑N

i=1(zi − z)(xi − x),

y notar que βVI1

p→ Cov (z,y )Cov (z,x)

= β1 cuando N → ∞.

Gabriel Montes-Rojas Problemas

Page 23: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Variables instrumentales como ecuaciones estructurales

El modelo de VI es en realidad un sistema de ecuaciones estructurales o formaestructural tal que

(1) x = η0 + η1z + r ,

(2) y = β0 + β1x + u,

donde Cov (z, u) = Cov (z, r ) = 0. La endogeneidad implica que Cov (u, r ) 6= 0.Reemplazando (1) en (2), tenemos la forma reducida

y = (β0 + β1η0) + (β1η1)z + (u + β1r ) = π0 + π1z + error .

Notar entonces que β1 se puede estimar como el ratio del coeficiente de regresion de yen z (π1 = β1η1) y del coeficiente de regresion de x en z (η1). De hecho comprobarque

βVI1 =

π1

η1=

∑Ni=1(zi−z)(yi−y )

∑Ni=1(zi−z)2

∑Ni=1(zi−z)(xi−x)

∑Ni=1(zi−z)2

p→ β1 =

Cov (z,y )Var (z)

Cov (z, x)Var (z),

cuando N → ∞.

Gabriel Montes-Rojas Problemas

Page 24: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

VI como un estimador en dos etapas

Consideremos la regresion simple

y = β0 + β1x + u.

Consideremos la siguiente regresion auxiliar (etapa 1): x = η0 + η1z + r .Construir los valores predichos x ≡ η0 + η1z. Notemos que x = x + r and

η1 = Cov (x ,z)Var (z)

.

Notemos que x , que es una funcion de z y la podemos escribir con x(z), no estacorrelacionado con r (por construccion) y tambien Cov (x , u) = 0 (porque esfuncion de z).Consideremos otra regresion (etapa 2):

y = β0 + β1(x + r ) + u = β0 + β1x + v ,

donde v ≡ β1r + u y Cov (x , v ) = Cov (x , β1r + u) = 0. Entonces,

Cov (y , x)

Var (x)=

Cov (y , η0 + η1z)

Var (η0 + η1z)=

Cov(y ,

Cov (x ,z)Var (z)

z)

Var(

Cov (x ,z)Var (z)

z)

=Cov (z, y )

Cov (z, x)= β1.

Gabriel Montes-Rojas Problemas

Page 25: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Variables instrumentales - Estimador de Wald

Supongamos un caso particular donde z es una variable dummy donde hay N1

observaciones con z = 1 y N0 con z = 0, tal que N0 +N1 = N. Definamosy1 = 1

N1∑N

i=1 yi1[zi = 1], y0 = 1N0

∑Ni=1 yi1[zi = 0], x1 = 1

N1∑N

i=1 xi1[zi = 1],

x0 = 1N0

∑Ni=1 xi1[zi = 0].

Mostrar que

βVI1 =

y1 − y0

x1 − x0.

Esto se conoce como el estimador de Wald, uno de los primeros intentos de usar VI.

Prueba: Tomemos el numerador del estimador de VI.

N

∑i=1

(zi − z)(yi − y ) =N

∑i=1

zi (yi − y ) = N1 y1 −N1 y = N1 y1 −N1

(N0

Ny0 +

N1

Ny1

)

= (N1 −N2

1

N)y1 −

N0N1

Ny0 =

N21 +N0N1 −N2

1

Ny1 −

N0N1

Ny0 =

N0N1

N(y1 − y0).

Haciendo lo mismo para el denominador llegamos al resultado.

Gabriel Montes-Rojas Problemas

Page 26: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Variables instrumentales en regresion multiple

Consideremos el modelo

y = β0 + β1x1 + β2x2 + ... + βK xK + u

donde Cov (xK , u) 6= 0 (o sea, xK es endogena) y Cov (xj , u) = 0, j = 1, 2, ...,K − 1 (elresto son exogenas).

Una variable instrumental z debe satisfacer dos condiciones:

1 Exogeneidad. No estar correlacionada con el error: Cov (z, u) = 0

2 Relevancia. Estar correlacionada con la variable endogena. Mas formalmente,consideremos la proyeccion lineal de xK en todas las variables exogenas (lasexogenas originales mas el instrumento):

xK = η0 + η1x1 + ... + ηK−1xK−1 + θz + rK ,

donde por definicion E (rK ) = 0 y rK no esta correlacionado con x1, x2, ..., xK−1.El supuesto importante es que θ 6= 0.

Gabriel Montes-Rojas Problemas

Page 27: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Variables instrumentales en regresion multiple

Usando el Teorema de Frisch-Waugh-Lovell, siempre podemos simplificar el modelo deregresion multiple como

y = βK xK + u

xK = θz + rK

donde las variables con ˜ son los residuos de una regresion en (1, x1, x2, ..., xK−1).Siempre podemos entonces analizar un modelo de muchas variables en base aregresiones simples.

Gabriel Montes-Rojas Problemas

Page 28: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Identificacion de VI

Consideremos el modelo de regresion

y = xβ + u.

Definamos z ≡ (1, x1, ..., xK−1, z), como el vector de todas las variablesexogenas.

Hay entonces K + 1 condiciones de ortogonalidad:

E (z ′u) = 0.

Multiplicamos el modelo de regresion por z ′, y tomando esperanzas

[E (z ′x)]β = E (z ′y ),

donde E (z ′x) es una matriz (K + 1)× (K + 1) y E (z ′y ) es (K + 1)× 1. Estesistema tiene una unica solucion si y solo si la primera matriz tiene rango K + 1,entonces

β = [E (z ′x)]−1E (z ′y ).

El estimador de variables instrumentales de β es

βVI =

(N−1

N

∑i=1

z ′ix i

)−1 (N−1

N

∑i=1

z ′iyi

)= (Z ′X )−1(Zy )

Gabriel Montes-Rojas Problemas

Page 29: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Muchos instrumentos

Cuando hay mas de un instrumento (digamos M, (z1, z2, ..., zM )) el estimadormas eficiente es el de mınimos cuadrados en dos etapas (two-stage leastsquares, 2SLS):

β2SLS =

(N−1

N

∑i=1

x ′ix i

)−1 (N−1

N

∑i=1

x ′iyi

)= (X ′X )−1(Xy )

dondexK = η0 + η1x1 + ... + ηK−1xK−1 + θ1z1 + ... + θMzM + rK

xK = η0 + η1x1 + ... + ηK−1xK−1 + θ1z1 + ... + θMzM

Notemos que X = Z (Z ′Z )−1Z ′X = PZX , es una proyeccion de x en el espaciode z ≡ (x1, ..., xK−1, z1, ..., zM ), donde PZ es la matriz de proyeccion. Entonces,

X ′X = X ′X . Ası el estimador 2SLS es un estimador de MCO donde x se usa envez de x . O sea, β2SLS = (X ′X )−1(Xy )

Gabriel Montes-Rojas Problemas

Page 30: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Contrastes para relevancia - Instrumentos debiles

La condicion de relevancia de los instrumentos, es decir que estencorrelacionados con la(s) variable(s) endogena(s) se puede chequeardirectamente de la primera etapa.O sea, tomemos

xK = η0 + η1x1 + ... + ηK−1xK−1 + θ1z1 + ... + θMzM ,

entonces chequeamos que H0 : θ1 = ... = θM = 0.

Una regla es la siguiente: si el estadıstico F para testear la hipotesis de que loscoeficientes de los instrumentos son 0 en la variable endogena es menor a 10,entonces los instrumentos son debiles (weak IV). Si es mayor a 10 son fuertes.

Gabriel Montes-Rojas Problemas

Page 31: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Weak IV (avanzado)

Supongamos el siguiente modelo (para simplificar de una sola variable y uninstrumento, sin constante):Primera etapa: xi = θzi + vi ,Segunda etapa: yi = βxi + ui ,donde x y z son escalares, E [u] = E [v ] = 0, E [z ′u] = E [z ′v ] = 0, Corr [u, v ] = ρ(endogeneidad), E [z ′x ] 6= 0 (instrumentos validos), E [z ′z ] 6= 0 y (x , z, u, v ) tienenmomentos cuartos finitos.

βIV = (EN x′x)−1EN x

′y ,

con xi = θzi , θ = (ENz′z)−1ENz

′x y usando para secuencia {ai}Ni=1 ENa = 1N ∑N

i ai (es decir EN es un operador que calcula promedios).

βIV − β =

(θ + (ENz

′z)−1(ENz′v ))(ENz

′u)

(θ + (ENz ′z)−1(ENz ′v ))2 (ENz ′z)

=θ(ENz

′u) + (ENz′z)−1(ENz

′v )(ENz′u)

θ2ENz ′z + 2θENz ′v + (ENz ′z)−1(ENz ′v )2.

Gabriel Montes-Rojas Problemas

Page 32: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Weak IV (avanzado)

Entonces asumiendo Ez ′v = Ez ′u = 0,

√N(βIV − β) =

Gnz′u

θEz ′z+ op(1)

d→ Normal(0, θ−2E [(z ′u)2]/(E [z ′z ])−2

),

Aca estamos haciendo uso de:

Ley de los grandes numeros, usando para secuencia iid {ai}Ni=1

ENa = 1N ∑N

i aip→ E (a);

Teorema central del lımite, usando para secuencia iid {ai}Ni=1

GNa =√N 1

N ∑Ni ai

d→ Normal(E (a),V (a));

op(1) significa que se hace 0 en probabilidad.

Notar que θ afecta la varianza del estimador. ¡Si θ = 0 la varianza es infinita! (enrealidad no se podra derivar el resultado dado que estamos dividiendo por algo que es0)

Gabriel Montes-Rojas Problemas

Page 33: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Weak IV (avanzado)

Staiger y Stock (1997 Econometrica) y Stock y Yogo (2005) metodo derivan la regla

del estadıstico F = 10 (muy famoso). Usan θ = c/√N (local to zero asymptotics)

βIV − β =

(θ + (ENz

′z)−1(ENz′v ))(ENz

′u)

(θ + (ENz ′z)−1(ENz ′v ))2 (ENz ′z)

=(ENz

′u)

θENz ′z + ENz ′v.

Multiplicando numerador y denominador por√n,

βIV − β =Gnz

′u

cENz ′z + Gnz ′v.

Ratio de dos variables aleatorias entonces βIV − β no converge en probabilidad.... sinoal ratio de dos normales, distribucion de Cauchy. Es decir, converge en distribucion.

La regla se deriva encontrando cuanto tiene que ser el valor F de MCO de la primeraetapa para que (i) para un α = 5% de significatividad; (ii) el sesgo sea menor a 10% enporcentage de βIV − β relativo a βOLS − β. F = 10 es para menor a ese 10% de sesgo.

Gabriel Montes-Rojas Problemas

Page 34: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Contrastes para endogeneidad

El estimador de 2SLS es menos eficiente (mayor varianza) que MCO convariable exogenas.

La estimacion de modelos 2SLS es mas demandante en terminoscomputacionales.

Entonces es importante chequear primero si hay endogeneidad para evitar usarun estimator ineficiente innecesariamente.

Tomemos el modelo

y1 = β0 + β1y2 + β2z1 + β3z2 + u

donde y2 es (potencialmente) endogena; z1 and z2 son variables explicativas exogenas;z3 and z4 son IV. Para contrastar por endogeneidad:

1 y2 = π0 + π1z1 + π2z2 + π3z3 + π4z4 + v2 y construir los residuos v2

2 y1 = β0 + β1y2 + β2z1 + β3z2 + δ1v2 + error

3 Contrastar por la significancia estadıstica de v2, H0 : δ1 = 0.

4 Si rechazamos la hipotesis nula entonces hay evidencia que u y v2 estancorrelacionados y y2 es endogena.

Gabriel Montes-Rojas Problemas

Page 35: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Contrastes para endogeneidad

Consideremos ahora el contraste de Durbin-Wu-Hausman (DWH) que esta basado enla comparacion de β2SLS y βOLS . (La misma idea se ve en datos en panel paracomparar RE y FE.)Bajo la hipotesis nula de exogeneidad, H0 : E (x ′u) = 0. Entonces,

1 Ambos estimadores son consistentes para β.

2 Entonces la hipotesis nula se puede redefinir con H0 : β2SLS = βOLS .

3 Bajo H0 (y asumiendo homoscedasticidad)

Avar [√N(β2SLS − βOLS )] = σ2

([E (x∗′x∗)]−1 − [E (x ′x ]−1

).

4 Dado que MCO es mas eficiente, entonces la varianza es definida semipositiva.

5 En particular,

DWH = (β2SLS − βOLS )′[(X ′X )−1 − (X ′X )](β2SLS − βOLS )/σ2 a∼ χ2

L−K

Gabriel Montes-Rojas Problemas

Page 36: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Contraste para la validez de los instrumentos

Requerimiento importante: Necesitamos mas variables instrumentales que variablesendogenas.

1 Supongamos que en el modelo anterior usamos 2SLS con z3 como la unicavariable instrumental. Llamemos a este estimador IV3.

2 Computar u3 = y1 − βIV 30 − βIV 3

1 y2 − βIV 32 z1 − βIV 3

3 z2.

3 Correr la regresion auxiliar u3 = δ0 + δ1z1 + δ2z2 + δ4z4.

4 Chequer la significancia de z4.

5 Esto nos da un contraste valido para la validez de z4 como VI. Pero tenemosque asumir que z3 es una VI valida.

6 Este mismo procedimiento lo podemos hacer al reves: usar z4 para chequear porla validez de z3

Gabriel Montes-Rojas Problemas

Page 37: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Contraste para la validez de los instrumentosContraste de Sargan-Hansen

1 Si tenemos mas VIs que variables endogenas, entonces el modelo estasobre-identificado (over-identified).

2 Consideremos H0 : todas las VIs son exogenas. Si rechazamos entonces algunade las VIs es endogena.

3 Estimar el modelo con todos las VIs usando 2SLS. Obtener los residuos u.

4 Correr la regresion de u en TODAS las variables exogenas (VIs, X exogenas,constante).

5 Computar NR2u

a∼ χ2L−K , donde R2

u es el de la ultima regresion.

Gabriel Montes-Rojas Problemas

Page 38: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

VI en STATA

Asumamos que x1 is (potentialmente endogena y x2 is exogena. Asumamos laexistencia de 2 VI: z1, z2

ivregress 2sls y (x1=z1 z2) x2

ivregress 2sls y (x1=z1 z2) x2, first (para que muestre la primeraetapa)

estat firststage (significancia de los instrumentos - necesitamos F > 10)

Tambien podemos usarreg x1 z1 z2 x2

test z1 z2

Siempre hay que ver que el estadıstico F sea grande.

estat overid (validez de los instrumentos)

estat endogenous (exogeneidad de todas las variables)

Gabriel Montes-Rojas Problemas

Page 39: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

VI en STATA

Para entender VI se puede correr un estimador en dos etapas a mano parareproducir

ivregress 2sls y (x1=z1 z2) x2

Los mismos coeficientes se pueden obtener con

reg x1 z1 z2 x2

predict x1hat

reg y x1hat x2

Notar que los errores estandar son diferentes. ¿Por que?

Gabriel Montes-Rojas Problemas

Page 40: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Ejemplos en la web

http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge9.html

http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge15.html

https://www.stata.com/manuals13/rivregress.pdf

Gabriel Montes-Rojas Problemas

Page 41: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Supuestos para identificacion y consistencia de 2SLS

Supuesto 2SLS.1: Para un vector 1× L z , E (z ′u) = 0 (en este caso L = M +K ,asumiendo M instrumentos y K − 1 variables exogenas con una constante).

Supuesto 2SLS.2: (a) rango E (z ′z) = L; (b) rango E (z ′x) = K + 1.

Una condicion necesaria para estas condiciones es que L ≥ K + 1, o sea, masinstrumentos que variables endogenas.

Gabriel Montes-Rojas Problemas

Page 42: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Identificacion

Identificacion: Si asumimos que E (z ′z) es no singular definamos la proyeccionx∗ = zΠ, donde Π = [E (z ′z)]−1E (z ′x) es una matriz L× (K + 1). Multiplicando por

x∗′, y tomando esperanzas tenemos

E (x∗′y ) = E (x∗

′x)β + E (x∗

′u) = E (x∗

′x)β

Ası β esta identificado por β = [E (x∗′x)]−1E (x∗′y ). Para esto necesitamos que

E (x∗′x∗) sea no singular. Pero

E (x∗′x) = E (Π′z ′x) = E (x ′z)[E (z ′z)]−1E (z ′x)

Entonces esta matriz es no singular si E (z ′x) tiene rango K + 1 (Supuesto 2SLS.2b).Para esto tambien necesitamos E (z ′z) no singular y entonces con rango L (Supuesto2SLS.2a).

Gabriel Montes-Rojas Problemas

Page 43: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Consistencia de 2SLS

β2SLS =

(N−1N

∑i=1

x ′iz i

)(N−1

N

∑i=1

z ′iz i

)−1 (N−1

N

∑i=1

z ′ix i

)−1

(N−1

N

∑i=1

x ′iz i

)(N−1

N

∑i=1

z ′iz i

)−1 (N−1

N

∑i=1

z ′iyi

)

Consistencia: Bajo los Supuestos 2SLS.1 y 2SLS.2, plim β2SLS = β.

Prueba: Ley de los grandes numeros y teorema de Slutsky.

Gabriel Montes-Rojas Problemas

Page 44: El problema de la endogeneidad Variables proxy Variables

El problema de la endogeneidadVariables proxy

Variables instrumentales

Estimador en dos etapasWeak IVSTATA

Normalidad asintotica de 2SLS

Supuesto 2SLS.3: E (u2z ′z) = σ2E (z ′z), donde σ2 = E (u2).

Normalidad asintotica: Bajo los supuestos 2SLS.1, 2SLS.2 y 2SLS.3,√N(β2SLS − β)

d→ N(0, σ2([E (x ′z)][E (z ′z)]−1[E (z ′x)])

).

Gabriel Montes-Rojas Problemas