*5.0em econometría aplicada para bancos centrales...
TRANSCRIPT
Econometría Aplicada para Bancos CentralesMódulo 2: Análisis de series de tiempo multivariadas
Instructores: Randall Romero y Wilfredo Díaz
San José, Costa Rica, 26-30 de junio de 2017
Contenidos
1. Introducción
2. Modelos SUR
3. Sistemas de ecuaciones simultáneas
4. Vectores Auto-Regresivos (VAR)
5. Cointegración
6. Vector de Corrección de Errores (VECM)
7. Apéndice 1: Resultados importantes
8. Apéndice 2: Demostraciones
9. Apéndice 3: Programas de EViews y Python
¿Cómo afecta el dinero al producto? Keynesianos vs Clásicos*
Cuando la oferta de dinero aumenta, el empleo y el productoreal...
Clásicos Keynesianosno se ven afectados. ⇒⇐ también aumentan
En palabras de Lucas (1996):
Esta tensión entre dos ideas incompatibles —quecambios en dinero son cambios neutrales deunidades, y que inducen movimientos en empleo yproducción de la misma direción—ha estado en elcentro de la teoría monetaria al menos desde Hume(1752).
*Basado en Walsh (2010, ch.1) 1
Un econometrista al rescate
• Para resolver este problema, un econometrista estima elmodelo
yt = y0 + α0mt + α1mt−1 + c0zt + c1zt−1 + ut
donde m es dinero, y es producto, z una variable decontrol.
• Si α0 = α1 = 0, los keynesianos estarían en problemas.• Si α0 > 0, los clásicos estarían en problemas.
2
Una regla de política monetaria
• Suponga que el banco central desea estabilizar elproducto alrededor de y0.
• Para ello fija la oferta de dinero así:
m∗t = argmax
mt
E (yt − y0)2
= argmaxmt
E (α0mt + α1mt−1 + c0zt + c1zt−1 + ut)2
= −α1
α0mt−1 −
c1α0
zt−1
donde se supone que el banco central espera E zt = 0.• La regla de política sería
m∗t = π1mt−1 + π2zt−1 + νt
3
Otra versión de los hechos
Ahora suponga que el producto real depende solo de cambiossorpresivos en la oferta de dinero νt:
yt = y0 + d0vt + d1zt + d2zt−1 + ut
Pero la regla de política implicavt = mt − π1mt−1 − π2zt−1.Entonces:
yt = y0 + d0[mt − π1mt−1 − π2zt−1] + d1zt + d2zt−1 + ut
= y0 + d0mt − d0π1mt−1 + d1zt + (d2 − d0π2)zt−1 + ut
4
Un econometrista en problemas
El econometrista compara los dos modelos:
keynes yt = y0 + α0mt + α1mt−1 + c0zt + c1zt−1 + ut
clásico yt = y0 + d0mt − d0π1mt−1 + d1zt + (d2 − d0π2)zt−1 + ut
• La estimación de la regresión no puede distinguir entrelas dos hipótesis propuestas: los modelos resultan enregresiones observacionalmente equivalentes.
• Los parámetros estimados pueden depender de la reglade política.
• Así, el ejercicio estaría sujeto a la crítica de Lucas (1976):no podemos predecir qué pasaría si cambia la política,porque el modelo podría no ser invariante a la políticamisma.
5
Un econometrista con más problemas
• Suponga que el econometrista se conforma con estimar elmodelo
yt = y0 + α0mt + α1mt−1 + c0zt + c1zt−1 + ut
y que zt es el déficit fiscal.• Si τ es la tasa impositiva media y el gasto público g0 esconstante, entonces:
zt = g0 − τyt
• En este caso, estimar el modelo por OLS resulta enestimadores sesgados e inconsistentes!
6
NOTA: Sesgo de simultaneidad
• Considere el modelo
Ct = α+ βYt + ϵ
Yt = Ct + It
• Esto implica que Yt =α+It1−β + ϵt
1−β .• Suponga que se estima la primera ecuación por OLS. Laestimación será inconsistente porque
Cov (Yt, ϵt) = Cov
(ϵt
1− β, ϵt
)=
1
1− βVar (ϵt) = 0
7
Un modelo de ecuaciones simultáneas (VAR estructural)
• Dado que en modelos macro las variables son endógenas,es necesario considerar un sistema de ecuaciones.1 −α0 −c0
0 1 0
τ 0 1
yt
mt
zt
=
y00g0
+0 α1 c1
0 π1 π2
0 0 0
yt−1
mt−1
zt−1
+utνt0
• Su estimación exige imponer (muchas) restricciones. Porejemplo, acá imponemos la restricción de que zt no afectaa mt en el mismo período.
8
Resolviendo el sesgo de simulateidad
Según Sims (1980, pp.14-15)
Debido a que los grandes modelos existentes contienendemasiadas restricciones increíbles, la investigaciónempírica dedicada a probar teorías macroeconómicasalternativas con demasiada frecuencia procede en unmarco de una o pocas ecuaciones.Esta razón es suficientepara que valga la pena investigar la posibilidad de creargrandes modelos en un estilo que no tienda a acumularrestricciones tan caprichosamente…Debe ser factibleestimar modelos macro de gran escala como formasreducidas sin restricciones, tratando todas las variablecomo endógenas.
9
Un vector autor-regresivo (VAR)
Así, lo que Sims (1980) propone† es estimar
yt = y0 + α11yt−1 + α12mt−1 + α13zt−1 + uyt
mt = m0 + α21yt−1 + α22mt−1 + α23zt−1 + umt
zt = z0 + α31yt−1 + α32mt−1 + α33zt−1 + uzt
• Este es un modelo reducido: Las variables yt,mt, zt nointeractuan contemporáneamente.
• También es un modelo SUR: todas las ecuaciones tienenlos mismos regresores; los errores están correlacionados.
• Al ser un modelo SUR, puede estimarse con OLS ecuaciónpor ecuación.
†El modelo original de Sims es de 6 ecuaciones; acá solo ilustramos la propuesta.
10
El curso
En este curso aprenderemos:
• la teoría básica de estimación de sistemas de ecuaciones.• la estimación y uso de los modelos VAR y VECM:
• causalidad de Granger• funciones de impulso respuesta• descomposición de varianza• pronósticos• cointegración• modelos estructural, recursivo, y reducido.
11
Introducción‡
• Hay modelos uniecuacionales que aplican a un grupo devariables relacionadas.
• Ejemplos:• Modelo CAPM
rit − rft = αi + βi (rMt − rft) + ϵit
• Modelos de inversión
Iit = β1i + β2iFit + β3iCit + ϵit
• Como los errores ϵit de las distintas ecuaciones puedenestar correlacionados, es preferible considerar losmodelos de manera conjunta.
‡Basado en Greene (2012, capítulo 10)
12
Modelo de regresiones aparentemente no relacionadas (SUR)
• En este modelo se presentan un grupo de variablesdependientes, pero NO simultáneas.
• Cada ecuación puede tener sus propias variablesexplicativas o éstas pueden ser las mismas para todas lasecuaciones.
13
El modelo SUR: ecuaciones no simultáneas
Las ecuaciones del sistema son
y1 = X1β1 + ϵ1
y2 = X2β2 + ϵ2
...yM = XMβM + ϵM
que se pueden expresar comoy1
y2...
yM
Y
=
X1 0 . . . 0
0 X2 . . . 0. . .
0 0 . . . XM
X
β1
β2...
βM
β
+
ϵ1
ϵ2...
ϵM
ϵ
14
El modelo SUR: errores correlacionados
Se asume que perturbaciones de distintas observaciones noestán correlacionadas, aunque las perturbaciones de distintasecuaciones sí pueden estar correlacionados:
E[ϵiϵ
′j |X]= σijI
o bien
E[ϵϵ′|X
]Ω
=
σ11I σ12I . . . σ1MI
σ21I σ22I . . . σ2MI. . .
σM1I σM2I . . . σMMI
Σ⊗I
Producto Kronecker
15
Estimación de un modelo SUR
El modelo SUR
Y = Xβ + ϵ
E [ϵ|X] = 0
Var [ϵ|X] = Ω = Σ⊗ I
supuestos del modelo gene-ralizado de regresión lineal!
puede ser estimado por FGLS:
βGLS =[X′Ω−1X
]−1X′Ω−1Y
=[X′(Σ⊗ I)−1X
]−1X′(Σ⊗ I)−1Y
16
Caso especial del modelo SUR
• Si todas las regresiones tienen los mismos regresores,estimar el sistema SUR por GLS es equivalente a estimarecuación por ecuación con OLS. prueba
• Este resultado justifica que un VAR sin restricciones seestima ecuación por ecuación con OLS.
17
Introducción
• En Economía, muchas de las teorías se construyen comomodelos de ecuaciones simultáneas
• Ejemplos:• Modelo Oferta-Demanda de bienes y/o factores• Modelo IS-LM• Modelos macroeconómicos
18
Modelo de ecuaciones simultáneas
• En este modelo se presentan un grupo de variablesdependientes que se determinan simultáneamente en unsistema de ecuaciones.
• Se asume que existen tantas ecuaciones como variablesdependientes en el sistema.
19
Modelo en forma estructural
• Hay K variables exógenas, M endógenas, y M ecuaciones.• Se cuenta con T observaciones de cada variable.
γ11yt1 + · · ·+ γM1ytM + β11xt1 + · · ·+ βK1xtK = ϵt1
γ12yt1 + · · ·+ γM2ytM + β12xt1 + · · ·+ βK2xtK = ϵt2
...γ1Myt1 + · · ·+ γMMytM + β1Mxt1 + · · ·+ βKMxtK = ϵtM
20
Modelo en forma estructural: Matrices
Escribimos las ecuaciones como y′tΓ + x′tB = ϵt:
[y1 . . . yM
]t
y′t
γ11 . . . γ1M. . .
γM1 . . . γMM
Γ
+ . . .
[x1 . . . xK
]t
x′t
β11 . . . β1M. . .
βK1 . . . βKM
B
=[ϵ1 . . . ϵM
]t
ϵ′t
Juntando todas las observaciones obtenemos
FormaEstructural
Y Γ +XB = E
21
Un modelo de oferta y demandaqdt = α1pt + α2xt + ϵdt
qst = β1pt + ϵst
qdt = qst = q
[qt pt
]y′t
[1 1
−α1 −β1
]Γ
+[1 xt
]x′t
[−α1 −β1
−α2 0
]B
=[ϵdt ϵst
]ϵ′t
Note que cada columna de Γ y de B corresponden a unaecuación del modelo.
22
Un modelo de demanda agregadaCt = α0 + α1Yt + ϵ1t
It = β0 + β1 (Yt − Yt−1) + ϵ2t
Yt = Ct + It +Gt
1 0 −α1
0 1 −β1
−1 −1 1
Γ′
Ct
It
Yt
yt
+
−α0 0 0
−β0 β1 0
0 0 −1
B′
1
Yt−1
Gt
xt
=
ϵ1tϵ2t
0
ϵt
Como tomamos la transpuesta, note que cada fila de Γ′ y deB′ corresponden a una ecuación del modelo.
23
Modelo en forma reducida
Postmultiplicando la forma estructural por Γ−1 tenemos
• y′tΓΓ−1 = −x′tBΓ−1 + ϵtΓ
−1 ⇒ y = x′tΠ+ ν ′t
• Y ΓΓ−1 = −XBΓ−1 + EΓ−1 ⇒ Y = XΠ+ V
donde hemos definido Π ≡ BΓ−1 como los parámetrosreducidos del sistema.
FormaReducida
Y = XΠ+ V
24
Partiendo del modelo estructural
qt = α0 + α1pt + α2xt + ϵdt (demanda)qt = β0 + β1pt + ϵst (oferta)
escribimos[pt qt
]y′t
[−α1 −β1
1 1
]Γ
+[1 xt
]x′t
[−α0 −β0
−α2 0
]B
=[ϵdt ϵst
]ϵ′t
y llegamos a la forma reducida:
p∗t =α0 − β0β1 − α1
π11
+α2
β1 − α1π21
xt +ϵdt − ϵstβ1 − α1
ν1
q∗t =α0β1 − α1β0
β1 − α1π12
+β1α2
β1 − α1π22
xt +β1ϵ
dt − α1ϵ
st
β1 − α1ν2 25
Supuestos acerca del término de error: esperanza
Forma estructural Forma reducida
E [ϵt|xt] = 0 E [νt|xt] =(Γ−1
)′0 = 0
E[ϵtϵ
′t|xt]= Σ E
[νtν
′t|xt]=(Γ−1
)′ΣΓ−1 = Ω
E[ϵtϵ
′s|xt, xs
]= 0 E
[νtν
′s|xt, xs
]=(Γ−1
)′0Γ−1 = 0
26
Supuestos acerca del término de error: limíte de probabilidad
Si suponemos que
plim(1T E
′E)= Σ
plim(1T X
′X)= Q
plim(1T X
′E)= 0
Tenemos que
plim
1
T
Y ′
X ′
V ′
[Y X V] =
Π′QΠ+Ω Π′Q Ω
QΠ Q 0′
Ω 0 Ω
plim
27
Supuestos acerca del término de error: limíte de probabilidad
Forma estructural Forma reducida
plim(1T E
′E)= Σ plim
(1T V
′V)=(Γ−1
)′ΣΓ−1 = Ω
plim(1T X
′X)= Q plim
(1T X
′X)= Q
plim(1T X
′E)= 0 plim
(1T X
′V)= 0Γ−1 = 0
28
Consistencia de MCO de la forma reducida
El estimador MCO de las pendientes Π es consistente
plim Π = plim[(X ′X
)−1X ′Y
]= plim
[(1T X
′X)−1 1
T X′Y]
=(plim 1
T X′X)−1
plim(1T X
′Y)
= Q−1 (QΠ)
= Π
29
Consistencia de MCO de la forma reducida (cont’n)
El estimador MCO de la varianza Ω también es consistente
plim Ω = plim[1T V
′V]
= plim
[1T
(Y −XΠ
)′ (Y −XΠ
)]= plim
(1T Y
′Y)− plim
(1T Y
′XΠ)− plim
(Π′ 1
T X′Y)+ . . .
. . . plim(Π′ 1
T X′XΠ
)= Π′QΠ+Ω−
(Π′Q
)Π−Π′ (QΠ) + Π′ (Q)Π
= Ω
30
Identificación
• El problema de identificación en ecuaciones simultáneasse refiere a cómo obtener los parámetros estructuralesB,Γ,Σ a partir de los parámetros reducidos Π,Ω.
Π = −BΓ−1
Ω =(Γ−1
)′ΣΓ−1
⇒
B =?
Γ =?
Σ =?
• No es un problema de estimación, sino de resolución deun sistema de ecuaciones no lineales.
31
Identificación (cont’n)
• Considere la matriz F = I , y defina Γ = ΓF y B = BF .Entonces
Y Γ +XB = E (estructura verdadera)Y Γ +XB = E (estructura falsa)
• Pero ambas tienen la misma forma reducida!:
Π = −BΓ−1
= −BFF−1Γ−1
= −BΓ−1
= Π
• Decimos que las estructuras son observacionalmenteequivalentes.
32
Identificación: contando parámetros
parámetros estructurales parámetros reducidosΓ M ×M Π K ×M
B K ×M
Σ M ×M Ω M ×M
Total: M(K + 2M) Total: M(K +M)
Exceso de parámetros = M(K + 2M)−M(K +M) = M2
33
Identificación de la ecuación j
Dado que tenemos más parámetros estructurales quereducidos, es necesario tener información no muestral:
• normalizaciones• identidades• exclusiones
• restricciones lineales• restricciones en varianza
La más sencilla son las normalizaciones: en cada ecuación, elparámetro de una variable (usualmente endógena) es uno.
34
Identificación via restricciones lineales por ecuación
La forma estructural puede escribirse como Azt = ϵt:
γ11 . . . γM1 β11 . . . βK1
γ12 . . . γM2 β12 . . . βK2...
γ1M . . . γMM β1M . . . βKM
yt1...
ytM
xt1...
xtK
=
ϵt1
ϵt2...
ϵtM
Algunos de los parámetros de la fila j:[γ1j . . . γMj β1j . . . βKj
]están restringidos porque:
• una variable endógena está normalizada, ej: γjj = 1
• alguna variable está excluida, ej: γ3j = 0 o bien β2j = 0
• dos variables tienen el mismo coeficiente, ej: β2j = β3j 35
La condición de rango
Sea Aj la matriz formada por aquellas columnas de A en lasque la ecuación j tiene restricciones.
Condición de rangoLa ecuación j está idenficada si y solo si la matriz Aj tienerango fila completo; es decir
rango[Aj
]= M
Esta condición es necesaria y suficiente.rango de una matriz
36
La condición de orden
Note que para que se cumpla la condición de rango, esnecesario que Aj tenga al menos M columnas.
Condición de ordenPara que la ecuación j esté identificada, es necesario que elnúmero de restricciones en tal ecuación sea mayor o igual alnúmero de variables endógenas del sistema (= al número deecuaciones)
Esta condición es necesaria pero no suficiente.
37
Clasificación de ecuaciones
Condición de orden Condición de rango
Sobre-identificada Se cumple condesigualdad
Se cumple
Exactamenteidentificada
Se cumple conigualdad
Se cumple
Sub-identificada alguna condición no se cumple
• Se dice que está identificada sólo si está“sobre-identificada” o “exactamente-identificada”
• Solo las ecuaciones identificadas pueden ser estimadas
38
• El modelo estructural es
qt = α0 + α1pt + α2xt + ϵdt (demanda)qt = β0 + β1pt + ϵst (oferta)
• Las variables endógenas son qt, pt• Las variables exógenas son: 1, xt
39
Azt =
[1 −α1 −α0 −α2
1 −β1 −β0 0
]pt
qt
1
xt
=
[ϵdtϵst
]
Entonces
A1 =
[1
1
]A2 =
[1 −α2
1 0
]Demanda No cumple condición de orden ⇒ no-identificada
Oferta Cumple condición de rango si y solo si α2 = 0.
En conclusión, podemos estimar la oferta siempre y cuando lademanda efectivamente dependa de xt. La demanda no puedeser estimada.
40
• Considere el sistema
Ct = α0 + α1Yt + ϵ1t
It = β0 + β1 (Yt − Yt−1) + ϵ2t
Yt = Ct + It +Gt
• Las variables endógenas son Ct, It, Yt• Las variables exógenas/predeterminadas son: 1, Yt − 1, Gt
41
Azt =
1 0 −α1 −α0 0 0
0 1 −β1 −β0 β1 0
−1 −1 1 0 0 −1
Ct
It
Yt
1
Yt−1
Gt
=
ϵ1tϵ2t
0
Entonces
A1 =
1 0 0 0
0 1 β1 0
−1 −1 0 −1
A2 =
1 0 −α1 0
0 1 β1 0
−1 −1 0 −1
42
Ecuación 1 • Tenemos rango[A1
]= 3 ⇒ identificada.
• A1 tiene 4 columnas pero 3 filas ⇒sobre-identificada.
Ecuación 2 • Ahora rango[A2
]= 3 ⇒ identificada.
• A2 tiene 4 columnas pero 3 filas ⇒sobre-identificada.
Ecuación 3 • Es una identidad ⇒ no hay nada que estimar.
43
• Considere el modelo[1 ϕ
γ 1
][xt
yt
]=
[β11 β12
β21 β22
][xt−1
yt−1
]+
[ϵxt
ϵyt
]• Hay 2 ecuaciones pero cada una tiene únicamente unarestricción (la normalización), por lo que la condición deorden no se cumple ⇒ ninguna ecuación estáidentificada.
• Para poder estimar este modelo, sería necesario añadirnuevas restricciones.
• Suponga que estamos dispuestos a asumir que loserrores no están correlacionados y que xt no responde ayt contemporaneamente:
Var[ϵt] =
[σ2x 0
0 σ2y
]ϕ = 0
44
Si Ω es la varianza de los errores de forma reducida, entonces
Ω ≡
[ω21 ρω1ω2
ρω1ω2 ω22
]=
[1 01γ 1
][σ2x 0
0 σ2y
][1 1
γ
0 1
]
=
[σ2x
σ2xγ
σ2xγ
σ2x
γ2 + σ2y
]
Así, conociendo Ω (estimado a partir de la forma reducida), losparámetros estructurales estarían identificados!
σ2x = ω2
1 γ =ω1
ρω2σ2y =
(1− ρ2
)ω22
45
• Antes de continuar, observe que
Ω ≡
[ω21 ω12
ω12 ω22
]=
[1 01γ 1
][σ2x 0
0 σ2y
][1 1
γ
0 1
]
=
[σx 0σxγ σy
][σx
σxγ
0 σy
]
• Es decir, hemos descompuesto Ω como el producto deuna matriz triangular inferior y su transpuesta: Ω = LL′
• Toda matriz simétrica semi-definida positiva puede serdescompuesta así.
• Esta es la descomposición de Choleski.
46
Métodos de estimación
• Se clasifican en métodos indirectos y métodos directos.• Los directos se clasifican en dos grupos:
Métodos deinformación limitada
Métodos deinformación completa
• OLS• IV• 2SLS• GMM• LIML
• 3SLS• FIML• GMM
47
Mínimos cuadrados indirectos (ILS)
• Es posible estimar Π y Ω consistentemente con OLS, peroestos parámetros no son de interés (excepto paraproyectar Y |X).
• No obstante, si el sistema está identificado, se puede usarMínimos Cuadrados Indirectos (ILS), que consiste enestimar ΓILS, BILS y ΣILS en función de ΠOLS y ΩOLS.
• Propiedades:• factible pero ineficiente• puede haber más de una solución (si está sobre-identificado).
48
Mínimos cuadrados ordinarios (OLS)
Escribimos la ecuación j como
yj = Y ′j γj +X ′
jβj + ϵj =[Yj Xj
]Zj
[γj
βj
]δj
+ ϵj = Zjδj + ϵj
Estimador OLS
δjOLS
=(Z ′jZj
)−1Z ′jyj
= δj +(Z ′jZj
)−1Z ′jϵj
= δj +
[Y ′jYj Y ′
jXj
X ′jYj X ′
jXj
]−1 [Y ′j ϵj
X ′jϵj
]
OLS es inconsistente porque plim[1T Y
′j ϵj
]= 0
49
Caso particular: Modelo recursivo
En el modelo recursivo
y1 = x′β1 + ϵ1
y2 = x′β2 + γ12y1 + ϵ2
...yM = x′βM + γ1My1 + · · ·+ γM−1,MyM−1 + ϵM
Γ es triangular y Σ es diagonal, entonces OLS es consistente yeficiente, porque
Cov [y1, ϵ2] = Cov[x′β1 + ϵ1, ϵ2
]= 0
y así sucesivamente.
50
Variables instrumentales (IV)
• Para la ecuación yj = Y ′j γj +X ′
jβj + ϵj = Zjδj + ϵj
suponemos que existe matriz WjT×(Mj+Kj)
tal que:
plim(1T W
′jZj
)= ΣWZ (instrumento correlacionado con regresores)
plim(1T W
′jWj
)= ΣWW (instrumento tiene varianza finita)
plim(1T W
′jϵj)= 0 (instrumento NO correlacionado con errores)
Estimador IVδj
IV=(W ′
jZj
)−1W ′
jyj
= δj +(1T W
′jZj
)−1 ( 1T W
′jϵj)
IV es consistente porque plim[1T W
′jϵj
]= 0
51
Mínimos cuadrados en dos etapas (2SLS)
Consiste en usar como intrumentos para Yj los valoresajustados por la regresión de Yj en todas las X ’s del sistema.
Etapa 1 Ajustar Yj por OLS usando todas las X
YjOLS
= XΠjOLS
= X(X ′X
)−1X ′Yj
Etapa 2 Usar IV con W =[Yj
OLSX]:
Estimador 2SLS δj2SLS
=
[Y ′j
OLSYj Y ′
j
OLSXj
X ′jYj X ′
jXj
]−1 [Y ′j
OLSyj
X ′jyj
]
Si no hay autocorrelación ni heteroscedasticidad entonces2SLS es el estimador IV más eficiente usando sólo lainformación de X
52
En 01-modelo klein.prg estimamos el Modelo I de Klein(1950)§:
Ctconsumo
= α0 + α1Pt + α2Pt−1 + α3(Wpt +Wgt) + ϵ1t
Itinversión
= β0 + β1Pt + β2Pt−1 + β3Kt−1 + ϵ2t
Wptsalariosprivados
= γ0 + γ1Xt + γ2Xt−1 + γ3At + ϵ3t
Xtproducto
= Ct + It +Gt
Ptutilidades
= Xt − Tt −Wpt
Ktcapital
= Kt−1 + It−1
§Basado en Greene (2012, pp332-333)
53
• Las variables exógenas son:• Gt = gasto (no salarial) del gobierno• Tt = impuestos indirectos a las empresas + exportacionesnetas
• Wgt = gastos salarial del gobierno• At = tendecia, años desde 1931
• Hay tres variables predeterminadas: los rezagos del stockde capital, utilidades privadas, y demanda total.
• El modelo contiene 3 ecuaciones de comportamiento, unacondición de equilibrio, y dos identidades contables.
• En este laboratorio replicaremos el trabajo de Klein, quienestimó este modelo con datos anuales de 1921 a 1941.
54
El estimador 2SLS del sistema es¶:
Ct = 16.55(11.28)
+ 0.02(0.13)
Pt + 0.22(1.81)
Pt−1 + 0.81(18.11)
(Wpt +Wgt) + ϵ1t
It = 20.28(2.42)
+ 0.15(0.78)
Pt + 0.62(3.40)
Pt−1 − 0.16(3.93)
Kt−1 + ϵ2t
Wpt = 0.07(0.06)
+ 0.44(11.08)
Xt + 0.15(0.04)
Xt−1 + 0.13(4.02)
At + ϵ3t
¶Estadístico t en paréntesis
55
En el modelo de la telaraña para los mercados de maíz y detrigo
qsmt = 0.5pm,t−1 − 0.2pw,t−1 + 200 + ϵsmt (oferta de maíz)qswt = −0.2pm,t−1 + 0.4pw,t−1 + 80 + ϵswt (oferta de trigo)qdmt = −0.2pmt + 1.2pwt + 100 + ϵdmt (demanda de maíz)qdwt = 1.1pmt − 0.4pwt + 50 + ϵdwt (demanda de trigo)
Este modelo lo analizamos con Python en 01telaraña.ipynb y con EViews en 02-sistemasdinamicos.prg
56
Las tareas del macroeconometrista ‖
Los macroeconometristas hacen cuatro cosas:
1. describen y resumen datos macroeconómicos2. realizan pronósticos macroeconómicos3. cuantifican lo que sabemos (y lo que no sabemos) acerca
de la verdadera estructura de la macroeconomía4. aconsejan (y a veces llegan a ser) a los hacedores de
política.
‖Esta introducción está basada en Stock y Watson (2001)
57
Un poco de historia
• En los 1970s, estas cuatro tareas se realizaban usando unavariedad de técnicas.
• Pero después del caos macroeconómico de los 1970s,ninguna de esas técnicas parecía apropiada.
• En 1980, Sims (1980, pp.15) afirma queDebe ser factible estimar modelos macro de granescala como formas reducidas sin restricciones,tratando todas las variable como endógenas.
58
La propuesta de Sims
• En 1980, Sims propone una nueva técnicamacroeconométrica: el vector autorregresivo (VAR)
• Un VAR es un modelo lineal de n ecuaciones y n variables,en el cual cada variable es explicada por sus propiosrezagos, más los valores actuales y rezagados de las otrasn− 1 variables.
• Este sencillo esquema provee una manera sistemática decapturar la gran dinámica en series de tiempo múltiples, ylas herramientas estadísticas que vienen con los VAR sonfáciles de usar y de interpretar.
59
Las series de tiempo
• En lo que sigue, asumimosque hay n series detiempo.
• La observación t sedenota yt, corresponde aun vector columna con n
datos (uno por cada serie)
60
Distintos “sabores” de VAR
• En general, hay tres variedades de VAR:1. VAR en forma reducida2. VAR recursivo3. VAR estructural
• Se distinguen por cómo se presentan las relacionescontemporáneas entre las variables.
61
El proceso VAR(p) en forma reducida
• El VAR reducido expresa cada variable como función linealde los rezagos de todas las variables en el sistema y deun término de error sin correlación serial.
• Si hay p rezagos, el VAR reducido se representa
VAR(p) yt = c+Φ1yt−1 +Φ2yt−2 + · · ·+Φpyt−p + ϵt
donde Φj es la matriz n× n de coeficientes del rezago j.• El término de error cumple:
E ϵt = 0 Var ϵt = Ω Cov[ϵt, ϵs] = 0 if t = s
• No hay relación contemporánea entre las variables.62
El proceso VAR(p) estructural
• El VAR estructural es similar al reducido, pero lasvariables tienen relación contemporánea.
• Para determinarla, se use teoría económica.• Se requiere de “supuestos de identificación” quepermitan interpretar correlaciones como causalidad.
• Se representa como
Γ0yt = d+ Γ1yt−1 + Γ2yt−2 + · · ·+ Γpyt−p + εt
donde Γj es la matriz n× n de coeficientes del rezago j.• El término de error cumple:
E εt = 0 Cov[εit, εjs] =
σ2i , if t = s and i = j
0, de lo contrario.
63
El proceso VAR(p) en forma recursiva
• El VAR recursivo es un caso particular del VAR estructural,donde las variables tienen relación contemporánea demanera recursiva:
• y1t es “exógena”• y2t depende sólo de y1t• y3t depende de y1t y de y2t• ynt depende de todas las demás.
• Note que el ordenamiento de las variables es importante,habiendo n! formas de ordenarlas.(Por ejemplo, en unVAR de cinco variables, hay 5! = 120 ordenamientos).
• Al igual que el VAR estructural, se representa como
Γ0yt = d+ Γ1yt−1 + Γ2yt−2 + · · ·+ Γpyt−p + εt
pero con la restricción de que Γ0 es uni-triangular inferior.
64
Forma reducidayt = y0 + α11yt−1 + α12mt−1 + α13zt−1 + uy
t
mt = m0 + α21yt−1 + α22mt−1 + α23zt−1 + umt
zt = z0 + α31yt−1 + α32mt−1 + α33zt−1 + uzt
Forma estructuralyt + β1mt = y0 + α11yt−1 + α12mt−1 + α13zt−1 + uy
t
mt + β2zt = m0 + α21yt−1 + α22mt−1 + α23zt−1 + umt
zt + β3yt + β4mt = z0 + α31yt−1 + α32mt−1 + α33zt−1 + uzt
Forma recursivayt =y0 + α11yt−1 + α12mt−1 + α13zt−1 + uy
t
γ1yt +mt =m0 + α21yt−1 + α22mt−1 + α23zt−1 + umt
γ2yt + γ3mt + zt =z0 + α31yt−1 + α32mt−1 + α33zt−1 + uzt
65
Pasando de un VAR estructural (o recursivo) a uno reducido
• Si la matriz Γ0 es invertible (lo que está garantizado en elVAR recursivo), entonces se puede convertir el VARreducido así:
Γ0yt = d+ Γ1yt−1 + · · ·+ Γpyt−p + εt
yt = Γ−10 d+ Γ−1
0 Γ1yt−1 + · · ·+ Γ−10 Γpyt−p + Γ−1
0 εt
= c+Φ1yt−1 +Φ2yt−2 + · · ·+Φpyt−p + ϵt
• Las matrices de covarianza cumplen
Ω = Γ−10 ΣΓ′−1
0
66
La descomposición de Cholesky
• Recuerde que
Σ =
σ21 0 . . . 0
0 σ22 . . . 0
. . .0 0 . . . σ2
n
⇒ Σ1/2 =
σ1 0 . . . 0
0 σ2 . . . 0
. . .0 0 . . . σn
• Así
Ω =[Γ−10 Σ1/2
] [Γ−10 Σ1/2
]′• En el caso de un VAR recursivo, Γ0 es tringular inferior, ypor tanto Γ−1
0 Σ1/2 también lo es.• Así, hemos obtenido la descomposición de Cholesky de Ω.
67
Ω = PP ′ =[Γ−10 Σ1/2
] [Γ−10 Σ1/2
]′= Γ−1
0 ΣΓ′−10
Si y′t =[mt rt kt
]y la matriz de covarianza reducida es
Ω =
1 0.5 −1
0.5 4.25 2.5
−1 2.5 12.25
=
1 0 0
0.5 2 0
−1 1.5 3
P
1 0.5 −1
0 2 1.5
0 0 3
P ′
=
1 0 0
0.5 1 0
−1 0.75 1
Γ−10
1 0 0
0 4 0
0 0 9
Σ
1 0.5 −1
0 1 0.75
0 0 1
Γ′−1
0
Por lo que
Γ0 =
[1 0 0
−0.5 1 0
1.375 −0.75 1
]Entonces σ2
r = 4 y un aumento de una unidad en mt provocauna disminución contemporanea de 1.375 en kt.
68
VAR con series como desviación de la media
• Si el VAR es estacionario, su media E yt ≡ µt es constante• Así,
yt = Φ1yt−1 + · · ·+Φpyt−p +c+ ϵt
µ = Φ1µ + · · ·+Φpµ +c+ E ϵt
yt − µ = Φ1 (yt−1 − µ) + · · ·+Φp (yt−p − µ) +ϵt
• La media del proceso es
µ = (I − Φ1 − Φ2 · · · − Φp)−1 c
• Definimos y ≡ yt − µ. El VAR(p) con series comodesviación de la media es
yt = Φ1yt−1 + · · ·+Φpyt−p + ϵt
69
VAR(p) escrito como VAR(1)
ytyt−1
yt−2
...yt−p+1
Yt
=
Φ1 Φ2 Φ3 . . . Φp−1 Φp
I 0 0 . . . 0 0
0 I 0 . . . 0 0
. . .0 0 0 . . . I 0
Φ
yt−1
yt−2
yt−3
...yt−p
Yt−1
+
ϵt0
0...0
ξt
asíYt = ΦYt−1 + ξt
70
El VAR(2)[xt
yt
]=
[.5 .1
.4 .5
][xt−1
yt−1
]+
[0 0
.25 0
][xt−2
yt−2
]+
[ϵxt
ϵyt
]
se escribe como VAR(1)xt
yt
xt−1
yt−1
=
.5 .1 0 0
.4 .5 .25 0
1 0 0 0
0 1 0 0
xt−1
yt−1
xt−2
yt−2
+
ϵxt
ϵyt
0
0
71
Dinámica de un proceso VAR(1)
• A menudo necesitamos iterar en la fórmula del AR(1) paraanalizar su dinámica.
• En esos casos, es útil observar que:(1 + ΦL+Φ2L2 + · · ·+ΦsLs
)(I − ΦL) =
(I − Φs+1Ls+1
)• Así, si queremos expresar Yt en términos de Yt−s−1
(I − ΦL) Yt = ξt(I − Φs+1Ls+1
)Yt =
(1 + ΦL+Φ2L2 + · · ·+ΦsLs
)ξt
Yt − Φs+1Yt−s−1 = ξt +Φξt−1 + · · ·+Φsξt−s
72
Pasado versus futuro
Pasado Cuando queremos analizar Yt en función deshocks pasados, utilizamos
Yt = ξt +Φξt−1 + · · ·+Φsξt−s +Φs+1Yt−s−1
Futuro Para analizar el efecto de nuevos shocks sobrefuturos valores de Y , aplicamos L−s a la últimaecuación:
Yt+s = ξt+s +Φξt+s−1 + · · ·+Φsξt +Φs+1Yt−1
73
VAR(1) escrito como VMA(∞)
Yt = ξt + Φξt−1 + · · ·+ Φsξt−s + Φs+1Yt−s−1
• Si los eigenvalores de Φ están en el círculo unitario ellímite s → ∞ converge a
Yt = ξt +Φξt−1 +Φ2ξt−2 + . . .
74
Impulso respuesta
Yt+s = ξt+s + Φξt+s−1 + · · ·+ Φsξt + Φs+1Yt−1
• La función de impulso-respueta mide la respuestaobservada en la variable m-ésima s períodos después(Yt+s,m) de que se presenta un impulso en la k-ésimavariable (ξt,k)
• Viene dada por∂Yt+s,m
∂ξt,k= (Φs)km
es decir, por el elemento en la fila k, columna m, de lamatriz Φ elevada al número de períodos s.
75
Interpretando la función de impulso-respuesta
Yt+s = ξt+s + Φξt+s−1 + · · ·+ Φsξt + Φs+1Yt−1
• Suponga que• el sistema estaba en equilibrio en t− 1, es decir Yt−1 = 0
• hay un shock v′ =[v1 . . . vn
]a las variables en t, ξt = v
• el shock es transitorio: 0 = ξt+1 = ξt+2 = . . .
• En este caso, la desviación del sistema respecto a suequilibrio s períodos después del shock es
Yt+s = Φsv
76
Impulso respuesta (cont’n)
Ω = PP ′ =[Γ−10 Σ1/2
] [Γ−10 Σ1/2
]′= Γ−1
0 ΣΓ′−10
• En la práctica, estamos interesados en shocks εt a lasecuaciones estructurales, en vez de a las ecuacionesreducidas ϵt. Esto para tomar en cuenta los efectoscontemporáneos del shock.
• Para calcular las respuestas, nos valemos de ϵt = Γ−10 εt y
de la descomposición de Cholesky de la covarianza de loserrores reducidos Ω:
Tamaño delimpulso
Impulsoestructural
Impulsoreducido
Respuesta
unitarios εt = I v = Γ−10 ΦsΓ−1
0
1 st. dev. εt = Σ1/2 v = Γ−10 Σ1/2 ΦsΓ−1
0 Σ1/2
77
Siguiendo con el ejemplo 9, si y′t =[mt rt kt
]y la matriz de
covarianza reducida es
Ω =
1 0.5 −1
0.5 4.25 2.5
−1 2.5 12.25
=
1 0 0
0.5 2 0
−1 1.5 3
P
1 0.5 −1
0 2 1.5
0 0 3
P ′
=
1 0 0
0.5 1 0
−1 0.75 1
Γ−10
1 0 0
0 4 0
0 0 9
Σ
1 0.5 −1
0 1 0.75
0 0 1
Γ′−1
0
La respuesta del sistema a un shock en kt se calcula a partirde …
• v′ =[0 2 1.5
]si el shock es de una desviación estándar.
• v′ =[0 1 0.75
]si el shock es unitario.
78
Condiciones para la estacionariedad
• Y es estacionario si y solo si todos los eigenvalores de Φ
están dentro del círculo unitario. EXPLICACIÓN
• Los eigenvalores λ de Φ satisfacen:∣∣Iλp − Φ1λp−1 − · · · − Φp
∣∣ = 0
79
Para el VAR(2) del ejemplo 10:
0 =
∣∣∣∣∣[1 0
0 1
]λ2 −
[.5 .1
.4 .5
]λ−
[0 0
.25 0
]∣∣∣∣∣=
∣∣∣∣∣[
λ2 − .5λ −.1λ
−.4λ− .25 λ2 − .5λ
]∣∣∣∣∣=
(λ2 − .5λ
) (λ2 − .5λ
)− (−.4λ− .25) (−.1λ)
= λ4 − λ3 + 0.21λ2 − 0.025λ
Las raíces de este polinomio son λ1 = 0, λ2 = 0.7693,λ3 = 0.1154 + 0.1385i, y λ4 = 0.1154− 0.1385i, todas ellasdentro del círculo unitario. Por lo tanto, el VAR es estacionario.
80
• Hasta el momento hemos estudiado• cómo determinar si un VAR es estacionario• la función de impulso respuesta
• En el cuaderno de Jupyter 02 Simulacion de unVAR.ipynb se introduce un ejemplo para analizar un VAR.
• En el cuaderno de Jupyter 03 VAR(1) clase.ipynb sepresentan 5 modelos VAR reducidos. Acá definimos unaclase para representar un VAR.
81
Especificación de un VAR
• Para especificar un VAR, hay dos cosas que escoger:• Las n series que conforman el VAR• El número p de rezagos a ser incluidos en el modelo
• En contraste con la metodología de Box-Jenkins, elmodelo VAR no es parsimonioso ⇒ un VAR estásobreparametrizado:
• hay n+ pn2 parámetros.• muchos de sus coeficientes no son significativos• regresores posiblemente son altamente colineales,estadísticos t no confiables.
• No obstante, en un VAR los coeficientes individuales noson de interés. Interesa determinar la dinámica delmodelo (impulso respuesta) y la causalidad (Granger).
82
Estimación de un VAR
• El VAR reducido es un sistema de ecuaciones SUR, dondetodas las ecuaciones tienen los mismos regresores.
• Por lo tanto, la estimación OLS ecuación por ecuación esinsesgada, eficiente y consistente.
• La matriz de covarianza de los errores se estima a partirde los residuos
Ω =1
T − np− 1
T∑t=1
ϵtϵt′
83
Estimación de un VAR no estacionario
Si las series son I(1), ¿hay que diferenciarlas para estimar elVAR? Hay un debate respecto:
NO: Algunos aconsejan no diferenciar las series,porque se pierde información, alegando que lameta del VAR es determinar relaciones entrevariables, no los parámetros mismos.
SÍ: Otros advierten que si las series son integradas,el VAR en niveles no es consistente con el procesogenerador de datos. En este caso se aconsejaestudiar la cointegración de las series ⇒ VECM
84
• En el cuaderno de Jupyter 04 VAR insesgado.ipynbse presenta un ejercicio de simulación para ilustrar que elestimador OLS de un VAR es insesgado y consistente.
• Se simula el VAR(1)(xt
yt
)Yt
=
(0.8 0.7
−0.2 0.5
)Φ
(xt−1
yt−1
)Yt−1
+
(ϵx,t
ϵy,t
)ϵt
Ω =
(0.9 0
0 0.9
)
85
Insesgado
Con un experimento de Monte Carlo de 10.000 repeticionesobtenemos esta distribución de las estimaciones.
0.5 0.6 0.7 0.8 0.90
200
400
600
800
A11
0.4 0.6 0.8 1.00
200
400
600
A12
0.4 0.3 0.2 0.10
200
400
600
A21
0.2 0.4 0.60
200
400
600A22
86
Consistente
Simulando una sola muestra, se estima el VAR agregando unaobservación a la vez. Las estimaciones convergen hacia losverdaderos parámetros poblacionales.
0.8
1.0
1.2A11
0.4
0.3
0.2
A12
0 50 100 150 200 250
1.0
1.5
2.0 A21
0 50 100 150 200 250
0.4
0.6
0.8A22
87
Escogiendo el óptimo número de rezagos del VAR
• La selección del número de rezagos p es crítica.• Si p es demasiado pequeño, el modelo está malespecificado
• Si p es demasiado grande, se desperdician grados delibertad.
• Una opción: dejar que p difiera para cada ecuación yvariable ⇒ el VAR no podría estimarse con OLS.
• Por tanto, se determina un sólo p para todas las variablesy ecuaciones, usando dos enfoques distintos
• Descartando los últimos rezagos si no son significativos• Utilizando un criterio de selección que contraponga elajuste a los grados de libertad.
88
Escogiendo el p óptimo con pruebas de significancia
• Suponga que queremos decidir entre p y q número derezagos, con q < p.
• Obtenemos Ω para ambos modelos, usando la mismamuestra.
• Comprobamos la significancia conjunta de los rezagosq + 1, . . . , p con la prueba de razón de verosimilitud
(T − 1− pn)(ln∣∣∣Ωq
∣∣∣− ln∣∣∣Ωp
∣∣∣) asym∼ χ2(n2(p− q))
• Si no se rechaza la hipótesis nula, puede escogerse q
rezagos.• Limitaciones:
• Resultado asintótico, pero muestras usualmente pequeñas• Resultado sensible a escogencia de p y q.
89
Escogiendo el p óptimo con criterios de selección
• En la práctica, el número óptimo de rezagos se escogeminimizando el valor de AIC o de SBC:
AIC = T ln∣∣∣Ω∣∣∣+ 2N
SBC = T ln∣∣∣Ω∣∣∣+N lnT
donde N = n2p+ n es el número total de parámetrosestimados
• Rezagos adicionales reducen Ω, pero incrementando N
90
Usando un VAR para describir los datos
• La práctica usual en el análisis VAR es reportar• pruebas de causalidad de Granger• funciones de impulso respuesta• descomposición de varianza del error de pronóstico
• Usualmente no se reportan los coeficientes estimados niel R2, porque no son tan informativos.
91
Causalidad de Granger
• Las pruebas de causalidad de Granger determinan si losvalores rezagados de una variable ayudan a predecir otravariable.
• Si los rezagos de A no ayudan a predecir B, entoncescoeficientes de los rezagos de A en la ecuación de B sonceros.
• Si alguna variable no es causada en el sentido de Grangerpor ninguna otra, no implica que la variable sea exógena.Bien podría haber causalidad contemporánea.
92
En el modelo VAR(2) con variables yt,mt:
yt = y0 + α11yt−1 + α12mt−1 + β11yt−2 + β12mt−2 + uyt
mt = m0 + α21yt−1 + α22mt−1 + β21yt−2 + β22mt−2 + umt
las pruebas de causalidad de Granger son:
Hipótesis nula Restricciones
m no causa y α12 = β12 = 0
y no causa m α21 = β21 = 0
Si se rechaza, por ejemplo, la primera hipótesis, decimos quem causa y en el sentido de Granger.
93
Pronóstico
Yt+s = ξt+s + Φξt+s−1 + · · ·+ Φs−1ξt+1 + ΦsYt
• Suponga que Φ ha sido estimado con datos hasta t = T .• El mejor pronóstico del sistema s períodos adelante es
E[YT+s | YT
]= ΦsYT
• El error de pronóstico es
YT+s − E[YT+s | YT
]= ξt+s +Φξt+s−1 + · · ·+Φs−1ξt+1
• y su varianza (MSPE) es
Var[YT+s | YT
]= Ω+ ΦΩΦ′ + · · ·+Φs−1ΩΦ′s−1
94
Descomposición de la varianza del shock reducido
• Recuerde que los errores reducidos están relacionadoscon los estructurales por ϵt = Γ−1
0 εt.
• Sea Γ−10 ≡ A =
[a1 . . . an
], con ai la i-ésima columna
de i.• Entonces
ϵt = a1ε1t + a2ε2t + · · ·+ anεnt
Ω = E[ϵtϵ′t] = σ21a1a
′1 + σ2
2a2a′2 + · · ·+ σ2
nana′n
=
n∑j=1
σ2jaja
′j
95
Tomando Ω del ejemplo 9
Ω =
1 0.5 −1
0.5 4.25 2.5
−1 2.5 12.25
=
1 0 0
0.5 1 0
−1 0.75 1
Γ−10
1 0 0
0 4 0
0 0 9
Σ
1 0.5 −1
0 1 0.75
0 0 1
Γ′−1
0
Entonces a′1 =[1 0.5 −1
], a′2 =
[0 1 0.75
], a′3 =
[0 0 1
]y
Ω = 1
1
0.5
−1
[1 0.5 −1
]+ 4
0
1
0.75
[0 1 0.75
]+ 9
001
[0 0 1
]
= 1σ21
1 0.5 −1
0.5 0.25 −0.5
−1 −0.5 1
a1a
′1
+ 4σ22
0 0 0
0 1 0.75
0 0.75 0.5625
a2a
′2
+ 9σ23
0 0 0
0 0 0
0 0 1
a3a
′3
Observe que esta descomposición depende del ordenamientode las variables.
96
Descomposición de la varianza del pronóstico
• Sustituyendo Ω =∑n
j=1 σ2jaja
′j en Var
[YT+s | YT
]tenemos
Var[YT+s | YT
]=
n∑j=1
σ2j
aja
′j +Φaja
′jΦ
′ + · · ·+Φs−1aja′jΦ
′s−1
• Con esta expresión, podemos cuantificar la contribucióndel j-ésimo shock estructural al error cuadrático mediodel pronóstico s-períodos adelante.
• Observe que esto asume que conocemos los parámetrosdel modelo! No toma en cuenta los errores de estimación.
97
Motivation
• A continuación estudiamos la manera de estimar un VARcuyas series no son estacionarias.
• En procesos univariados, basta con diferenciar la serie yaplicar técnicas de Box-Jenkins.
• En proceso multivariados, es necesario determinar si lasseries están cointegradas.
98
Cointegración como equilibrio de largo plazo
• Considere el modelo monetario
mtoferta
= β0 + β1pt + β2yt + β3rtdemanda
+ ϵtbrecha
• Para que la noción de equilibrio tenga sentido, la brechaϵt debe ser estacionaria (I(0))
• Esto a pesar de que mt, pt, yt y rt sean I(1).• Es decir, la combinación lineal de variables I(1)
[1 −β1 −β2 −β3
]mt
pt
yt
rt
= β0 + ϵt
resulta en un proceso I(0)• Decimos que mt, pt, yt y rt están cointegradas, con vectorde cointegración
[1 −β1 −β2 −β3
]. 99
Cointegración como equilibrio de largo plazo (cont’n)
• Teorías de equilibrio con variables no estacionariasrequieren la existencia de una combinación lineal de lasvariables que sea estacionaria
• Otros ejemplos:• Teoría de la función de consumo:
ct = βypt + ctt ⇒[1 −β
] [ctypt
]= ctt es estacionario
• Teoría de la paridad del poder de compra:
et + p∗t − pt =[1 1 −1
]etp∗tpt
es estacionario
100
Regresión espuria
• Considere dos caminatas aleatorias independientes
yt = yt−1 + ut ut ruido blancoxt = xt−1 + vt vt ruido blanco
• Como yt es independiente de xt, uno esperaría que en laregresión
yt = β0 + β1xt + ϵt
el R2 y el β1 tendieran a cero.• Pero este no es el caso. Con series no estacionarias, lacorrelación espuria puede persistir aún en muestrasgrandes.
101
Jupyter 05 Relacion espuria.ipynbRegresión con series I(1):
log(GDP.COSTA.RICAt) = β0 + β1 log(GDP.MALTAt) + ϵt
OLS Regression Results==============================================================================Dep. Variable: CRI R-squared: 0.796Model: OLS Adj. R-squared: 0.791Method: Least Squares F-statistic: 171.6Date: Thu, 22 Jun 2017 Prob (F-statistic): 8.75e-17Time: 21:12:47 Log-Likelihood: 34.112No. Observations: 46 AIC: -64.22Df Residuals: 44 BIC: -60.57Df Model: 1Covariance Type: nonrobust==============================================================================coef std err t P>|t| [0.025 0.975]------------------------------------------------------------------------------Intercept 4.6104 0.308 14.976 0.000 3.990 5.231MLT 0.4284 0.033 13.098 0.000 0.362 0.494==============================================================================Omnibus: 19.096 Durbin-Watson: 0.071Prob(Omnibus): 0.000 Jarque-Bera (JB): 3.965Skew: 0.253 Prob(JB): 0.138Kurtosis: 1.653 Cond. No. 169.==============================================================================
102
Regresión con series I(0):
∆log(GDP.COSTA.RICAt) = β0 + β1∆log(GDP.MALTAt) + ϵt
OLS Regression Results==============================================================================Dep. Variable: CRI R-squared: 0.036Model: OLS Adj. R-squared: 0.014Method: Least Squares F-statistic: 1.625Date: Thu, 22 Jun 2017 Prob (F-statistic): 0.209Time: 21:21:34 Log-Likelihood: 95.392No. Observations: 45 AIC: -186.8Df Residuals: 43 BIC: -183.2Df Model: 1Covariance Type: nonrobust==============================================================================coef std err t P>|t| [0.025 0.975]------------------------------------------------------------------------------Intercept 0.0142 0.007 2.179 0.035 0.001 0.027MLT 0.1465 0.115 1.275 0.209 -0.085 0.378==============================================================================Omnibus: 26.266 Durbin-Watson: 1.184Prob(Omnibus): 0.000 Jarque-Bera (JB): 52.988Skew: -1.613 Prob(JB): 3.12e-12Kurtosis: 7.226 Cond. No. 26.0==============================================================================
103
Definición de cointegración (Engle y Granger 1987)
Se dice que los componentes del vector xt = (x1t, x2t, . . . , xnt)′
están cointegrados de orden (d, b), denotado por xt ∼ CI(d, b),si
1. Todos los componentes de xt son integrados de orden d.2. Existe al menos un vector β = (β1, β2, . . . , βn) tal que la
combinación lineal βxt = β1x1t + β2x2t + · · ·+ βnxnt esintegrada de orden (d− b), donde b > 0.
A β se le llama vector de cointegración
104
Algunas observaciones acerca de la definición de cointegración
1. Cointegración se refiere a combinaciones lineales devariables no estacionarias
2. Si existe, el vector de cointegración no es único3. Cointegración se refiere a variables del mismo
orden;aunque es posible encontrar relaciones deequilibrio entre variables de distinto orden
4. Pueden existir varios vectores de cointegraciónindependientes para un conjunto de variables xt
5. En la mayor parte de la literatura se entiendecointegración como el caso CI(1, 1).
105
Pruebas de cointegración: Engle-Granger
Una receta para determinar si las series están cointegradas:Ingredientes: series de tiempo,
software econométricoPaso 1: Determinar orden de
integración de las seriesPaso 2: Estimar la relación de
equilibrio de largo plazoPaso 3: Estimar el modelo de
corrección de erroresPaso 4: Evaluar si el modelo es
adecuado
106
Los valores críticos de MacKinnon
En la prueba (aumentada) de Engle y Granger,
∆ϵt = γϵt−1 +
n∑i=1
ai∆ϵt−i + εt (nc)
∆ϵt = α0 + γϵt−1 +n∑
i=1
ai∆ϵt−i + εt (c)
∆ϵt = α0 + α1t+ γϵt−1 +
n∑i=1
ai∆ϵt−i + εt (ct)
∆ϵt = α0 + α1t+ α2t2 + γϵt−1 +
n∑i=1
ai∆ϵt−i + εt (ctt)
si γ = 0 los residuos ϵt presentan raíz unitaria, y por ello lasseries no estaría cointegradas.
107
Los valores críticos de MacKinnon (cont’n)
• Para probar la hipótesis nula H0 : γ = 0 contra laalternativa H1 : γ < 0, se utiliza el estadístico tγ .
• No obstante, tγ no tiene la distribución t−student, nisiquiera asintóticamente.
• Dado que no es posible derivar la distribución de tγ
analíticamente, es necesario aproximarla consimulaciones de Monte Carlo.
• A partir de tales simulaciones, MacKinnon (2010) presentavalores críticos, que dependen de
• la especificación determinística (nc, c, ct, ctt),• del número de series en el vector de cointegración• y del tamaño de muestra T .
108
Los valores críticos de MacKinnon (cont’n)
• Los valores se obtienen evaluando un polinomio en 1T
C(p) = β∞ + β1T−1 + β2T
−2 + β3T−3
• Por ejemplo, para probar la cointegración de N = 3
variables, con constante y tendencia (ct), la tabla es
Nivel β∞ β1 β2 β3
1 % -4.663 -18.769 -49.793 104.2445 % -4.119 -11.892 -19.031 77.33210% -3.835 -9.072 -8.504 35.403
• Así, si tenemos 50 observaciones:
C(5%) = −4.119− 11.89250 − 19.031
502+ 77.332
503= −4.3637
109
• En el cuaderno de Jupyter 06 Mackinnon valorescríticos para test de cointegración sepresentan más ejemplos.
• Se muestra cómo los valores críticos cambian con eltamaño de muestra, el número de series que conformanel vector, y la especificación de los componentesdeterminísticas de las series.
110
De VAR a VECM
yt = Φ1yt−1 +Φ2yt−2 +Φ3yt−3 + ϵt
∆yt = (Φ1 − I) yt−1 +Φ2yt−2 +Φ3yt−3 + ϵt
= (Φ1 − I) yt−1 + (Φ2 +Φ3) yt−2 +Φ3 (yt−3 − yt−2) + ϵt
=(Φ1 +Φ2 +Φ3 − I) yt−1 + (Φ2 +Φ3) (yt−2 − yt−1)+
· · ·+Φ3 (yt−3 − yt−2) + ϵt
= (Φ1 +Φ2 +Φ3 − I) yt−1 − (Φ2 +Φ3)∆yt−1 − Φ3∆yt−2 + ϵt
= Πyt−1 + Γ1∆yt−1 + Γ2∆yt−2 + ϵt
Si hay 0 < r < n vectores de cointegración, entonces Π puede serdescompuesta como el producto de los vectores de cointegración β
y los coeficientes de corrección de errores α: rango
VEC ∆yt = αβ′yt−1 +Γ1∆yt−1 + · · ·+Γp−1∆yt−p+1 + ϵt111
• Suponga que en el largo plazo se cumple la PPP:pt = et + p∗t + errort y que las tres variables son I(1) yrelacionadas como un VAR(2)
• La representación VECM es∆p∗t = α1 (pt − et − p∗t ) + γ11∆p∗t−1 + γ12∆et−1 + γ13∆pt−1 + ϵ1t
∆et = α2 (pt − et − p∗t ) + γ21∆p∗t−1 + γ22∆et−1 + γ23∆pt−1 + ϵ2t
∆pt = α3 (pt − et − p∗t ) + γ31∆p∗t−1 + γ32∆et−1 + γ33∆pt−1 + ϵ3t
• o bien∆p∗t∆et
∆pt
=
α1
α2
α3
[−1 −1 1]p∗t−1
et−1
pt−1
+ Γ1
∆p∗t−1
∆et−1
∆pt−1
+ ϵt
• Este modelo explica la inflación internacional, ladepreciación, y la inflación doméstica en función de suspropios rezagos y la desviación de los precios y tipo decambio respecto a su equilibrio de largo plazo.
112
Pruebas de cointegración: Johansen
• La prueba de Johansen puede verse como unageneralización multivariada de la prueba aumentada deDickey-Fuller
• La prueba y estrategia de estimación permiten estimartodos los vectores de cointegración
• Similar a la prueba ADF, la existencia de raíces unitariasimplican que la teoría asintótica estándar no esapropiada.
113
Raíces unitarias: modelo univariado versus multivariado
• Comparemos la prueba ADF con el VECM
∆yt = πyt−1 + γ1∆yt−1 + · · ·+ γp∆yt−p + ϵt (univariado)∆yt = Πyt−1 + Γ1∆yt−1 + · · ·+ Γp∆yt−p + ϵt (multivariado)
• En la prueba ADF, probamos si yt tiene raíz unitaria conH0 : π = 0
• En el caso multivariado, Johansen determina si las seriesestán cointegradas a partir del rango de Π
114
Rango de una matriz vectores de cointegración
• Posibles casos del rango:0: implica Π = 0, todas las series son I(1) pero
no están cointegradas. VAR en diferencias0 < r < N : hay r vectores de cointegración, y escribimos
Π = αβ′. VECMN: cualquier combinación lineal es estacionaria,
lo que implica que las series originales eranestacionarias.
115
Usando los eigenvalores para determinar el rango
• El rango de una matriz es igual al número de suseigenvalores distintos de cero.
• Por ello, las pruebas de Johansen están basadas en loseigenvalores de una matriz Π∗ semidefinida positiva,derivada a partir de Π.
• Suponga que obtenemos Π∗ y ordenamos suseigenvalores de manera tal que
λ1 ≥ λ2 ≥ · · · ≥ λN ≥ 0
116
Prueba de la traza y del máximo eigenvalor
Prueba de latraza λtraza(r) = −T
N∑i=r+1
ln(1− λi
)
Prueba delmáximo
eigenvalorλmax(r, r + 1) = −T ln
(1− λr+1
)
• Note que λi ≥ 0 ⇒ ln (1− λi) ≤ 0. Ambos estadísticos sonno-negativos
• Valores grandes de los estadísticos apuntan a que loseigenvalores son positivos, implicando la existencia decointegración.
117
• Johansen y Juselius (1990) analizan la cointegración de[m2t yt idt ibt
], con datos trimestrales de Dinamarca
para el período 1974:1 a 1987:3 (T=53).
H0 λi λmax λtraza
r = 0 0.4332 30.09 49.14r = 1 0.1776 10.36 19.05r = 2 0.1128 6.34 8.69r = 3 0.0434 2.35 2.35
118
Referencias
Engle, Robert F. y C.W.J. Granger (1987). “Co-integration andError Correction: Representation, Estimation, and Testing”.En: Econometrica 55.2, págs. 251-276.
Greene, William H. (2012). Econometric Analysis. 7a ed. PrenticeHall. isbn: 0-13-139538-6.
Lucas, Robert E. (1996). “Nobel Lecture: Monetary Neutrality”.En: Journal of Political Economy 104.4, págs. 661-682.
Lucas, Robert Jr (1976). “Econometric policy evaluation: Acritique”. En: Carnegie-Rochester Conference Series onPublic Policy 1.1, págs. 19-46.
119
MacKinnon, James G. (2010). Critical values for cointegrationtests. Queen’s Economics Department Working Paper 1227.Kingston, Ont.
Sims, Christopher A. (1980). “Macroeconomics and Reality”. En:Econometrica 48.1.
Stock, James H. y Mark W. Watson (2001). “VectorAutoregressions”. En: Journal of Economic Perspectives 15.4(Fall), págs. 101-115.
Walsh, Carl E. (2010). Monetary Theory and Policy. 3a ed. MITPress. isbn: 978-0262-013772.
120
El producto Kronecker
• Si A =
[a b
c d
]y B son matrices, el producto Kronecker se
define por
A⊗B =
[aB bB
cB dB
]• Algunas propiedades importantes:
(A⊗B)′ = A′ ⊗B′
(A⊗B)−1 = A−1 ⊗B−1
(A⊗B)(C ⊗D) = (AC)⊗ (BD)
x
121
Convergencia en probabilidad
• Una secuencia Xn de variables aleatorias converge enprobabilidad hacia la variable aleatoria X si para todoϵ > 0
limn→∞
Pr (|Xn −X| > ϵ) = 0
• Para denotar que Xn converge en probabilidad hacia X
escribimos
Xnp−→ X o bien plimXn = X
x
122
Propiedades de la convergencia en probabilidad
Sean c una constante, g() una función continua, y Xn, Yn dossecuencias de variables aleatorias. Entonces:
• plim c = c
• plim cXn = cplimXn
• plim (Xn + Yn) = plimXn + plimYn
• plim (XnYn) = (plimXn) (plimYn)
• plim g(Xn) = g (plimXn)
x
123
El rango de una matriz
• El rango de una matriz A de tamaño M ×N se denota porrango[A] y se define como el número de filas (o columnas)que son linealmente independientes.
• Necesariamente, se cumple que
rango[A] ≤ min M,N
• Si rango[A] = M , decimos que A tiene rango fila completo.• Si rango[A] = N , decimos que A tiene rango columnacompleto.
x
124
Factorización de rango
Suponga que A es una matriz n× n con rango r < n. Existenlas matrices X y Y de dimensión r × n tal que:
A = X ′Y
x
125
Descomposición espectral de una matrix
Si los eigenvectores de la matriz cuadrada A son linealmenteindependientes, entonces
Descomposiciónespectral
A = CΛC−1
donde Λ es la matriz diagonal formada por los eigenvalores deA:
Λ =
λ1 0 . . . 0
0 λ2 . . . 0. . .
0 0 . . . λn
y las columnas de C son los correspondientes eigenvectoresde A. x
126
Potencia de una matriz
Si A tiene la descomposición espectral A = CΛC−1 es fácilcalcular su t-ésima potencia:
At = CΛtC−1
ya que
Λt =
λt1 0 . . . 0
0 λt2 . . . 0
. . .0 0 . . . λt
n
x
127
Representación de números complejos
ℑz
ℜz
b
a
z
θ = arctan (b/a)
R=
√ a2 +
b2
R cos θ
Rsinθ
a+ bi = R(cos θ + i sin θ) = Reiθ
128
Multiplicación de números complejos
• Si z = Reiθ y w = Seiφ, entonces su producto es
zw = RSei(θ+φ)
• Así, si elevamos z a la n-ésima potencia:
zn =(Reiθ
)n= Rneinθ
• Es decirlimn→∞
zn = 0 ⇔ |R| < 1
x
129
SUR: las regresiones tienen los mismos regresores
En el caso especial X1 = · · · = XM = X tenemos
X =
X1 0 . . . 0
0 X2 . . . 0. . .
0 0 . . . XM
=
X 0 . . . 0
0 X . . . 0. . .
0 0 . . . X
= I ⊗ X
y el estimador GLS es
βGLS =[X′(Σ⊗ I)−1X
]−1X′(Σ⊗ I)−1Y
=[(I ⊗ X)′(Σ⊗ I)−1(I ⊗ X)
]−1(I ⊗ X)′(Σ⊗ I)−1Y
=[(I ⊗ X′)(Σ−1 ⊗ I)(I ⊗ X)
]−1(I ⊗ X′)(Σ−1 ⊗ I)Y
=[Σ−1 ⊗ (X′X)
]−1 [Σ−1 ⊗ X′]Y
=[Σ⊗ (X′X)−1
] [Σ−1 ⊗ X′]Y
=[I ⊗ (X′X)−1X′]Y 131
βGLS =[I ⊗ (X′X)−1X′]Y
=
(X′X)−1X′ 0 . . . 0
0 (X′X)−1X′ . . . 0. . .
0 0 . . . (X′X)−1X′
y1
y2...
yM
=
(X′X)−1X′y1
(X′X)−1X′y2...
(X′X)−1X′yM
=
βOLS1
βOLS2...
βOLSM
Si todas las regresiones tienen los mismos regresores, elsistema SUR puede estimarse con OLS ecuación por ecuación.x
132