serie apuntes de clase f&e n° 02...la ausencia de experimentación controlada está conspirando...

Serie Apuntes de Finance and Econometrics Group N°02. Octubre del 2020.

ECONOMETRIA DE DATOS DE

PANEL CON APLICACIONES

EN STATA 15

Rafael Bustamante [email protected]

La Serie Apuntes de Finance and Econometrics Group S.A.C. tiene por objetivo difundir los materiales de enseñanza generados por los docentes que tienen a su cargo el desarrollo de las asignaturas de la empresa. Estos documentos buscan proporcionar a los estudiantes una explicación de algunos temas específicos que son abordados en su formación profesional.

Serie Apuntes de Clase F&E N° 02

Octubre de 2020


ECONOMETRÍA DE DATOS DE

PANEL: APLICACIONES EN STATA 16

Rafael Bustamante Romaní

RESUMEN

El aumento de bases de datos, junto con el progreso en las técnicas econométricas, ha facilitado el

perfeccionamiento de estudios cada vez más sofisticados de los fenómenos económicos, permitiendo asesorar

más acertadamente a los responsables de la elaboración de las políticas públicas y a los hombres de negocios.

S in embargo, estas herramientas se han tornado cada vez más complejas, demandando un alto grado de

conocimiento teórico y práctico para poder implementarlas. La metodología de Datos de Panel es una de las

más usadas en los últimos tiempos en el ámbito de la economía, las finanzas y los negocios. Su riqueza radic a

en que permite trabajar simultáneamente varios periodos de tiempo y los efectos individuales, y a su vez, tratar

el problema de la endogeneidad. A pesar de las ventajas de esta técnica, existen diversos obstáculos para su

implementación, tanto metodológicos como operativos. Esta guía intenta ayudar a los alumnos, investigadores

y profesionales que buscan llevar a cabo estudios utilizando Datos de Panel, ofreciendo una pauta para manejar

y analizar datos, en forma conjunta con revisar sus fundamentos.

Palabras Claves: Econometría de datos de Panel, especificaciones, Efectos Fijos, Efectos aleatorio

Clasificación JEL: C2, C25

Estudios de Doctorado en Economía, Universidad Autónoma de México. Maestría en Economía con mención en

Finanzas, MBA CENTRUM Pontificia Universidad Católica del Perú. B. Sc. Economía, Universidad Nacional Mayor de San

Marcos. Profesor del Departamento de Economía de UNMSM. Investigador asociado al Instituto de Investigaciones

FCE – UNMSM. Investiga. Contacto: [email protected]

mailto:[email protected]

Contenido

1. Introducción ................................................................................................................... 1

2. Metodología ................................................................................................................... 5

2.1 Desventajas del uso de los datos de panel ........................................................... 11

2.2 Efectos Fijos versus efectos Aleatorios................................................................. 19

2.3 Nuestro marco de análisis y los estimadores alternativos................................... 21

2.4 Estimador Within................................................................................................... 22

2.5 Estimador Between ............................................................................................... 24

2.6 Estimador de mínimos cuadrados generalizados ................................................. 25

2.7 Mínimos cuadrados generalizados factibles ........................................................ 28

2.8 Estimador a usar .................................................................................................... 29

2.9 Efectos no observados .......................................................................................... 29

2.10 Existe correlación entre los efectos no observados y los Regresores ................. 31

3. Aplicaciones.................................................................................................................. 33

3.1. Configurando ..................................................................................................... 33

3.2. Análisis de datos panel de dos períodos ........................................................... 37

4. Controlando la heterogeneidad dentro de un panel .................................................. 41

4.1. Regresión agrupada (POOLED OLS) ...................................................................... 41

4.2 Efectos Aleatorios (Random Effects) ..................................................................... 42

4.4. Efectos Fijos (Fixed Effects) .................................................................................. 44

4.6 Autocorrelación ................................................................................................. 47

4.7. Heterocedasticidad ............................................................................................ 51

5. Efectos fijos vs. Aleatorios ........................................................................................... 51

6. Efectos temporales (two-way fixed effects)................................................................ 52

7. Bibliografía ................................................................................................................... 55


Econometría de Datos de Panel: Aplicaciones en Stata 16. Bustamante Romaní, Rafael.

1

1. Introducción

Si se dispone de información de corte transversal para un conjunto de N individuos las

ganancias de que se tienen de tener información sobre cada uno de los individuos para

distintos períodos de tiempo se pueden expresar en:

➢ Primero es que logramos expandir el tamaño de nuestra base de datos, y, con esto,

dispondremos de más grados de libertad.

➢ Segundo es el hecho de contar con información referida a varios individuos

contribuye a reducir la colinealidad que es usual encontrar en un modelo de series

de tiempo. Todo esto contribuye a incrementar la precisión de nuestros estimados;

es decir, a reducir su varianza (Beltran & Castro, 2010).

➢ Un conjunto de datos panel (o longitudinales) consta de una serie temporal para

cada miembro del corte transversal en el conjunto de datos. Como ejemplo,

suponga que se tienen las variables de salario, educación, nivel de crédito, acceso a

educación y experiencia de un grupo de individuos a los que se les hace

seguimiento por varios años. De igual forma es posible recopilar información en

unidades geográficas. Por ejemplos, datos de los gobiernos regionales de un país

sobre impuestos, salarios, nivel de ejecución del gasto público, niveles de

educación, entre otros.

La característica principal de los datos panel, que los diferencian de las combinaciones de

cortes transversales, es el hecho de que se da un seguimiento a las mismas unidades

transversales ya sean individuos, países, regiones, entre otros, durante cierto período de

tiempo (Software Shop, 2013).

Como los datos de panel exigen la repetición de las mismas unidades con el tiempo, los

conjuntos de estos datos, en particular de los individuos, hogares y empresas, son más



2

difíciles de conseguir que en las combinaciones de corte transversales. La ventaja es que

al tener las mismas unidades es posible controlar ciertas características inobservadas de

individuos, empresas, países, bancos, etc.

Es decir, es posible capturar inferencias causales que no es posible capturar con los cortes

transversales. La segunda ventaja de los datos panel es que permite estudiar la

importancia de los rezagos en el comportamiento o el resultado de tomar una decisión.

Esta información puede ser significativa, puesto que es de esperar que muchas políticas

económicas tengan efecto sólo al paso del tiempo.

La idea del panel es poder capturar esos factores inobservables, por ejemplo, lo que

influye en el salario de un individuo en 1990 también influirá en el mismo individuo en

1991, ese factor inobservable puede ser la capacidad o habilidades.

Ahora bien, si además explotamos el hecho de que estamos observando cómo cambia el

comportamiento de cada individuo a lo largo del tiempo, estaremos en capacidad de

construir y validar hipótesis más complejas. Al respecto, recordemos que en el análisis de

regresión nuestros esfuerzos por aislar el efecto de determinada variable sobre otra

dependen de cómo estas varían a lo largo de la muestra consideradas. Si disponemos de

una muestra de corte transversal y queremos medir el impacto de determinada

característica, lo que haremos es comparar la respuesta de un individuo que tiene la

característica con la respuesta de otro que no la tiene. Si la muestra es de series de tiempo,

lo que haremos es comparar la respuesta de un mismo individuo antes y después de

exhibir la característica (Beltran & Castro,2010).

Puesta de esta manera, nuestra técnica puede ser duramente criticada: muchos otros

elementos que influyen sobre la respuesta pueden ser distintos entre un agente y otro, o

haber cambiado a lo largo del tiempo y nosotros, erróneamente, se los estamos



3

atribuyendo a la variable de interés. La ausencia de experimentación controlada está

conspirando contra la posibilidad de aislar los efectos de una variable de interés. Frente

a esto, y utilizando regresiones particionadas, podríamos responder que para eso están

los controles y que por eso hay un conjunto amplio de determinantes incluidos en nuestra

regresión.

Sabemos, no obstante, que difícilmente podremos informar de todos los determinantes y

que, sobre todo cuando hablamos del comportamiento de agentes individuales, el riesgo

de que el fenómeno en estudio dependa de variables no observables es alto. Si

disponemos de una base de datos de panel, en lugar de indagar si determinado agente

está mejor que su vecino o mejor que en el pasado, lo que podemos hacer es preguntar

qué tan distinta es la mejora experimentada por el agente respecto a la mejora

experimentada por su vecino. Es decir, en lugar de evaluar: ( )i jy y− (corte transversal)

o ( )t sy y− (Serie de tiempo), los datos de panel nos posibilita comparar

( ) ( )it is jt jsy y y y− − − o, más específicamente,_ _

it i jt jy y y y

− − −

. En la expresión

anterior _

iy y _

jy se refieren a los promedios de la variable dependiente tomados sobre

las T observaciones en el tiempo para el i-ésimo y j-ésimo agente, respectivamente. Esta

suerte de "diferencia en diferencia" solo es posible si tenemos datos que varían tanto a

través del espacio como a lo largo del tiempo y nos permitiría, en principio, limpiar

aquellos efectos que influyen sobre el fenómeno bajo análisis y no tienen que ver con la

característica que se busca evaluar (Beltran & Castro, 2010).

Con respecto a esto y a la presencia de variables no observables, sabemos que la omisión

de una variable relevante conlleva la lidiar con la presencia de estimadores sesgados. Para

muestras grandes esto no debería ser un problema, excepto cuando esta omisión ocasiona



4

también un problema de no consistencia en nuestro estimador. Antes de preocuparnos

por la estructura de varianzas-covarianzas del error , debemos analizar la posible

presencia un regresor estocástico. Y por "regresor estocástico" no solamente hacemos

referencia a aquellos que se determinan de manera simultánea con la variable

dependiente como es el caso de un sistema de ecuaciones simultáneas, sino que hacemos

referencia a aquellos regresores que se encuentran correlacionados contemporáneamente

con el término de error a través de la relación que tienen con las variables no observables

omitidas en el modelo.

La omisión de una variable puede conducir a la obtención de estimadores no consistentes

y esto se debe, precisamente, a que esta variable no observable omitida, está usualmente

correlacionada de manera contemporánea con los regresores incluidos en el modelo. Esto

trae como consecuencia la correlación contemporánea entre el regresor y el término de

error, lo que ocasiona que el estimador de mínimos cuadrados no converja en

probabilidad al verdadero parámetro (Beltran & Castro, 2010).

Ante la sospecha de que estamos frente a una situación como esta, el camino "clásico"

pasa por la búsqueda de variables instrumentales y la construcción del estimador

respectivo, con el consabido costo en términos de pérdida de información y precisión.

Una base de datos con estructura de panel, sin embargo, nos ofrece un camino alternativo

que implica, precisamente, trabajar con los desvíos presentados líneas arriba. Si bien esto

será discutido formalmente en las secciones siguientes, no es difícil darse cuenta de que

al trabajar con un desvío como _

.i jy y

−

se le está removiendo a cada observación del

i-ésimo agente cualquier efecto no observable que se mantenga constante en el tiempo; es

decir, cualquier característica especial que este agente tiene y que no es posible capturar

a partir del conjunto de regresores propuesto.



5

Al tener observaciones que varían tanto a lo largo del tiempo como a través del espacio,

es posible evaluar diferencias entre las diferencias de comportamiento, lo que permite

"limpiar" las observaciones de efectos difíciles de capturar que, de otro modo, hubiesen

resultado en estimados inexactos incluso en muestras grandes (Beltran & Castro, 2010).

2. Metodología

El objetivo de esta sección es familiarizar al lector con la estructura de la base de datos,

así como con el álgebra matricial asociada a la construcción de los distintos estimadores.

Aquí se muestra un aspecto de la generalización del álgebra de mínimos cuadrados

ordinarios aplicada a un contexto en el que se dispone de información que varía tanto a

través del espacio como a lo largo del tiempo (Beltran & Castro, 2010).

Al respecto se sugiere, la generalización que aquí discutimos se refiere al rol del

intercepto. Si disponemos de información que varía solo en una dimensión (y en ausencia

de un problema de quiebre estructural), solo tiene sentido "desviar" o "controlar" con

respecto a un promedio: aquel tomado usando toda la información disponible, ya sea a

lo largo del tiempo o a través del espacio. Conviene recordar que estos desvíos respecto

a la media son provistos, precisamente, por el intercepto1. Así, es fácil darnos cuenta de

qué está detrás de la recomendación general de incluir siempre un intercepto en el

modelo: recomendar la inclusión de un intercepto equivale a remover la influencia de la

1 ¡El lector recordará la clásica demostración donde se verifica que las pendientes en un modelo con

intercepto son idénticas a las que se obtendrían si antes desviamos (o restamos) cada dato de su media o promedio muestra! De hecho, este es un caso particular del resultado de una regresión particionada.



6

media muestral. Sobre el fenómeno bajo análisis. Dicho de otra forma, en un modelo con

intercepto la pendiente (o "beta") asociada al i-ésimo regresor nos indicará cuánto cambia

la variable dependiente respecto a su valor medio por cada unidad que el regresar se

desvíe con respecto a su valor medio. En el contexto de un panel de datos, la información

presenta variabilidad en ambas dimensiones. Por lo mismo, será necesario decidir con

respecto a qué media controlar: (i) la media de todas las observaciones; (ii) la media

tomada a lo largo del tiempo, de cada uno de los N agentes; (iii) la media tomada a través

del espacio de cada uno de T momentos del tiempo. En lo que sigue, se discute esto

formalmente sin perder de vista una interpretación intuitiva basada en el rol que tiene el

intercepto. Antes de proceder a la formalización del modelo, veamos algunas definiciones

de los datos de panel:

➢ Panel Data es mezclar información de corte transversal e información temporal.

Como en el corte transversal, se recoge información de individuos y se observa

cada individuo, como en el análisis de series de tiempo, a través del tiempo. Esto

permite estudiar los efectos dinámicos y de comportamiento individual de los

problemas.

➢ Son observaciones repetidas sobre el mismo conjunto de unidades de sección

cruzada o dicho de otra forma se tiene el mismo número de observaciones en cada

unidad de sección cruzada es decir es una mezcla de ambas en la cual se recoge

información entre individuos y se observa cada individuo como el análisis de

series de tiempo, a través del tiempo.

➢ En los paneles microeconómicos, el investigador está interesado en analizar como

varía el comportamiento de los agentes económicos individuales frente a



7

cuestiones como sus hábitos de consumo, su situación laboral, su nivel de estudios,

etc. Estas son decisiones que dependerán de una lista de características

socioeconómicas que el analista debe especificar como variables explicativas del

modelo. Sin embargo, no todos los agentes toman sus decisiones de igual modo:

diferentes agentes, incluso si comparten las mismas características observables,

toman decisiones distintas. Ello obliga a contemplar la existencia de efectos no

observables, específicos de cada agente encuestado, generalmente constantes en el

tiempo, que inciden sobre el modo en que este toma sus decisiones. Si estos efectos

latentes existen y no se recogen explícitamente en el modelo, se producirá un

problema de variables omitidas: los coeficientes estimados de las variables

explicativas incluidas estarán sesgados, por recoger parcialmente los efectos

individuales no observables (Greene, William, 1999)

Para entender mejor esta metodología veamos algunos aspectos matriciales.

1

2

1

1, 2,3,...

...,

.

i

i

i

iT TX

Y

Y

Para todo t

Y

TY

=

=

(1)

1 2 1

1 1 1 1

1 2 1

2 2 2 2

1 2 1

1 1 1 1

1 2 1

. . .

. . .

. . . . . . .

. . . . . . .

. . . . . . .

. . .

. . .

K k

i i i i

K K

i i i i

i

K K

iT iT iT iT

K K

iT iT iT iT TxK

X X X X

X X X X

X

X X X X

X X X X

−

−

−

− − − −

−

=

(2)



8

Además los errores del modelo y la variable explicativa se expresan:

1 1

2 2

1 1

1 1

. .

: . .

. .

i

i

i

iT N

iT NTX NTX

Ademas

− −

= =

1

2

1

1

.

.

.

N

N NTX

Y

Y

Y

Y

Y

−

=

(3)

1

2

1

1, 2, 3, 1, 2, 3, .....,

.

.

.

N

N NTXK

t T i

X

N

X

X

X

X

−

=

= =

(4)

El modelo totalmente apilado es:

Y = X + (5)

jitX : Es el valor Jth de una variable explicativa i. Para todo t = 0 1, 2, 3,. T.

Si existen K variables explicativas el vector de variables explicativas se puede denotar

como:



9

1

2

1

.

.

.

K

K

−

=

(6)

En base a lo anotado podemos afirmar que metodología de datos de panel lo que hace es

utilizar procedimientos adecuados para el manejo de las observaciones con una

dimensión de sección cruzada grande, con el objeto de estimar modelos econométricos

que incluyan entre las variables explicativas los efectos individuales no observables.

El disponer de un número reducido, T, de observaciones de cada uno de los N individuos

de la muestra, podría pensarse en estimar un modelo econométrico con cada una de las

T secciones cruzadas para luego comparar la evolución de los coeficientes del modelo a

lo largo del tiempo.

Las ventajas de modelos econométricos con información en panel, son las siguientes

(Greene, William, 1999):

• Se dispone de un gran número de datos (a través de individuos y a través del tiempo).

Por esta razón aumentan los grados de libertad y, al utilizar las diferencias

individuales en los valores de las variables explicativas, se reduce la colinealidad entre

las variables explicativas, mejorando de esta forma la eficiencia de los estimadores.

• Evita los sesgos de agregación con datos macroeconómicos.

• En general, es posible obtener estimaciones consistentes para N→ y T fijo. No

obstante, dada la creciente existencia de bases de datos longitudinales con períodos



10

muéstrales prolongados, existen trabajos recientes en que se consideran propiedades

asintóticas para N→ y T→ .

• La disponibilidad de datos longitudinales permite a los investigadores analizar una

variedad de importantes interrogantes económicas, que no se pueden analizar

utilizando solo información de corte transversal o sólo información de series de

tiempo.

• Permite construir y testear modelos de comportamiento más sofisticados que los

modelos econométricos estándar de series de tiempo o de corte transversal.

• Proporciona un método para resolver o reducir la magnitud de un problema

econométrico clave que siempre surge en los trabajos empíricos: siempre se señala

que la verdadera razón de porque se encuentra (o no se encuentran) ciertos efectos es

producto de la omisión de variables- debido a problemas de medición o porque ciertas

variables no son observadas – que están correlacionadas con las variables explicativas.

• Permite estudiar de una mejor manera la dinámica de los procesos de ajuste. Esto es

fundamentalmente cierto en estudios sobre el grado de duración y permanencia de

ciertos niveles de condición económica (desempleo, pobreza, riqueza).

• Permite elaborar y probar modelos relativamente complejos de comportamiento en

comparación con los análisis de series de tiempo y de corte transversal. Un ejemplo

claro de este tipo de modelos, son los que se refieren a los que tratan de medir niveles

de eficiencia técnica por parte de unidades económicas individuales (empresas,

bancos, etc.) (Beltrán, 2003).



11

• Permite al investigador mucha más flexibilidad para modelizar las diferencias de

comportamientos entre los individuos. Tal y como se mencionó anteriormente, la

técnica permite capturar la heterogeneidad no observable ya sea entre unidades

individuales de estudio como en el tiempo. Con base en lo anterior, la técnica permite

aplicar una serie de pruebas de hipótesis para confirmar o rechazar dicha

heterogeneidad y cómo capturarla.

2.1 Desventajas del uso de los datos de panel

• Sesgo de heterogeneidad:

Muchos paneles de datos provienen de procesos muy complicados que exigen el

comportamiento diario. Cuando se analiza series de corte transversal el supuesto típico

es que una variable económica ty es generada por una distribución de probabilidad

paramétrica del tipo ( )f y/θ , donde θ es un vector real de dimensión k “idéntico para

todos los individuos en todo instante de tiempo”. Este supuesto puede no ser realista en

el caso de datos de panel; es más ignorar la heterogeneidad en los intercepto y/o en las

pendientes es una que puede ser errada.

• Sesgo de selección:

Otra fuente de sesgo que se encuentra con frecuencia en datos de corte transversal y de

paneles de datos es que la muestra puede no haber sido extraída de manera aleatoria de

una población lo cual es poco frecuente en series de tiempo. Como consecuencia de ello

se puede tener (de Arce & Mahía, 2007):

• Amplificación del efecto de errores de medida asociados a datos de encuestas.

• Falta de representatividad de la muestra debido a:



12

✓ Desgaste muestral

✓ No aleatoriedad de las observaciones

Ejemplos de este tipo de limitaciones se encuentran en: La cobertura de la población de

interés, porcentajes de respuesta, preguntas confusas, distorsión deliberada de las

respuestas, etc.

'

1,2,... ; 1,2,...

it it it itY X U

i N t T

+

= = (7)

Donde i,tβ mide el efecto marginal de itx (es decir, el efecto marginal de las variables x

en el momento t para la i-ésima unidad). Este modelo es general y es necesario imponer

cierta estructura en los coeficientes; es decir, es necesario suponer que los agentes en

cuestión responden a un patrón de comportamiento generalizable a lo largo del tiempo

y/o a través del espacio. El supuesto estándar es que ,i t es constante para todo i y t, deja

abierta la posibilidad de que haya un intercepto distinto para cada agente ( )i . Esto

implica dejar abierta la posibilidad de que cada agente tenga un "comportamiento

promedio" distinto respecto del cual conviene controlar. Atendiendo a lo anterior si re

especifiquemos nuestro modelo de la siguiente manera (Barco & Castro, 2010):



13

'11 1

12

1

21

( 1) ( ) ( )

2

1 0 0

1 0 0

. . . .

. . . .

. . . .

0 1 0

0 1 0

. ;D ;. . .

. . . .

. . . .

0 1 . . . 0

. . . .

. . . .

. . . .

0 0 1

T

NTx NTxN NTxK

T

NT

y x

y

y

y

y X

y

y

= = =

111

'1212

'11

'2121

( 1)

'22

'

..

..

..

;u . ;.

..

..

..

..

..

TT

NTx

TT

NTNT

u

ux

ux

ux

ux

ux

=

(8)

De la expresión anterior, es la matriz D la que nos permitirá acomodar la presencia de

hasta N interceptas distintos. Observar que esta matriz puede expresarse como:

N rD I i= ; donde NI es una matriz identidad de N x N, mientras que ir se refiere a un

vector unitario de Tx1. Con esto, podemos expresar el modelo en términos matriciales de

fa siguiente forma:

y D X u = + + (9)

Donde y son los vectores que contienen los N interceptas y k pendientes,

respectivamente.

Para hallar las expresiones asociadas al estimador mínimo cuadrático de estos intercepto

y pendientes, basta con recordar lo que sabemos sobre el rol del intercepto y el modelo

en desviaciones: desviemos cada observación respecto de la media de cada agente

tomada sobre el tiempo, construyamos el estimador mínimo cuadrático de las pendientes

y utilicemos este último para hallar los N interceptos. Para el i-ésimo agente, la media

tomada sobre el tiempo T de la variable dependiente viene dada por ( )1

1/T

it

t

T y=

. Lo

mismo aplica para el término de error y las variables explicativas. Denotemos estas



14

medias como, _ _ _

..., , iii

y u X respectivamente. Así, el modelo en desviaciones y los respectivos

estimadores pueden expresarse de la siguiente manera (Barco & Castro, 2010):

'

'_ _ _

. ..

_ _ _'

. .

1_ _

'. .

'_ _

, ..

( )

( )( )

it i it it

i iii

i iit it iti

i iWithin it it

it

i Within i Withini

y x u

y x u

y y x x u u

x x x x

y x

−

= + +

= + +

− = − + −

= − −

= −

(10)

Nótese que hemos llamado Within a este estimador mínimo cuadrático de un modelo

desviado respecto a la media de cada agente. El término Within (o "intra", en castellano)

responde, precisamente, a que estamos explotando la variabilidad intraagente. Estamos

interesados en estimar cuánto cambia el comportamiento del agente respecto de su

comportamiento promedio, cuando alguno de los factores que lo explican ( )x , se desvía

en una unidad, respecto de lo que en promedio le ocurre al agente en cuestión. Al hacerlo,

estamos reconociendo que cada agente puede registrar un comportamiento promedio

distinto al del resto (Beltran &Castro,2010).

Pensemos ahora en términos de todas las observaciones y en la transformación matricial

requerida para desviar cada dato correspondiente al i-ésimo agente de su respectiva

media. Para esto, empecemos por darnos cuenta de que es necesario calcular N

promedios, y que un arreglo matricial como el siguiente es capaz de devolvernos los N

promedios que necesitamos.



15

1.

1.

12.

2.

N.

1 . . . 1

. .

. .

.. .

.1 1 0

..

tal que y .

.

0 1 . . . 1.

. ..

. ..

. .

1 . . . 1

NTxNT NTx

y

y

P P y

y

y

−

−

−

−

−

= =

(11)

La matriz P puede ser expresada de manera más compacta, y basta con restarla de la

matriz identidad para encontrar la matriz de transformación que desvía cada dato de su

respectivamente. Denotemos esta matriz como Q.

'1N T T

NT

P I i iT

Q I P

=

= −

(12)

Este par de matrices juega un papel muy importante en el momento de construir los

estimadores alternativos que preliminarmente podemos identificarlos como proyectores

o, "hacedor de estimados" (o "hacedor de medias") y "hacedor de los residuos" (o "hacedor

de desviaciones"), respectivamente. Como ocurre con todo el proyector mínimo

cuadráticos, el lector puede verificar rápidamente que estas dos matrices son simétricas

e idempotentes.

Con esto, es posible expresar (9.) de manera más compacta como:



16

' 1 '

1

=

= (I i )

Qy = Q(I i ) Q Q

= Q Q

=(XQ QX) XQ Qy

=(XQX) XQy

N T

N T

Within

y D X u

X u

X u

X u

−

−

+ +

+ +

+ +

+ (13)

Ahora bien, si recordamos el resultado asociado al modelo en desviaciones, notaremos

que el resultado anterior debería ser equivalente al que obtendríamos si incluimos un

intercepto distinto para cada agente. Formalmente2:

' 1 '

' '

=

=(X M X) X M y

M ( )

Within D D

D NT

y D X u

I D D D D

−

+ +

= −

(14)

Las expresiones dadas en (12.) y (13.) no implican que se tenga dos maneras distintas de

expresar

Within

sino, más bien, implican que 3 MD Q= . Equivale a nuestra generalización

del resultado del modelo en desviaciones: estimar una regresión por mínimos cuadrados

ordinarios con un intercepto distinto para cada agente (resultado dado en [9.]). Equivale

a estimar una regresión con observaciones desviadas respecto del valor medio

correspondiente al agente en cuestión (resultado dado en [11.]).

Hasta ahora, nuestra discusión se ha centrado en la segunda de las tres opciones

presentadas al inicio del acá pite cuando nos referíamos a que en un panel de datos hay

tres medias distintas que pueden servir como controles. ¿Es posible realizar un análisis

similar trabajando con la media (tomada a través del espacio) de cada uno de los T

momentos del tiempo? ¿Respecto de qué estaremos controlando en este caso?

Empezamos a responder estas preguntas planteando la posibilidad de que exista un

intercepto distinto para cada momento del tiempo. Definamos, para esto, como v.1 a la

2 Esta expresión muestra de manera explícita cómo este acápite es una aplicación del resultado de regresión

particionada. S i partimos de un modelo general y X u= + y particionamos la matriz X en dos subconjuntos de

regresares de la forma, es posible demostrar que las pendientes estimadas del segundo grupo de regresores vienen

dadas por: ' 1 '

2 1 2 2 1(X M X ) X M y

−= , donde ' 1 '

1 1 1 1 1( )M I X X X X−= −

3 Esta igualdad se puede verificar fácilmente trabajando con las propiedades del producto Kronecker)



17

media tomada sobre el espacio de la variable dependiente del t-ésimo momento

.

1

(1/ )N

itt

i

y N y−

=

.

'

'_ _ _

.t .t.t

_ _ _'

.t .t.t

1_ _

'.t .t

' _ _

.tt, .t

( )

( )( )

it t it it

t

it it it

Within it it

it

Within Within

y x u

y x u

y y x x u u

x x x x

y x

−

= + +

= + +

− = − + −

= − −

= −

(15)

Nótese que también hemos llamado Within a este estimador. De hecho, le corresponde el

término "intra", solo que esta vez lo que buscamos es explotar la variabilidad

intratemporal.

Nuestro interés recae en conocer cuánto cambia el comportamiento del agente respecto

del comportamiento promedio del grupo, cuando alguno de los factores que lo explican

( )it

x experimenta un desvío (de una unidad) respecto del valor medio del grupo. Al

hacerlo, estamos reconociendo que en cada momento del tiempo el grupo puede registrar

un promedio distinto.

En suma, los múltiples interceptos por agente nos permiten capturar qué tan distinta es

la respuesta de un agente respecto de su respuesta promedio, y comparar esto entre

agentes para un mismo momento del tiempo. Los múltiples interceptas de tiempo, por

su parte, nos permiten capturar qué tan distinta es la respuesta de un agente respecto de

la respuesta promedio del grupo, y comparar esto entre momentos del tiempo para un

mismo agente. En ambos casos se trata de una comparación de diferencias; de ahí la

"doble diferencia" a la que se hace referencia en el acápite introductorio.

La generalización de (14.) requiere introducir matrices de intercepto y desvíos distintos,

a las que llamaremos

y D Q , respectivamente. Formalmente (Barco & Castro, 2010):



18

'

' ' 1

1

1

=

y =

=

=(X X) X y

=(X X) X y

N T

NT N N T

Within

D i I

Q I i i IN

y D X u

Q Q D Q X Qu

Q X Qu

Q Q Q Q

Q Q

−

−

=

= −

+ +

+ +

+

(16)

Ahora solo nos queda una de las opciones pendiente: la media de todas las observaciones.

Como se verá a continuación, es necesario introducir esta media "total" si es que se desea

trabajar con interceptas distintos para agente y tiempo, simultáneamente. Partamos de

una especificación general:

'

it i t it ity x u = + + + (17)

Y démonos cuenta de que al remover (o desviar respecto de) las medias por agente y

tiempo, todavía están presentes los valores promedio de estos interceptas. Formalmente:

' _ _ _

. ..

' _ _ _

.t .t.t

' _ _ _ _ _ _ _ _

. . . .t. .t

(1 / )

(1 / N)

( )

i ii ti

i t

i t iit it iti

Ty x u

y x u

y y y x x x u u u

= + + +

= + + +

− − = − − + − − + − −

(18)



19

Donde: = = __ __1 1

,t i

it itNT NT;. Esto último implica que es posible eliminar estos

términos constantes (para proceder con la estimación de las pendientes) si sumamos el

promedio total a la expresión dada en (17.). Este promedio total viene dado por:

_ _

y x u = = =

= + + +

'

_ _ _ _ _ _ _ _

. . . .t. .t( ) i t iit it iti

y y y y x x x x u u u u = = =

− − + = − − + − − + + − − +

Al regresionar _ _

. .tit iy y y y=

− − +

sobre_ _

. .i titx x x x=

− − +

obtenemos Whitin

y, con esto, es

posible hallar los estimadores de los efectos individuales y temporales:

_ _

, ..

_ _

.tt, .t

i Within iWithini

Within Within

y y x x

y y x x

= =

= =

= − − −

= − − −

(19)

Por último, el lector puede verificar que la transformación asociada pasa por pre

multiplicar el modelo por la matriz Q, la cual viene dada por: ' '1 1 1

NT N T T N N TQ I I i i i i I JT N NT

= − − +

(20)

Donde J es una matriz unitaria de (NT x NT).

2.2 Efectos Fijos versus efectos Aleatorios

A partir de lo expuesto el problema radica en la estimación de N o T (o si se desea de NT)

interceptos distintos. Esto envolvería suponer que i ; ( )

to son un conjunto

considerable de parámetros desconocidos. Pero que implica la estimación de un conjunto

demasiado grande de parámetros. Concentrémonos en i; y pensemos en un panel de



20

datos con un número bastante grande de observaciones de corte transversal (N), como en

el caso de un panel construido con encuestas de hogares realizada por los institutos de

estadísticas de los países. Dada la marcada heterogeneidad a través del espacio, de hecho,

tiene más sentido suponer que los distintos valores de i; son (al igual que la información

contenida en x) la realización de un proceso estocástico subyacente.

La distinción anterior es la que ha originado que, en algunos casos, se bosqueje una

aparente dicotomía entre un "modelo de efectos fijos" y un "modelo de efectos aleatorios''.

En el primero, se sugiere que los i ; son parámetros, mientras que en el segundo se trata

a i ; como una variable aleatoria. Sin embargo, esto puede acarrear a una interpretación

errónea del rol de i , así como de los resultados de algunas de las pruebas que notaremos

más adelante. Por lo mismo, aquí no haremos esta distinción y supondremos que i ;

recoge efectos no observables, atribuibles al i-ésimo agente y que no varían en el tiempo.

Esto no implica que más adelante no experimentemos saber más sobre la naturaleza de

i , o que no hagamos referencia a los estimadores de efectos fijos y aleatorios.

Nuestro interés sobre la naturaleza de i , no obstante, se centrará en determinar si está

o no correlacionado con las variables explicativas del modelo. Nuestra distinción entre

"efectos fijos y "efectos aleatorios", por su parte, se referirá a la técnica de estimación por

emplear y no a la naturaleza de i .

No es difícil suponer que, en el momento de modelar las decisiones individuales de un

grupo amplio de agentes, las respuestas dependan de un conjunto también amplio de

factores, muchos de ellos no observables4

En un modelo de corte transversal no queda más que dejar que esta heterogeneidad no

observable sea capturada por el error, y confiar en que no esté correlacionada

4 Factores como la "habilidad" o la "motivación" son sin duda determinantes de variables como la decisión de

matricularse en la educación superior o del salario por hora, pero difícilmente observables.



21

contemporáneamente con alguno de los regresores incluidos5. El panel, sin embargo,

ofrece una alternativa distinta, ya que hace posible controlar por esta fuente de

heterogeneidad no observable.

En lo que sigue, formalizaremos nuestros supuestos sobre la naturaleza de la data

partiendo de que i ; recoge esta heterogeneidad que no es observable pero que, sin duda,

afecta las decisiones de los agentes bajo análisis (Barco & Castro, 2010)

2.3 Nuestro marco de análisis y los estimadores alternativos

En las páginas que siguen empezaremos planteando un conjunto de supuestos sobre el

proceso generador de datos, para luego analizar las propiedades de distintos estimadores

con el objetivo de determinar cuál de ellos es el más apropiado. Como siempre, las

propiedades que privilegiaremos serán el insesgamiento y eficiencia, para muestras

pequeñas; y la consistencia para muestras grandes.

De acuerdo con nuestra discusión anterior, supongamos que la información contenida en

nuestro panel de datos puede representarse de la siguiente manera (Barco & Castro,

2010):

:

'

2

2

. . (0, )

. . (0, )

it it it

it i it

i

it u

y x v

v u

i i d

u i i d

= + +

= + (21)

Es decir, supongamos que el error asociado a la observación del i-ésimo agente en el t-

ésimo momento del tiempo está compuesto de dos partes: un término que no varía a lo

largo del tiempo y recoge la heterogeneidad no observable atribuible al i-ésimo agente

( )i , que se distribuye de manera idéntica e independiente con media igual a cero y

5 Tal como se discutió en el acápite introductorio, esta correlación contemporánea llevaría a que el estimador mínimo

cuadrático deje de exhibir la propiedad de consistencia. Una alternativa para esto es el uso del estimador de variables

instrumentales, con la subsecuente pérdida de información que su uso implica.



22

varianza igual a 2

, y un término que registra realizaciones distintas tanto a lo largo del

tiempo como a través del espacio ( )itu que distribuye de manera idéntica e independiente

con media igual a cero y varianza igual a 2

u .

La forma compuesta que hemos supuesto para el error implica que, si bien este es

homocedástico, exhibe correlación serial cuando se trata de un mismo agente.

Formalmente:

2 2

2

( )

Cov( , ) t s

it u

it is

Var v

v v

= +

= (22)

También podemos expresar el modelo y su estructura de varianzas y covarianzas del

error en términos matriciales

' '

' 2 2 ' 2 2

; W= ,

( )

NT

u NT N T T u NT

y W v i X

W vv I I i i I TP

= + =

= = = + = +

(23)

2.4 Estimador Within

Este estimador ya fue presentado anteriormente y, como sabemos, implica transformar el

modelo premultiplicándolo por el proyector. A diferencia de lo indicado en (14.), aquí

estamos asumiendo que solo existe un intercepto común ( ) por estimar y que el término

a; corresponde al error. Nótese que, en términos prácticos, no existe ninguna diferencia

en la expresión asociada a la estimación de las pendientes. Como ya es usual, expresamos

el estimador tanto en términos matriciales (Barco & Castro, 2010):

:

−= ' 1 '( )Whitin W QW W Qy (24)

Lo que equivale a regresionar:



23

'

'_ '

.

1_ _ _ _

' '. . . .

' =

t,

( )( ) ( )(y )

− −

−

=

= + + +

− = − + + −

= − − − −

= −

it it i it

iit it i it ii

i i iWithin it it it it i

it it

Within Within

y x u

y y x x u u

x x x x x x y

y x

(25)

En este punto cabe destacar la forma que adopta el error del modelo transformado. Al

remover de cada observación la media correspondiente al agente en cuestión (haciendo

uso del proyector Q ), el nuevo término de error, al que denominamos v resulta:

= − = −_ _

. .v v vit i iit it

(26)

El nuevo término de error está "libre" de la heterogeneidad no observable asociada al

agente.

Este resultado es clave para garantizar una propiedad importante del estimador, tal como

será discutido más adelante. Por lo pronto, démonos cuenta de que este nuevo error

tampoco exhibe una matriz de varianzas-covarianzas escalar debido a la existencia de

correlación serial entre errores correspondientes a un mismo agente. Formalmente:

− = − = − + =

= − − = − + = −

_2 2 2 2 2

.

_ _2 2 2

. .

1(v ) (u u ) (2 / T) (1 / )

(v ,v ) (u u ) (u u ) (2 / ) (1 / ) (1 / )

it it i u u u u

it is it i st i u u u

TVar E T

T

Cov E T T T

(27)

O de manera compacta:

= = + =

' ' 2 2 2( v v ) (Qvv Q) Qu NT u

E E I TP Q Q (28)

Al igual que el estimador mínimo cuadrático, el estimador Within es insesgado. El

resultado dado en (27.) (y, en particular, la existencia de correlación serial en los errores)



24

implica que el estimador Within no es eficiente, excepto si =2 0u

o T tiende a infinito

( )→T .

2.5 Estimador Between

Así como existe un estimador Within que aprovecha la variabilidad intraagentes, es

posible construir un estimador Between que tome en cuenta la variabilidad interagentes.

Para esto basta con tomar los promedios para cada agente y utilizar esta información

como si se tratase de una base de datos .de corte transversal. Como sabemos, estos

promedios son tomados por el proyector P, por lo que:

= ' -1 '(W PW) W QyBetween (29)

Lo que equivale a regresionar '_ _ _

..

1_ _ _ _

' '. . . .

' =

( )( ) ( )( )

Between Between

it iii

i i iBetween i

i i

y x u

x x x x x x y y

y x

− = = = =

=

= + + +

= − − − −

= −

(30)

Al igual que sus predecesores (y siempre y cuando el error sea independiente en media

de los regresores: =(v / ) 0E X el estimador Between es insesgado. Asimismo, tampoco es

eficiente. De hecho, el término de error del modelo transformado = +_ _

it .v ii también

exhibe Jt I r correlación.



25

= = + = +

2 _ _ _ __

2 2it isit

1Var(v) (v ,v ) ii u u

Cov E uT (31)

O, en términos más compactos:

= = + = +

_ _' 2 2 2 2( v v ) E(PvvP) P ( )P

u NT uE I TP P (32)

2.6 Estimador de mínimos cuadrados generalizados

Ninguno de los tres estimadores presentados anteriormente es eficiente. Para garantizar

esto, es preciso transformar el modelo de modo que el “nuevo” error exhiba una matriz

de varianzas-covarianzas escalar. Ninguna de las tres transformaciones consideradas

hasta ahora lo consigue5.

Definamos como R a la matriz que transforma al modelo de modo que el nuevo error

tenga una estructura de varianzas-covarianzas escalar. Esto implica que R debe ser tal

que:

' 1R R c −= (33)

Donde c es un escalar positivo. Es posible demostrar que la forma de esta matriz viene

dada por:

2

2 2

(1 )NT

u

u

R I P Q P

= − = +

=+

(34)

Es decir que la transformación que garantiza un estimador eficiente es aquella que

remueve de cada observación una proporción (1 )− de su media, donde es función de

las varianzas de los dos componentes del error. De hecho, no es difícil demostrar que la

estructura de varianzas-covarianzas del error transformado Rv es escalar:



26

' ' 2 2 2 2( ) ( ) ( )u NT u uE RVV R Q I TP Q P Q P I = + + + = + =

(35)

Lo anterior garantiza que el estimador asociado sea eficiente, y, por lo mismo, pertenece

a la clase de estimadores de mínimos cuadrados generalizados (MCG).

' 1 ' 1 1 1( ) ( )MCG WR RW WR Ry W W W y

− − − −= =

(36)

Lo que equivale a regresionar _

.(1 )it i

y y− − sobre una constante y _

.(1 ) iitx x− −

(37)

1_ _ _ _

. . . .(x (1 ) x )(x (1 ) x ) (x (1 ) x )(y (1 ) )i i iMCG it it it it i

it it

x x x y y

− = = = =

= − − − − − − − − − − − −

(38)

De manera compacta podemos escribirlo:

' '

_ _ _ _ ' 2 ' 2

. . . .

'

x x xi i iMCG i

i i

MCG MCG

X QX x x X QX x y y

y x

= = = =

= =

= + − − + − −

−

La expresión anterior nos sugiere que el estimador MCG combina la información

contenida en los estimadores6 withinβ y

Betwenβ .No debe extrañarnos, por tanto, que se trate

de un estimador eficiente, en la medida en que explota la variabilidad tanto intra como

Inter agente.

6 De hecho, es posible demostrar que el estimador MCG es un promedio ponderado de los estimadores Within y

Between:

(1 )B W

= + − , donde: 1

' _ _

2 '1 i iXQX x x x x X QX

−= =

− = − − −



27

Tan o más interesante es verificar bajo qué condiciones especiales el estimador MCG

coincide con el estimador Within o el mínimo cuadrático. Para el primer caso, recordemos

bajo qué circunstancias es el estimador Within eficiente 2 0u = o cuando T tienda a

infinito. En cualquier caso, desaparecería la correlación serial entre los errores del modelo

transformado con el proyector. Es fácil verificar que, bajo cualquiera de estas dos

situaciones, se cumple que

MCG Betwenβ =β

7 .

2

2

2 2

, 0 0

0

/ 0

R/ I

u

u

u

T

NT P Q

→ =

=

=+

=

= − =

(39)

Regresemos ahora a la estructura de varianzas-covarianzas del error del modelo original

(dada en (20.)) y notemos que esta matriz sería escalar (garantizando la· eficiencia de

MICO

en caso cr/ =O. También es fácil verificar que, en este caso, se cumple que

MCG MICOβ =β

·

2

2

2 2

0

1

/ 1

R/

u

u

NT

T

I

=

=

=+

=

=

7 Si

2 0u = , los efectos no observados son so lo específicos del individuo, no hay generales, por lo que basta con

corregir por la presencia de a; para eliminar el problema de autocorrelación que presenta el modelo original.



28

2.7 Mínimos cuadrados generalizados factibles

¿Por qué no presentar únicamente al estimador eficiente? ¿Qué utilidad puede tener la

discusión de los estimadores

Whitin

y

Betwen

La respuesta a esta pregunta tiene dos partes.

En primer lugar, es necesario notar que para construir el proyector R es necesario conocer

las varianzas de los dos componentes del error de nuestro modelo. En la práctica, esto

difícilmente será posible, así que tendremos que utilizar un estimado de dichas varianzas.

Es para la estimación de estas varianzas que 1os estimadores

Whitin

y

Betwen

nos pueden

ser útiles.

En particular, es posible demostrar que la varianza estimada del error del modelo

transformado con el proyector ( ) itQ v es un estimador consistente de 2

u . Formalmente8

2

_ _ '

.2 2. Pr(y y ) (x )

iit it Whithini obit

v u

x

NT N K

− − −

= →− −

Tal como se muestra en la expresión anterior, nuestro estimador consistente de 2

u no es

otra cosa que la suma de cuadrados residual de la estimación Within, corregida por el

número apropiado de grados de libertad(Barco & Castro, 2010):

.

Por otro lado, la varianza estimada del error del modelo transformado con el proyector P

( )itv también nos provee información valiosa. De hecho, es posible demostrar que,

conforme N tienda a infinito, dicha varianza converge en probabilidad a una suma

ponderada de 2

u y 2

. Formalmente:

2

_ _ '

..2 2 2Pr

(y y) ( )

1 +

1

i Betweni

it ob

v u

x x

N K T

= =

− − − = →

− −

(40)

8 Si

2 0 = , directamente se elimina el problema de autocorrelación del modelo original por lo que MICO es el

estimador eficiente.



29

Si combinamos los resultados indicados en (40.) y (41.), es posible construir estimados de 2

y 2

u , con esto, nuestro estimado de y del proyector R. Esto configura lo que se

conoce como "estimador de mínimos cuadrados generalizados factibles". En particular 2

v

, provee directamente un estimador consistente de 2

u , mientras que la resta 2 2

1v v

T

−

nos provee un estimador consistente de 2

. Formalmente: 2 2 Pr

21 ob

v v

T

− → 9

2.8 Estimador a usar

La discusión anterior revela que hay dos preguntas claves que deben ser resueltas antes

de determinar cuál es el mejor estimador por utilizar. La primera pregunta está asociada

a la idoneidad del marco de análisis propuesto. La segunda, por su parte, se refiere a la

posibilidad de que exista correlación contemporánea entre los regresares y el término de

error.

2.9 Efectos no observados

Como se dijo, esta primera pregunta está relacionada con el marco de análisis propuesto

y, en particular, con la estructura del término de error. Al respecto, nótese que la ausencia

de efectos no observados específicos del individuo equivale a suponer que el error se

comporta de la siguiente manera: it itv u= . Dado que se asume que ( ) 0iE = , lo anterior

9 Nótese que el resultado de esta resta podría ser negativo. En este caso, conviene reconsiderar el uso del estimador

de efectos aleatorios.



30

equivale a decir que 2 0 = .Para comprobar esta hipótesis se dispone del test de Breusch-

Pagan, cuyo estadístico (LM) se construye sobre la base de los residuos mínimo

cuadráticos (e) y, bajo la hipótesis nula, se distribuye chi-cuadrado con un grado de

libertad. Formalmente:

= = =

= = = =

= =

+

− = − − −

2

0

22 2

_

.1 1 21

2 2

1 1 1 1

: v ( 0)

: v =

LM= 1 1 (1)2( 1) 2( 1)

it it

a it it i

N T N

it ii t i

N T N T

it iti t i t

H u

H u

e T eNT NT

T Te e

(41)

Si se rechaza la hipótesis nula, se concluye que la estructura supuesta para el error es la

correcta y que, por lo mismo, se aplica el análisis desarrollado en el acápite anterior. Es

decir, que es necesario construir el estimador de mínimos cuadrados generalizados si lo

que se busca es un estimador eficiente.

Si se acepta la hipótesis nula, por otro lado, bastará con estimar las pendientes a través

de mínimos cuadrados ordinarios. De hecho, cabe recordar que en caso de 2 0 = , el

proyector R es igual a la matriz identidad y el estimador eficiente es el mínimo cuadrático.

Una estimación como esta también se conoce como un pool: se dispone solo de los datos

agrupados y, en el momento de hacer la estimación, no hay nada que identifique a la

información de un agente o momento del tiempo particular. La ganancia, en este caso, se

debe al hecho de contar con un significativo número de grados de libertad. Al respecto,



31

es posible evaluar la ganancia de ajuste asociada a la introducción de interceptas

múltiples (específicos ya sea a agentes o períodos de tiempo). Para esto, se puede utilizar

una típica prueba F10; y, de encontrarse una ganancia de ajuste significativa (si se rechaza

la prueba F), se preferiría el modelo de interceptas múltiples11

2.10 Existe correlación entre los efectos no observados y los Regresores

Como se dijo, si se acepta que el error tiene la estructura it i itv u= + la búsqueda de

eficiencia requiere la construcción del estimador de mínimos cuadrados generalizados.

No obstante, esto puede poner en riesgo la propiedad de consistencia si es que existe

correlación contemporánea entre la heterogeneidad individual no observable y el término

de error. Para verificar esto y decidir si trabajamos con el estimador de mínimos

cuadrados generalizados o el estimador Within, es posible construir una prueba de

Hausman.

10 Nos referimos al típico contraste basado en pérdida de ajuste, el cual también puede ser expresado sobre la base de

los R-cuadrado:

2 2

2

( )( 1, )

(1 R ) / (NT N K)

SR Pool

SR

R RF F N NT N k

−= − − − −

− − − , donde

2R SR se refiere al R-cuadrado

del modelo con interceptas múltiples (sin restringir) y

2

PoolR, corresponde al R-cuadrado del modelo pool (restringido

a un solo intercepto común). 11 Cabe recordar que la estimación con interceptas múltiples es, en principio, equivalente a la construcción del

estimador Within. Nótese, sin embargo, que existe una diferencia en los objetivos. Cuando el error se comporta de

acuerdo con nuestro marco de análisis y construimos el estimador Within, nos interesa remover la heterogeneidad no

observable del término de error para garantizar consistencia. Para esto, de sviamos cada observación de su media, y la

inclusión de un intercepto distinto para cada agente es una de las maneras de hacerlo. En el caso que aquí discutimos,

donde el error ya no es un error compuesto, nuestra motivación es la ganancia de ajuste: estamos interesados en estimar

un intercepto distinto para cada agente, y el hecho de que esto sea equivalente a desviar cada dato de su media podría

entenderse como un subproducto.



32

De acuerdo con el planteamiento general de dicha prueba, se propone comparar dos

estimadores: uno eficiente pero solo consistente bajo la hipótesis nula, y otro no eficiente

pero consistente tanto bajo la hipótesis nula como bajo la alternativa. La hipótesis nula

por evaluar es la existencia de correlación entre el error y los regreso res. Por lo mismo, y

de acuerdo con las propiedades discutidas hasta ahora, nuestros candidatos ideales

serían el estimador de mínimos cuadrados generalizados y el estimador Within

• El primero es eficiente pero solo consistente en ausencia de correlación, mientras que

Within no es eficiente, pero retiene la propiedad de consistencia incluso bajo la presencia

de correlación entre el término a; y los regresores.

La intuición detrás la prueba es clara: una diferencia significativa entre los estimadores

de mínimos cuadrados generalizados y Within, constituye evidencia en contra de la

consistencia del primero y esto, a su vez, constituye evidencia en contra de la ausencia de

correlación entre a; y los regresores. Por lo mismo, si se rechaza la hipótesis nula de esta

prueba, convendrá utilizar el estimador Within. Si se acepta la hipótesis nula, en tanto, se

privilegiará el uso del estimador de mínimos cuadrados generalizados12.

0

1

: ( ) 0

: ( ) 0

( )

( ) ( ) Var( )

i it

a i i it

MCG Whitin

MCG Whitin

H E x

H E x

S q Var q q

q

Var q Var

−

=

=

= −

= +

(42)

Antes de concluir, conviene destacar que esta no es una prueba para determinar si los

efectos individuales son "fijos" o "aleatorios''. Lo que sí es cierto es que, dependiendo de

sus resultados, se decidirá si utilizar el estimador de mínimos cuadrados generalizados

("efectos aleatorios") o el estimador Within ("efectos fijos"). Esta decisión, no obstante, no

responde a la posibilidad de que los efectos individuales no exhiban una naturaleza

12 De hecho, cualquier combinación entre los estimadores Wíthín, Between o mínimos cuadrados generalizados

sería válida en la medida en que este último es un promedio ponderado de los dos primeros.



33

aleatoria, sino a la posibilidad de que, siendo aleatorios, estén correlacionados con los

regresores (Barco & Castro, 2010):

.

3. Aplicaciones

3.1. Configurando

Es importante entonces que antes de iniciar escribas en la línea de comando (mientras

estás conectado a Internet) las siguientes indicaciones:

ssc install xtserial //Si este comando no funciona, intente: -findit xtserial-

Luego procedemos a instalar este paquete dándole clic en el mismo



34

Los datos se encuentran alojados en la siguiente ruta:

use http://www.stata-press.com/data/r10/nlswork.dta

También se puede instalar con el uso del comando: webuse nlswork.dta

Generamos las siguientes variables:

generate age2 = age*age

generate black = (race==2)

Debemos saber que la variable race tiene las siguientes categorías

.

303 3 other

8,051 2 black

20,180 1 white

tabulation: Freq. Numeric Label

unique values: 3 missing .: 0/28,534

range: [1,3] units: 1

label: racelbl

type: numeric (byte)

race race



35

La base de datos a usar es nlswork1.dta , la cual contiene información de una muestra de

datos de panel para 4,711 mujeres empleadas, que han completado su educación y con

salarios mayores a US$1 por hora pero menores a $700, para un período de 20 años (1968-

1988) en los Estados Unidos.

A través del comando describe podemos observar todas las variables que contiene la base

de datos nlswork1.dta Antes de estimar un modelo de datos de panel, se deben identificar

las variables que representan a los individuos y a las observaciones.

Antes de estimar un modelo de datos de panel, se deben identificar las variables que

representan a los individuos y a las observaciones.

iis idcode

tis year

Antes de empezar el análisis procedemos a inspeccionar la data con el comando describe.



36

Asimismo, es necesario darle contexto de datos de panel, esto se logra usando el

siguiente comando: xtset

. reg ln_wage age age2

Note: Dataset has changed since last saved.

Sorted by: idcode year

black float %9.0g

age2 float %9.0g

ln_wage float %9.0g ln(wage/GNP deflator)

wks_work int %8.0g weeks worked last year

hours int %8.0g usual hours worked

tenure float %9.0g job tenure, in years

ttl_exp float %9.0g total work experience

wks_ue byte %8.0g weeks unemployed last year

union byte %8.0g 1 if union

occ_code byte %8.0g occupation

ind_code byte %8.0g industry of employment

south byte %8.0g 1 if south

c_city byte %8.0g 1 if central city

not_smsa byte %8.0g 1 if not SMSA

collgrad byte %8.0g 1 if college graduate

grade byte %8.0g current grade completed

nev_mar byte %8.0g 1 if never married

msp byte %8.0g 1 if married, spouse present

race byte %8.0g 1=white, 2=black, 3=other

age byte %8.0g age in current year

birth_yr byte %8.0g birth year

year byte %8.0g interview year

idcode int %8.0g NLS ID

variable name type format label variable label

storage display value

size: 1,169,894

vars: 23 7 Dec 2006 17:02

obs: 28,534 National Longitudinal Survey. Young Women 14-26 years of age in 1968

Contains data from http://www.stata-press.com/data/r10/nlswork.dta

. d

delta: 1 unit

time variable: year, 68 to 88, but with gaps

panel variable: idcode (unbalanced)

. xtset idcode year



37

3.2. Análisis de datos panel de dos períodos

Utilizando la base de datos CRIME2.dta, se tiene t = 1 y t = 2, la base contiene los índices

de delincuencia y de desempleo de 46 ciudades para 1982 y 1987, por lo tanto, t = 1 = 1982

y t = 2 = 1987. Si se elabora una regresión t = 2. Veamos que variables son significativas

que explican el comportamiento del desempleo.

describe

reg crmrte unem if year == 87

.

Sorted by:

ccrmrte float %9.0g

lcrmrt_1 float %9.0g

clpopden float %9.0g

cunem float %9.0g

cllawexp float %9.0g

clpolpc float %9.0g

lpolpc float %9.0g

clcrmrte float %9.0g

clpop float %9.0g

clcrimes float %9.0g

lcrmrte float %9.0g

larea float %9.0g

lcrimes float %9.0g

lpopden float %9.0g

llawexpc float %9.0g

lpcinc float %9.0g

loffic float %9.0g

lpop float %9.0g

polpc float %9.0g

lawexpc float %9.0g

offarea float %9.0g

crmrte float %9.0g

popden float %9.0g

d87 float %9.0g

area float %9.0g

year float %9.0g

south float %9.0g

nrtheast float %9.0g

west float %9.0g

pcinc float %9.0g

officers float %9.0g

unem float %9.0g

crimes float %9.0g

pop float %9.0g

variable name type format label variable label

storage display value

size: 12,512

vars: 34 26 Jan 2000 12:16

obs: 92

Contains data from C:\Users\finanzas\Documents\crime2.dta

. d

_cons 128.3781 20.75663 6.18 0.000 86.54589 170.2104

unem -4.161134 3.416456 -1.22 0.230 -11.04655 2.72428

crmrte Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 54450.5521 45 1210.01227 Root MSE = 34.6

Adj R-squared = 0.0106

Residual 52674.6428 44 1197.15097 R-squared = 0.0326

Model 1775.90928 1 1775.90928 Prob > F = 0.2297

F(1, 44) = 1.48

Source SS df MS Number of obs = 46



38

Si se interpreta el resultado se observa que un aumento en el índice de desempleo

disminuye la delincuencia. ¿Es significativo y coherente?

El problema puede ser causado por variables omitidas tales como edad, género,

educación. Pero por medio de datos panel es posible observar como la inclusión del año

82 puede ayudar a controlar el hecho de que distintas ciudades tienen históricamente

diferentes índices de delincuencia.

= + + + +0 0 1

2 , t=1,2.it t it i it

y d x u (43)

Por medio de análisis de datos agrupados, se hace el análisis que el efecto inobservable

es de dos tipos, el constante y el que varía en el tiempo. En la ecuación anterior la

constante es +0 0

t= 1 y 2 .

La variable i captura todos los efectos inobservables constantes en el tiempo que

influyen en it

y , i es denominada efecto inobservable, en este caso denominada efecto

fijo, dado que no se modifica en el tiempo. La ecuación anterior es un modelo de efectos

inobservables o modelo de efectos fijos. it

u , se denomina error idiosincrático o error de

variación temporal., pues representa factores inobservables que cambian en el tiempo.

De acuerdo al ejemplo anterior, el modelo a estimar es:

= + + + +0 0 1

87 ; t=1,2.it t it i it

crmrte d unem u (44)



39

La variable d87 , será el efecto fijo en este caso urbano, que pueden ser las características

demográficas, si no hay un cambio en las políticas puede encontrarse la educación, la raza

y la edad. Ahora por los supuestos de MCO, U no debe estar correlacionado con las X ,

por lo tanto, se hace un cambio en la ecuación

Donde it i it

V = α + u , que se denomina ERROR COMPUESTO. Realizando la estimación

del ejemplo

reg crmrte unem d87

El resultado no es bueno, dados la insignificancia, lo que indica que el supuesto de no

correlación está afectado el modelo, además, MCO con variables dicotómicas no

soluciona el problema de variables omitidas, además, uno de los objetivos de panel es

capturar correlaciones entre a y X.

En la mayor parte de las aplicaciones, la razón de data panel es permitir que el efecto

inobservable se correlacione con las variables explicativas. Por ejemplo, en la

delincuencia, se desea dejar que los factores urbanos no contemplados en el modelo que

influyen en el índice de delincuencia, se correlacionen también con el índice de

desempleo.

Es sencillo realizarlo: Como ahí es constante en el tiempo, se diferencia a lo largo de los

dos años. De manera se escribe la ecuación de esta forma

_cons 93.42025 12.73947 7.33 0.000 68.10719 118.7333

d87 7.940416 7.975325 1.00 0.322 -7.906385 23.78722

unem .4265473 1.188279 0.36 0.720 -1.934538 2.787633

crmrte Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 81045.5167 91 890.610074 Root MSE = 29.992

Adj R-squared = -0.0100


Model 989.717223 2 494.858612 Prob > F = 0.5788

F(2, 89) = 0.55




40

= + + + +

= + + +

2 0 0 1 2 2

1 0 1 1 1

( ) , t=2

, t=1i i i i

i i i i

y x u

y x u (45)

− = + − +

= + +

2 1 0 1 2 1 2 1

0 1

( ) ( - )

i i i i i i

it it it

y y x x u u

y x u (46)

El efecto i

α es eliminado al diferenciar, la ecuación anterior es denominada ecuación de

diferencia de primer orden. Lo importante es que no exista correlación entre U y X .

Para poder estimar este modelo debe haber cambio en las X , dado que si hay una variable

que no cambie, como por ejemplo el sexo de una persona la estimación es incorrecta.

Reestimando este modelo se tiene (Software Shop, 2013):

gen ccrmrte= crmrte - crmrte[_n-1]

El resultado ahora proporciona una relación positiva, entre los índices de delincuencia y

el de desempleo. La intercepción revela que cuando el cambio en el desempleo = 0, el

índice delictivo es de 15.4, esto refleja un aumento secular en los índices delictivos en

USA de 1982 a 1987.

_cons 15.4022 4.702117 3.28 0.002 5.925709 24.8787

cunem 2.217999 .8778659 2.53 0.015 .448777 3.987222

ccrmrte Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 20255.9877 45 450.13306 Root MSE = 20.051



Model 2566.43732 1 2566.43732 Prob > F = 0.0152

F(1, 44) = 6.38


. reg ccrmrte cunem



41

En esta sección de las presentes notas de clase, se empleará la base nlswork.dta la misma

que contiene una muestra de 4711 mujeres con trabajo remunerado de 14 a 26 años

cumplidos al año 1968 y que fueron encuestadas a lo largo de 21 años (1968-1988) excepto

los años 1974, 1976, 1979, 1981, 1984, y 1986. La variable dependiente en todas las

estimaciones es el logaritmo del ingreso. Se recurrirán a algunos comandos que no están

cargados en Stata (Software Shop, 2013).

4. Controlando la heterogeneidad dentro de un panel

4.1. Regresión agrupada (POOLED OLS)

El enfoque más simple de analizar datos tipo panel es omitir las dimensiones del espacio

y el tiempo de los datos agrupados y sólo calcular la regresión MCO usual. Este modelo

se expresa como (INFOPUC, 2011):

1 1it it itY X = + + (47)

Donde i significa la i-ésima unidad transversal (estado) y t el tiempo t (año). Si tratamos

de explicar la variable wage con las variables independientes age y age2, basta con que

indiquemos en la ventana de comandos de Stata (INFOPUC, 2011):

reg ln_wage age age2



42

4.2 Efectos Aleatorios (Random Effects)

La ecuación (47) supone que el intercepto de la regresión es la misma para todas las

unidades transversales. Sin embargo, es muy probable que necesitemos controlar el

carácter “individual” de cada estado. El modelo de efectos aleatorios permite suponer

que cada unidad transversal tiene un intercepto diferente. Este modelo se expresa como:

1 1it i it itY X = + + (48)

Donde i iα =α+u . Es decir, en vez de considerar a α como fija, suponemos que es una

variable aleatoria con un valor mediaα y una desviación aleatoria iu de este valor

medio. Sustituyendo i iα =α+u en la ecuación (2) obtenemos el modelo de efectos

aleatorios:

1 1it it i itY X u = + + + (49)

Stata estima el modelo de efectos aleatorios con el comando xtreg, re. En nuestro

ejemplo, indicamos en la ventana de comandos

xtreg ln_wage grade age* ttl_exp* tenure* black ///

not_smsa south, re

_cons .1647917 .0521021 3.16 0.002 .062669 .2669143

age2 -.0010982 .0000596 -18.42 0.000 -.0012151 -.0009814

age .0855891 .0035923 23.83 0.000 .0785481 .0926302

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 6516.69015 28,509 .228583611 Root MSE = .45654


Residual 5941.72375 28,507 .208430342 R-squared = 0.0882

Model 574.966399 2 287.4832 Prob > F = 0.0000

F(2, 28507) = 1379.28

Source SS df MS Number of obs = 28,510

. reg ln_wage age age2



43

Si analizamos la ecuación (49), observamos que si la varianza de iu es igual a cero, es

decir2

uσ =0 , entonces no existe ninguna diferencia relevante entre la ecuación (1) y la (3).

¿Cómo podemos saber si es necesario usar el modelo de efectos aleatorios o el de datos

agrupados? Breusch y Pagan formularon la prueba conocida como Prueba del

Multiplicador de Lagrange para Efectos Aleatorios. La hipótesis nula de esta prueba es

que2

uσ =0 . Si la prueba se rechaza, sí existe diferencia entre (47) y (49), y es preferible usar

el método de efectos aleatorios.13 La prueba de Breusch y Pagan se implementa en Stata

con el comando xttest0 después de la estimación de efectos aleatorios.

xtreg ln_wage grade age* ttl_exp* tenure* race ///

not_smsa south, re

13 Recuerden que una Hipótesis nula se rechaza si el p-value de la prueba es menor a 0.10.

rho .44045273 (fraction of variance due to u_i)

sigma_e .29068923

sigma_u .25790526

_cons .2387207 .049469 4.83 0.000 .1417633 .3356781

south -.0868922 .0073032 -11.90 0.000 -.1012062 -.0725781

not_smsa -.1308252 .0071751 -18.23 0.000 -.1448881 -.1167622

black -.053053 .0099926 -5.31 0.000 -.0726381 -.0334679

tenure2 -.0020035 .0001193 -16.80 0.000 -.0022373 -.0017697

tenure .0392519 .0017554 22.36 0.000 .0358113 .0426925

ttl_exp2 .0003049 .0001162 2.62 0.009 .000077 .0005327

ttl_exp .0290208 .002422 11.98 0.000 .0242739 .0337678

age2 -.0007133 .00005 -14.27 0.000 -.0008113 -.0006153

age .0368059 .0031195 11.80 0.000 .0306918 .0429201

grade .0646499 .0017812 36.30 0.000 .0611589 .0681409

ln_wage Coef. Std. Err. z P>|z| [95% Conf. Interval]

corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000

Wald chi2(10) = 9244.74

overall = 0.3708 max = 15

between = 0.4784 avg = 6.0

R-sq: within = 0.1715 Obs per group: min = 1

Group variable: idcode Number of groups = 4697

Random-effects GLS regression Number of obs = 28091

> not_smsa south, re

. xtreg ln_wage grade age* ttl_exp* tenure* black ///



44

xttest0

El p-value nos indica que podemos rechazar la hipótesis nula (Ho); por lo tanto, los

efectos aleatorios iu son significativos y es preferible usar la estimación de efectos

aleatorios en vez de usar el pool agrupado.

4.4. Efectos Fijos (Fixed Effects)

Otra manera de modelar el carácter “individual” de cada estado es a través del modelo

de efectos fijos. Este modelo no supone que las diferencias entre estados sean aleatorias,

sino constantes o “fijas”—y por ello debemos estimar cada intercepto iu . ¿Cómo

podemos permitir que el intercepto varíe con respecto a cada estado? Una manera es la

técnica de “las variables dicotómicas de intersección diferencial”, que se expresa de la

siguiente manera14:

1 1it i it itY X = + + (50)

Donde i es un vector de variables dicotómicas para cada estado. El modelo de efectos

fijos puede ejecutarse en Stata con el comando:

xtreg ln_wage age age2,fe

14 Se pueden utilizar variables dicotómicas que conducen al mismo resultado que si restamos a cada observación la

media de cada estado (demeaning the data ).

.

end of do-file

.

Prob > chibar2 = 0.0000

chibar2(01) = 14779.98

Test: Var(u) = 0

u .0665151 .2579053

e .0845002 .2906892

ln_wage .2283326 .4778416

Var sd = sqrt(Var)

Estimated results:

ln_wage[idcode,t] = Xb + u[idcode] + e[idcode,t]

Breusch and Pagan Lagrangian multiplier test for random effects

. xttest0



45

Para observar los efectos fijos se realiza el siguiente comando

xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south i. year, fe

F test that all u_i=0: F(4709, 23798) = 8.74 Prob > F = 0.0000


sigma_e .30245467

sigma_u .4039153

_cons .639913 .0408906 15.65 0.000 .5597649 .7200611

age2 -.0005973 .0000465 -12.84 0.000 -.0006885 -.0005061

age .0539076 .0028078 19.20 0.000 .0484041 .0594112


corr(u_i, Xb) = 0.0440 Prob > F = 0.0000

F(2,23798) = 1451.88


between = 0.1006 avg = 6.1

within = 0.1087 min = 1

R-sq: Obs per group:

Group variable: idcode Number of groups = 4,710

Fixed-effects (within) regression Number of obs = 28,510

. xtreg ln_wage age age2,fe

.



sigma_e .28984565

sigma_u .35245685

_cons .5076833 .1945967 2.61 0.009 .1262611 .8891056

_Iyear_88 -.3186943 .2011954 -1.58 0.113 -.7130506 .075662

_Iyear_87 -.3411479 .1878065 -1.82 0.069 -.7092608 .0269651

_Iyear_85 -.310788 .1679921 -1.85 0.064 -.6400636 .0184876

_Iyear_83 -.3080176 .1482841 -2.08 0.038 -.5986642 -.017371

_Iyear_82 -.2915456 .1385459 -2.10 0.035 -.5631046 -.0199866

_Iyear_80 -.2355611 .1189077 -1.98 0.048 -.468628 -.0024942

_Iyear_78 -.1763172 .0995746 -1.77 0.077 -.3714899 .0188555

_Iyear_77 -.1622962 .0893091 -1.82 0.069 -.3373479 .0127554

_Iyear_75 -.152118 .0698157 -2.18 0.029 -.2889613 -.0152748

_Iyear_73 -.096822 .0508415 -1.90 0.057 -.1964747 .0028306

_Iyear_72 -.0590495 .0412744 -1.43 0.153 -.13995 .021851

_Iyear_71 -.0305026 .0318724 -0.96 0.339 -.0929745 .0319693

_Iyear_70 -.0342683 .0229397 -1.49 0.135 -.0792316 .0106951

_Iyear_69 .0421902 .0155292 2.72 0.007 .0117519 .0726284

south -.0612464 .0109049 -5.62 0.000 -.0826208 -.0398721

not_smsa -.0872854 .0095083 -9.18 0.000 -.1059222 -.0686485

black 0 (omitted)

tenure2 -.0018203 .000126 -14.45 0.000 -.0020672 -.0015734

tenure .0338666 .001858 18.23 0.000 .0302248 .0375084

ttl_exp2 -.000116 .0001351 -0.86 0.390 -.0003808 .0001488

ttl_exp .0395614 .0030685 12.89 0.000 .0335469 .0455758

age2 -.0009346 .0000616 -15.16 0.000 -.0010554 -.0008138

age .0663695 .0105143 6.31 0.000 .0457607 .0869783

grade 0 (omitted)


corr(u_i, Xb) = 0.1861 Prob > F = 0.0000

F(22,23372) = 229.99


between = 0.3607 avg = 6.0

R-sq: within = 0.1780 Obs per group: min = 1

Group variable: idcode Number of groups = 4697

Fixed-effects (within) regression Number of obs = 28091

note: black omitted because of collinearity

note: grade omitted because of collinearity

i.year _Iyear_68-88 (naturally coded; _Iyear_68 omitted)

. xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south i.year,fe



46

Al igual que con los efectos individuales, podemos realizar una prueba F para conocer la

significancia conjunta de las variables dicotómicas temporales en nuestro modelo. La

hipótesis nula es que 1 = 2 = … t = 0. En nuestro ejemplo, luego de estimar un modelo con

efectos fijos individuales y temporales, indicamos en la ventana de comando:

testparm _Iyear_69 - _Iyear_88 //



47

El p-value de la prueba F nos indica que rechazamos la Ho, por lo que es posible afirmar

que las variables dicotómicas temporales son conjuntamente significativas y pertenecen

al modelo.

4.6 Autocorrelación

Es importante señalar que aun cuando hemos modelado la heterogeneidad temporal y

espacial en nuestro modelo, la ecuación (5) puede estar mal especificada en otros

aspectos.

Recordemos que de acuerdo con los supuestos de Gauss-Markov, los estimadores MCO

son los Mejores Estimadores Lineales Insesgados (MELI) siempre y cuando los errores

sean independientes entre sí y se distribuyan idénticamente con varianza constante.

Desafortunadamente, con frecuencia estas condiciones son violadas en datos panel: con

end of do-file

.

Prob > F = 0.0000

F( 14, 23374) = 10.44

(14) _Iyear_88 = 0

(13) _Iyear_87 = 0

(12) _Iyear_85 = 0

(11) _Iyear_83 = 0

(10) _Iyear_82 = 0

( 9) _Iyear_80 = 0

( 8) _Iyear_78 = 0

( 7) _Iyear_77 = 0

( 6) _Iyear_75 = 0

( 5) _Iyear_73 = 0

( 4) _Iyear_72 = 0

( 3) _Iyear_71 = 0

( 2) _Iyear_70 = 0

( 1) _Iyear_69 = 0

. testparm _Iyear_69 - _Iyear_88 // -testparm- es similar a –test-

.

. * Prueba para validar efectos Fijos



48

respecto a la independencia cuando los errores de diferentes unidades están

correlacionados (correlación contemporánea), o cuando los errores dentro de cada

unidad se correlacionan temporalmente (correlación serial), o ambos. También con

respecto a la distribución “idéntica” de los errores cuando la varianza no es constante

(heteroscedasticidad).

En ese sentido abordamos al problema de la correlación serial o “autocorrelación”; es

decir, cuando los errores itε no son independientes con respecto al tiempo. En nuestro

ejemplo, es muy probable que el nivel de ingresos en t esté asociado con el nivel de

ingresos en t-1. (INFOPUC, 2011). Existen muchas maneras de diagnosticar problemas de

autocorrelación15. Sin embargo, cada una de estas pruebas funciona bajos ciertos

supuestos sobre la naturaleza de los efectos individuales. Wooldridge desarrolló una

prueba muy flexible basada en supuestos mínimos que puede ejecutarse con el comando

xtserial. La hipótesis nula de esta prueba es que no existe autocorrelación; naturalmente,

si se rechaza, podemos concluir que ésta sí existe.16 El comando xtserial requiere que se

especifiquen la variable dependiente e independientes de nuestro modelo. En nuestro

ejemplo, indicamos:

15 Muchas de las pruebas que se utilizan para diagnosticar problemas de correlación serial en series de tiempo han

sido ajustadas para aplicarse a datos tipo panel en Stata. Estas pruebas puedes bajarlas por internet del modulo

“PANELAUTO” y “PANTEST2” tecleando en la línea de comando: ssc install panelauto y ssc install pantest2.

16 El método de Wooldridge utiliza los residuales de una regresión de primeras diferencias, observando que si itu no

está serialmente correlacionado, entonces la correlación entre los errores itu diferenciados para el periodo t y t-1 es

igual a -0.5. En realidad, la prueba de Wooldridge consiste en probar esta igualdad. Para una discusión más amplia de

esta prueba, consulta Wooldridge, J. M. 2002. Econometric Analysis of Cross Section and Panel Data. Cambridge, MA:

MIT Press.



49

La prueba nos indica que tenemos un problema de autocorrelación que es necesario

corregir. Una manera de hacerlo es a través de un modelo de efectos fijos con término

( )it

autorregresivo de grado 1 (AR1) que controla por la dependencia de t con respecto

a t-1. El modelo AR1 con efectos fijos se especifica de la manera:

−

= + +

= +

1 1

1

Donde:

it i it it

it it it

Y X

(51)

Los errores tienen una correlación de primer grado, . El modelo AR1 se puede

implementar con el comando xtregar:

xtregar ln_wage grade age* ttl_exp* tenure* black not_smsa south, fe

end of do-file

.



sigma_e .29260978

sigma_u .35780204

_cons .9083485 .0410338 22.14 0.000 .8279196 .9887774

south -.0597952 .0110021 -5.43 0.000 -.08136 -.0382304

not_smsa -.089174 .0095944 -9.29 0.000 -.1079797 -.0703683

black 0 (omitted)

tenure .0105427 .0009174 11.49 0.000 .0087446 .0123408

ttl_exp .033949 .0014633 23.20 0.000 .0310809 .0368172

age2 -.0008651 .0000463 -18.67 0.000 -.000956 -.0007743

age .0462177 .0027557 16.77 0.000 .0408164 .051619

grade 0 (omitted)


corr(u_i, Xb) = 0.2112 Prob > F = 0.0000

F(6,23388) = 751.52


between = 0.3514 avg = 6.0

within = 0.1616 min = 1




note: black omitted because of collinearity

note: grade omitted because of collinearity

. xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south,fe



50

.

end of do-file

.

F test that all u_i=0: F(4146,19241) = 1.69 Prob > F = 0.0000

rho_fov .67488431 (fraction of variance because of u_i)

sigma_e .25845863

sigma_u .37238033

rho_ar .74929079

_cons .438538 .0076196 57.55 0.000 .4236029 .4534731

south -.0379833 .0137222 -2.77 0.006 -.0648799 -.0110866

not_smsa -.0375502 .011841 -3.17 0.002 -.0607596 -.0143409

black 0 (omitted)

tenure .0103372 .0013308 7.77 0.000 .0077287 .0129456

ttl_exp .0237054 .0027819 8.52 0.000 .0182527 .0291581

age2 -.0011874 .0000552 -21.52 0.000 -.0012956 -.0010793

age .0771905 .0020002 38.59 0.000 .0732698 .0811111

grade 0 (omitted)


corr(u_i, Xb) = 0.1915 Prob > F = 0.0000

F(6,19241) = 823.11


between = 0.2936 avg = 5.6

within = 0.2042 min = 1



FE (within) regression with AR(1) disturbances Number of obs = 23,394

note: black dropped because of collinearity

note: grade dropped because of collinearity

. xtregar ln_wage grade age* ttl_exp* tenure* black not_smsa south, fe



51

4.7. Heterocedasticidad

Cuando la varianza de los errores de cada unidad transversal no es constante, nos

encontramos con una violación de los supuestos Gauss-Markov. Una forma de saber si

nuestra estimación tiene problemas de heteroscedastidad es a través de la prueba del

Multiplicador de Lagrange de Breusch y Pagan. Sin embargo, de acuerdo con Greene,

ésta y otras pruebas son sensibles al supuesto sobre la normalidad de los errores;

afortunadamente, la prueba Modificada de Wald para Heterocedasticidad funciona aún

cuando dicho supuesto es violado 17 (INFOPUC, 2011)

5. Efectos fijos vs. Aleatorios

Las pruebas de Breusch y Pagan para efectos aleatorios, y la prueba F de significancia de

los efectos fijos nos indican que tanto el modelo de efectos aleatorios como el de efectos

fijos son mejores que el modelo agrupado. ¿Pero cómo decidir cuál de los dos usar? La

respuesta depende de la posible correlación entre el componente de error individual iu

y las variables X. El modelo de efectos aleatorios supone que esta correlación es igual a

cero. Hausman demostró que la diferencia entre los coeficientes de efectos fijos y

aleatorios ef eaβ -β pude ser usada para probar la hipótesis nula de que iu y las

variables X no están correlacionadas.

Así pues, la Ho de la prueba de Hausman es que los estimadores de efectos aleatorios

y de efectos fijos no difieren sustancialmente. Si se rechaza la Ho, los estimadores sí

difieren, y la conclusión es efectos fijos es más conveniente que efectos aleatorios. Si

17 Para una discusión sobre esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 598.



52

no podemos rechazar Ho, no hay sesgo de qué preocuparnos y preferimos efectos

aleatorios que, al no estimar tantas dummies, es un modelo más eficiente. La prueba de

Hausman se implementa en Stata después de la regresión con efectos aleatorios con el

comando hausman (INFOPUC, 2011):

xtreg ln_wage grade age* ttl_exp* tenure* race ///

not_smsa south, re

estimates store RANDOM

xi: xtreg ln_wage grade age* ttl_exp* tenure* race not_smsa south,fe

estimates store FIXED

hausman FIXED RANDOM

En nuestro ejemplo, la Ho se rechaza; es decir, la diferencia entre los coeficientes de

efectos aleatorios y fijos sí es sistemática. Por lo tanto, conviene usar el método de efectos

fijos.

6. Efectos temporales (two-way fixed effects)

La incorporación de variables dicotómicas de las personas permite modelar

características de las unidades transversales (mujeres) que no cambian en el tiempo pero

que sí afectan el resultado de interés. Ahora bien, también es posible agregar variab les

dicotómicas temporales a nuestro modelo, es decir, una para cada año en la muestra, que

Prob>chi2 = 0.0000

= 149.43

chi2(8) = (b-B)'[(V_b-V_B)^(-1)](b-B)

Test: Ho: difference in coefficients not systematic

B = inconsistent under Ha, efficient under Ho; obtained from xtreg

b = consistent under Ho and Ha; obtained from xtreg



53

capturen eventos comunes a todas las personas durante un período u otro—como una

gran depresión o guerra mundial18. Agregando efectos temporales, la ecuación anterior

se transforma en:

= + + +1 1it i t it it

Y X (52)

Donde representa un vector de variables dicotómicas para cada año. Estas variable s

dicotómicas permitirán controlar por aquellos eventos a los que fueron sujetos todas las

personas en un año dado y, al igual que los efectos fijos, pueden reducir sesgos

importantes. En Stata podemos incorporar efectos temporales a nuestro modelo de

efectos fijos con el comando xi.

xi: xtreg ln_wage age age2 i.year, fe

18 Para hacer la distinción algunos autores suelen hablar de efectos idiosincráticos y efectos covariados.

.



sigma_e .30127563

sigma_u .40275174

_cons .3937532 .2001741 1.97 0.049 .0013992 .7861072

_Iyear_88 .1904977 .2068016 0.92 0.357 -.2148466 .595842

_Iyear_87 .1242272 .1930108 0.64 0.520 -.2540863 .5025406

_Iyear_85 .1042758 .1726431 0.60 0.546 -.2341157 .4426673

_Iyear_83 .058766 .1523743 0.39 0.700 -.2398974 .3574294

_Iyear_82 .0391687 .1423573 0.28 0.783 -.2398606 .318198

_Iyear_80 .0369475 .1221806 0.30 0.762 -.2025343 .2764293

_Iyear_78 .0537334 .1023339 0.53 0.600 -.1468475 .2543143

_Iyear_77 .0340933 .0918106 0.37 0.710 -.1458613 .2140478

_Iyear_75 .0151376 .0717194 0.21 0.833 -.1254371 .1557123

_Iyear_73 .0424104 .052118 0.81 0.416 -.0597442 .1445651

_Iyear_72 .0510671 .0422995 1.21 0.227 -.0318426 .1339769

_Iyear_71 .0579959 .0326524 1.78 0.076 -.0060048 .1219967

_Iyear_70 .0284423 .0234621 1.21 0.225 -.017545 .0744295

_Iyear_69 .0647054 .0158222 4.09 0.000 .0336928 .095718

age2 -.0010113 .000061 -16.57 0.000 -.0011309 -.0008917

age .0728746 .0107894 6.75 0.000 .0517267 .0940224


corr(u_i, Xb) = 0.0613 Prob > F = 0.0000

F(16,23784) = 195.45


between = 0.1078 avg = 6.1

within = 0.1162 min = 1




i.year _Iyear_68-88 (naturally coded; _Iyear_68 omitted)

. xi: xtreg ln_wage age age2 i.year, fe



54

O bien, generando tanto las dummies de personas como de año (computacionalmente

más costoso),

xi: xtreg ln_wage age age2 i.year i.idcode, fe

Al igual que con los efectos individuales, podemos realizar una prueba F para conocer la

significancia conjunta de las variables dicotómicas temporales en nuestro modelo. La

hipótesis nula es que:

= = =1 2

.... 0T

. En nuestro ejemplo, luego de estimar un modelo con efectos fijos

individuales y temporales, indicamos en la ventana de comando:

testparm _Iyear_69 - _Iyear_88 // -testparm- es similar a –test-

El p-value de la prueba F nos indica que rechazamos la Ho, por lo que es posible afirmar

que las variables dicotómicas temporales son conjuntamente significativas y pertenecen

al modelo.

Prob > F = 0.0000

F( 14, 23784) = 14.33

(14) _Iyear_88 = 0

(13) _Iyear_87 = 0

(12) _Iyear_85 = 0

(11) _Iyear_83 = 0

(10) _Iyear_82 = 0

( 9) _Iyear_80 = 0

( 8) _Iyear_78 = 0

( 7) _Iyear_77 = 0

( 6) _Iyear_75 = 0

( 5) _Iyear_73 = 0

( 4) _Iyear_72 = 0

( 3) _Iyear_71 = 0

( 2) _Iyear_70 = 0

( 1) _Iyear_69 = 0

. testparm _Iyear_69 - _Iyear_88 // -testparm- es similar a –test-

.



55

7. Bibliografía

Colin Cameron , A., & Trivedi, P. (2005). Microeconometrics: Methods and Applications. (C. U. Press, Ed.)

New York.

Orihuela, A. (2011). Stata Avanzado Aplicado a la Investigación Económica. Grupo Iddea, Lima.

Beltrán Barco, A. (2003). Econometría de series de tiempo. Lima: . Universidad del Pacífico. Obtenido de

https://econometriaii.files.wordpress.com/2010/01/beltran.pdf

Beltran Barco, Arlette; Castro Carlin, Juan;. (2010). Modelos de datos de panel y variables dependientes

limitadas: teoría y práctica. (U. d. Pacífico, Ed.)

Bravo, D., & Vásquez, J. (2008). Microeconometria Aplicada. Notas de Clase, Centro Micro Datos.,

Santiago. Obtenido de

http://www.academia.edu/9494003/MICROECONOMETR%C3%8DA_CON_STATA

de Arce, R., & Mahía, R. (2007). Técnicas de Previsión de variables financieras:Modelos Arima. (M. d.

Citius, Ed.)

Greene, W. (1997). Análisis Econometrico (Tercera ed.). Prentice Hall.

Greene, William. (1999). Análisis Econométrico. (S. &. Schuster, Trad.) Madrid: Prentice Hall Iberia.

INFOPUC. (2011). Stata para Economistas. Pontificia Universidad Católica .

Software Shop. (2013). Introducion al Stata 12: Ejercicios aplicados a la Economía y Econometría

Financiera.