econometría aplicada - regresión lineal simple · regresión lineal simple introducción i...

50
Econometría Aplicada Econometría Aplicada Regresión Lineal Simple Víctor Medina

Upload: phungtuyen

Post on 04-Sep-2018

248 views

Category:

Documents


0 download

TRANSCRIPT

Econometría Aplicada

Econometría AplicadaRegresión Lineal Simple

Víctor Medina

Econometría AplicadaRegresión Lineal Simple

Regresión Lineal Simple

Econometría AplicadaRegresión Lineal Simple

IntroducciónI La economía sugiere muchas relaciones entre variables económicas.

I Microeconomía:I modelos de oferta y demanda, donde las cantidades demandadas u

ofertadas de un bien dependen de su precio.I funciones de producción y curvas de productos totales, que explican la

cantidad del bien producido como función de la cantidad de insumosutilizados (como fuerza laboral, por ejemplo)

I Macroeconomía:I funciones de inversión para explicar que la inversión agregada en la

economía depende de la tasa de interés.I funciones de consumo, que relaciona el consumo agregado con el ingreso

disponible.

I Veremos como usar una muestra de datos económicos para cuantificareste tipo de relaciones, respondiendo preguntas del estilo

I Si el precio de un bien cambia de cierto modo, ¿cuánto cambiaría lacantidad demandada?

I Si sabemos el valor de una variable, ¿podemos predecir el valorcorrespondiente de otra variable?

Para afrontar estas cuestiones haremos uso del modelo de regresión ycomo todo modelo está basado en supuestos, aprenderemos cuando es precisoo no utilizarlo.

Econometría AplicadaRegresión Lineal Simple

Un modelo económico simple

I Supongamos que estamos interesados en estudiar la relación entre elingreso de los hogares y el gasto en comida. Además, asumimos queseleccionamos aleatoriamente hogares de una población enparticular.

I Primero, consideremos sólo los hogares con un ingreso de 1.000dólares a la semana y les preguntamos ¿cuánto gastó en comida porpersona la semana pasada?

I El gasto en comida semanal (denotado por y) es una variable aleatoriaya que su valor es incierto hasta que un hogar responde. Es decir, tieneuna función de densidad de probabilidad (fdp) que describe que tanfrecuentes son determinados valores de gasto en comida.

I El gasto en comida variará de hogar en hogar, incluso si tienen elmismo ingreso, por diferentes razones: algunos tienen adolescentes (quecomen mucho) o adultos mayores o son más gourmet o son vegetarianoso salen a restaurantes mas a menudo, etc.

I La fdp, f(y), describe como el gasto en comida es distribuído en lapoblación.

Econometría AplicadaRegresión Lineal Simple

En realidad, la fdp es una función de densidad condicional, ya que estácondicionada por el ingreso en los hogares.

I Si x = ingreso semanal en el hogar (que en nuestro caso locondicionamos en $1.000), luego la fdp es f(y|x = 1000).

I La esperanza condicional de y es E(y|x = 1000) = µy|x.I La varianza condicional es var(y|x = 1000) = σ2 que mide la dispersión

del gasto en comida entorno a su media, µy|x.I Si conocieramos µy|x y σ2 podríamos deducir valuable información.I Si además conocieramos que f(y|x = 1000) ∼ N(µy|x, sigma2), entonces

podríamos calcular probabilidades acerca del valor de y en distintosinvervalos

I Por ejemplo, la proporción de hogares que gasta en comida entre 50 y 75dólares por persona a la semana, dado que el ingreso es 1000.

Econometría AplicadaRegresión Lineal Simple

I Si los supuestos fueran ciertos, entonces podríamos imaginarnos, porejemplo, f(y|x = 1000) de la forma

Econometría AplicadaRegresión Lineal Simple

Pero como economistas, se está interesado en estudiar la relación entrevariables. En nuestro caso, la relación entre gasto en comida semanal porpersona (y) y el ingreso de los hogares semanales (x).

I La teoría económica nos dice que el gasto en bienes depende del ingreso.En consecuencia, llamaremos y la variable dependiente y x variableindependiente (o variable explicativa)

I En econometría, se asumen que los gastos tienen características inciertas(variable aleatoria) y se quiere usar la data para investigar estarelación.

I Para esto último, debemos crear un modelo económico y luego sucorrespondiente modelo enconométrico que forma la basecuantitativa o empírica del análisis.

I Promedio del gasto en comida por persona de un hogar (E(y|x) = µy|x),depende del ingreso (x). Si consideramos hogares con diferentes niveles deingreso, se espera que el promedio del gasto también cambie.

Econometría AplicadaRegresión Lineal Simple

Por ejemplo, si consideramos ingresos semanales de 1000 y 2000, podríamostener

Econometría AplicadaRegresión Lineal Simple

I Generalmente, en economía se representan la función de “consumo” o“gasto” como una relación lineal al ingreso.

I La representación matemática de nuestro modelo económico de gasto encomida sería entonces el siguiente

E(y|x) = µy|x = β1 + β2x

I Esta ecuación se llama función de regresión simple y gráficamente,se vería como

I Los parámetros β1 (intercepto) y β2 (pendiente) ayudan a caraterizar elcomportamiento de la población en cuestión.

Econometría AplicadaRegresión Lineal Simple

Un modelo econométrico

I Si preguntáramos a los hogares con distintos niveles de ingreso,podríamos ver (o realmente asumir) que para cada nivel x existe unadistribución que está centrada en la recta

E(y|x) = µy|x = β1 + β2x

como se muestra a continuación

Econometría AplicadaRegresión Lineal Simple

I Es decir, para ver algo realmente así, hemos asumido algunas cosas. Porejemplo, que la varianza σ2 es la misma para todos los niveles de x

I Asumimos que para cada nivel de ingreso x, estamos igualmenteinciertos acerca de qué tan dispersos están los valores y de su media

I Esta propiedad se denomina homocedasticidadI Si no se cumple, se denomina heterocedasticidad, es decir, sivar(y|x) 6= σ2 para distintos valores de x

I También hemos descrito la muestra como aleatoria, que significa que esestadísticamente independiente

I Sabiendo el valor de yi e yj , entonces el valor de una no nos dice nadaacerca de la probabilidad que la otra tenga un valor en particular.

I El supuesto de los modelos econométricos es más débil queindependencia estadística, ya que asume cov(yi, yj) = 0

I Indenpendencia implica covarianza cero, pero no al revésI Otro supuesto, es que x tome al menos dos valores diferentes en la

muestra.I Además, asumiremos que los valores de x están dados, es decir, tiene

una naturaleza no aleatoria.I Finalmente y a veces se asume que y ∼ N(.), justificando que en la

naturaleza la distribución normal es recurrente en todo tipo defenómenos. Sin embargo, es un supuesto que no va a ser siemprenecesario.

Econometría AplicadaRegresión Lineal Simple

En resumen, hasta el momento tenemos los siguientes supuestos delmodelo de regresión simple. . .

1. E(y|x) = µy|x = β1 + β2x2. var(y|x) = σ2 para todo x3. cov(yi, yj) = 0 para todo i 6= j4. La variable x es no aleatoria y debe tomar al menos dos valores

diferentes5. (opcional) y ∼ N(β1 + β2x, σ

2)

Econometría AplicadaRegresión Lineal Simple

Error aleatorioPuede ser conveniente describir los supuestos de la RLS en términos de lavariable dependiente y. Sin embargo, por razones estadísticas es útilcaracterizar los supuestos desde otra perspectiva.

I Cada observación y puede descomponerse en 2 términos:1. Sistemático: E(y|x) = µy|x = β1 + β2x (no aleatorio)2. Aleatorio: y − E(y|x) = y − β1 − β2x (error aleatorio, e)

I Es decir, podemos expresar el modelo de regresión simpley = β1 + β2x+ e

I Propiedades de e derivadas de las propiedades de yI Valor esperado E(e|x) = E(y|x)− β1 − β2x = 0I Varianza var(e|x) = var(y − β1 − β2x|x) = σ2

Econometría AplicadaRegresión Lineal Simple

Supuestos, puestos en otras palabras1. El valor de y, para cada valor de x es

y = β1 + β2x+ e

2. El valor esperado del error aleatorio esE(e) = 0

Que es equivalente a asumir que E(y) = β1 + β2x3. La varianza del error aleatorio es

var(e) = σ2 = var(y)(tienen la misma varianza porque solo difieren por una constante)

4. La covarianza entre cualquier par de errores ei, ej escov(ei, ej) = cov(yi, yj) = 0

(La versión “fuerte” de este supuesto es que e es estadísticamenteindependiente)

5. La variable x es no aleatoria y debe tomar al menos dos valores diferentes.6. (opcional) Los valores de e son normalmente distribuídos

e ∼ N(0, σ2)si los valores de y son normalmente distribuídos (y vice versa)

Obs. para simplificar la notación y dado que estamos asumiendo que x es noaleatorio, sacamos el |x de las ecuaciones.

Econometría AplicadaRegresión Lineal Simple

Interpretación gráfica de eI El error e y la variable dependiente y son variables aleatorias y las

propiedades de una pueden ser determinadas por las de la otra.I Pero existe una diferencia. La variable y es observable, en cambio, e no.I Si, por ejemplo, los parámetros β1 y β2 fueran conocidos, entonces para

cualquier valor de y podríamos calcular e = y − (β1 + β2x) como semuestra a continuación

I Sin embargo, β1 y β2 nunca son conocidos (¡se deben estimar!) y por lotanto es imposible calcular e

Econometría AplicadaRegresión Lineal Simple

Representación de e

I El error aleatorio representa todos los factores que afectan a y y que noson explicados por x

I En nuestro ejemplo, ¿qué factores podrían causar que y difiera de suvalor esperado?1. Ingreso como única variable explicativa. Cualquier otro factor económico

que afecte el gasto en comida es “capturado” por el error.2. Captura además cualquier error de aproximación que surge de haber

utilizado una recta.3. También captura cualquier comportamiento aleatorio de los agentes. Es

decir, incluso sabiendo todas las variables que afectan el gasto en comidapuede no ser suficiente para explicarlo perfectamente. El comportamientoimpredecible de los hogares también está contenido.

Obs. Si hemos omitido algún factor o variable relevante en nuestro modelo,o algún otro error de especificación, entonces el supuesto que E(e) = 0no se cumplirá y como veremos más adelante, tendrá consecuenciasimportantes para nuestro modelo y, por lo tanto, de la validez de lainformación que podamos extraer de él.

Econometría AplicadaEstimación de los parámetros de regresión

Estimación de los parámetros de regresión

Econometría AplicadaEstimación de los parámetros de regresión

De la clase pasada. . .

Econometría AplicadaEstimación de los parámetros de regresión

Gráficamente. . .

Econometría AplicadaEstimación de los parámetros de regresión

Mínimos cuadrados

I Si asumimos los 5 primeros supuestos que vimos (¿cuáles eran?), lapregunta ahora es ¿cómo usamos los datos que tenemos de yi y xi paraestimar los parámetros β1 y β2 de E(y) = β1 + β2x

I Distintas rectas pasan por entremedio de los puntos y se pueden definirdistintos criterios (“al ojo”, tomando el primer y último punto, etc.)

I Necesitamos un criterio que nos diga cómo estimar los parámetroshaciendo uso de toda nuestra muestra.

Principio de MCOI La “mejor” recta que se ajusta a los datos es la que logra minimizar la

suma de los cuadrado de las distancias verticales de cada punto a larecta.

I Esta “regla” es arbitraria pero eficiente y simple de aplicar.I Si denotamos como β1 y β2 los estimadores MCO de β1 y β2,

respectivamente, entonces los puntos de la recta quedan definidos como

yi = β1 + β2xi

Econometría AplicadaEstimación de los parámetros de regresión

I Las distancias verticales son

ei = yi − yi = yi − β1 − β2xi

Gráficamente. . .

Econometría AplicadaEstimación de los parámetros de regresión

I Definimos la suma de los residuos al cuadrado

S(β1, β2) =N∑i=1

ei2 =

N∑i=1

(yi − β1 − β2xi)2

Ejercicio: Encontrar β1 y β2 que satisfacen

minβ1,β2

N∑i=1

(yi − β1 − β2xi)2

Econometría AplicadaEstimación de los parámetros de regresión

Estimadores de mínimos cuadrados

β2 =∑

xiyi −Nxy∑x2i −N(x)2

β1 = y − β2x

donde y =∑

yi/N y x =∑

xi/N son las medias muestrales de lasobservaciones y y x, respectivamente.

I Las formulas de los estimadores son generales, es decir, puedencalcularse estimaciones para distintas muestras. Cuando reeplazamos lasformulas con datos de la muestra, obtenemos valores observados de estasformulas.

I Estimadores de minimos cuadrados son representados con laformula pero pueden tomar una serie de valores. En realidad son variablesaleatorias

I Las estimaciones de minimos cuadrados son el resultado de laaplicacion de las formulas con los valores observados de la muestra.

Econometría AplicadaEstimación de los parámetros de regresión

Estimaciones en nuestro ejemplo

β2 =∑N

i=1(xi − x)(yi − y)∑N

i=1(xi − x)2= 18671.2684

1828.7876 = 10.2096

β1 = y − β2x = 283.5735− (10.2096)(19.6048) = 83.4160

yi = 83.42 + 10.21xi

I ¿El punto (x, y) pertenece a la recta?

Econometría AplicadaEstimación de los parámetros de regresión

Formulaciones alternativas

I Podemos expresar β2 entorno al punto de las medias.

Econometría AplicadaEstimación de los parámetros de regresión

Formulaciones alternativas

Demostrar que

I β2 =∑

xiyi−

∑xi

∑yi

N∑x2

i−

(∑

xi)2

N

I β2 =∑N

i=1(xi−x)(yi−y)∑N

i=1(xi−x)2

(esta es la notación más común)

I β2 =∑N

i=1(xi−x)yi∑N

i=1(xi−x)2

=∑N

i=1 wiyi

con wi = (xi−x)∑N

i=1(xi−x)2

(en otras palabras, β2 es un estimador lineal)

Econometría AplicadaEstimación de los parámetros de regresión

Interpretaciones de las estimaciones

Recordemos. . .β2 = ∆E(y)

∆xEn nuestro ejemplo, un aumento de $100 en el salario semanal de los hogares,tiene un impacto de $10.21 en gasto en comida.

Elasticidad en una rectaLa pregunta es: si x cambia en un 1% ¿en qué porcentaje cambia y?

I y1 = β1 + β2x1I y2 = β1 + β2x1(100% + 1%)I εxy = 100 y2−y1

y1=?

I Usualmente se utiliza el punto de las medias. En nuestro ejemplo

ε = β2x

y= 10.21 · 19.60

283.57 = 0.71%

Econometría AplicadaEstimación de los parámetros de regresión

En Stata

El cálculo de la elasticidad en el punto de las medias se calcula de lasiguiente manera

Econometría AplicadaEstimación de los parámetros de regresión

¿Qué tan buenos son los estimadores de mínimos cuadrados?

I No nos preguntamos si las estimaciones β1 = 83.42 y β2 = 10.21 sonbuenas o malas, ya que nunca sabremos los verdaderos valores de losparámetros β1 y β2. Las estimaciones son números que pueden o noestar cerca de los verdaderos, pero nunca lo sabremos.

I Más bien nos preguntamos de la calidad de los estimadoresI Si los estimadores MCO, β1 y β2 son variables aleatorias, entonces

¿cuáles son sus valores esperados, varianzas, covarianzas y distribucionesde probabilidad?

I MCO es una forma de usar la data para obtener estimaciones, pero ¿cómopodemos comparar si este procedimiento produce estimaciones máscercanas al valor real que otros procedimientos?

Econometría AplicadaEstimación de los parámetros de regresión

El estimador β2

Utilizando la fórmula anteriormente demostrada β2 =∑N

i=1 wiyi, conwi = (xi−x)∑N

i=1(xi−x)2

. Por otra parte, recordando que yi = β1 + β2xi + ei

entonces podemos escribir

β2 = β2 +N∑i=1

wiei

I La fórmula no es útil para estimaciones, ya que aparecen β2(desconocido) y ei’s (no observables), sin embargo, es útil para entenderlas propiedades del estimador.

Econometría AplicadaEstimación de los parámetros de regresión

Valor esperado de β1 y β2

Los estimadores β1 y β2 son variables aleatorias (son desconocidos hasta quese obtiene la muestra y varían de muestra en muestra)

I Probar que si se cumplen los supuestos del modelo de regresión lineal,entonces E(β2) = β2 (insesgado)

I Tener un modelo bien especificado, es decir, que hemos incluído todas lasvariables relevantes, es un requisíto si queremos tener estimadoresinsesgados.

I Probar también que E(β1) = β1

Econometría AplicadaEstimación de los parámetros de regresión

Varianza y covarianza de β1 y β2

La varianza de un estimador mide la precisión en el sentido que nos dice encuanto puede variar el estimador de muestra en muestra. Entre mas pequeñala varianza de un estimador, mejor es la precisión del estimador.

I var(β1) = σ2[ ∑

x2i

N∑

(xi−x)2

]I var(β2) = σ2∑

(xi−x)2

I cov(β1, β2) = σ2[

−x∑(xi−x)2

]

Econometría AplicadaEstimación de los parámetros de regresión

Demostración para β2 (las otras quedan de ejercicio)Recordando que β2 = β2 +

∑N

i=1 wiei con wi = (xi−x)∑N

i=1(xi−x)2

, luego

var(β2) = var(β2 +N∑i=1

wiei)

= var(N∑i=1

wiei)

=N∑i=1

w2i var(ei)

= σ2N∑i=1

w2i

= σ2N∑i=1

[ (xi − x)∑N

i=1(xi − x)2]2 = σ2∑

(xi − x)2

Econometría AplicadaEstimación de los parámetros de regresión

Varianza y covarianza de β1 y β2

1. Cuando σ2 es grande, la información que tenemos de β1 y β2 es menosprecisa.

2. Entre más grande la dispersión de x,∑

(xi − x)2, más pequeñas son lasvarianzas de los estimadores (más precisos).

Econometría AplicadaEstimación de los parámetros de regresión

3. Entre más grande N , más pequeñas son las varianzas y covarianzas.Entre más datos, mejor.

4. Entre más grande es∑

x2i , más grande es la varianza de β1. Entre más

lejos del origen, más dificil es estimarlo.5. La covarianza tiene signo opuesto a x. Por ejemplo, si el promedio es

positivo y lo pensamos fijo, ¿qué pasa con el intercepto si la pendienteaumenta?

Econometría AplicadaEstimación de los parámetros de regresión

Distribuciones de probabilidades de los estimadores MCO

I Si usamos el supuesto 6 que dice ei ∼ N(0, σ2), entonces β1 y β2también distribuyen normalmente ya que son lineales en yi y la suma dedistribuciones normales es normal

β1 ∼ N(β1,

σ2∑x2i

N∑

(xi − x)2

)

β2 ∼ N(β2,

σ2∑(xi − x)2

)I Si el supuesto 6 no se cumple, ¿podemos decir algo acerca de las

distribuciones de probabilidades de los estimadores?I A veces. Si los supuestos 1 a 5 se cumplen y N es “suficientemente

grande”, entonces, por Teorema Central del Límite, los estimadores MCOtienen “aproximadamente” las distribuciones anteriores.

Econometría AplicadaEstimación de los parámetros de regresión

Estimación de σ2 (varianza del error)

La varianza del error es var(ei) = σ2 = E(e2i )− E(ei)2 = E(e2

i ) y como laesperanza es un “promedio”, podemos considerar que un estimador σ2 no esmas que el promedio de los errores al cuadrado, es decir

σ2 =∑N

i=1 e2i

N

Pero los ei son no observables, sin embargo sabemos queei = yi − β1 − β2xi y podemos aproximar estos errores con los residuos demínimos cuadrados ei

I Es decir, los errores ei = yi − β1 − β2xi los reemplazamos porei = yi − yi = yi − β1 − β2xi

quedando

σ2 =∑N

i=1 e2i

N

Econometría AplicadaEstimación de los parámetros de regresión

I Pero. . . σ2 =∑N

i=1e2

i

Ntiene sesgo y se debe corregir.

I El estimador insesgado es

σ2 =∑N

i=1 e2i

N − 2I El “2” aparece por el número de parámetros de la regresión (β1, β2)I Si tuvieramos que estimar k parámetros entonces sería N − k en el

denominador para hacerlo insesgadoI Ahora que tenemos una expresión para estimar la varianza del error,

podemos estimar la varianza de los estimadores MCO (β1, β2)

Econometría AplicadaEstimación de los parámetros de regresión

Estimación de las varianzas y covarianza de los estimadores MCO

Las expresiones son análogas a las que vimos si asumimos que σ2 es conocidopero reemplazando σ2 por σ2, es decir

I var(β1) = σ2[ ∑

x2i

N∑

(xi−x)2

]I var(β2) = σ2∑

(xi−x)2

I cov(β1, β2) = σ2[

−x∑(xi−x)2

]Y la raíz cuadrada de cada varianza estimadas se define como el respectivo“error estándar” del estimador (métricas que son importantes en estimaciónde intervalos y test de hipótesis)

I se(β1) =√

var(β1)

I se(β2) =√

var(β2)

Econometría AplicadaEstimación de los parámetros de regresión

Ejemplo en Stata

I Cálculo de σ2

Econometría AplicadaEstimación de los parámetros de regresión

Ejemplo en Stata

I Cálculo de var(β1), var(β2) y cov(β1, β2)

I ¿Dónde están los errores estándar se(β1) y se(β2)?

Econometría AplicadaEstimaciones con relaciones no lineales

Estimaciones con relaciones no lineales

Econometría AplicadaEstimaciones con relaciones no lineales

Estimaciones con relaciones no lineales

I Es usual que las relaciones entre variables económicas (y no económicas)estén dominadas por expresiones no lineales. Es decir, y no crecelinearmente con x.

I Sin embargo, la regresión lineal y = β1 + β2x aún nos sirve. Sólamentedebemos identificar que tanto x como y pueden ser transformaciones

I Transformaciones como logaritmicas, cuadradas, cúbicas, inversas,etc. O pueden ser variables que toman sólo dos valores (1 si es mujer, 0si es hombre, por ejemplo)

Econometría AplicadaEstimaciones con relaciones no lineales

(Paréntesis para definir elasticidad)

En la clase pasada ocupamos la elasticidad de una recta como β2xy, sin

embargo, para el tipo de transformaciones que usaremos nos va a ser útildefinirla en términos generales

La definición formal de elasticidad de f() respecto a xi en el punto a es

εxif(a) =: limxi→ai

f(x)−f(a)f(a)xi−aiai

= aif(a)

∂f

∂xi(a)

Para efectos prácticos, podemos denotar εx(y) = pendiente · xy

Econometría AplicadaEstimaciones con relaciones no lineales

Función cuadráticaTomemos como ejemplo el precio de las casas en función a sus pies cuadrados(área).

I Modelo precio = α1 + α2 · pies2 + eI Estimación precio = α1 + α2 · pies2

I La elasticidad es εx(y) = pendiente · xy

= (2α2 · pies) pies

precio

Econometría AplicadaEstimaciones con relaciones no lineales

Gráficamente

Econometría AplicadaEstimaciones con relaciones no lineales

Función Log-linealEl uso del logaritmo es muy común en el modelamiento económico. Elmodelo log-lineal usa el logaritmo de una variable como, por ejemplo, ladependiente versus la independiente sin transformación.

ln precio = γ1 + γ2 · pies+ e

que no es más que decir que y = exp(γ1 + γ2 · pies+ e) (y creceexponencialmente en x si γ2 > 0)

I Efectos de realizar esta transformaciónI Regulariza la data cuando no es muy simétricaI Nos permite ajustar la regresión

Econometría AplicadaEstimaciones con relaciones no lineales

Gráfico de los precios

I Distribución muy “asimétrica”

Econometría AplicadaEstimaciones con relaciones no lineales

Gráfico del ln(precios)

I Distribución más simétrica

Econometría AplicadaEstimaciones con relaciones no lineales

Gráfico de datos con la exponencial de los y