variables dummy (parte ii) - wordpress.com · 20/10/2011 4 yi =β1 +β2d1 +β3 xi +ui donde 0 1 d1...

20/10/2011 1

Variables Dummy

(parte II)

Fortino Vela Peón

Universidad Autónoma [email protected]

Octubre, 2010México, D. F.

20/10/2011 2

Introducción

� Solo se ha considerado modelos donde intervienen únicamente variables dummy del lado derecho de la igualdad.

� Ahora veamos modelos mixtos: intervienen variables cuantitativas y dummies, denominados modelos ANCOVA.

ccccóóóómo variable mo variable mo variable mo variable independienteindependienteindependienteindependiente

iii uUrbanoY ++= 21 ββ

iii uXUrbano ++= 21 ββ

iiii uXUrbanoY +++= 3321 βββ

ccccóóóómo variable dependientemo variable dependientemo variable dependientemo variable dependiente

VariableVariableVariableVariablecualitativacualitativacualitativacualitativa

úúúúnicanicanicanica

mixtamixtamixtamixta

iii uUrbanoY ++= 21 ββ

iiiii uUrbanoXUrbanoY +++= 3321 βββinteracciinteracciinteracciinteraccióóóónnnn

20/10/2011 3

Modelos ANCOVA

� Proporcionan un método para controlar los efectos delas variables regresoras cuantitativas (denominadascovariantes o variables de control).

� En el contexto de regresión lineal corresponde a

iii uXDY +++= 3121 βββdonde

0

11 =D

, presencia atributo

, ausencia atributo

� Pudiera coexistir más de una variable dummy y más deuna covariante (o variable de control).

� Ceteris paribus, si Xi aumenta en una unidad Yi se incrementa (o dismimuye), en promedio, en β3

estimada.

Categoría de referencia

∧∧∧∧

20/10/2011 4

iii uXDY +++= 3121 βββdonde

0

11 =D

, presencia atributo

, ausencia atributo

� Si se controla por Xi, el coeficiente intercepto-diferencialindica el diferencial del valor promedio de Y de la categoría de referencia.

Categoría de referencia

� La forma de ver este resultado es

ii XDDYE 31211)\( βββ ++=

11 =D

Si entonces

( ) ii XDYE 3211ˆˆˆ)1\( βββ ++==

01 =D

entonces

ii XDYE 311ˆˆ)0\( ββ +== (ausencia atributo)

por lo tanto, el cambio en la categoría esta dado por

( ) ( ) 23132111ˆˆˆˆˆˆ)0\()1\( ββββββ =+−++==−= iiii XXDYEDYE

∧∧∧∧∧∧∧∧∧∧∧∧

20/10/2011 5

� Gráficamente, si β2 > 0, se tiene

Desplazamiento del intercepto entre las categorías.

Parecen dos modelos

∧∧∧∧

∧∧∧∧ ∧∧∧∧

∧∧∧∧

∧∧∧∧

∧∧∧∧

∧∧∧∧

20/10/2011 6

� Nada cambia si hay más variables independientes.

� Por ejemplo,

� Tomando a D1=1 como la categoría de referencia, en un

modelo que controla por X2 y X3, ββββ2 indica el diferencial

en el valor promedio de Y respecto a la categoría de

comparación.

iiii uXXDY ++++= 3423121 ββββ

∧∧∧∧

20/10/2011 7

Alternativamente, otra forma de ver al modelo es

� Considere los datos sobre

iii uprice ++= sqft 21 ββ

� Veamos el diagrama de dispersión

price = precio de la vivienda (en miles de dólares)

sqft = área construida de la vivienda en (cientos de pies cuadrados).

age = antiguedad de la vivienda (en años).

� Se desea estimar el modelo:

que se pueden obtener mediante la sintaxis:

use http://stata.com/data/s4poe/utown

20/10/2011 8

150

200

250

300

350

hous

e pr

ice,

in $

1000

20 22 24 26 28 30square feet of living area, in 100's

20/10/2011 9

� Se podría dividir a la muestra en dos grupos.

� El criterio de separación estaría dado por:

� De esta manera se tiene:

0

11 =D

20 ≤ sqft ≤ 26.99

13211ˆˆˆ)1\( DXDYE ii βββ ++==

( ) ii XDYE 2311ˆˆˆ)1\( βββ ++==

o en términos generales,

27 ≤ sqft ≤ 30

iiii uDprice +++= 1321 sqft βββ

20/10/2011 10

150

200

250

300

350

hous

e pr

ice,

in $

1000


E(yi)= (b1+b3)+b2 Xi

E(yi)= b1+b2 Xi

20/10/2011 11

Cambio en interceptoreg price sqft if sqft<27

Source | SS df MS Number of ob s = 672-------------+------------------------------ F( 1, 670) = 157.46

Model | 173292.768 1 173292.768 Prob > F = 0.0000Residual | 737348.777 670 1100.52056 R-squared = 0.1903

-------------+------------------------------ Adj R-sq uared = 0.1891Total | 910641.544 671 1357.1409 Roo t MSE = 33.174

--------------------------------------------------- ---------------------------price | Coef. Std. Err. t P>|t| [95% C onf. Interval]

-------------+------------------------------------- ---------------------------sqft | 7.863549 .6266535 12.55 0.000 6. 633108 9.093991

_cons | 48.09577 14.83076 3.24 0.001 1 8.97541 77.21613--------------------------------------------------- ---------------------------

150

200

250

300

350

2 0 2 2 2 4 2 6 2 8 30s q u a re f e e t o f liv i ng a r e a , i n 1 00 's

h o u s e p r ic e , in $ 1 0 00 F it te d v a lu e s

20/10/2011 12

Cambio en intercepto

reg price sqft if sqft>26

Source | SS df MS Number of obs = 426-------------+------------------------------ F( 1, 424) = 71.96


-------------+------------------------------ Adj R-squared = 0.1431Total | 604057.739 425 1421.31233 Root MSE = 34.899

------------------------------------------------------------------------------price | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------sqft | 12.34246 1.455023 8.48 0.000 9.482504 15.20242

_cons | -74.71046 40.89575 -1.83 0.068 -155.0941 5.673188------------------------------------------------------------------------------

150

200

250

300

350


house price, in $1000 Fitted values

20/10/2011 13

Modelo con variables dummy (diferencial intercepto)

recode sqft (20/26.99=0) (27/30=1), gen(D1)reg price sqft D1predict yhatscatter yhat sqftdrop yhat





-------------+----------------------------------------------------------------sqft | 8.459985 .6141272 13.78 0.000 7.254855 9.665116

D1 | 1.065991 3.815717 0.28 0.780 -6.421767 8.55375_cons | 34.03281 14.53921 2.34 0.019 5.501834 62.56378

------------------------------------------------------------------------------

20/10/2011 14

200

220

240

260

280

300

Fitt

ed v

alu

es


20/10/2011 15

Modelo con variables dummy (pendiente-diferencial)

gen D2= D1*sqftreg price sqft D2predict yhatscatter yhat sqft





-------------+----------------------------------------------------------------sqft | 8.358851 .6223967 13.43 0.000 7.137493 9.580208

D2 | .0643068 .1353454 0.48 0.635 -.2012879 .3299014_cons | 36.32979 14.7266 2.47 0.014 7.431102 65.22848

------------------------------------------------------------------------------

20/10/2011 16

200

220

240

260

280

300

Fitt

ed v

alu

es


20/10/2011 17

Modelo con variables dummy (diferencial intercepto y

pendiente diferencial)

reg price sqft D1 D2predict yhatsc yhat sqft





-------------+----------------------------------------------------------------sqft | 7.863549 .6383559 12.32 0.000 6.610873 9.116226

D1 | -200.6517 62.38874 -3.22 0.001 -323.0802 -78.22325D2 | 7.168853 2.213124 3.24 0.001 2.825932 11.51177

_cons | 48.09577 15.10772 3.18 0.002 18.44917 77.74237------------------------------------------------------------------------------

20/10/2011 18

200

220

240

260

280

300

Fitt

ed v

alu

es


20/10/2011 19

Cambio en intercepto

� Considere los datos de la tabla 9.2 (Gujarati y Porter, 2010: 287).

� Se desea estimar el modelo:

ttt u++= income savings 21 ββdonde

0

11 == Dforeign

,importado

, local

20/10/2011 20

Ejemplo. ¿Son los autos importados más “caros”?

� Difiere el precio de los autos según la procedencia (local/extranjera) controlando por el “rendimiento”(mpg).

� Considere el archivo autos.dta y estime el modelo:

iiii uforeignmpgprice +++= 321 βββdonde

0

11 == Dforeign

, local

, importado

20/10/2011 21

reg price mpg foreign

Source | SS df MS Number of obs = 74

-------------+------------------------------ F( 2, 71) = 14.07

Model | 180261702 2 90130850.8 Pro b > F = 0.0000Residual | 454803695 71 6405685.84 R-squared = 0.2838

-------------+------------------------------ Adj R-sq uared = 0.2637

Total | 635065396 73 8699525.97 Roo t MSE = 2530.9

--------------------------------------------------- ---------------------------

price | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+------------------------------------- ---------------------------

mpg | -294.1955 55.69172 -5.28 0.000 -40 5.2417 -183.1494foreign | 1767.292 700.158 2.52 0.014 371.2169 3163.368

_cons | 11905.42 1158.634 10.28 0.000 9595.164 14215.67

--------------------------------------------------- ---------------------------

� dis 11905.42+1767.292= 13672.712

� ¿Qué hay sobre la significancía estadística?

20/10/2011 22

05

,00

01

0,0

001

5,0

00

10 20 30 40Mileage (mpg)

Price Fitted values

20/10/2011 23

Ejercicio 3: ¿Tiene influencia la PC sobre el rendimiento escolar?

� En muchos casos, las variables dummy reflejan elecciones de las unidades económicas (indviduos, empresas, países, etc.) más que atributos inalterables.

� En estos casos, la causalidad es un punto central.

� En este ejercicio se desea saber si tener una PC es causa de un promedio de calificaciones más alto.

� Considere el archivo GPA1.raw proporcionado por Wooldrige (2000) el cual puede obtener en

http://fmwww.bc.edu/ec-p/data/wooldridge/datasets.l ist.html

� A continuación se señalan las variables incluidas en el archivo.

20/10/2011 24

Variables del archivo GPA1.raw

Obs: 141

1. age in years

2. soph =1 if sophomore

3. junior =1 if junior

4. senior =1 if senior

5. senior5 =1 if fifth year

senior

6. male =1 if male

7. campus =1 if live on campus

8. business =1 if business major

9. engineer =1 if engineering major

10. colGPA MSU GPA

11. hsGPA high school GPA

12. ACT 'achievement' score

13. job19 =1 if job <= 19 hours

14. job20 =1 if job >= 20 hours

15. drive =1 if drive to campus

16. bike =1 if bicycle to campus

17. walk =1 if walk to campus

18. voluntr =1 if do volunteer work

19. PC =1 of pers computer at sch

20. greek =1 if fraternity or sorority

21. car =1 if own car

22. siblings =1 if have siblings

23. bgfriend =1 if boy- or girlfriend

24. clubs =1 if belong to MSU club

25. skipped avg lectures missed per week

26. alcohol avg # days per week drink alcohol

27. gradMI =1 if Michigan high school

28. fathcoll =1 if father college grad

29. mothcoll =1 if mother college grad

20/10/2011 25

� Las variables a considerar son:

use http://fmwww.bc.edu/ec-p/data/wooldridge/GPA1

- colGPA = es el promedio del universitario del examen

GPA (grade point average, GPA). El GPA es un

método utilizado para evaluar y categorizar el

rendimiento escolar de un alumno.

- hsGPA = promedio del GPA de la preparatoria.

- ACT = calificación prueba de aprovechamiento.

- PC =1 si el alumno tiene PC

� El archivo se puede obtener con la siguiente sintaxis

� Una vez que tenga la base de datos se estima el modelo siguiente:

20/10/2011 26

Modelo

iiii u++++= ACT hsGPAPC colGPA i4321 ββββ

donde

0

1=iPC

, tiene PC

, no tiene PC


Model | 4.25741863 3 1.41913954 Prob > F = 0.0000Residual | 15.1486808 137 .110574313 R-squared = 0.2194

-------------+------------------------------ Adj R-sq uared = 0.2023Total | 19.4060994 140 .138614996 Roo t MSE = .33253

--------------------------------------------------- ---------------------------colGPA | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+------------------------------------- ---------------------------PC | .1573092 .0572875 2.75 0.007 .04 40271 .2705913

hsGPA | .4472417 .0936475 4.78 0.000 . 2620603 .632423ACT | .008659 .0105342 0.82 0.413 -.0 121717 .0294897

_cons | 1.26352 .3331255 3.79 0.000 . 6047871 1.922253--------------------------------------------------- ---------------------------

� Interprete sus resultados. ¿Es significativo?

20/10/2011 27

� Agregue al modelo a la variable dummy male .

Ejercicio 3: ¿Tiene influencia la PC sobre el rendimiento escolar? (continua)

iiiii um ale ACT hsGPAPC colGPA 5i4321 +++++= βββββdonde

0

1=iPC

, tiene PC

, no tiene PC

reg colGPA PC hsGPA ACT male





-------------+------------------------------------- ---------------------------PC | .1576586 .0576519 2.73 0.007 .04 36486 .2716687

hsGPA | .4495959 .0982192 4.58 0.000 . 2553615 .6438303ACT | .0084103 .0109935 0.77 0.446 -.0 133301 .0301506

male | .0049491 .0599443 0.08 0.934 -.1 135943 .1234926_cons | 1.258783 .3392271 3.71 0.000 . 5879404 1.929625

--------------------------------------------------- ---------------------------

20/10/2011 28

� ¿Son significativas de manera conjunta las variables PC y male?

reg colGPA PC hsGPA ACT maletest PC male

( 1) PC = 0( 2) male = 0

F( 2, 136) = 3.75Prob > F = 0.0261

� ¿Qué sucede si se elimina a hsGPA y ACT de la ecuación original (sin male )?

20/10/2011 29

reg colGPA PC hsGPA

� Comente sus resultados

reg colGPA PC





-------------+------------------------------------- ---------------------------PC | .1585578 .0572 2.77 0.006 .045456 .2716596

hsGPA | .4737943 .0877964 5.40 0.000 . 3001942 .6473944_cons | 1.381856 .3000584 4.61 0.000 . 7885492 1.975162

--------------------------------------------------- ---------------------------


Model | .970092892 1 .970092892 Prob > F = 0.0077Residual | 18.4360066 139 .132633141 R-squared = 0.0500



-------------+------------------------------------- ---------------------------PC | .1695168 .0626805 2.70 0.008 .04 55864 .2934472

_cons | 2.989412 .0395018 75.68 0.000 2.91131 3.067514--------------------------------------------------- ---------------------------

20/10/2011 30

� Añada a la ecuación originalmente estimada las variables mothcoll (universidad de la madre), fathcoll(universidad del padre) y reporte sus resultados (recuerde que fathcoll=1 si el padre tiene grado universitario y mothcoll=1 si la madre tiene grado universitario).

� Compruebe la significancia conjunta de las variables mothcoll y fathcoll .

� Añada hsGPA2 (hsGPA2) al modelo original y decida si es necesaria esta generalización.

Ejercicio 3: ¿Tiene influencia la PC sobre el rendimiento escolar? (extendido)

20/10/2011 31

Source | SS df MS Number of ob s = 141

-------------+------------------------------ F( 5, 135) = 7.71

Model | 4.31210399 5 .862420797 Prob > F = 0.0000

Residual | 15.0939955 135 .111807374 R-squared = 0.2222

-------------+------------------------------ Adj R-sq uared = 0.1934

Total | 19.4060994 140 .138614996 Roo t MSE = .33438

--------------------------------------------------- ---------------------------

colGPA | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+------------------------------------- ---------------------------

PC | .1518539 .0587161 2.59 0.011 .03 57316 .2679763

hsGPA | .4502203 .0942798 4.78 0.000 . 2637639 .6366767

ACT | .0077242 .0106776 0.72 0.471 -.0 133929 .0288413

mothcoll | -.0037579 .0602701 -0.06 0.950 -.1229535 .1154377

fathcoll | .0417999 .0612699 0.68 0.496 -.079373 .1629728

_cons | 1.255554 .3353918 3.74 0.000 . 5922526 1.918856

--------------------------------------------------- ---------------------------

reg colGPA PC hsGPA ACT mothcoll fathcoll

20/10/2011 32

ttest mothcoll fathcoll

test fathcoll mothcoll

( 1) fathcoll = 0( 2) mothcoll = 0

F( 2, 135) = 0.24Prob > F = 0.7834

20/10/2011 33

gen hsGPA2= hsGPA^2reg colGPA PC hsGPA ACT hsGPA2

Source | SS df MS Number of obs = 141

-------------+------------------------------ F( 4, 136) = 10.14Model | 4.45721031 4 1.11430258 Pro b > F = 0.0000

Residual | 14.9488891 136 .109918303 R-squared = 0.2297-------------+------------------------------ Adj R-sq uared = 0.2070

Total | 19.4060994 140 .138614996 Roo t MSE = .33154


-------------+------------------------------------- ---------------------------PC | .1513409 .0572886 2.64 0.009 .03 80492 .2646326

hsGPA | -1.425306 1.392061 -1.02 0.308 -4 .178191 1.327579ACT | .0066608 .010607 0.63 0.531 -.0 143152 .0276368

hsGPA2 | .2802358 .2078595 1.35 0.180 -.130819 .6912906_cons | 4.412745 2.359372 1.87 0.064 - .2530567 9.078546

--------------------------------------------------- ---------------------------

20/10/2011 34

Modelos con formas cuadráticas

� Las funciones cuadráticas se emplean con frecuencia para captar efectos marginales crecientes o decrecientes.

� En el caso más simple, Y depende de un solo factor observado X, pero de manera cuadrática, esto es:

iiii uXXY +++= 2321 βββ

� En términos generales, β1 mide el cambio en Y respecto de X pero en este caso no tiene sentido mantener fija a X2.

� Se puede escribir a la función estimada como

2321

ˆˆˆˆiii XXY βββ ++=

y se puede tener la aproximación

ii X

dX

Yd32

ˆ2ˆˆ

ββ +=

20/10/2011 35

� En muchas aplicaciones es positiva y es negativa, lo que indicaría que X tiene un efecto decreciente en Y.

� Matemáticamente se tendría una forma parabólica.

� Bajo estas circunstancias, el punto crítico (o máximo de la función) se alcanza en:

3

2*

ˆ2

ˆ

ββ=X

como puede verse en el siguiente ejemplo.

2β̂ 3β̂

20/10/2011 36

Ejemplo: Salarios vs experiencia.

� Consideremos los datos de Wooldrige (2000) sobre los salarios para una muestra de 526 trabajadores en los Estados Unidos.

� Se pueden obtener estos datos mediante la sintaxis:

iii u+++= 2i321 expersq experwage βββ

� Las variables contenidas en este archivo (WAGE1.dta) se describen a continuación.

� Se desea estimar el modelo

use http://fmwww.bc.edu/ec-p/data/wooldridge/WAGE1

20/10/2011 37

Variables contenidas en el archivo WAGE.dta

1. wage= average hourly earnings

2. educ= years of education

3. exper= years potential experience

4. tenure= years with current employer

5. nonwhite =1 if nonwhite

6. female=1 if female

7. married=1 if married

8. numdep= number of dependents

9. smsa=1 if live in SMSA

10. northcen =1 if live in north central

U.S

11. south=1 if live in southern region

12. west=1 if live in western region

13. construc= 1 if work in construc.

indus.

14. ndurman=1 if in nondur. manuf.

indus.

15. trcommpu=1 if in trans, commun,

pub ut

16. trade=1 if in wholesale or retail

17. services=1 if in services indus.

18. profserv =1 if in prof. serv. indus.

19. profocc=1 if in profess. Occupati-

on

20. clerocc =1 if in clerical occupation

21. servocc =1 if in service occupation

22. lwage= log(wage)

23. expersq= exper^2

24. tenursq =tenure^2

n= 526

20/10/2011 38

Estimaciones

reg wage exper expersq


Model | 664.266927 2 332.133463 Pro b > F = 0.0000Residual | 6496.14736 523 12.4209319 R-squared = 0.0928


--------------------------------------------------- ---------------------------wage | Coef. Std. Err. t P>|t| [ 95% Conf. Interval]

-------------+------------------------------------- ---------------------------exper | .2981001 .0409655 7.28 0.000 . 2176229 .3785773

expersq | -.0061299 .0009025 -6.79 0.000 -.0079029 -.0043569_cons | 3.725406 .3459392 10.77 0.000 3.045805 4.405007

--------------------------------------------------- ---------------------------

� En este caso es positiva y es negativa, lo que señala que exper tiene un efecto decreciente sobre wage.

� Así, exper* esta dado en aprox 24.3 años.

2β̂3β̂

24.31525)0061299.0(2

2981001.0* =−

=X

20/10/2011 39

� Esto indicaría que, cuando la experiencia es de 24 años el salario es igual a cero.

� Considere lo siguiente:

i. Puede ser que sólo unas cuantas personas en la muestra posean 24 o más años de experiencia y, por tanto, se podría ignorar el resultado obtenido.Esta posibilidad no es valida ya que 29.1 % de la muestra cumple con este criterio:

sum experrecode exper (0/10=1) (11/20=2) (21/23=3) (24/51=4), gen(experiencia)label define experiencia 1 "1 a 10 años" 2 "11 a 23 años" 3 "21 a 23 años" 4 "24 y más años"label values experiencia experienciatab experiencia

RECODE of |exper | Freq. Percent Cum.

--------------+-----------------------------------1 a 10 años | 220 41.83 41.83

11 a 23 años | 121 23.00 64.8321 a 23 años | 32 6.08 70.91

24 y más años | 153 29.09 100.00--------------+-----------------------------------

Total | 526 100.00

20/10/2011 40

ii. Resulta difícil creer que a los 24 años de experiencia laboral se inicie un efecto negativo sobre el salario. En este sentido, el efecto puede estar sesgado al omitir otros factores relevantes (i. e. educación, edad, etc.).

iii. Es posible que la forma funcional empleada nosea la correcta (i.e modelo log-log, lin-log, etc.).

graph matrix wage exper expersq

wage

exper

expersq

0

10

20

30

0 10 20 30

0

20

40

60

0 20 40 60

0

1000

2000

3000

0 1000 2000 3000

lwage

lexper

lexpersq

0

2

4

0 2 4

0

2

4

0 2 4

0

5

10

0 5 10

20/10/2011 41

Salarios vs experiencia: modelo semi-logarítmico

� Continuaremos con el ejemplo donde se relaciona al salario contra la experiencia donde ahora se adiciona al modelo la variable educación (educ ).

iiiii ueducwage ++++= expersqexpersq)ln( 4321 ββββ

exper)expersqˆ2ˆ(100% 43 ∆+=∆ ββwage

a) Estime el modelo log-lin siguiente :

b) ¿Es expersq significativa estadísticamente?

c) Con ayuda de

encuentre el rendimiento aproximado del quinto año de experiencia. ¿Cuál es el rendimiento aproximado del vigésimo año?

d) ¿Para que valor de exper disminuye la experiencia adicional del ln(wage) ? ¿Cuánta gente tiene más experiencia en esta muestra?

20/10/2011 42

iiiii uersqereducwage ++++= expexp)ln( 4321 ββββa) Estime el modelo:

reg lwage educ exper expersq




--------------------------------------------------- ---------------------------lwage | Coef. Std. Err. t P>|t| [95% C onf. Interval]

-------------+------------------------------------- ---------------------------educ | .0903658 .007468 12.10 0.000 .0 756948 .1050368

exper | .0410089 .0051965 7.89 0.000 . 0308002 .0512175expersq | -.0007136 .0001158 -6.16 0.000 -.000941 -.0004861

_cons | .1279975 .1059323 1.21 0.227 -. 0801085 .3361034--------------------------------------------------- ---------------------------

b) ¿Es expersq significativa estadísticamente?

20/10/2011 43

lwage

educ

exper

expe rsq

0

2

4

0 2 4

0

10

20

0 10 20

0

20

40

60

0 20 40 600

1000

2000

3000

0 1000 2000 3000

graph matrix lwage educ exper expersq

20/10/2011 44

dis 100*[.0410089 +(2*(-.0007136)*(5^2))]*1= 0.53289 %dis 100*[.0410089 +(2*(-.0007136)*(20^2))]*1=-52.98711 %

c) Con ayuda de exper)expersqˆ2ˆ(100% 43 ∆+=∆ ββwageencuentre el rendimiento aproximado del quinto año de experiencia. ¿Cuál es el rendimiento aproximado del vigésimo año?

En este caso es positiva y es negativa, lo que señala que expertiene un efecto decreciente sobre lwage (ambas son significativas).

Así, exper* esta dado en aproximadamente 29 años.

3β̂ 4β̂

28.733814)-.0007136(2

.0410089exper * ==

Por otra parte, al obtener la distribución de frecuencias de la variable educ se aprecia (ver cuadro más adelante):

- Solo una 1 persona de las 526 presenta un valor de educ =2;

- El número máximo de años de educ es de 18 años, por lo que ninguno alcanza los 20 años.

Dadas las características de la muestra, el segundo resultado puede ignorarse.

20/10/2011 45

d) ¿Para que valor de exper disminuye la experiencia adicional del

ln(wage) ? ¿Cuánta gente tiene más experiencia en esta muestra?

tab educ Distribución de frecuencias de la variable educ en la muestra.

educ | Freq. Percent Cum.------------+-----------------------------------

0 | 2 0.38 0.382 | 1 0.19 0.573 | 1 0.19 0.764 | 3 0.57 1.335 | 1 0.19 1.526 | 6 1.14 2.667 | 4 0.76 3.428 | 22 4.18 7.609 | 17 3.23 10.84

10 | 30 5.70 16.5411 | 29 5.51 22.0512 | 198 37.64 59.7013 | 39 7.41 67.1114 | 53 10.08 77.1915 | 21 3.99 81.1816 | 68 12.93 94.1117 | 12 2.28 96.3918 | 19 3.61 100.00

------------+-----------------------------------Total | 526 100.00

28.733814)-.0007136(2

.0410089exper * ==

Se había señalado que exper* se ubica aproximadamente en 29 años.

20/10/2011 46

tab educ

Distribución de frecuencias de la variable educ en la muestra.

educ | Freq. Percent Cum.------------+-----------------------------------

0 | 2 0.38 0.382 | 1 0.19 0.573 | 1 0.19 0.764 | 3 0.57 1.335 | 1 0.19 1.526 | 6 1.14 2.667 | 4 0.76 3.428 | 22 4.18 7.609 | 17 3.23 10.84

10 | 30 5.70 16.5411 | 29 5.51 22.0512 | 198 37.64 59.7013 | 39 7.41 67.1114 | 53 10.08 77.1915 | 21 3.99 81.1816 | 68 12.93 94.1117 | 12 2.28 96.3918 | 19 3.61 100.00

------------+-----------------------------------Total | 526 100.00

20/10/2011 47

Salarios vs experiencia: modelo semi-logarítmico

� Continuaremos con el ejemplo donde se relaciona al salario contra la experiencia.

� Ahora se adiciona al modelo a la variable educación (educ ).

� Estime el modelo log-lin siguiente:

iiiii uersqereducwage ++++= expexp)ln( 4321 ββββ

donde

, local

, importado

20/10/2011 48

Modelo doble logaritmicos

� Wooldrige (2000: 185-186)

iii uforeignprice ++= 21 ββdonde

0

11 == Dforeign

, local

, importado

20/10/2011 49

ii. Resulta díficil creer que a los 24 años la experiencia ejerza un efecto negativo sobre el salario. En este sentido, el efecto puede estar sesgado al omitir otros factores relevantes (i. e. la educación, la edad, etc.).

Sin embargo, para esta muestra esta posibilidad no puede ser valida.

20/10/2011 50

Estimaciones

reg wage exper expersq




------------------------------------------------------------------------------wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------exper | .2981001 .0409655 7.28 0.000 .2176229 .3785773

expersq | -.0061299 .0009025 -6.79 0.000 -.0079029 -.0043569_cons | 3.725406 .3459392 10.77 0.000 3.045805 4.405007

------------------------------------------------------------------------------


Model | 664.266927 2 332.133463 Pro b > F = 0.0000Residual | 6496.14736 523 12.4209319 R-squared = 0.0928


--------------------------------------------------- ---------------------------wage | Coef. Std. Err. t P>|t| [ 95% Conf. Interval]

-------------+------------------------------------- ---------------------------exper | .2981001 .0409655 7.28 0.000 . 2176229 .3785773

expersq | -.0061299 .0009025 -6.79 0.000 -.0079029 -.0043569_cons | 3.725406 .3459392 10.77 0.000 3.045805 4.405007

--------------------------------------------------- ---------------------------

20/10/2011 51

Ejemplo

� Consideremos los datos que ofrece Wooldrige (2000) sobre los salarios para una muestra de 526 trabajadores en los Estados Unidos.

� Se pueden obtener estos datos

iii uforeignprice ++= 21 ββ

donde

20/10/2011 52

Modelos con multicategorias

� Wooldrige (2000: 185-186)

iii uforeignprice ++= 21 ββdonde

0

11 == Dforeign

, local

, importado

20/10/2011 53

generate t=1969+_n

tsset t

sc savings income

Sintaxis para crear la variable tiempo: anual

Sintaxis para crear la variable tiempo: trimestral

generate t=q(1978q1)+_n-1

format t %tq

sort ttsset t

sc frig

tsline frig

20/10/2011 54

� La forma de asimilar este resultado es

ii uDDpriceE ++= 1211)\( ββ

pero si

11 =DSi entonces 1211ˆˆ)1\( DDpriceE i ββ +==

01 =D entonces 11ˆ)0\( β==DpriceE i

� Gráficamente

11 =DSi entonces11 =DSi

20/10/2011 55

� Las interacciones genero/educación y genero/raza son denominadas interacciones de doble entrada ("two-way") debido a que involucran dos factores.

� Un modelo más general puede contemplar no solo interacciones de doble entrada sino de triple entrada (“three-way”) o más.

� Ejemplo de una interacción de triple entrada es:

gen intera3=genero*educ*raza

20/10/2011 56

entonces β4 es la diferencia en la pendiente (coeficiente de pendiente diferencial) entre las dos categorías consideradas por la dummy; esto es, la pendiente estimada para cuando D1=0 (la categoría de referencia) es β3 , mientras que la pendiente estimada para cuando D1=1 es β4, por lo que se tiene:

Interpretación del efecto interacción

Sea

D1 = variable dummy (0-1),

D1Xi = producto de la dummy con una variable X continua

iiiiii uXDXDY ++++= 143121 ββββ

( ) ( ) iX4321ˆˆˆˆ ββββ +++=

ii XDYE 311ˆˆ)1\( ββ +==entonces01 =DSi

iii XXDYE 43211ˆˆˆˆ)1\( ββββ +++==entonces11 =DSi

∧

∧∧

20/10/2011 57

� Las interacciones genero/educación y genero/raza son denominadas interacciones de doble entrada ("two-way") debido a que involucran dos factores.

� Un modelo más general puede contemplar no solo interacciones de doble entrada sino de triple entrada (“three-way”) o más.

� Ejemplo de una interacción de triple entrada es:

graph twoway scatter yhat1 yhat2 yhat3 mealcat, connect(l l l) xlabel(1 2 3) sort

Interpretación de un efecto interacción

Sea

D1 = variable dummy (0-1),

D1X = producto de la dummy con una variable X continua

variables dummy (parte ii) - wordpress.com · 20/10/2011 4 yi =β1 +β2d1 +β3 xi +ui donde 0 1 d1...

Documents