variables dummy (parte ii) - wordpress.com · 20/10/2011 4 yi =β1 +β2d1 +β3 xi +ui donde 0 1 d1...
TRANSCRIPT
20/10/2011 1
Variables Dummy
(parte II)
Fortino Vela Peón
Universidad Autónoma [email protected]
Octubre, 2010México, D. F.
20/10/2011 2
Introducción
� Solo se ha considerado modelos donde intervienen únicamente variables dummy del lado derecho de la igualdad.
� Ahora veamos modelos mixtos: intervienen variables cuantitativas y dummies, denominados modelos ANCOVA.
ccccóóóómo variable mo variable mo variable mo variable independienteindependienteindependienteindependiente
iii uUrbanoY ++= 21 ββ
iii uXUrbano ++= 21 ββ
iiii uXUrbanoY +++= 3321 βββ
ccccóóóómo variable dependientemo variable dependientemo variable dependientemo variable dependiente
VariableVariableVariableVariablecualitativacualitativacualitativacualitativa
úúúúnicanicanicanica
mixtamixtamixtamixta
iii uUrbanoY ++= 21 ββ
iiiii uUrbanoXUrbanoY +++= 3321 βββinteracciinteracciinteracciinteraccióóóónnnn
20/10/2011 3
Modelos ANCOVA
� Proporcionan un método para controlar los efectos delas variables regresoras cuantitativas (denominadascovariantes o variables de control).
� En el contexto de regresión lineal corresponde a
iii uXDY +++= 3121 βββdonde
0
11 =D
, presencia atributo
, ausencia atributo
� Pudiera coexistir más de una variable dummy y más deuna covariante (o variable de control).
� Ceteris paribus, si Xi aumenta en una unidad Yi se incrementa (o dismimuye), en promedio, en β3
estimada.
Categoría de referencia
∧∧∧∧
20/10/2011 4
iii uXDY +++= 3121 βββdonde
0
11 =D
, presencia atributo
, ausencia atributo
� Si se controla por Xi, el coeficiente intercepto-diferencialindica el diferencial del valor promedio de Y de la categoría de referencia.
Categoría de referencia
� La forma de ver este resultado es
ii XDDYE 31211)\( βββ ++=
11 =D
Si entonces
( ) ii XDYE 3211ˆˆˆ)1\( βββ ++==
01 =D
entonces
ii XDYE 311ˆˆ)0\( ββ +== (ausencia atributo)
por lo tanto, el cambio en la categoría esta dado por
( ) ( ) 23132111ˆˆˆˆˆˆ)0\()1\( ββββββ =+−++==−= iiii XXDYEDYE
∧∧∧∧∧∧∧∧∧∧∧∧
20/10/2011 5
� Gráficamente, si β2 > 0, se tiene
Desplazamiento del intercepto entre las categorías.
Parecen dos modelos
∧∧∧∧
∧∧∧∧ ∧∧∧∧
∧∧∧∧
∧∧∧∧
∧∧∧∧
∧∧∧∧
20/10/2011 6
� Nada cambia si hay más variables independientes.
� Por ejemplo,
� Tomando a D1=1 como la categoría de referencia, en un
modelo que controla por X2 y X3, ββββ2 indica el diferencial
en el valor promedio de Y respecto a la categoría de
comparación.
iiii uXXDY ++++= 3423121 ββββ
∧∧∧∧
20/10/2011 7
Alternativamente, otra forma de ver al modelo es
� Considere los datos sobre
iii uprice ++= sqft 21 ββ
� Veamos el diagrama de dispersión
price = precio de la vivienda (en miles de dólares)
sqft = área construida de la vivienda en (cientos de pies cuadrados).
age = antiguedad de la vivienda (en años).
� Se desea estimar el modelo:
que se pueden obtener mediante la sintaxis:
use http://stata.com/data/s4poe/utown
20/10/2011 8
150
200
250
300
350
hous
e pr
ice,
in $
1000
20 22 24 26 28 30square feet of living area, in 100's
20/10/2011 9
� Se podría dividir a la muestra en dos grupos.
� El criterio de separación estaría dado por:
� De esta manera se tiene:
0
11 =D
20 ≤ sqft ≤ 26.99
13211ˆˆˆ)1\( DXDYE ii βββ ++==
( ) ii XDYE 2311ˆˆˆ)1\( βββ ++==
o en términos generales,
27 ≤ sqft ≤ 30
iiii uDprice +++= 1321 sqft βββ
20/10/2011 10
150
200
250
300
350
hous
e pr
ice,
in $
1000
20 22 24 26 28 30square feet of living area, in 100's
E(yi)= (b1+b3)+b2 Xi
E(yi)= b1+b2 Xi
20/10/2011 11
Cambio en interceptoreg price sqft if sqft<27
Source | SS df MS Number of ob s = 672-------------+------------------------------ F( 1, 670) = 157.46
Model | 173292.768 1 173292.768 Prob > F = 0.0000Residual | 737348.777 670 1100.52056 R-squared = 0.1903
-------------+------------------------------ Adj R-sq uared = 0.1891Total | 910641.544 671 1357.1409 Roo t MSE = 33.174
--------------------------------------------------- ---------------------------price | Coef. Std. Err. t P>|t| [95% C onf. Interval]
-------------+------------------------------------- ---------------------------sqft | 7.863549 .6266535 12.55 0.000 6. 633108 9.093991
_cons | 48.09577 14.83076 3.24 0.001 1 8.97541 77.21613--------------------------------------------------- ---------------------------
150
200
250
300
350
2 0 2 2 2 4 2 6 2 8 30s q u a re f e e t o f liv i ng a r e a , i n 1 00 's
h o u s e p r ic e , in $ 1 0 00 F it te d v a lu e s
20/10/2011 12
Cambio en intercepto
reg price sqft if sqft>26
Source | SS df MS Number of obs = 426-------------+------------------------------ F( 1, 424) = 71.96
Model | 87639.4008 1 87639.4008 Prob > F = 0.0000Residual | 516418.338 424 1217.96778 R-squared = 0.1451
-------------+------------------------------ Adj R-squared = 0.1431Total | 604057.739 425 1421.31233 Root MSE = 34.899
------------------------------------------------------------------------------price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------sqft | 12.34246 1.455023 8.48 0.000 9.482504 15.20242
_cons | -74.71046 40.89575 -1.83 0.068 -155.0941 5.673188------------------------------------------------------------------------------
150
200
250
300
350
20 22 24 26 28 30square feet of living area, in 100's
house price, in $1000 Fitted values
20/10/2011 13
Modelo con variables dummy (diferencial intercepto)
recode sqft (20/26.99=0) (27/30=1), gen(D1)reg price sqft D1predict yhatscatter yhat sqftdrop yhat
Source | SS df MS Number of obs = 1000-------------+------------------------------ F( 2, 997) = 272.81
Model | 629024.116 2 314512.058 Prob > F = 0.0000Residual | 1149422.02 997 1152.88067 R-squared = 0.3537
-------------+------------------------------ Adj R-squared = 0.3524Total | 1778446.14 999 1780.22637 Root MSE = 33.954
------------------------------------------------------------------------------price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------sqft | 8.459985 .6141272 13.78 0.000 7.254855 9.665116
D1 | 1.065991 3.815717 0.28 0.780 -6.421767 8.55375_cons | 34.03281 14.53921 2.34 0.019 5.501834 62.56378
------------------------------------------------------------------------------
20/10/2011 14
200
220
240
260
280
300
Fitt
ed v
alu
es
20 22 24 26 28 30square feet of living area, in 100's
20/10/2011 15
Modelo con variables dummy (pendiente-diferencial)
gen D2= D1*sqftreg price sqft D2predict yhatscatter yhat sqft
Source | SS df MS Number of obs = 1000-------------+------------------------------ F( 2, 997) = 272.92
Model | 629194.361 2 314597.181 Prob > F = 0.0000Residual | 1149251.78 997 1152.70991 R-squared = 0.3538
-------------+------------------------------ Adj R-squared = 0.3525Total | 1778446.14 999 1780.22637 Root MSE = 33.952
------------------------------------------------------------------------------price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------sqft | 8.358851 .6223967 13.43 0.000 7.137493 9.580208
D2 | .0643068 .1353454 0.48 0.635 -.2012879 .3299014_cons | 36.32979 14.7266 2.47 0.014 7.431102 65.22848
------------------------------------------------------------------------------
20/10/2011 16
200
220
240
260
280
300
Fitt
ed v
alu
es
20 22 24 26 28 30square feet of living area, in 100's
20/10/2011 17
Modelo con variables dummy (diferencial intercepto y
pendiente diferencial)
reg price sqft D1 D2predict yhatsc yhat sqft
Source | SS df MS Number of obs = 1000-------------+------------------------------ F( 3, 996) = 187.10
Model | 641006.871 3 213668.957 Prob > F = 0.0000Residual | 1137439.27 996 1142.0073 R-squared = 0.3604
-------------+------------------------------ Adj R-squared = 0.3585Total | 1778446.14 999 1780.22637 Root MSE = 33.794
------------------------------------------------------------------------------price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------sqft | 7.863549 .6383559 12.32 0.000 6.610873 9.116226
D1 | -200.6517 62.38874 -3.22 0.001 -323.0802 -78.22325D2 | 7.168853 2.213124 3.24 0.001 2.825932 11.51177
_cons | 48.09577 15.10772 3.18 0.002 18.44917 77.74237------------------------------------------------------------------------------
20/10/2011 18
200
220
240
260
280
300
Fitt
ed v
alu
es
20 22 24 26 28 30square feet of living area, in 100's
20/10/2011 19
Cambio en intercepto
� Considere los datos de la tabla 9.2 (Gujarati y Porter, 2010: 287).
� Se desea estimar el modelo:
ttt u++= income savings 21 ββdonde
0
11 == Dforeign
,importado
, local
20/10/2011 20
Ejemplo. ¿Son los autos importados más “caros”?
� Difiere el precio de los autos según la procedencia (local/extranjera) controlando por el “rendimiento”(mpg).
� Considere el archivo autos.dta y estime el modelo:
iiii uforeignmpgprice +++= 321 βββdonde
0
11 == Dforeign
, local
, importado
20/10/2011 21
reg price mpg foreign
Source | SS df MS Number of obs = 74
-------------+------------------------------ F( 2, 71) = 14.07
Model | 180261702 2 90130850.8 Pro b > F = 0.0000Residual | 454803695 71 6405685.84 R-squared = 0.2838
-------------+------------------------------ Adj R-sq uared = 0.2637
Total | 635065396 73 8699525.97 Roo t MSE = 2530.9
--------------------------------------------------- ---------------------------
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+------------------------------------- ---------------------------
mpg | -294.1955 55.69172 -5.28 0.000 -40 5.2417 -183.1494foreign | 1767.292 700.158 2.52 0.014 371.2169 3163.368
_cons | 11905.42 1158.634 10.28 0.000 9595.164 14215.67
--------------------------------------------------- ---------------------------
� dis 11905.42+1767.292= 13672.712
� ¿Qué hay sobre la significancía estadística?
20/10/2011 22
05
,00
01
0,0
001
5,0
00
10 20 30 40Mileage (mpg)
Price Fitted values
20/10/2011 23
Ejercicio 3: ¿Tiene influencia la PC sobre el rendimiento escolar?
� En muchos casos, las variables dummy reflejan elecciones de las unidades económicas (indviduos, empresas, países, etc.) más que atributos inalterables.
� En estos casos, la causalidad es un punto central.
� En este ejercicio se desea saber si tener una PC es causa de un promedio de calificaciones más alto.
� Considere el archivo GPA1.raw proporcionado por Wooldrige (2000) el cual puede obtener en
http://fmwww.bc.edu/ec-p/data/wooldridge/datasets.l ist.html
� A continuación se señalan las variables incluidas en el archivo.
20/10/2011 24
Variables del archivo GPA1.raw
Obs: 141
1. age in years
2. soph =1 if sophomore
3. junior =1 if junior
4. senior =1 if senior
5. senior5 =1 if fifth year
senior
6. male =1 if male
7. campus =1 if live on campus
8. business =1 if business major
9. engineer =1 if engineering major
10. colGPA MSU GPA
11. hsGPA high school GPA
12. ACT 'achievement' score
13. job19 =1 if job <= 19 hours
14. job20 =1 if job >= 20 hours
15. drive =1 if drive to campus
16. bike =1 if bicycle to campus
17. walk =1 if walk to campus
18. voluntr =1 if do volunteer work
19. PC =1 of pers computer at sch
20. greek =1 if fraternity or sorority
21. car =1 if own car
22. siblings =1 if have siblings
23. bgfriend =1 if boy- or girlfriend
24. clubs =1 if belong to MSU club
25. skipped avg lectures missed per week
26. alcohol avg # days per week drink alcohol
27. gradMI =1 if Michigan high school
28. fathcoll =1 if father college grad
29. mothcoll =1 if mother college grad
20/10/2011 25
� Las variables a considerar son:
use http://fmwww.bc.edu/ec-p/data/wooldridge/GPA1
- colGPA = es el promedio del universitario del examen
GPA (grade point average, GPA). El GPA es un
método utilizado para evaluar y categorizar el
rendimiento escolar de un alumno.
- hsGPA = promedio del GPA de la preparatoria.
- ACT = calificación prueba de aprovechamiento.
- PC =1 si el alumno tiene PC
� El archivo se puede obtener con la siguiente sintaxis
� Una vez que tenga la base de datos se estima el modelo siguiente:
20/10/2011 26
Modelo
iiii u++++= ACT hsGPAPC colGPA i4321 ββββ
donde
0
1=iPC
, tiene PC
, no tiene PC
Source | SS df MS Number of ob s = 141-------------+------------------------------ F( 3, 137) = 12.83
Model | 4.25741863 3 1.41913954 Prob > F = 0.0000Residual | 15.1486808 137 .110574313 R-squared = 0.2194
-------------+------------------------------ Adj R-sq uared = 0.2023Total | 19.4060994 140 .138614996 Roo t MSE = .33253
--------------------------------------------------- ---------------------------colGPA | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+------------------------------------- ---------------------------PC | .1573092 .0572875 2.75 0.007 .04 40271 .2705913
hsGPA | .4472417 .0936475 4.78 0.000 . 2620603 .632423ACT | .008659 .0105342 0.82 0.413 -.0 121717 .0294897
_cons | 1.26352 .3331255 3.79 0.000 . 6047871 1.922253--------------------------------------------------- ---------------------------
� Interprete sus resultados. ¿Es significativo?
20/10/2011 27
� Agregue al modelo a la variable dummy male .
Ejercicio 3: ¿Tiene influencia la PC sobre el rendimiento escolar? (continua)
iiiii um ale ACT hsGPAPC colGPA 5i4321 +++++= βββββdonde
0
1=iPC
, tiene PC
, no tiene PC
reg colGPA PC hsGPA ACT male
Source | SS df MS Number of ob s = 141-------------+------------------------------ F( 4, 136) = 9.56
Model | 4.25817785 4 1.06454446 Prob > F = 0.0000Residual | 15.1479216 136 .111381776 R-squared = 0.2194
-------------+------------------------------ Adj R-sq uared = 0.1965Total | 19.4060994 140 .138614996 Roo t MSE = .33374
--------------------------------------------------- ---------------------------colGPA | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+------------------------------------- ---------------------------PC | .1576586 .0576519 2.73 0.007 .04 36486 .2716687
hsGPA | .4495959 .0982192 4.58 0.000 . 2553615 .6438303ACT | .0084103 .0109935 0.77 0.446 -.0 133301 .0301506
male | .0049491 .0599443 0.08 0.934 -.1 135943 .1234926_cons | 1.258783 .3392271 3.71 0.000 . 5879404 1.929625
--------------------------------------------------- ---------------------------
20/10/2011 28
� ¿Son significativas de manera conjunta las variables PC y male?
reg colGPA PC hsGPA ACT maletest PC male
( 1) PC = 0( 2) male = 0
F( 2, 136) = 3.75Prob > F = 0.0261
� ¿Qué sucede si se elimina a hsGPA y ACT de la ecuación original (sin male )?
20/10/2011 29
reg colGPA PC hsGPA
� Comente sus resultados
reg colGPA PC
Source | SS df MS Number of ob s = 141-------------+------------------------------ F( 2, 138) = 18.96
Model | 4.18270776 2 2.09135388 Prob > F = 0.0000Residual | 15.2233917 138 .110314433 R-squared = 0.2155
-------------+------------------------------ Adj R-sq uared = 0.2042Total | 19.4060994 140 .138614996 Roo t MSE = .33214
--------------------------------------------------- ---------------------------colGPA | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+------------------------------------- ---------------------------PC | .1585578 .0572 2.77 0.006 .045456 .2716596
hsGPA | .4737943 .0877964 5.40 0.000 . 3001942 .6473944_cons | 1.381856 .3000584 4.61 0.000 . 7885492 1.975162
--------------------------------------------------- ---------------------------
Source | SS df MS Number of ob s = 141-------------+------------------------------ F( 1, 139) = 7.31
Model | .970092892 1 .970092892 Prob > F = 0.0077Residual | 18.4360066 139 .132633141 R-squared = 0.0500
-------------+------------------------------ Adj R-sq uared = 0.0432Total | 19.4060994 140 .138614996 Roo t MSE = .36419
--------------------------------------------------- ---------------------------colGPA | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+------------------------------------- ---------------------------PC | .1695168 .0626805 2.70 0.008 .04 55864 .2934472
_cons | 2.989412 .0395018 75.68 0.000 2.91131 3.067514--------------------------------------------------- ---------------------------
20/10/2011 30
� Añada a la ecuación originalmente estimada las variables mothcoll (universidad de la madre), fathcoll(universidad del padre) y reporte sus resultados (recuerde que fathcoll=1 si el padre tiene grado universitario y mothcoll=1 si la madre tiene grado universitario).
� Compruebe la significancia conjunta de las variables mothcoll y fathcoll .
� Añada hsGPA2 (hsGPA2) al modelo original y decida si es necesaria esta generalización.
Ejercicio 3: ¿Tiene influencia la PC sobre el rendimiento escolar? (extendido)
20/10/2011 31
Source | SS df MS Number of ob s = 141
-------------+------------------------------ F( 5, 135) = 7.71
Model | 4.31210399 5 .862420797 Prob > F = 0.0000
Residual | 15.0939955 135 .111807374 R-squared = 0.2222
-------------+------------------------------ Adj R-sq uared = 0.1934
Total | 19.4060994 140 .138614996 Roo t MSE = .33438
--------------------------------------------------- ---------------------------
colGPA | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+------------------------------------- ---------------------------
PC | .1518539 .0587161 2.59 0.011 .03 57316 .2679763
hsGPA | .4502203 .0942798 4.78 0.000 . 2637639 .6366767
ACT | .0077242 .0106776 0.72 0.471 -.0 133929 .0288413
mothcoll | -.0037579 .0602701 -0.06 0.950 -.1229535 .1154377
fathcoll | .0417999 .0612699 0.68 0.496 -.079373 .1629728
_cons | 1.255554 .3353918 3.74 0.000 . 5922526 1.918856
--------------------------------------------------- ---------------------------
reg colGPA PC hsGPA ACT mothcoll fathcoll
20/10/2011 32
ttest mothcoll fathcoll
test fathcoll mothcoll
( 1) fathcoll = 0( 2) mothcoll = 0
F( 2, 135) = 0.24Prob > F = 0.7834
20/10/2011 33
gen hsGPA2= hsGPA^2reg colGPA PC hsGPA ACT hsGPA2
Source | SS df MS Number of obs = 141
-------------+------------------------------ F( 4, 136) = 10.14Model | 4.45721031 4 1.11430258 Pro b > F = 0.0000
Residual | 14.9488891 136 .109918303 R-squared = 0.2297-------------+------------------------------ Adj R-sq uared = 0.2070
Total | 19.4060994 140 .138614996 Roo t MSE = .33154
--------------------------------------------------- ---------------------------colGPA | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+------------------------------------- ---------------------------PC | .1513409 .0572886 2.64 0.009 .03 80492 .2646326
hsGPA | -1.425306 1.392061 -1.02 0.308 -4 .178191 1.327579ACT | .0066608 .010607 0.63 0.531 -.0 143152 .0276368
hsGPA2 | .2802358 .2078595 1.35 0.180 -.130819 .6912906_cons | 4.412745 2.359372 1.87 0.064 - .2530567 9.078546
--------------------------------------------------- ---------------------------
20/10/2011 34
Modelos con formas cuadráticas
� Las funciones cuadráticas se emplean con frecuencia para captar efectos marginales crecientes o decrecientes.
� En el caso más simple, Y depende de un solo factor observado X, pero de manera cuadrática, esto es:
iiii uXXY +++= 2321 βββ
� En términos generales, β1 mide el cambio en Y respecto de X pero en este caso no tiene sentido mantener fija a X2.
� Se puede escribir a la función estimada como
2321
ˆˆˆˆiii XXY βββ ++=
y se puede tener la aproximación
ii X
dX
Yd32
ˆ2ˆˆ
ββ +=
20/10/2011 35
� En muchas aplicaciones es positiva y es negativa, lo que indicaría que X tiene un efecto decreciente en Y.
� Matemáticamente se tendría una forma parabólica.
� Bajo estas circunstancias, el punto crítico (o máximo de la función) se alcanza en:
3
2*
ˆ2
ˆ
ββ=X
como puede verse en el siguiente ejemplo.
2β̂ 3β̂
20/10/2011 36
Ejemplo: Salarios vs experiencia.
� Consideremos los datos de Wooldrige (2000) sobre los salarios para una muestra de 526 trabajadores en los Estados Unidos.
� Se pueden obtener estos datos mediante la sintaxis:
iii u+++= 2i321 expersq experwage βββ
� Las variables contenidas en este archivo (WAGE1.dta) se describen a continuación.
� Se desea estimar el modelo
use http://fmwww.bc.edu/ec-p/data/wooldridge/WAGE1
20/10/2011 37
Variables contenidas en el archivo WAGE.dta
1. wage= average hourly earnings
2. educ= years of education
3. exper= years potential experience
4. tenure= years with current employer
5. nonwhite =1 if nonwhite
6. female=1 if female
7. married=1 if married
8. numdep= number of dependents
9. smsa=1 if live in SMSA
10. northcen =1 if live in north central
U.S
11. south=1 if live in southern region
12. west=1 if live in western region
13. construc= 1 if work in construc.
indus.
14. ndurman=1 if in nondur. manuf.
indus.
15. trcommpu=1 if in trans, commun,
pub ut
16. trade=1 if in wholesale or retail
17. services=1 if in services indus.
18. profserv =1 if in prof. serv. indus.
19. profocc=1 if in profess. Occupati-
on
20. clerocc =1 if in clerical occupation
21. servocc =1 if in service occupation
22. lwage= log(wage)
23. expersq= exper^2
24. tenursq =tenure^2
n= 526
20/10/2011 38
Estimaciones
reg wage exper expersq
Source | SS df MS Number of obs = 526-------------+------------------------------ F( 2, 523) = 26.74
Model | 664.266927 2 332.133463 Pro b > F = 0.0000Residual | 6496.14736 523 12.4209319 R-squared = 0.0928
-------------+------------------------------ Adj R-sq uared = 0.0893Total | 7160.41429 525 13.6388844 Roo t MSE = 3.5243
--------------------------------------------------- ---------------------------wage | Coef. Std. Err. t P>|t| [ 95% Conf. Interval]
-------------+------------------------------------- ---------------------------exper | .2981001 .0409655 7.28 0.000 . 2176229 .3785773
expersq | -.0061299 .0009025 -6.79 0.000 -.0079029 -.0043569_cons | 3.725406 .3459392 10.77 0.000 3.045805 4.405007
--------------------------------------------------- ---------------------------
� En este caso es positiva y es negativa, lo que señala que exper tiene un efecto decreciente sobre wage.
� Así, exper* esta dado en aprox 24.3 años.
2β̂3β̂
24.31525)0061299.0(2
2981001.0* =−
=X
20/10/2011 39
� Esto indicaría que, cuando la experiencia es de 24 años el salario es igual a cero.
� Considere lo siguiente:
i. Puede ser que sólo unas cuantas personas en la muestra posean 24 o más años de experiencia y, por tanto, se podría ignorar el resultado obtenido.Esta posibilidad no es valida ya que 29.1 % de la muestra cumple con este criterio:
sum experrecode exper (0/10=1) (11/20=2) (21/23=3) (24/51=4), gen(experiencia)label define experiencia 1 "1 a 10 años" 2 "11 a 23 años" 3 "21 a 23 años" 4 "24 y más años"label values experiencia experienciatab experiencia
RECODE of |exper | Freq. Percent Cum.
--------------+-----------------------------------1 a 10 años | 220 41.83 41.83
11 a 23 años | 121 23.00 64.8321 a 23 años | 32 6.08 70.91
24 y más años | 153 29.09 100.00--------------+-----------------------------------
Total | 526 100.00
20/10/2011 40
ii. Resulta difícil creer que a los 24 años de experiencia laboral se inicie un efecto negativo sobre el salario. En este sentido, el efecto puede estar sesgado al omitir otros factores relevantes (i. e. educación, edad, etc.).
iii. Es posible que la forma funcional empleada nosea la correcta (i.e modelo log-log, lin-log, etc.).
graph matrix wage exper expersq
wage
exper
expersq
0
10
20
30
0 10 20 30
0
20
40
60
0 20 40 60
0
1000
2000
3000
0 1000 2000 3000
lwage
lexper
lexpersq
0
2
4
0 2 4
0
2
4
0 2 4
0
5
10
0 5 10
20/10/2011 41
Salarios vs experiencia: modelo semi-logarítmico
� Continuaremos con el ejemplo donde se relaciona al salario contra la experiencia donde ahora se adiciona al modelo la variable educación (educ ).
iiiii ueducwage ++++= expersqexpersq)ln( 4321 ββββ
exper)expersqˆ2ˆ(100% 43 ∆+=∆ ββwage
a) Estime el modelo log-lin siguiente :
b) ¿Es expersq significativa estadísticamente?
c) Con ayuda de
encuentre el rendimiento aproximado del quinto año de experiencia. ¿Cuál es el rendimiento aproximado del vigésimo año?
d) ¿Para que valor de exper disminuye la experiencia adicional del ln(wage) ? ¿Cuánta gente tiene más experiencia en esta muestra?
20/10/2011 42
iiiii uersqereducwage ++++= expexp)ln( 4321 ββββa) Estime el modelo:
reg lwage educ exper expersq
Source | SS df MS Number of ob s = 526-------------+------------------------------ F( 3, 522) = 74.67
Model | 44.5393702 3 14.8464567 Prob > F = 0.0000Residual | 103.790392 522 .198832168 R-squared = 0.3003
-------------+------------------------------ Adj R-sq uared = 0.2963Total | 148.329762 525 .28253288 Roo t MSE = .44591
--------------------------------------------------- ---------------------------lwage | Coef. Std. Err. t P>|t| [95% C onf. Interval]
-------------+------------------------------------- ---------------------------educ | .0903658 .007468 12.10 0.000 .0 756948 .1050368
exper | .0410089 .0051965 7.89 0.000 . 0308002 .0512175expersq | -.0007136 .0001158 -6.16 0.000 -.000941 -.0004861
_cons | .1279975 .1059323 1.21 0.227 -. 0801085 .3361034--------------------------------------------------- ---------------------------
b) ¿Es expersq significativa estadísticamente?
20/10/2011 43
lwage
educ
exper
expe rsq
0
2
4
0 2 4
0
10
20
0 10 20
0
20
40
60
0 20 40 600
1000
2000
3000
0 1000 2000 3000
graph matrix lwage educ exper expersq
20/10/2011 44
dis 100*[.0410089 +(2*(-.0007136)*(5^2))]*1= 0.53289 %dis 100*[.0410089 +(2*(-.0007136)*(20^2))]*1=-52.98711 %
c) Con ayuda de exper)expersqˆ2ˆ(100% 43 ∆+=∆ ββwageencuentre el rendimiento aproximado del quinto año de experiencia. ¿Cuál es el rendimiento aproximado del vigésimo año?
En este caso es positiva y es negativa, lo que señala que expertiene un efecto decreciente sobre lwage (ambas son significativas).
Así, exper* esta dado en aproximadamente 29 años.
3β̂ 4β̂
28.733814)-.0007136(2
.0410089exper * ==
Por otra parte, al obtener la distribución de frecuencias de la variable educ se aprecia (ver cuadro más adelante):
- Solo una 1 persona de las 526 presenta un valor de educ =2;
- El número máximo de años de educ es de 18 años, por lo que ninguno alcanza los 20 años.
Dadas las características de la muestra, el segundo resultado puede ignorarse.
20/10/2011 45
d) ¿Para que valor de exper disminuye la experiencia adicional del
ln(wage) ? ¿Cuánta gente tiene más experiencia en esta muestra?
tab educ Distribución de frecuencias de la variable educ en la muestra.
educ | Freq. Percent Cum.------------+-----------------------------------
0 | 2 0.38 0.382 | 1 0.19 0.573 | 1 0.19 0.764 | 3 0.57 1.335 | 1 0.19 1.526 | 6 1.14 2.667 | 4 0.76 3.428 | 22 4.18 7.609 | 17 3.23 10.84
10 | 30 5.70 16.5411 | 29 5.51 22.0512 | 198 37.64 59.7013 | 39 7.41 67.1114 | 53 10.08 77.1915 | 21 3.99 81.1816 | 68 12.93 94.1117 | 12 2.28 96.3918 | 19 3.61 100.00
------------+-----------------------------------Total | 526 100.00
28.733814)-.0007136(2
.0410089exper * ==
Se había señalado que exper* se ubica aproximadamente en 29 años.
20/10/2011 46
tab educ
Distribución de frecuencias de la variable educ en la muestra.
educ | Freq. Percent Cum.------------+-----------------------------------
0 | 2 0.38 0.382 | 1 0.19 0.573 | 1 0.19 0.764 | 3 0.57 1.335 | 1 0.19 1.526 | 6 1.14 2.667 | 4 0.76 3.428 | 22 4.18 7.609 | 17 3.23 10.84
10 | 30 5.70 16.5411 | 29 5.51 22.0512 | 198 37.64 59.7013 | 39 7.41 67.1114 | 53 10.08 77.1915 | 21 3.99 81.1816 | 68 12.93 94.1117 | 12 2.28 96.3918 | 19 3.61 100.00
------------+-----------------------------------Total | 526 100.00
20/10/2011 47
Salarios vs experiencia: modelo semi-logarítmico
� Continuaremos con el ejemplo donde se relaciona al salario contra la experiencia.
� Ahora se adiciona al modelo a la variable educación (educ ).
� Estime el modelo log-lin siguiente:
iiiii uersqereducwage ++++= expexp)ln( 4321 ββββ
donde
, local
, importado
20/10/2011 48
Modelo doble logaritmicos
� Wooldrige (2000: 185-186)
iii uforeignprice ++= 21 ββdonde
0
11 == Dforeign
, local
, importado
20/10/2011 49
ii. Resulta díficil creer que a los 24 años la experiencia ejerza un efecto negativo sobre el salario. En este sentido, el efecto puede estar sesgado al omitir otros factores relevantes (i. e. la educación, la edad, etc.).
Sin embargo, para esta muestra esta posibilidad no puede ser valida.
20/10/2011 50
Estimaciones
reg wage exper expersq
Source | SS df MS Number of obs = 526-------------+------------------------------ F( 2, 523) = 26.74
Model | 664.266927 2 332.133463 Prob > F = 0.0000Residual | 6496.14736 523 12.4209319 R-squared = 0.0928
-------------+------------------------------ Adj R-squared = 0.0893Total | 7160.41429 525 13.6388844 Root MSE = 3.5243
------------------------------------------------------------------------------wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------exper | .2981001 .0409655 7.28 0.000 .2176229 .3785773
expersq | -.0061299 .0009025 -6.79 0.000 -.0079029 -.0043569_cons | 3.725406 .3459392 10.77 0.000 3.045805 4.405007
------------------------------------------------------------------------------
Source | SS df MS Number of obs = 526-------------+------------------------------ F( 2, 523) = 26.74
Model | 664.266927 2 332.133463 Pro b > F = 0.0000Residual | 6496.14736 523 12.4209319 R-squared = 0.0928
-------------+------------------------------ Adj R-sq uared = 0.0893Total | 7160.41429 525 13.6388844 Roo t MSE = 3.5243
--------------------------------------------------- ---------------------------wage | Coef. Std. Err. t P>|t| [ 95% Conf. Interval]
-------------+------------------------------------- ---------------------------exper | .2981001 .0409655 7.28 0.000 . 2176229 .3785773
expersq | -.0061299 .0009025 -6.79 0.000 -.0079029 -.0043569_cons | 3.725406 .3459392 10.77 0.000 3.045805 4.405007
--------------------------------------------------- ---------------------------
20/10/2011 51
Ejemplo
� Consideremos los datos que ofrece Wooldrige (2000) sobre los salarios para una muestra de 526 trabajadores en los Estados Unidos.
� Se pueden obtener estos datos
iii uforeignprice ++= 21 ββ
donde
20/10/2011 52
Modelos con multicategorias
� Wooldrige (2000: 185-186)
iii uforeignprice ++= 21 ββdonde
0
11 == Dforeign
, local
, importado
20/10/2011 53
generate t=1969+_n
tsset t
sc savings income
Sintaxis para crear la variable tiempo: anual
Sintaxis para crear la variable tiempo: trimestral
generate t=q(1978q1)+_n-1
format t %tq
sort ttsset t
sc frig
tsline frig
20/10/2011 54
� La forma de asimilar este resultado es
ii uDDpriceE ++= 1211)\( ββ
pero si
11 =DSi entonces 1211ˆˆ)1\( DDpriceE i ββ +==
01 =D entonces 11ˆ)0\( β==DpriceE i
� Gráficamente
11 =DSi entonces11 =DSi
20/10/2011 55
� Las interacciones genero/educación y genero/raza son denominadas interacciones de doble entrada ("two-way") debido a que involucran dos factores.
� Un modelo más general puede contemplar no solo interacciones de doble entrada sino de triple entrada (“three-way”) o más.
� Ejemplo de una interacción de triple entrada es:
gen intera3=genero*educ*raza
20/10/2011 56
entonces β4 es la diferencia en la pendiente (coeficiente de pendiente diferencial) entre las dos categorías consideradas por la dummy; esto es, la pendiente estimada para cuando D1=0 (la categoría de referencia) es β3 , mientras que la pendiente estimada para cuando D1=1 es β4, por lo que se tiene:
Interpretación del efecto interacción
Sea
D1 = variable dummy (0-1),
D1Xi = producto de la dummy con una variable X continua
iiiiii uXDXDY ++++= 143121 ββββ
( ) ( ) iX4321ˆˆˆˆ ββββ +++=
ii XDYE 311ˆˆ)1\( ββ +==entonces01 =DSi
iii XXDYE 43211ˆˆˆˆ)1\( ββββ +++==entonces11 =DSi
∧
∧∧
20/10/2011 57
� Las interacciones genero/educación y genero/raza son denominadas interacciones de doble entrada ("two-way") debido a que involucran dos factores.
� Un modelo más general puede contemplar no solo interacciones de doble entrada sino de triple entrada (“three-way”) o más.
� Ejemplo de una interacción de triple entrada es:
graph twoway scatter yhat1 yhat2 yhat3 mealcat, connect(l l l) xlabel(1 2 3) sort
Interpretación de un efecto interacción
Sea
D1 = variable dummy (0-1),
D1X = producto de la dummy con una variable X continua