metodología cuantitativa iv · también como un problema de variable relevante omitida: 9si...

48
Clases 5, 6 y 7: errores de especificación Bruno Arpino (Despacho: 20.182; email: [email protected]) Departamento de Ciencias Políticas y Sociales Grado en Ciencias Políticas y de la Administración Universitat Pompeu Fabra Metodología cuantitativa IV

Upload: lamtuong

Post on 25-Sep-2018

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5, 6 y 7: errores de especificación

Bruno Arpino

(Despacho: 20.182; email: [email protected])

Departamento de Ciencias Políticas y Sociales Grado en Ciencias Políticas y de la Administración

Universitat Pompeu Fabra

Metodología cuantitativa IV

Page 2: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

2

9 Errores de especificación del modelo

9 Omisión de variables relevantes y inclusión de variables irrelevantes

9 Endogeneidad

9 Sesgo de selección

9 Multicolinealidad

9 Relaciones no lineales

¿Que vamos a hacer hoy?

Page 3: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

3

9 Un error de especificación es el incumplimiento de uno de los supuestos del modelo de regresión lineal.

9 Con referencia a las variables independientes incluidas en el modelo pueden haberse dos tipos de errores: 9 Omisión de variables relevantes (faltan variables relevantes) 9 Inclusión de variables irrelevantes (hemos incluido más

variables de lo que es necesario)

Errores de especificación del modelo

Page 4: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

4

(Adaptación de la tabla de Lago, pág. 76)

¿Que X hay que incluir en el modelo?

Modelo estimado por el investigador

Modelo verdadero

Correcto

SESGO

(si X2tiene una relación también con X1; omisión variable

relevante)

INEFICIENCIA

(inclusión variable irrelevante)

Correcto

0 1 1 2 2Y β β X β X ε 110 XββY

110 xbby

22110 xbxbby

Page 5: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

5

9 Imaginemos que la religiosidad no influya en el salario de los individuos. ¿Qué pasa si se incluye esta variable (irrelevante) en el modelo de regresión lineal como otra variable independiente?

9 La inclusión de una variable independiente irrelevante NO provoca SESGO en la estimación de los coeficientes de la regresión (pendientes).

9 Pero provoca INEFICIENCIA: los errores típicos son sesgados, eso es son (inútilmente) más altos. Esto podría implicar que una pendiente no resulta significativa sólo porque el error típico es más alto (y el p-valor es más alto) de lo que debería ser.

Inclusión de variables irrelevantes

Page 6: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

6

9 Imaginemos que un investigador esté interesado en la

relación entre la edad y el posicionamiento ideológico (“lrscale”). Supongamos que el investigador haga tres análisis de regresión lineal:

1) sólo edad como variable independiente (2002-”yrbrn”)

2) edad + años de instrucción (“eduyrs”)

3) edad + años de instrucción + tiempo total pasado viendo la tele (“tvtot”)

¿Cuál es el modelo mejor?

Inclusión de variables irrelevantes: ejemplo

Page 7: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

7

1) sólo edad como variable independiente

Inclusión de variables irrelevantes: ejemplo

Page 8: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

8

2) edad + años de instrucción

Inclusión de variables irrelevantes: ejemplo

Page 9: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

3) edad + años de instrucción + tiempo total pasado

viendo la tele

9

Inclusión de variables irrelevantes: ejemplo

Page 10: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

10

9 La R2 corregida es más alta en el primer modelo, que sólo incluye la edad!!! Esto es, el modelo que se ajusta mejor a los datos es el primero. Añadir las otras variables no mejora el modelo porqué estas variables no tienen una relación significativa con la Y.

9 El error típico de la pendiente de la edad aumenta cuando se añaden las otras variables (esto siempre pasa). Todavía, en este caso la conclusión final sobre la pendiente de la edad no cambia: siempre se rechaza la hipótesis nula (y se acepta la hipótesis que hay una relación lineal positiva entre posicionamiento político y edad).

Inclusión de variables irrelevantes: ejemplo

Page 11: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

11

9 El error típico tiende a cero cuando el tamaño muestral tiende a infinito. Entonces, más grande es la muestra meno grave es el problema de incluir variables irrelevantes.

9 En el modelo con variables relevantes omitidas el sesgo NO tiende a cero cuando el tamaño muestral aumenta.

9 Entonces, si el tamaño muestral es suficientemente grande, es menos grave cometer errores de especificación por exceso (inclusión de variables irrelevantes) que por defecto (exclusión de variables relevantes).

9 (Lago pág. 81:) La única manera de asegurar que nuestro modelo es correcto es tener una buena teoría que nos guíe en la especificación del modelo.

El efecto del tamaño de la muestra

Page 12: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

12

9 En el contexto de un modelo de regresión, se habla de endogeneidad cuando un supuesto fundamental de la regresión está violado:

“La componente deterministica y la aleatoria no están

correlacionadas. Es decir, cada variable X tiene cero correlación con el termino de error, ε.”

9 Se puede demonstrar que la omisión de variables relevantes

produce la violación de este supuesto de la regresión.

9 Otro caso: relaciones bidireccionales

9 En ambos casos la violación del supuesto de la regresión implica un sesgo en los coeficientes estimados.

Endogeneidad

Page 13: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

13

9 (Lago, pag. 93) Imaginemos que un investigador plantee la hipótesis que estudiar ciencia política aumenta el interés en la política. La idea podría ser que los que han cursado ciencia política han tenido contacto con la política como objeto de estudio y esto debería aumentar sus interés en la política.

9 Imaginemos que el investigador estime por ejemplo una regresión con X = (1 si el estudiante ha cursado ciencia política; = 0 si ha cursado otra carrera) y Y = interés en la política (en una escala 0-10) medido al final de la carrera.

9 ¿La pendiente de X mide el efecto de cursar ciencia política?

9 Tenemos un problema de bidirecionalidad: puede que los que han decidido estudiar ciencia política ya estaban más interesados en la política!

Un ejemplo de relación bidireccional

Page 14: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

14

9 En muchos casos el problema de la bidirecionalidad se puede ver también como un problema de variable relevante omitida:

9 Si ignoramos el nivel inicial de interés en la política, el efecto de cursar ciencia política sería sobreestimado (“+” * ”+” = sesgo positivo). Entonces, la solución a la endogeneidad puede ser controlar por más variables relevantes, en este caso el nivel inicial de interés en la política (no siempre es posible si faltan datos).

Un ejemplo de relación bidireccional

Elegir la carrera ciencia política (X)

Interés en la política al final de la carrera (Y)

Interés en la política al momento de decidir la carrera (Z)

+ +

Page 15: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

15

9 Leed el articulo “La democracia es buena para la salud”.

A. Indicad: el tamaño de la muestra, las variables dependientes, las variables independientes de interés (explicativas) y las variables de control.

B. ¿Por qué se han añadido las variables de control? C. ¿A que se refieren los autores con la expresión “con

independencia de otros factores”? D. Escribid uno de los modelos de regresión estimado por los

autores. E. ¿Hay un problema de relación bidireccional en esta

investigación?

Para practicar

Page 16: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

16

9 Se comete al seleccionar la muestra de manera que no sea representativa de la población relevante (véase también MQIV_9)

9 El sesgo de selección se puede producir también cuando la muestra es representativa, pero el investigador selecciona un subconjunto de datos sobre el cual realizar sus análisis de forma no aleatoria.

9 Tenemos que distinguir dos casos:

1) el investigador selecciona casos en función de los valores de la variable dependiente

2) el investigador selecciona casos en función de los

valores de una o más variables independientes

Sesgo de selección

Según como se selecciona la parte de la muestra, se puede producir este sesgo -> vamos, cuando la selección de los casos no se hace bien
Page 17: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

17

9 Imaginemos que en el 2006 un investigador quería estudiar el efecto del posicionamiento ideológico sobre la valoración del Gobierno Zapatero (0 = muy mal --- 10 = muy bien). Los datos disponibles eran estos:

9 Estos datos indican que hay una relación entre posicionamiento político y la satisfacción con el gobierno: pasando de izquierda a centro (o de centro a derecha) la satisfacción en media se reduce de 2 puntos.

Ejemplo

Valoración media 6 4 2

Page 18: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

18

9 ¿Que pasa si el investigador selecciona solo las personas con valoraciones iguales o superiores a 4?

9 El efecto del posicionamiento político sobre la satisfacción con el gobierno es inferior: pasando de izquierda a centro (o de centro a derecha) la satisfacción en media se reduce de 1 punto (en lugar de 2!!!) Æ SESGO de selección.

9 Es un caso de truncamiento de Y (se limita la variación de Y!)

Selección en función de los valores de Y

Valoración media 6 5 4

La diferencia entre los grupos es más bajaLos valores de centro y derecha son más altosEstamos descartando las valoraciones peores, y esto provoca que los tres grupos parezcan más parecidos
Se provoca un error seleccionando la muestra en base a la variable dependiente
Es una limitación artificial, un SESGO, ya que no hay una razon para limitar según este parámetro la muestra
Page 19: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

19

9 Se puede ver el efecto de seleccionar casos en función de Y utilizando un diagrama de dispersión y dibujando la recta estimada en los dos casos (con todos los casos o solo los casos seleccionados).

9 La recta negra (estimada eliminando los casos con Y < 4) es más plana de la recta azul (pendiente más baja y sesgada!).

Selección en función de los valores de Y

Page 20: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

20

9 ¿Que pasa si el investigador selecciona sólo las personas de izquierda o centro?

9 El efecto del posicionamiento político sobre la satisfacción con el gobierno no está sesgado! Pasando de izquierda a centro la satisfacción en media se reduce de 2 puntos. Pero ahora la inferencia no se puede extender (extrapolación) a las personas de derecha. Si las personas de derecha tuviesen una valoración media de 4 la extrapolación provocaría una inferencia sesgada. (En realidad, en el caso de nuestro ejemplo la extrapolación no provocaría un sesgo pero el investigador no puede saberlo si las personas de derecha no están en la muestra o si se limita el análisis a las personas de izquierda y centro.)

Selección en función de los valores de X

Valoración media 6 4

El sesgo se podría provocar si hacemos extrapolación -> si hacemos análisis generales y extraemos conclusiones a nivel poblacional -> entonces sí que habría sesgo
Este tipo de selección no afecta los resultados de la muestraNo provoca un sesgo porque la diferencia entre los grupos se mantiene
Page 21: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

21

9 Lombroso al examinar los cráneos de algunos delincuentes, llegó a

la conclusión que el criminal no es un hombre común si no que por sus característicos rasgos morfológicos y psíquicos, constituye un tipo especial.

9 El criminal según Lombroso presenta signos de inferioridad orgánica:

Menor capacidad craneana, Mayor diámetro bizigomático, Gran capacidad orbitaria, Escaso desarrollo de las partes anteriores y frontales, Abultamiento del occipucio, Frente

hundida, etc.

9 En particular, en 1871 después de hacer la necropsia a un famoso bandolero llamado Giuseppe Villella, encontró en su cráneo, en el sitio de la habitual cresta occipital, un hoyuelo similar a los que presentan los vertebrados superiores más próximos al hombre.

Un caso famoso de error de selección: Cesare Lombroso

Page 22: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

22

9 La teoría de Lombroso se puede simplificar así: tener la

deformación del hueso occipital aumenta la probabilidad de ser criminal.

X: = 1 “tiene hoyuelo occipital”; = 0 “no tiene hoyuelo occipital” Y: = 1 “criminal”; = 0 “no criminal”.

9 Problema de la análisis de Lombroso: solo seleccionaba casos con Y = 1 (criminales). El hecho que entre los criminales habían muchos con la “deformación” del hueso occipital y otras particularidades físicas era debido a que la investigación de Lombroso se limitaba a una área geográfica especifica.

9 Además los criminales analizados eran en mayoría de las clases sociales más pobres.

9 Las características físicas encontradas no eran debidas a que estas personas eran criminales!

Un caso famoso de error de selección: Cesare Lombroso

Page 23: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

23

9 Imaginemos que Messi juegue solo cuando el Barça juega en casa.

¿Se puede estimar cual es el efecto de que Messi juegue o no sobre la probabilidad que el Barça gane un partido?

9 Supongamos que tenemos datos sobre 200 partidos (100 jugados en casa y 100 fuera):

9 ¿Se puede decir que si Messi juega es más probable que el Barça gane?

Multicolinealidad y confundimiento estructural

El Barça gana

Messi juega

Sí No

Sí 80 60

No 20 40

Total 100 100

Page 24: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

24

9 Cuando Messi juega la probabilidad de que el Barça gane es 80% en lugar de 60% cuando Messi no juega. Pero no se puede atribuir este efecto al hecho de que Messi juegue porque la diferencia observada podría ser debida a jugar en casa (Messi juega solo cuando el Barça juega en casa). Las variables “Messi juega” y “Partido en casa” son estructuralmente confundidas: no se puede distinguir el efecto de una variable independiente de lo de la otra.

Multicolinealidad y confundimiento estructural El Barça gana

Messi juega

Sí No

Sí 80 60

No 20 40

Total 100 100

El Barça gana

Partido en casa

Sí No

Sí 80 60

No 20 40

Total 100 100

El problema aquí es que las dos cosas van juntas. Messi está afectado por el hecho de jugar en el camp nou
No se puede diferenciar el efecto de las dos variables
Para diferenciarlo, los % deberían ser diferentes
Este caso se llama multicolinealidad perfecta o confundimiento estructural
Page 25: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

25

9 Consideremos el ejemplo del articulo sobre la relación entre

democracia y salud. Si todos los países democráticos fueran países ricos y al revés todos los países no democráticos fueran países pobres, no seria posible aislar el efecto de la democracia del efecto del nivel de riqueza.

9 No seria posible un análisis “a paridad de condiciones” porque cuando la variable riqueza es mantenida constante (por ejemplo, se cogen solo los países ricos) también la variable “democracia” no variaría (solo nos quedaríamos con países democráticos) y no sería posible establecer si hay un efecto al variar del sistema político sobre la salud.

Multicolinealidad y confundimiento estructural

Page 26: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

26

9 En el contexto de la regresión, el concepto de confundimiento

estructural corresponde a lo de perfecta multicolinealidad: hay una relación lineal perfecta entre dos (o más) variables independientes.

9 Ejemplo: edad y cohorte de nacimiento tienen una perfecta relación lineal en datos trasversales. Por ejemplo, en la primera ola de la ESS:

edad = 2002 – yrbrn

9 Dos (o más) variables que son perfectamente multicolineales no se pueden incluir simultáneamente como variables independientes en un modelo de regresión lineal (no se pueden distinguir los efectos de estas variables).

Multicolinealidad y confundimiento estructural

Es como muy obvio pero hay una relación lineal perfecta entre edad y año de nacimientoPasa lo mismo que con el caso de MessiAl aumentar la edad 1 año, significa haber nacido un año antes
Page 27: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

27

9 Cuando la correlación entre las X no es perfecta, estas variables sí

que se pueden incluir simultáneamente pero pueden haberse problemas si las correlaciones entre ellas son fuertes.

9 El problema es que el modelo no puede distinguir bien los efectos de las diferentes variables y esto implica que los errores típicos (y los p-valores) pueden ser muy altos (y las correspondientes pendientes ser no significativas) aunque las variables estén en realidad correlacionadas con la Y!

9 El FIV (factor de inflación de la variancia) es un indicador de multicolinealidad: si una variable X tiene un valor de este índice más alto de 10 significa que esta variable tiene una correlación muy alta con las otras variables independientes (hay un problema de multicolinealidad). En SPSS: Analizar Æ Regresión Æ Lineales Æ Gráficos y Estadísticos Æ Diagnosticos de colinealidad

Multicolinealidad y confundimiento estructural

Si cogemos dos cortes de año para calcular la edad (2012 y 2002 por ejemplo), sí que podríamos incluir en el modelo de regresión la edad y el año de nacimiento, porque es posible aumentar la edad manteniendo el corte de nacimiento igual
Cuando no es perfecta, las dos variables se pueden incluir en el estudio
Page 28: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

28

9 Consideremos la regresión del posicionamiento político sobre instrucción, genero y años de nacimiento. ¿Hay multicolinealidad?

9 El índice FIV es muy bajo para todas las variables (<< 10). Entonces no hay problema de multicolinealidad en esta regresión.

El FIV: un ejemplo

Coeficientesa

Modelo

Coeficientes no

estandarizados

Coeficientes

tipificados

t Sig.

Estadísticos de colinealidad

B Error típ. Beta Tolerancia FIV

1 (Constante) 36,722 6,440 5,702 ,000

Years of full-time education completed ,014 ,011 ,039 1,237 ,216 ,758 1,319

genero ,351 ,110 ,088 3,204 ,001 ,999 1,001

Year of birth -,017 ,003 -,159 -5,024 ,000 ,757 1,320

a. Variable dependiente: Placement on left right scale

El FIV mide cuanto cada variable independiente está relacionada con las otras independientesTiene valores positivos y nunca inferiores a 1Para decidir si la correlación es demasiado fuerte, se utiliza el límite de 10. si el FIV está por encima de 10, la correlación es demasiado alta. si está por debajo no nos preocupamos
Cuánto los años de estudio están en relación con las otras dos
Page 29: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

29

9 Seleccionar solo algunas X. Ejemplo: PIB per cápita y porcentaje de trabajadores del sector terciario. Ambos son indicadores de desarrollo económico y podemos pensar de utilizar solo uno de ellos.

9 Construir un indicador que resume las variables multicolineales. Ejemplo: PIB, esperanza de vida, tasa de alfabetización, etc. son indicadores de desarrollo socioeconómico. Se puede construir un indicador como el Índice de desarrollo humano de las Naciones Unidas.

(http://es.wikipedia.org/wiki/%C3%8Dndice_de_desarrollo_humano)

9 Mantener todas las variables en el modelo, pero interpretar los resultados con cuidado! (Esta solución es preferible solo cuando no nos interesan los efectos individuales de las variables sino nos interesa el modelo en su totalidad para hacer predicciones que utilicen toda la información disponible).

9 Recoger más observaciones de manera que se reduzca la multicolinealidad (no siempre es posible).

¿Que hacer si hay multicollinealidad?

Felicidad = b0 + b1 Sueldo + b2 Patrimonio Inmobiliario + b3 EdadFIV : 28,21 37,05 6,41Sueldo y patrimonio tienen una relación muy fuerte, pero no perfecta. Los podemos incluir
Page 30: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

30

9 Con referencia al articulo “La democracia es buena para la salud”:

A. ¿Hay un problema de multicolinealidad en esta investigación? ¿Por qué? ¿Y como se podría resolver?

B. Hacer por lo menos un ejemplo de como se podría provocar un sesgo de selección en el análisis de la relación entre salud y democracia.

Para practicar

Page 31: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

31

9 El modelo de regresión lineal en su forma básica supone una relación lineal entre la Y y las variables independientes, esto es que el efecto marginal de cada X es constante: por ejemplo añadir una unidad de X2 siempre tiene el mismo el efecto sobre la Y (medido por b2).

9 En algunos casos la relación entre las variables puede ser curvilínea (parabólica, logarítmica, etc.): el efecto de X sobre Y puede cambiar según el punto en la distribución de X.

Error de especificación de la forma funcional

ikik2i21i10i εXβXβXββY �

Page 32: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

32

9 En los casos C y F estimar una relación lineal es del todo incorrecto: la correlación lineal seria 0 (o muy cerca de 0). Esto indica que no hay relación lineal. Pero sí que hay otro tipo de relación!

9 En los otros casos una recta seria una aproximación de la verdadera relación entre las variables: la pendiente de la recta subestima el efecto de la X en algunos puntos de la distribución y lo sobreestima en otros.

Ejemplos de relaciones parabólicas

Page 33: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

33

9 Relación entre identificación autonómica (CA) y porcentaje de votos al principal partido de ámbito no estatal (PANE) en cada CA.

9 Fuente: Fernández-Albertos, J., & Lago, I. (2015). Gobiernos autonómicos e identidades regionales en España, 1980-2012. Política y gobierno, 22(2), 283-315.

Un ejemplo real de relación no lineal

Page 34: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

34

9 Se sabe que beber suficiente agua es importante para la salud. La cantidad de agua que cada persona tiene que beber depende de muchos factores, como el peso. Una persona con peso de 160 libras (72,5 kg), debería beber 80 onzas (2268 gramos) de agua por día

(http://nutrition.about.com/od/hydrationwater/a/waterarticle.htm).

9 Imaginemos que un medico haya recopilado datos sobre 25

pacientes (todos con peso de 160 libras). Imaginemos que el medico haya medido el amontar de agua bebido por día (“water”) y el estado de salud de los pacientes con un índice de 0 a 100 (“health”, más alto es el índice, mejor es el estado de salud).

Ejemplo de relación parabólica

Page 35: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

35

9 El medico ha recomendado a todos de beber 80 onzas de agua por día. Pero, no todos han seguido la recomendación del medico (el amontar medio bebido por día varia de 55 a 95 onzas.

9 Considerando el diagrama de dispersión es evidente que hay una relación no lineal entre

amontar de agua y salud. 9 Evidencia de “water intoxication” (intoxicación por agua) si se bebe mas de 80 onzas!

Ejemplo de relación parabólica

020

4060

8010

0

Hea

lth

0 20 40 60 80 100Water

http://chemistry.about.com/cs/5/f/blwaterintox.htm

Page 36: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

36

9 Las rectas roja y verde son ambas rectas de regresión lineal simple. La diferencia

es que la recta roja excluye los pacientes que han bebido mas de 80 onzas por día. 9 Ninguna de las dos rectas es apropiada porque ambas ignoran que después el nivel 80, aumentar la cantidad de agua tiene un efecto negativo sobre la salud. 9 La recta roja representa mejor la relación por niveles de agua

inferior a 80 y peor por niveles superior a 80.

Ejemplo de relación parabólica

020

4060

8010

012

014

016

0

0 20 40 60 80 100 120 140Water

Health Fitted valuesFitted values

waterbbhealth 10

Page 37: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

37

9 Utilizando una regresión múltiple es muy fácil estimar una relación parabólica. Es suficiente añadir la variable independiente elevada al cuadrado (water)2 como si fuera otra variable independiente:

9 En SPSS se puede crear una nueva variable (water)2 y utilizarla normalmente como si fuera una variable independiente cualquiera o se puede utilizar “Analizar Æ Regresión Æ Estimación Curvilínea”.

Ejemplo de relación parabólica

2210 waterbwaterbbhealth

Page 38: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

38

9 El diagrama indica que la parábola estimada se ajusta mejor de las dos rectas a los datos!

Interpretación de los coeficientes de la regresión estimada: 9 b0 = -192.38 es el valor predicho del indicador de salud por un paciente que ha bebido 0 onzas de

agua por día. (Claramente no tiene sentido en este caso interpretar la constante).

9 b1 y b2 no se pueden interpretar normalmente! (Por ejemplo aumentar “water” de 1 unidad manteniendo “water2” constante no es posible!)

Ejemplo de relación parabólica 2water*04.0water*72.638.192-health

020

4060

8010

012

014

016

0

0 20 40 60 80 100 120 140Water

Health Fitted valuesFitted values Fitted values

Page 39: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

39

9 Para interpretar b1 y b2 formalmente podemos calcular la derivada primera:

9 Esto indica que el efecto marginal no es constante: es positivo hasta el valor 84 y negativo después.

9 En general b2 indica si la concavidad es hacia abajo (como en este ejemplo) o hacia arriba. El punto de máximo o mínimo es X = -b1 / 2b2

Ejemplo de relación parabólica

water*2*04.072.6hhealt

020

4060

8010

012

014

016

0

0 20 40 60 80 100 120 140Water

Health Fitted valuesFitted values Fitted values

8408.072.6

water0water*2*04.072.6

b2 < 0 -> convexab2 > 0 -> concava
Haces la 2a derivada para saber el mínimo (o máximo) de la parábola
- b1
2*b2
Page 40: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

40

9 Estimar una relación parabólica entre el nivel de felicidad en una escala de 0 a 100 ( “felicidad”) y el numero de horas trabajadas normalmente a la semana (“horas”). 9 R2 corregida indica que el modelo parabólico se ajusta mejor a los datos.

Otro ejemplo de relación parabólica

Modelo parabólico:

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

1 ,312a ,098 ,089 11,779

Modelo lineal

Resumen del modelob

Modelo R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

1 ,201a ,040 ,036 12,120

Horas trabajadas

Felic

idad

Page 41: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

41

9 b2 es significativo: el modelo parabólico es mejor del modelo lineal. 9 También en este caso la concavidad es hacia abajo (b2 negativo). (Parábola cóncava; https://es.wikipedia.org/wiki/Concavidad)

Coeficientesa

Modelo

Coeficientes no estandarizados Coeficientes tipificados

t Sig.

Estadísticos de colinealidad

B Error típ. Beta

Toleranci

a FIV

1 (Constante) 12,042 5,614 2,145 ,033

wkhtotp 1,010 ,225 ,930 4,489 ,000 ,097 10,283

wkhtotp2 -,008 ,002 -,768 -3,705 ,000 ,097 10,283

Otro ejemplo de relación parabólica

Horas trabajadas

Felic

idad

Page 42: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

Coeficientesa

Modelo

Coeficientes no estandarizados

Sig. B Error típ. 1 (Constante) 62,042 11,057 ,000

votos -0,400 0,076 ,000 votos2 0,005 0,001 ,008

42

9 Unos investigadores han estudiado la relación entre identificación nacional con España y porcentaje de votos al principal partido de ámbito no estatal en las diferentes comunidades autónomas (CA). Los investigadores han calculado el porcentaje de individuos que en las encuestas del CIS declaran sentirse identificados únicamente con España y el porcentaje de votos al principal partido de ámbito no estatal en cada CA (“votos”). Comentar los resultados de sus investigación basados en un modelo de regresión donde se han incluido las variables “votos” y su cuadrado (“votos2”) como variables independientes:

Para practicar

Ejercicio inspirado en: Fernández-Albertos, J., & Lago, I. (2015). Gobiernos autonómicos e identidades regionales en España, 1980-2012. Política y gobierno, 22(2), 283-315.

Page 43: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

43

9 Capítulo 7 de: LAGO, Ignacio. La lógica de la explicación en ciencias sociales: una introducción metodológica. Madrid: Alianza Editorial, 2008

9 Paragrafos 13.7, 14.4, 14.5 (solo las partes relevantes) de: NEWBOLD, Paul; CARLSON, William L.; THORNE, Betty M. Estadística para Administración y Economía. Sexta Edición. Madrid: Prentice Hall, 2008 (¡En la Aula Global!)

Referencias

Page 44: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

44

Si algo no queda claro… podéis pedirme tutorías o escribirme un email

Page 45: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

45

Apéndice

Page 46: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

46

9 Supongamos que el salario dependa de instrucción, antigüedad en

la empresa y días de ausencia injustificada (véase Lago, página 79). 9 ¿Que pasa si estimamos el efecto de los años de estudio controlando solo por la antigüedad?

9 Habría un sesgo debido a la exclusión de una variable relevante (baja laboral). Y el sesgo seria positivo (“-” * “-” = “+”. Hay un

error en Lago, páginas 79-80)

Omisión de variables relevantes: (otro) ejemplo

+

+

Años de estudio

Salario

Antigüedad

Ausencias injustificadas

+

- -

-

Page 47: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

47

9 Supongamos que el salario dependa de instrucción, antigüedad en

la empresa y días de ausencia injustificada (véase Lago, página 79). 9 ¿Que pasa si estimamos el efecto de los años de estudio controlando solo por las ausencias?

9 Habría un sesgo debido a la exclusión de una variable relevante (antigüedad). Y el sesgo seria positivo también en este caso (“+” *

“+” = “+”).

Omisión de variables relevantes: (otro) ejemplo

+

+ +

- -

- Años de estudio

Salario

Antigüedad

Ausencias injustificadas

Page 48: Metodología cuantitativa IV · también como un problema de variable relevante omitida: 9Si ignoramos el nivel inicial de interés en la política, ... pero el investigador selecciona

Clases 5-7: errores de especificación

48

9 Una alternativa a la estimación de relaciones parabólicas es utilizar una transformación logarítmica.

9 Es bastante común hacer transformaciones logarítmicas de variables con asimetría positiva (p.ej., PIB, salario, etc.).

9 Modelo semilogarítmico: log(Y) = b0+ b1 X + ε Por cada aumento de una unidad de X, Y varia de (100*β1)%

(semielasticidad) 9 Modelo logarítmico: log(Y) = b0+ b1log(X) + ε Por cada aumento de 1% de X, Y varia de β1% (elasticidad)

Transformaciones logarítmicas