tesina ivana barbona

52
UNIVERSIDAD NACIONAL DE ROSARIO FACULTAD DE CIENCIAS ECONÓMICAS Y ESTADÍSTICA ESCUELA DE ESTADÍSTICA Título de la tesina: “Uso del Modelo Logit Mixto para el estudio de la desocupación en Rosario” Tesinista: Ivana Barbona Directora: Mgs. Gabriela Boggio Carrera: Licenciatura en Estadística ROSARIO - 2009

Upload: ivana-barbona

Post on 28-Dec-2015

25 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tesina Ivana Barbona

UNIVERSIDAD NACIONAL DE ROSARIO

FACULTAD DE CIENCIAS ECONÓMICAS Y ESTADÍSTICA

ESCUELA DE ESTADÍSTICA

Título de la tesina:

“Uso del Modelo Logit Mixto para el estudio de la desocupación en Rosario”

Tesinista: Ivana Barbona

Directora: Mgs. Gabriela Boggio

Carrera: Licenciatura en Estadística

ROSARIO - 2009

Page 2: Tesina Ivana Barbona

ÍNDICE

I- INTRODUCCIÓN.................................................................................................. 1

II- MATERIAL......................................................................................................... 4

II-A Características de la Encuesta Permanente de Hogares (EPH)........................... 4

II-B Descripción de las Variables en estudio............................................................ 7

III-METODOLOGÍA.................................................................................................. 10

III-A Modelos Lineales Generalizados Mixtos........................................................... 10

III-B Modelo Logit con intercepto aleatorio............................................................. 12

III-C Estimación de los parámetros del modelo....................................................... 14

IV- RESULTADOS.................................................................................................... 19

IV-A Análisis Descriptivo........................................................................................ 19

IV-B Modelización................................................................................................. 23

IV-B-1 Consideraciones acerca del supuesto distribucional de los efectos aleatorios…... 35

V-CONSIDERACIONES FINALES............................................................................... 38

VI- ANEXO............................................................................................................. 40

VI-A Análisis descriptivo de la muestra total de individuos y la submuestra

correspondiente a los individuos utilizados para ajustar el modelo……………………………… 40

VI-B Métodos para la determinación de la escala para las variables continuas………... 45

VII- BIBLIOGRAFÍA................................................................................................. 49

Page 3: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

1

I-Introducción

Existen estudios que se caracterizan por el hecho de que las observaciones se

encuentran agrupadas. Esta agrupación puede deberse a que las mismas pertenecen a

individuos que comparten alguna característica, o bien, a que estén tomadas sobre un

mismo sujeto en forma repetida o en varias ocasiones a través del tiempo, es decir

longitudinalmente. Esto lleva a que exista cierto grado de correlación entre las observaciones

dentro de un mismo grupo o individuo.

Ignorar esta correlación entre observaciones al aplicar técnicas estadísticas tradicionales

puede invalidar las inferencias obtenidas.

Uno de los enfoques más utilizados al analizar datos correlacionados de este tipo son los

denominados Modelos Lineales Generalizados Mixtos (MLGM). Estos modelos constituyen

una extensión de los Modelos Lineales Generalizados (MLG) que permiten tener en cuenta la

correlación entre las observaciones de individuos dentro de un mismo grupo o tomadas a un

mismo sujeto, mediante la incorporación de efectos aleatorios.

En particular, cuando se cuenta con una variable respuesta de tipo binaria y datos

correlacionados, uno de los modelos más frecuentemente utilizados es el Modelo Logit Mixto.

El mismo tiene en cuenta la naturaleza binaria de la variable respuesta y la correlación de las

observaciones dentro de un mismo grupo o sujeto mediante la función de enlace logit y la

incorporación de efectos aleatorios respectivamente. Este modelo es un caso especial de la

familia de MLGM también conocido como Modelo Logístico Normal (Agresti, 2002).

En esta tesina se realiza una aplicación de este modelo para el estudio de la

desocupación en el aglomerado Gran Rosario utilizando datos provenientes de la Encuesta

Permanente de Hogares (EPH) realizada por el Instituto Nacional de Estadística y Censos

(INDEC) en el período 2005 – 2006. Los mismos son de tipo longitudinal y cada individuo

que participa de la encuesta es entrevistado en a lo sumo 4 ocasiones durante el período

Page 4: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

2

considerado, con lo cual las observaciones que corresponden a un mismo individuo van a

tender a estar correlacionadas.

En la Argentina las cifras referidas a empleo y desempleo no provienen de ningún

registro administrativo. La falta de información sobre desocupación impone entonces

requerimientos metodológicos que son específicos e inherentes a las fuentes estadísticas

disponibles. Debido a ello, para la obtención de dichos datos se recurre a la EPH realizada

por el INDEC desde 1974.

Según el INDEC medir la dinámica laboral en Argentina significa, entre otras cosas,

monitorear la estructura del mercado de trabajo, profundizar sobre el perfil de ocupados y

desocupados, y ampliar el marco de perspectivas posibles para diagnosticar sobre variados

aspectos de nuestra economía y sociedad.

Quizás el fenómeno de la desocupación remita a múltiples causas: tecnificación de los

procesos productivos, crecimiento vegetativo de la población, crisis periódicas de la

economía, entre otras; pero en todos los casos tiende a producir efectos encadenados cada

vez más críticos desde la perspectiva de la población involucrada: la reducción de su poder

adquisitivo y el deterioro de sus condiciones de vida. Su medición procura generar

información y nuevos elementos de juicio para conocer la realidad, orientar decisiones en

política económica y efectuar previsiones para paliar este flagelo (INDEC, 1997).

Teniendo en cuenta que durante los últimos años, en nuestro país, el fenómeno de la

desocupación constituye una de las problemáticas más importantes relacionadas con el

mercado de trabajo, resulta de interés estudiar la relación entre el estado ocupacional y

factores tanto demográficos como socio-económicos.

El objetivo de esta tesina es, entonces, el estudio de la desocupación en el aglomerado

Gran Rosario en función de determinados factores demográficos y socio-económicos en el

período 2005 – 2006 mediante la aplicación de un Modelo Logit Mixto.

Page 5: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

3

Planteado el objetivo de este trabajo, en el capítulo II, se describe exhaustivamente el

material disponible. Luego se presenta el Modelo Logit Mixto como caso particular de la

familia de Modelos Lineales Generalizados Mixtos y en el capítulo IV se muestran los

resultados alcanzados. Por último, se presenta una discusión sobre la aplicación realizada.

Page 6: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

4

II-Material

En este capítulo se realiza una descripción de los datos que se utilizan en el presente

trabajo, así como también se presenta la definición operacional de las variables socio-

económicas y demográficas que van a ser consideradas en el modelo.

II-A Características de la Encuesta Permanente de Hogares (EPH)

La EPH es un programa nacional de producción sistemática y permanente de indicadores

que tiene como objetivo conocer las características socio-demográficas y socio-económicas

de la población. Es realizada en forma conjunta por INDEC y las Direcciones Provinciales de

Estadística (DPE), ya que estas últimas realizan los relevamientos bajo las normas técnicas y

metodológicas fijadas y monitoreadas por en equipo central de la EPH en el INDEC.

En base a esta encuesta el INDEC proporciona regularmente, entre otros resultados, las

tasas oficiales de empleo, desocupación, subocupación y pobreza (para cada uno de los

aglomerados, las regiones estadísticas y el total de los aglomerados).

En el año 2003 se encaró un proceso de reformulación integral de la EPH que abarcó

aspectos temáticos, muestrales y organizativos, sin alterar los propósitos iniciales de

relevamiento. El objetivo de dicha reformulación consistió en reelaborar la metodología de

medición y formas de operación atendiendo a características socio-económicas actuales, a

las nuevas modalidades de inserción en el mercado de trabajo y a su dinámica de cambio.

La nueva encuesta cuenta con tres cuestionarios, uno de vivienda; otro de hogar; y uno

para cada una de las personas de 10 o más años que conforman el hogar. Los mismos son

aplicados en una muestra distribuida en el tiempo, bajo una modalidad de relevamiento

continuo y con mayor frecuencia de presentación de los resultados.

Page 7: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

5

En cuanto a la medición de la condición de actividad se consideran ocupados a todos

aquellos individuos quienes desarrollan, en un período de referencia dado, una actividad

laboral. Es decir el conjunto de personas que:

- Trabajó por lo menos una hora en la semana de referencia en forma remunerada.

- Trabaja habitualmente sin pago.

- No trabajó en la semana pero mantiene el empleo.

- Incluye los suspendidos por menos de un mes y a los de 1 a 3 meses que no hayan

buscado activamente trabajo en la semana de referencia, así como también aquellos

a los que se les mantiene el pago independientemente del tiempo de suspensión.

- Incluye a los que no trabajaron en la semana por ciertas causas laborales (rotura de

equipos, mal tiempo, etc.) sólo si el tiempo de retorno es de hasta 1 mes.

En el caso de los desocupados se refiere a aquellos individuos que no tiene una

ocupación, buscan activamente trabajo y están disponibles para trabajar en las cuatro

semanas a partir de la semana de referencia. También se incluye a las personas que

interrumpieron momentáneamente la búsqueda de trabajo por un período de un mes por

razones circunstanciales y a los suspendidos de más de un mes que buscaron activamente

trabajo.

Se considera inactivos a aquellas personas que se han retirado de la búsqueda activa

de trabajo por falta de visualización de oportunidades pero están disponibles para trabajar.

También se consideran dentro de ésta categoría a los individuos que no trabajan, no buscan

activamente trabajo ni están disponibles para trabajar.

En cuanto al diseño de la muestra, la EPH es una encuesta por muestreo. Esto significa

que para conocer las diversas características del total de los hogares, se encuesta una

pequeña fracción representativa de los mismos.

Los hogares a encuestar son seleccionados aleatoriamente en dos etapas de selección:

Page 8: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

6

- Primera etapa: Se lleva a cabo en cada aglomerado dentro de los cuales se

selecciona una cantidad de radios censales o subdivisiones de los mismos (áreas).

- Segunda etapa: Se listan todas las viviendas particulares de las áreas seleccionadas,

para efectuar a partir de ese listado una selección aleatoria de viviendas. Los hogares

que habitan esas viviendas son hogares a encuestar.

La cantidad de viviendas a seleccionar en cada área, es igual dentro de cada

aglomerado.

La periodicidad con la que se realiza la encuesta es trimestral quedando definidos en el

año los siguientes trimestres:

Trimestre Meses

1 Enero, febrero, marzo

2 Abril, mayo, junio

3 Julio, agosto, septiembre

4 Octubre, noviembre, diciembre

El período para el cual se brinda información se denomina “ventana de observación” y es

el trimestre.

En cuanto a la distribución de la muestra en el tiempo, las áreas seleccionadas se

distribuyen a lo largo de 12 semanas del trimestre de manera que la cantidad de áreas por

semana sea similar. Cada área tiene asignada una semana de referencia dentro del trimestre

la cual es la misma para todos los trimestres (no cambia de trimestre a trimestre, ni de año a

año). Cada trimestre tiene 12 semanas de referencia, quedando siempre la semana 13 libre

que no se utiliza como tal.

En la EPH se renueva periódicamente el conjunto de hogares a encuestar, denominado

panel de respondentes. La forma en la que se produce esta renovación se denomina “panel

de rotación”.

El esquema empleado se denomina 2-2-2 y su funcionamiento es el siguiente:

- Las viviendas de un área ingresan a la muestra para ser encuestadas en dos

trimestres consecutivos, en el mes y semana asignados a ese área.

Page 9: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

7

- Se retiran por dos trimestres consecutivos.

- Vuelven a la muestra para ser encuestadas en dos trimestres consecutivos en el mes

y semana asignados a ese área.

El esquema anterior garantiza que una vivienda que es encuestada por primera vez en la

semana 2 del trimestre 1, vuelve a ser encuestada en la semana 2 del trimestre 2, se retira

momentáneamente de la muestra para volver a ser encuestada en la semana 2 del trimestre

1 del año siguiente y en la semana 2 del trimestre 2 del año siguiente.

Este método de rotación da la posibilidad de realizar análisis en el tiempo, siguiendo a un

hogar o a un respondente desde su ingreso en el panel hasta la última vez que es

encuestado, de manera tal que, por ejemplo, un hogar puede ser seguido a lo largo de un

año y medio.

II-B Descripción de las variables en estudio

La variable respuesta considerada para el estudio de la desocupación en el aglomerado

Gran Rosario es Estado Ocupacional, la misma está formada por las siguientes categorías:

0 = Entrevista individual no realizada (no respuesta al Cuestionario Individual)

1 = Ocupado

2 = Desocupado

3 = Inactivo

4 = Menor de 10 años

En esta tesina, el grupo de estudio está conformado por los individuos pertenecientes a

la población económicamente activa. Es decir, las personas que tienen una ocupación o que

sin tenerla la están buscando activamente de manera tal que la variable respuesta asume

sólo las siguientes 2 categorías:

1 = Ocupado

2 = Desocupado

Page 10: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

8

Respecto de las variables explicativas, fueron consideradas en el estudio las siguientes

variables que representan características socio-económicas y demográficas de los individuos:

Sexo

1 = Varón Niveles

2 = Mujer Jefe de familia

1 = Jefe Niveles

2 = No jefe Nivel de Ingreso Familiar

1 = Bajo (1º, 2º y 3º decil del ingreso per cápita familiar)

Niveles 2 = Medio (4º, 5º, 6º y 7º decil del ingreso per cápita familiar)

3 = Alto (8º, 9º y 10º decil del ingreso per cápita familiar)

Nivel Educativo

1 = Sin Instrucción/Primaria Incompleta/Educación especial 2 = Primaria Completa/Secundaria Incompleta

Niveles 3 = Secundaria Completa/Superior Universitaria Incompleta 4 = Superior Universitaria Completa

Page 11: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

9

Rama de Actividad Económica

1 = Construcción

2 = Manufactura

3 = Servicios Comerciales Niveles 4 = Intermediación Financiera

5 = Administración Pública y Defensa, Enseñanza y Servicios

Sociales y de Salud

6 = Otras actividades de servicio

Edad: Toma valores mayores a 10 años.

Page 12: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

10

III- Metodología

III-A Modelo Lineal Generalizado Mixto

Los Modelos Lineales Generalizados Mixtos (MLGM) constituyen una extensión de los

Modelos Lineales Generalizados (MLG) que permiten tener en cuenta la correlación entre las

observaciones de individuos dentro de un determinado grupo o la correlación entre las

mediciones realizadas a un mismo individuo, es decir, un sujeto medido en varias ocasiones.

Dicha correlación es considerada en el modelo mediante la incorporación de efectos

aleatorios. Además, se supone que estos efectos siguen alguna distribución de probabilidad,

la cual puede asumirse por conveniencia matemática y computacional, como una normal

multivariada ( Fitzmaurice et al., 2004).

En este trabajo el interés se centra en el caso de individuos medidos en varias ocasiones

en el tiempo, es decir, de manera longitudinal.

Sean

- 1 2 i

'

i i i ity y . . . yY el vector de respuestas correspondiente al i-ésimo

individuo, con i=1,...,n, donde n es el número total de individuos en la muestra y ti el

número de mediciones repetidas para el i-ésimo individuo, pudiendo los individuos estar

medidos en distinto número de ocasiones.

- bi un vector de efectos aleatorios específico asociado al i-ésimo individuo.

- 1 2

'

ij ij ij ijpx x . . . xX el vector de covariables correspondientes a cada yij,

es decir, a la j-ésima observación del i-ésimo individuo donde j=1,...,ti .

El Modelo Lineal Generalizado Mixto puede especificarse mediante las siguientes tres

componentes ( Fitzmaurice et al., 2004):

Page 13: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

11

1. Se supone que la distribución condicional de cada yij, dado un vector de efectos

aleatorios bi de dimensión qx1, pertenece a la familia exponencial de distribuciones

con Var(yij | bi) = v{E(yij | bi)}.Φ, donde v(.) es una función de variancia conocida

y además es función de la media condicional, E( yij | bi) y Φ parámetro de escala.

2. La media condicional de yij, es decir E(yij | bi), depende de los efectos fijos y

aleatorios mediante el siguiente predictor lineal:

' '

ij ij ij ibZ X , (1)

con

' '

ij i ij ij ij ig E(y | )b bZ X (2)

donde g(.) es alguna función de enlace conocida y β es el vector de parámetros de

regresión de dimensión px1.

3. Finalmente, se asume que los efectos aleatorios siguen alguna distribución de

probabilidad. En principio, se puede suponer cualquier función de probabilidad para

bi. En la práctica, es común asumir que bi tiene distribución normal multivariada,

con media cero y matriz de covariancias G de dimensión qxq. Además, se supone

que los efectos aleatorios bi son independientes de las covariables

1 2 ii i i it, ,...,X X X X .

Mediante estas tres componentes queda especificada en forma completa la distribución

conjunta de yij.

Cuando la naturaleza de la variable respuesta es binaria generalmente se utiliza la

función de enlace "logit", obteniendo así el denominado Modelo Logit Mixto que es un caso

Page 14: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

12

especial de la familia de MLGM. Para el caso particular donde se tiene el intercepto como

único efecto aleatorio, el modelo anterior se denomina Modelo Logit con intercepto aleatorio.

A continuación se realiza una descripción de este modelo, el cual se elige para el análisis

de los datos.

III-B Modelo Logit con intercepto aleatorio

Sea Yij variable respuesta binaria, que toma los valores 0 y 1. El Modelo Logit con

intercepto aleatorio para dicha variable queda especificado por las siguientes tres partes

( Fitzmaurice et al., 2004):

1. Condicional a un sólo efecto aleatorio bi, las yij son independientes y tienen una

distribución de probabilidades Bernoulli, con Var(yij | bi) = E(yij | bi) {1 – E(yij | bi)},

(es decir, Φ =1).

2. La media condicional de yij depende de los efectos fijos y aleatorios mediante el

siguiente predictor lineal:

' ' '

ij ij ij i ij ib bZ X X , (3)

donde Zij = 1 para todo i = 1,...,n, y j = 1,...,ti, con

1

10

ij i '

ij i ij ij i

ij i

Pr y blogit Pr(y | b ) log b

Pr y b

( | )

( | )

X , (4)

Es decir, la media condicional de yij está relacionada con el predictor lineal

mediante una función de enlace logit.

3. Se supone que el efecto aleatorio bi tiene una distribución normal univariada, con

media cero y variancia 2

b . Este supuesto implica que el modelo en cuestión forma

parte de la denominada clase de Modelos Logísticos Normales (Agresti, 2002).

Page 15: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

13

La introducción del efecto aleatorio bi produce un incremento en la correlación a través

de las respuestas dentro de un individuo en relación a la correlación entre respuestas de

distintos individuos. Es decir, el hecho de que las respuestas para un individuo tengan el

mismo valor del efecto aleatorio bi hace que estén más altamente correlacionadas que

aquellas respuestas con distintos valores de bi. Cuanto mayor es la diferencia en los valores

de los bi, mayor es la correlación intra-individuos. La heterogeneidad de los efectos

aleatorios bi es simplemente una función de su variancia 2

b . En consecuencia, la correlación

intra-individuo se incrementa al aumentar 2

b (Hosmer y Lemeshow, 2000).

Por otro lado, aunque la introducción de efectos aleatorios ha sido pensada como una

forma de tener en cuenta la correlación entre las observaciones de un mismo individuo, la

misma tiene implicancias importantes en la interpretación de los coeficientes de regresión.

Dichos coeficientes poseen una interpretación denominada sujeto-específica. Es decir,

representan la influencia de las covariables sobre el logaritmo del odds de respuesta de un

sujeto específico. En particular, la interpretación de un coeficiente de regresión βk se hace en

términos de los cambios en el logaritmo del odds de respuesta para un individuo dado por

incremento unitario en el valor de la correspondiente covariable xijk para valores fijos de las

demás covariables ( Fitzmaurice et al., 2004).

Lo anteriormente enunciado puede ser expresado en términos del modelo de la siguiente

forma:

Cuando xijk toma un determinado valor c, y los valores de las demás covariables se

mantienen fijos, es decir iguales a algún valor x’, el logaritmo del odds de respuesta positiva,

donde por respuesta positiva se entiende que yij toma el valor 1, es:

1 1

1 1

1 1

1

0

ij i ij ijk ijp ij ijp

i ij k p ijp

ij i ij ijk ijp ij ijp

Pr(y | b x ,..., x ,..., x x ,..., c,..., x )log b x ... ... x .

Pr(y | b x ,..., x ,..., x x ,..., c,..., x )

,c

,

(5)

Page 16: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

14

De manera similar, cuando xijk toma el valor (c+1) manteniendo fijos los valores para el

resto de las covariables, el logaritmo del odds de respuesta positiva es el siguiente:

1 1

1 1

1 1

11

1

1

0

ij i ij ijk ijp ij ijp

i ij k p ijp

ij i ij ijk ijp ij ijp

Pr(y | b x ,..., x ,..., x x ,..., (c ),..., x )log b x ... ) ... x .

Pr(y | b x ,..., x ,..., x x ,..., (c ),..., x )

,(c

,

(6)

Así, para cualquier individuo, el logaritmo del odds de respuesta positiva por unidad de

incremento en xijk es sencillamente βk. Dicho coeficiente es el resultado de la diferencia de la

expresión (6) menos la (5).

Al exponenciar la diferencia anterior, es decir exp(βk) se obtiene la Razón de Odds cuya

interpretación indica cuánto mayor o menor es la chance de respuesta positiva para un

individuo i en el tiempo j que presenta un valor de la covariable xijk=(c+1) en comparación

con la chance de respuesta positiva si el mismo individuo hubiese presentado un valor de

xijk=c.

Es por esta razón que este modelo es más útil cuando el objetivo principal es realizar

inferencia a nivel sujeto en lugar de hacerlo a nivel promedio poblacional ( Fitzmaurice et al.,

2004).

III-C Estimación de los parámetros del modelo

Uno de los enfoques posibles para la estimación de los parámetros de un MLGM consiste

en la maximización de la verosimilitud marginal, obtenida integrando a través de los efectos

aleatorios, en función de la distribución de probabilidad asumida para ellos, en este caso la

Normal Multivariada (Molenberghs y Verbeke, 2005).

Sea un MLGM como el modelo (2), la contribución del i-ésimo sujeto a la verosimilitud

viene dada por (Molenberghs y Verbeke, 2005):

1

it

i i ij ij i i ij

yf ( | , ,Φ) f ( | , ,Φ)f( | )d

Y G b b G b (7)

de donde se deriva la verosimilitud para β, G y Φ:

Page 17: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

15

1

1 1

i

n

i ii

tn

ij ij i i ii j

y

L( , ,Φ) f ( | , ,Φ)

f ( | , ,Φ)f( | )d

G Y G

b b G b

(8)

El problema principal se presenta al maximizar la expresión anterior en presencia de n

integrales del vector de efectos aleatorios bi de dimensión qx1.

Como en general no se dispone de expresiones analíticas para las integrales de dicha

expresión, es necesario recurrir a aproximaciones numéricas.

Una de ellas se basa en la descomposición de los datos en la media y un término del

error apropiado, mediante la expansión en serie de Taylor de la media que es una función no

lineal del predictor lineal.

Más específicamente, se considera la siguiente descomposición:

' '

ij ij ij ij ij i ijy h( ) X Z b (9)

donde h(.) es la inversa de la función de enlace y los errores tienen una distribución

apropiada con variancia V(yij|bi)= v(μij)Φ siendo v(.) la función de variancia habitual en la

familia exponencial.

Cuando se considera una variable aleatoria binaria y la función de enlace logit, se tiene:

11

' '

ij ij i

ij ij ij ' '

ij ij i

exp( )P(y )

exp( )

X Z b

X Z b

(10)

donde εij es igual a 1-ij con probabilidad ij y -ij con probabilidad 1-ij.

Una aproximación posible de la media µij conduce a las denominadas estimaciones

cuasi verosímiles penalizadas. Consiste en una expansión lineal de Taylor de (9)

alrededor de las estimaciones y ˆi

b de efectos fijos y aleatorios respectivamente, o sea:

' ' ' ' ' ' ' ' ' '

ij ij ij i ij ij i ij ij ij i ij i i ij

' '

ij ij ij ij ij i i ij

y h h ( ( ) h ( ) ( )

v( ) ( ) v( )ˆ

ˆ ˆ ˆ ˆ( ) )

ˆ( )ˆ ˆ

ˆ ˆ ˆ ˆ

ˆ

X Z b X Z b X X Z b Z b b

X Z b b

(11)

Page 18: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

16

donde ij es igual al predictor

' '

ij ij ih( )ˆˆ X Z b para la media condicional E(yij|bi) y

' ' '

ij ij ij iv( h ( )ˆ ˆ) ˆ X Z b .

Matricialmente:

i i i i i i i i i( ) ( )ˆˆ ˆˆˆ Y VX VZ b b (12)

para las matrices de diseño apropiadas iX y i

Z , y con iV matriz diagonal cuyos elementos

diagonales son ijv( ) . Re-ordenando la expresión anterior se obtiene:

1* *

i i i i i i i i i i i( ) ˆˆ ˆˆ Y V Y X Zb X Zb (13)

para *

i igual a

1

i iˆ V , el cual sigue teniendo media cero.

La expresión (13) puede ser vista como un modelo lineal mixto para los denominados

pseudo datos *

iY , con efectos fijos β, efectos aleatorios bi, y término del error

*

i .

Dados valores iniciales para los parámetros β, G y Φ en la verosimilitud marginal, se

calculan las estimaciones de Bayes empíricas para bi, y luego se calculan los pseudo-datos

*

iY . Seguidamente se ajusta el modelo lineal mixto (13), produciendo nuevas estimaciones

de β, G y Φ. Estas últimas se utilizan para actualizar los pseudos-datos y el esquema

anterior se repite alternativamente hasta alcanzar la convergencia.

Las estimaciones resultantes se denominan estimaciones cuasi-verosímiles penalizadas,

debido a que se obtienen al optimizar una función de cuasi-verosimilitud que sólo involucra

los momentos de primer y segundo orden, aumentada con un término de penalidad de los

efectos aleatorios.

Según Molenberghs y Verbeke (2005) debido a que el ajuste del MLGM se basa en

principios máximo verosimiles, las inferencias acerca de los parámetros se obtienen también

a partir de la teoría de máxima verosimilitud clásica.

Page 19: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

17

Al asumir que el modelo ajustado es apropiado, los estimadores de los parámetros se

distribuyen asintóticamente Normal. Por lo tanto, pueden llevarse a cabo tests de tipo Wald,

tests de Razón de Verosimilitud y tests de Score. En el punto anterior se mostró que los

parámetros de los MLGM se pueden estimar ajustando un MLM a un conjunto de pseudo

datos. Las estimaciones de la precisión para los efectos fijos y para los efectos aleatorios se

calculan, entonces, utilizando la metodología para los modelos lineales mixtos, lo que hace

posible el uso de tests Z, t y F para los efectos fijos.

En cuanto a los efectos aleatorios, resulta de interés la inferencia acerca de las

componentes de variancia. En estos casos pueden aplicarse los test cásicos de Wald, Razón

de Verosimilitud y Score, siempre y cuando las hipótesis planteadas no refieran a la frontera

del espacio paramétrico.

Por ejemplo puede interesar probar si la variancia 2

b de un efecto aleatorio en un

modelo lineal generalizado con un único efecto aleatorio es igual a cero; en este caso las

hipótesis en cuestión son la siguientes: H0: 2

b = 0 vs. H1:

2

b > 0. De esta forma, la hipótesis

nula cae sobre la frontera del espacio paramétrico 2 0b

, por lo tanto, como fue expresado

anteriormente, ninguno de los test clásicos como Wald, Razón de Verosimilitud o Score

resultan válidos. Esto puede verse fácilmente considerando el test de Wald que se basaría en

la aproximación de la distribución normal estándar de la estimación 2

b .

Esta estadística no puede distribuirse normal con media igual a cero ya que la estimación

de 2

b toma sólo valores positivos. En consecuencia, bajo H0, esta estadística sigue una

distribución normal positiva en el 50% de los casos y es igual a cero en el otro 50% de los

casos. Ello conduce a una mezcla de distribuciones 2 como distribución nula. Es decir,

cuando 2

b > 0 y la estadística observada del test toma el valor t, el valor de la probabilidad

Page 20: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

18

asociada para este test asintótico es 2

1

1

2P t , que equivale a la mitad de la probabilidad

asociada al test asintótico Chi Cuadrado con 1 grado de libertad (Molenberghs y Verbeke,

2005; Agresti, 2002).

Page 21: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

19

IV- Resultados

En esta sección se presentan los resultados obtenidos al analizar los datos disponibles

sobre la desocupación en el aglomerado Gran Rosario.

En primer lugar se realiza un análisis descriptivo de las variables a considerar en este

trabajo y luego se utiliza un Modelo Logit Mixto para estudiar el efecto que tienen

determinados factores demográficos y socio-económicos sobre la desocupación en el

aglomerado Gran Rosario en el período que comprende los años 2005 y 2006.

IV-A Análisis descriptivo

Durante el período en estudio, como ya fue explicitado, los individuos fueron

encuestados en reiteradas oportunidades u ocasiones de acuerdo a un sistema rotativo que

da la posibilidad de realizar análisis en el tiempo, siguiendo a un hogar o a un respondente

desde su ingreso en el panel hasta la última vez que es encuestado.

En base a dicho seguimiento se construye la Tabla I y la Figura 1 en las cuales se

observa que el porcentaje de desocupados presenta cambios a lo largo del período que

comprende los 8 trimestres. Para el caso particular del año 2005 este porcentaje resulta

14,11% en el primer trimestre, para luego descender y mantenerse aproximadamente en el

12% en los tres trimestres restantes. En el año 2006 se visualiza que el valor del porcentaje

de desocupados para el primer trimestre supera al mismo trimestre del año anterior. No

obstante, este porcentaje va disminuyendo a través del 2006 finalizando el año con 9,43%

de desocupados, cifra menor que la última del 2005.

Page 22: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

20

Tabla I: Porcentaje de desocupados por trimestre del período 2005-2006

Año

2005 2006

1er

Trimestre

2do

Trimestre

3er

Trimestre

4to

Trimestre

1er

Trimestre

2do

Trimestre

3er

Trimestre

4to

Trimestre

% desocupados 14,11 12,11 12,52 12,35 14,88 12,68 11,05 9,43 PEA 1028 966 1118 1061 1109 1167 1186 1114

Figura I: Porcentaje de desocupados versus trimestres para cada año

En la Tabla II se presentan los porcentajes de desocupados correspondientes a los años

2005 y 2006 según los diferentes factores demográficos y socio-económicos en los trimestres

considerados.

Se puede apreciar que el porcentaje de desempleo es notablemente mayor para las

mujeres que para los hombres en todos los trimestres. El máximo porcentaje de desempleo

en el período estudiado, en el caso de los hombres, es 12,38% en el primer trimestre del

2005 y el mínimo es 7,31% en el cuarto trimestre del 2006. Para las mujeres estos

porcentajes son 21,10% en el primer trimestre del 2006 y 12,47% en el cuarto trimestre del

2006 respectivamente. Además, para los individuos de sexo masculino se ve que en ambos

años el porcentaje de desocupados desciende en el segundo trimestre, a continuación

Page 23: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

21

presenta un leve aumento en el tercer trimestre para luego disminuir en el cuarto. En cuanto

a las mujeres, si bien no se observa un patrón similar al de los hombres en los dos años, se

puede apreciar que en el 2006 el porcentaje de desempleo es elevado al principio y va

disminuyendo a través del tiempo.

Tabla II: Porcentajes de desocupados según condición sociodemográfica en el período 2005-

2006

% de desocupados

Año

2005 2006

1er

trimestre

2do

trimestre

3er

trimestre

4to

trimestre

1er

trimestre

2do

trimestre

3er

trimestre

4to

trimestre

Sexo Hombre 12,38 10,52 10,99 8,72 10,55 9,20 9,88 7,31

Mujer 16,67 14,32 14,49 16,81 21,10 17,26 12,60 12,47

Nivel

Educativo

Sin

Instrucción/Primaria

incompleta /

Educación Especial.

15,49 13,33 11,11 13,33 9,52 8,82 2,56 8,05

Primaria completa o

Secundaria

incompleta

12,79 14,25 15,88 15,76 17,67 12,81 13,72 11,03

Secundaria completa o Superior

Universitaria

incompleta

18,92 13,62 13,15 13,03 15,98 15,67 12,75 11,03

Superior

Universitaria

completa

5,73 3,59 5,43 3,92 6,21 7,18 4,48 3,11

Condición

de jefe de

hogar

Es Jefe 4,96 8,02 5,68 6,57 7,27 5,81 4,43 5,21

No es Jefe 22,24 15,67 18,64 17,53 21,33 18,83 16,61 13,09

Rama de

Actividad

Construcción 23,47 12,63 21,65 18,89 15,04 18,63 18,35 14,66

Manufactura 3,57 5,63 10,15 9,42 6,17 3,59 9,14 4,59

Serv. Comerciales 12,77 12,68 8,83 8,78 10,12 9,94 7,14 8,27

Intermediación Financiera

10,87 11,76 9,43 6,52 14,68 12,40 10,62 6,74

Adm. Pública y

Defensa, Enseñanza

y Serv. Soc. y de

Salud

3,70 5,56 4,25 2,56 4,84 5,26 2,01 3,57

Otras actividades de

servicio 15,56 11,63 13,87 21,33 25,00 13,89 13,38 13,53

Nivel de

Ingreso

Familiar

Bajo (deciles 1º, 2º

y 3º) 20,50 23,83 22,22 20,00 25,00 20,56 20,26 18,93

Medio (deciles 4º,

5º, 6º y 7º) 12,42 9,80 11,78 10,98 12,07 10,46 8,22 8,82

Alto (deciles 8º, 9º y 10º)

3,14 4,85 1,54 2,37 5,03 7,03 4,69 1,66

Page 24: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

22

Con respecto al nivel de educación, los porcentajes más bajos de desempleo se dan en

casi todos los trimestres entre las personas con educación superior universitaria completa.

En cambio, el mayor porcentaje de desocupación se presenta en la mayoría de los trimestres

para los individuos con primaria completa o secundaria incompleta. Otra característica

observada es que para el grupo de personas con secundaria completa o superior

universitaria incompleta, los porcentajes de desempleo descienden a través del tiempo tanto

dentro del año 2005 como del 2006. También se puede ver que los porcentajes de individuos

desocupados para todos los trimestres en el año 2006 de la categoría sin instrucción o

primaria incompleta o educación especial son menores que los mismos para los respectivos

trimestres en el año 2005.

Al tener en cuenta la condición de jefe de hogar, para todos los trimestres, el porcentaje

de desocupación es notablemente más bajo en los individuos que son jefes de hogar

respecto de aquéllos que no lo son. En el año 2005 se observa que el porcentaje de

desempleo para los jefes de hogar presenta fluctuaciones, ya que sube en el segundo

trimestre, luego decrece y vuelve a subir en el último trimestre del año. En cambio, en el año

2006 este porcentaje desciende con el transcurso del año.

Al considerar la rama de actividad económica los porcentajes más altos de desocupación

se dan con más frecuencia en el área de la construcción, mientras que los más bajos se

observan en la administración pública y defensa, enseñanza y servicios sociales y de salud.

También se observan porcentajes relativamente bajos para la rama de actividad

manufacturera.

En relación al nivel de ingreso familiar, los mayores porcentajes de desempleo se

observan en todos los trimestres para el grupo de individuos con nivel de ingreso familiar

bajo, siendo los mismos del orden del 20%, y dicho porcentaje va descendiendo a medida

que aumenta el ingreso.

Page 25: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

23

En la Tabla III se puede observar que la edad promedio de los individuos desocupados

es notablemente menor que la de los individuos ocupados en todos los trimestres, lo mismo

sucede con la mediana de la edad. Por otro lado la edad promedio para las personas

desocupadas es, en casi todos los trimestres, menor en el 2006 en comparación con el 2005.

Se destaca que para los desocupados tanto en el 2005 como en el 2006 existe una marcada

asimetría en la distribución de la edad reflejada en la diferencia observada entre media y

mediana.

Tabla III: Medidas descriptivas para la Edad de las personas entrevistadas según su estado

ocupacional en el período 2005-2006

Año Trimestre Media

Desvío

Estándar Mediana

Estado

Ocupacional

Ocupado

2005

1er 39,38 13,30 38,00

2do 39,73 14,47 38,00

3er 39,55 13,95 38,00

4to 40,00 13,87 35,50

2006

1er 39,08 14,00 38,00

2do 39,57 14,10 39,00

3er 39,37 14,11 38,00

4to 39,75 14,31 38,00

Desocupado

2005

1er 31,68 13,97 26,00

2do 33,77 15,55 27,00

3er 33,24 14,31 27,50

4to 33,98 14,25 28,00

2006

1er 31,81 14,39 26,00

2do 30,61 13,28 25,00

3er 30,31 13,39 25,00

4to 30,97 14,16 25,00

Medidas descriptivas generales 38,62 14,25 37,00

IV-B Modelización

Con el fin analizar los cambios que se presentan en la probabilidad de estar desempleado

teniendo en cuenta simultáneamente las distintas características demográficas y socio-

económicas de los individuos se ajusta un Modelo Logit Mixto, específicamente un Modelo

Logit con intercepto aleatorio. Mediante la incorporación del intercepto aleatorio, se pretende

tener en cuenta la posible asociación entre las respuestas de un mismo individuo

correspondientes a diferentes momentos.

Page 26: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

24

Como, de acuerdo a lo observado en la Tabla y Figura I, la probabilidad estimada de

estar desocupado presenta cambios a través del período considerado se decide incluir el

trimestre como un efecto fijo en el modelo. Del ajuste de dicho modelo se obtienen las

estimaciones que se presentan en la Tabla IV.

En la misma se observa que la mayoría de las estimaciones de los parámetros obtenidas

al ajustar el modelo son significativas a un nivel del 5%, excepto para las categorías de la

variable nivel educacional, y para la categoría de rama de actividad manufactura.

Tabla IV: Estimaciones de los parámetros del Modelo Logit Mixto

Estimación Error Estándar p-asociado

(Test de Wald)

Intercepto -4,7176 0,3733 <0,0001

Condición de jefe de hogar

No es jefe 1,0475 0,1337 <0,0001

Es jefe 0 . .

Sexo

Mujer 0,3850 0,1300 0,0031

Hombre 0 . .

Nivel educativo

Sin Instrucción / Primaria incompleta o Educación Especial -0,5014 0,3030 0,0981

Primaria completa o Secundaria incompleta 0,05812 0,2260 0,7971 Secundaria completa o Superior universitaria incompleta 0,2829 0,2160 0,1904

Superior universitaria completa 0 . .

Rama de actividad Construcción 1,5351 0,2398 <0,0001

Manufactura 0,3486 0,2383 0,1436

Serv. Comerciales 0,9321 0,2039 <0,0001

Intermediación Financiera 1,3950 0,2400 <0,0001

Otras actividades de servicio 1,1288 0,2088 <0,0001 Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 0 . .

Nivel de Ingreso Familiar Bajo (deciles 1º, 2º y 3º) 2,0075 0,2051 <0,0001

Medio (deciles 4º, 5º, 6º y 7º) 1,0815 0,1959 <0,0001

Alto (deciles 8º, 9º y 10º) 0 . .

Edad -0,01279 0,004572 0,0052

Trimestre -0,04458 0,02227 0,0454

Variancia del efecto aleatorio 1,0067 0,1488 <0,0001

Con el objeto de evaluar si la variancia del efecto aleatorio del modelo es

significativamente distinta de cero, se aplica el test de Wald explicitado en la sección C del

capítulo III. El valor de la probabilidad asociada para dicho test es <0,0001, con lo cual se

concluye que la heterogeneidad entre individuos es lo suficientemente importante como para

ser tenida en cuenta mediante la incorporación del efecto aleatorio en el modelo.

Page 27: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

25

Un comentario especial merece el hecho de que la variable nivel de ingreso familiar

presenta una gran cantidad de valores faltantes: 2837 sobre un total de 8749 observaciones.

De todas formas, debido a que se trata de una característica importante a tener en cuenta

para el estudio de la desocupación se decide considerarla en el modelo. Otra variable que

presenta valores faltantes es rama de actividad económica (406 valores faltantes). No

obstante, es prudente reconocer que al ajustar el modelo en presencia de estas variables se

va a trabajar sólo con una submuestra que corresponde a las personas que declaran ingreso

familiar y rama de actividad económica. Por lo tanto, debido a que dicha submuestra se

espera resulte representativa a su vez de una subpoblación, las inferencias en base al

modelo utilizado están dirigidas a ésta y no a la población total de individuos.

A continuación se presentan un breve análisis descriptivo considerando la submuestra de

individuos que no presentan valores faltantes con el fin de representar las características de

los mismos.

Tabla V: Porcentaje de desocupados por trimestre del período 2005-2006 para la submuestra

considerada al ajustar el modelo.

Año

2005 2006

1er

Trimestre

2do

Trimestre

3er

Trimestre

4to

Trimestre

1er

Trimestre

2do

Trimestre

3er

Trimestre

4to

Trimestre

% desocupados 10,97 11,43 10,17 9,88 12,22 8,87 9,16 8,92 PEA 720 665 757 729 679 688 688 706

Los porcentajes de desocupados por trimestre que se presentan en la tabla V disminuyen

respecto a los mismos porcentajes obtenidos en base a la totalidad de los individuos.

Page 28: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

26

Tabla VI: Porcentajes de desocupados según condición sociodemográfica en el período 2005-

2006 para la submuestra considerada al ajustar el modelo.

En la tabla VI se observa que las probabilidades de estar desocupados disminuyen en la

mayoría de los trimestres para las variables sexo, nivel educativo, condición de jefe de hogar

y nivel de ingreso familiar. En el caso de la rama de actividad económica algunas categorías

presentan aumento en el porcentaje de desocupados para algunos trimestres.

Resulta interesante señalar que se realizaron tablas de frecuencias para todas las

variables en la muestra total de individuos y en la submuestra (Ver Anexo pág. 40). Se

% de desocupados

Año

2005 2006

1er

trimestre

2do

trimestre

3er

trimestre

4to

trimestre

1er

trimestre

2do

trimestre

3er

trimestre

4to

trimestre

Sexo Hombre 10,30 9,82 8,75 8,21 9,77 6,82 7,81 6,68

Mujer 12,01 13,67 11,98 11,93 15,71 11,40 11,00 12,20

Nivel

Educativo

Sin

Instrucción/Primaria

incompleta /

Educación Especial.

11,32 9,80 6,67 8,77 6,98 6,67 3,77 6,56

Primaria completa o Secundaria

incompleta

11,11 13,10 12,22 12,66 12,32 10,25 11,91 11,41

Secundaria completa

o Superior

Universitaria

incompleta

11,81 13,10 11,03 9,56 14,12 10,00 9,85 8,80

Superior

Universitaria completa

8,16 3,16 4,65 3,54 8,89 3,00 2,13 3,09

Condición

de jefe de

hogar

Es Jefe 4,35 7,06 3,92 5,23 6,23 4,23 3,71 5,19

No es Jefe 17,90 15,63 16,58 14,48 18,13 13,81 14,79 12,84

Rama de

Actividad

Construcción 24,00 11,69 17,39 20,00 13,79 17,74 20,00 13,41

Manufactura 3,13 7,02 10,42 9,23 1,89 0,95 7,92 4,00

Serv. Comerciales 11,32 17,22 9,21 7,31 12,31 10,10 6,67 9,28

Intermediación

Financiera 14,04 15,00 9,38 7,02 17,65 13,85 11,43 10,53

Adm. Pública y

Defensa, Enseñanza

y Serv. Soc. y de

Salud

4,11 4,55 5,10 3,50 5,26 2,78 3,15 3,54

Otras actividades de servicio

18,63 12,75 15,79 19,09 24,77 14,42 13,64 16,30

Nivel de

Ingreso

Familiar

Bajo (deciles 1º, 2º

y 3º) 16,08 20,89 18,90 17,62 20,87 14,29 17,05 15,22

Medio (deciles 4º,

5º, 6º y 7º) 10,93 7,47 8,89 8,10 9,09 7,96 6,67 8,70

Alto (deciles 8º, 9º y

10º) 2,60 5,03 0,53 1,83 3,33 4,49 3,76 1,13

Page 29: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

27

observa en base a las mismas que la muestra total y la submuestra son similares en cuanto

a la distribución de las variables consideradas en el modelo.

Otro de los aspectos importantes a tener en cuenta en la búsqueda del modelo más

apropiado es la evaluación de la forma funcional bajo la que se incluyen las variables

continuas en el modelo. Para esto se recurre a estrategias propuestas por Hosmer y

Lemeshow (2000).

Una forma simple consiste en categorizar la variable continua de manera que los

cuartiles de la misma determinen los niveles. Se calculan las razones de odds estimadas

según el modelo tomando el primer cuartil como categoría de referencia. Estas razones de

odds representan la chance de estar desocupado para un individuo que pertenece a un

cuartil determinado versus la chance de estar desocupado en el caso de que el mismo

individuo pertenezca al primer cuartil. Luego se grafican los puntos medios de los cuartiles

versus las razones de odds estimadas del modelo con la variable continua como categórica.

De esta forma se puede observar y explorar gráficamente la escala de la covariable. Una

recta indicaría que la variable continua es lineal en el logit, mientras que si el polígono se

aparta de una recta su forma puede sugerir la posible transformación que se debe aplicar a

la variable continua. Tiene como ventaja la simplicidad de su aplicación, no obstante, no es

una técnica lo suficientemente poderosa para captar desviaciones sutiles respecto a una

tendencia lineal.

Otra técnica es la denominada Polinomios Fraccionarios; básicamente consiste en buscar

la transformación que proporcione la mejor forma funcional para la variable continua entre

un conjunto de posibles transformaciones de la variable a través de un procedimiento

iterativo. (Ver Anexo pág. 45).

Page 30: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

28

Las variables de naturaleza continua en el modelo son edad y trimestre. Para evaluar la

forma funcional de dichas variables se aplican las técnicas explicitadas anteriormente

obteniéndose los siguientes resultados.

Figura IV: Razones de odds entre estado ocupacional y edad categorizadas (gráfico A) y

estado ocupacional y trimestre categorizada (gráfico B)

En el gráfico A de la Figura IV se observa que la escala de la variable edad no resulta

lineal. Por otro lado, la escala de la variable tiempo parece ser aproximadamente lineal hasta

el tercer cuartil, para luego mantenerse constante ya que la razones de odds estimadas

entre el tercer cuartil y el cuarto son prácticamente iguales como puede observarse en el

gráfico B de la Figura IV.

Al aplicar la técnica de polinomios fraccionarios a la variable edad, la transformación

hallada conduce a incluir en el modelo dos términos: un coeficiente que acompaña a la

variable en forma lineal y otro coeficiente que acompaña a la misma en forma logarítmica.

Respecto a la variable trimestre, la misma ingresa de manera lineal confirmando la

evaluación gráfica realizada.

En la Figura V se muestran las razones de odds estimadas para estado ocupacional y

edad (gráfico A) y estado ocupacional y trimestre (gráfico B), en base a las transformaciones

recién elegidas. Se observa que para el caso de la variable edad, ésta tiene una forma

gráfico A gráfico B

Page 31: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

29

bastante similar a la que se visualiza en el gráfico A de la Figura IV, lo que sugiere que los

resultados obtenidos según esta técnica concuerdan con los resultados gráficos hallados

previamente. En cuanto a la variable trimestre la forma funcional elegida da lugar a una

línea recta de pendiente negativa (Figura V – gráfico B).

Figura V: Razones de odds entre estado ocupacional y edad (grafico A) y estado ocupacional

y trimestre (gráfico B)

Por consiguiente se reestima el modelo incluyendo edad y trimestre con la forma

funcional elegida en base a la técnica de polinomios fraccionarios. La estimación de dicho

modelo se presenta en la Tabla VII.

gráfico A gráfico B

Page 32: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

30

Tabla VII: Estimaciones de los parámetros del Modelo Logit Mixto

Estimación Error Estándar p-asociado

Intercepto 5,5152 1,9215 0,0041

Condición de jefe de hogar

No es jefe 0,9423 0,1367 <0,0001

Es jefe 0 . .

Sexo

Mujer 0,4297 0,1304 0,0010 Hombre 0 . .

Nivel educativo

Sin Instrucción / Primaria incompleta o Educación Especial -0,6722 0,3046 0,0274 Primaria completa o Secundaria incompleta -0,08588 0,2274 0,7057

Secundaria completa o Superior universitaria incompleta 0,1946 0,2166 0,3689

Superior universitaria completa 0 . .

Rama de actividad

Construcción 1,4711 0,2409 <0,0001

Manufactura 0,2863 0,2391 0,2313

Serv. Comerciales 0,8466 0,2047 <0,0001 Intermediación Financiera 1,3169 0,2411 <0,0001

Otras actividades de servicio 1,0624 0,2093 <0,0001

Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 0 . .

Nivel de Ingreso Familiar

Bajo (deciles 1º, 2º y 3º) 2,0239 0,2055 <0,0001

Medio (deciles 4º, 5º, 6º y 7º) 1,0999 0,1963 <0,0001

Alto (deciles 8º, 9º y 10º) 0 . .

Edad 0,09593 0,02027 <0,0001

Log(Edad) -3,9685 0,7302 <0,0001

Trimestre -0,04984 0,02248 0,0267

Variancia del efecto aleatorio 1,0063 0,1488 <0,0001

Este modelo no presenta diferencias con respecto al anterior en cuanto a la significación

de las variables excepto en el caso del nivel educativo sin instrucción/primaria incompleta o

educación especial el cual resulta significativo para el nuevo modelo a un nivel del 5%.

Además, la estimación de la variancia del efecto aleatorio es significativamente distinta de

cero (p<0,0001), por lo tanto la incorporación del efecto aleatorio es adecuada teniendo en

cuenta la heterogeneidad entre los individuos.

Para llevar a cabo la interpretación de los coeficientes de las covariables en el Modelo

Logit Mixto ajustado se interpretan las estimaciones de las razones de odds condicionales.

Las mismas representan la chance de estar desocupado para un individuo según sea el valor

asumido por cada covariable en particular manteniendo constante el valor de las restantes.

En la Tabla VIII se presentan las estimaciones puntuales de razones de odds y los

respectivos intervalos de confianza según el modelo considerado.

Page 33: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

31

Tabla VIII: Razones de odds entre estado ocupacional y cada factor socio-demográfico

Estimación

RO

IC 95%

LI LS

Condición de jefe de hogar

No es jefe vs. es jefe 2,566 1,963 3,355

Sexo

Mujer vs. Hombre 1,537 1,190 1,984

Nivel educativo

Sin Instrucción / Primaria incompleta o Educación Especial vs. Superior Universitaria completa 0,511 0,281 0,928

Primaria completa o Secundaria incompleta vs. Superior Universitaria completa 0,918 0,588 1,433

Secundaria completa o Superior universitaria incompleta vs. Superior Universitaria completa 1,215 0,794 1,858

Rama de actividad

Construcción vs. Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 4,354 2,715 6,983 Manufactura vs. Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 1,332 0,833 2,128

Serv. Comerciales vs. Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 2,332 1,561 3,483

Intermediación Financiera vs. Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 3,732 2,326 5,987

Otras actividades de servicio vs. Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 2,893 1,919 4,361

Nivel de Ingreso Familiar

Bajo (deciles 1º, 2º y 3º) vs. Alto (deciles 8º, 9º y 10º) 7,568 5,057 11,325

Medio (deciles 4º, 5º, 6º y 7º) vs. Alto (deciles 8º, 9º y 10º) 3,004 2,044 4,415

Trimestre 0,951 0,910 0,994

Se puede ver en la Tabla VIII que la chance de que un individuo que no sea jefe de

hogar esté desocupado es aproximadamente entre 2 y 3 veces mayor que si el mismo

individuo fuese jefe de hogar.

Con respecto al nivel de instrucción se puede decir que para un individuo sin instrucción

o con primaria incompleta o educación especial la chance de estar desocupado es entre un

10% y un 70% menor que si el mismo individuo tuviese nivel educacional superior

universitario completo.

Si se considera a un individuo con primaria completa o secundaria incompleta, la chance

de estar desocupado resulta similar a la que presentaría si éste tuviese nivel educacional

superior universitario completo. Lo mismo sucede con la chance de estar desocupado para

un individuo con nivel secundario completo o superior universitario incompleto versus

superior universitario completo.

En cuanto al nivel de ingreso familiar, se puede decir que la chance de estar desocupado

para una persona con nivel de ingreso familiar bajo es entre 5 y 11 veces mayor,

aproximadamente, que si esta persona tuviese un nivel de ingreso familiar alto. A su vez, la

chance de desocupación para un individuo con un nivel de ingreso familiar medio es entre 2

y 4 veces y media mayor que si tuviese un nivel de ingreso familiar alto.

Page 34: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

32

Respecto de la rama de actividad se puede destacar que la chance de desocupación para

un individuo que se dedica a la construcción es entre 3 y 7 veces mayor que la chance que

tendría si se dedicara a la administración pública y defensa, enseñanza y servicios sociales y

de salud.

En relación al trimestre, la chance de estar desocupado para un individuo en particular es

como máximo un 9% menor en un trimestre dado respecto de la chance de estar

desocupado si hubiese sido entrevistado en el trimestre inmediatamente anterior, lo que da

una idea acerca de la importancia de la disminución de la desocupación a través del tiempo

en el período bajo estudio.

Resulta interesante describir el efecto de la edad sobre la probabilidad de desocupación.

Para esto se elige a manera de ejemplo el perfil poblacional de los individuos de sexo

masculino, jefes de hogar, con nivel educativo secundario completo o universitario

incompleto cuya rama de actividad económica son los servicios comerciales y que poseen un

nivel de ingreso familiar medio, entrevistados en el cuarto trimestre del año 2006. En la

Figura VIII se presenta la probabilidad estimada de estar desocupado versus la edad para

individuos con el perfil anteriormente definido.

Figura VIII: Probabilidades estimadas desocupación según la edad para varones, jefes de

hogar, con secundario completo o universitario incompleto con rama de actividad económica

en los servicios comerciales, con nivel de ingreso familiar medio y entrevistados en el 4to

trimestre del año 2006

Page 35: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

33

Se observa que la probabilidad estimada de estar desocupado alrededor de los 20 años

es aproximadamente de 0,06, luego desciende levemente para mantenerse en ese nivel

hasta poco antes de los 50 años, edad a partir de la cual comienza a ascender.

Por otro lado también resulta interesante comparar perfiles de individuos y de esta

manera poder observar cómo varían las probabilidades estimadas de estar desocupado para

individuos que difieren en alguna característica. Por ejemplo, puede interesar la diferencia en

las curvas de probabilidades estimadas en función de la edad para hombres jefes de hogar,

con secundario completo o universitario incompleto, con nivel de ingreso familiar medio,

entrevistados en el 4to trimestre del año 2006 que difieran en la rama de actividad

económica. Estos perfiles se encuentran representados en el siguiente gráfico:

Page 36: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

34

Figura IX: Probabilidades estimadas de estar desocupado a través de la edad para dos

perfiles que difieren rama de actividad económica.

__ Hombre, jefe de hogar, con secundario completo o universitario incompleto cuya rama de

actividad son los servicios comerciales, ingreso familiar medio entrevistados en el cuarto trimestre del año 2006.

- - - Hombre, jefe de hogar, con secundario completo o universitario incompleto cuya rama de

actividad es la administración pública y defensa, enseñanza y servicios sociales y de salud, ingreso familiar medio entrevistados en el cuarto trimestre del año 2006.

Como se visualiza en la Figura IX, las probabilidades estimadas de desocupación son

menores para los hombres jefe de hogar con secundario completo o universitario incompleto

que pertenecen a la rama de actividad administración pública y defensa, enseñanza y

servicios sociales y de salud, ingreso familiar medio entrevistados en el cuarto trimestre del

2006, comparadas con las respectivas probabilidades para aquellos con las mismas

características pero que pertenecen a la rama de actividad servicios comerciales.

Page 37: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

35

IV-B-1 Consideraciones acerca del supuesto distribucional de los efectos aleatorios

El ajuste del Modelo Logit con intercepto aleatorio, como ya fuera explicitado, supone

que los efectos aleatorios bi tienen distribución normal con media 0 y variancia 2

b . Con el fin

de explorar el cumplimiento de dicho supuesto se calculan algunas medidas descriptivas y se

construyen gráficos para las estimaciones de los efectos aleatorios asociados a cada

individuo.

Las diferencias entre las medidas de tendencia central calculadas, media y mediana,

sugieren falta de simetría en la distribución de las estimaciones de los efectos aleatorios

(Tabla IX). La misma se corrobora al realizar el histograma y el gráfico de normalidad que se

presentan en las Figuras IX y X respectivamente. Si bien Alonso et al. (2008) afirman que las

estimaciones de los efectos aleatorios pueden no seguir una distribución normal incluso

cuando la distribución correcta de los efectos aleatorios sea efectivamente normal, preocupa

la notable falta de normalidad observada.

Tabla IX: Medidas descriptivas para las estimaciones bayesianas de los efectos aleatorios

Media Desvío

Estándar Mínimo Máximo Rango Quartil 1 Mediana Quartil 3

-1,55376E-16 0,32 -0,87 1,93 2,8 -0,15 -0,06 -0,02

Page 38: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

36

Figura IX: Histograma para las estimaciones de los efectos aleatorios

Figura X: Gráfico de normalidad para las estimaciones de los efectos aleatorios

Es por ello que se realizó una exploración de los dos grupos de individuos bien

diferenciados que se observan en el histograma (Figura IX) respecto a las variables

consideradas en el estudio. Sólo se encontraron diferencias en relación a la propia variable

respuesta “estado ocupacional” difiriendo notablemente el porcentaje de desocupados por

grupo de individuos, tal como se observa en la Tabla X que se presenta a continuación.

Page 39: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

37

Tabla X: Estado Ocupacional según si el efecto aleatorio es menor o mayor que 0

También es sabido que, si bien los estimadores máximos verosímiles del modelo pueden

ser sesgados debido a la postulación de una distribución de los efectos aleatorios incorrecta,

la magnitud del sesgo es generalmente pequeña (Alonso et al., 2008). En base a esta última

aseveración se decide entonces confiar en los resultados hallados en base al ajuste del

modelo.

En este sentido, Alonso et al. han demostrado mediante estudios por simulación, en los

cuales se consideraron diferentes distribuciones para el intercepto aleatorio, que las

estimaciones de los parámetros de interés y los procedimientos inferenciales fueron similares

independientemente de la distribución utilizada. Estas afirmaciones también tranquilizan

acerca del ajuste logrado.

Cabe destacar que una estrategia recomendada cuando hay dudas acerca de la

verdadera distribución de los efectos aleatorios, es utilizar también un enfoque no

paramétrico o uno semi-paramétrico para estimar los efectos aleatorios ya que el mismo

constituye una herramienta muy flexible para capturar la estructura de asociación intra-

sujeto. Si los resultados a partir de ambos enfoques difieren sustancialmente se puede

cuestionar efectivamente el supuesto de normalidad y sería recomendable utilizar los

resultados obtenidos bajo el enfoque semi-paramétrico (Agresti et al., 2004; Litiere et al.,

2008). Esta alternativa, si bien excede los límites fijados para esta tesina, podría enriquecer

la evaluación del supuesto distribucional de los efectos aleatorios.

bi menor que 0 bi mayor que 0

Estado % ocupado 34,59 99,17

% desocupado 65,41 0,83

Page 40: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

38

V-Consideraciones finales

La aplicación del Modelo Logit Mixto es muy útil en el caso de contar con datos binarios

longitudinales ya que permite tener en cuenta la correlación entre las mediciones realizadas

a un mismo individuo. En el caso de los datos sobre desocupación analizados en este

trabajo, este modelo resulta apropiado para estudiar el efecto de determinadas covariables

demográficas y socio-económicas sobre la probabilidad de que un individuo esté desocupado

como así también para controlar la heterogeneidad intra-individuo respecto al estado

ocupacional a través del tiempo.

En particular, los resultados obtenidos para el aglomerado Gran Rosario correspondiente

al período 2005-2006 indican que la chance de estar desocupado es menor para un individuo

jefe de hogar respecto si este no fuese jefe de hogar. Otro hallazgo llamativo es que para

un individuo sin instrucción o con primaria incompleta o educación especial, la chance de

estar desocupado es mucho menor que si tuviese nivel educacional superior universitario

completo. En el caso de un individuo con primaria completa o secundaria incompleta, la

chance de estar desocupado resulta similar a la que presentaría si tuviese nivel educacional

superior universitario completo. Lo mismo sucede con un individuo con secundaria completa

o superior universitaria incompleta. Con respecto al nivel de ingreso familiar, según la

modelización, se puede decir que la chance de desocupación aumenta cuanto menor es el

nivel de ingreso familiar. Respecto de la rama de actividad se puede destacar que la chance

de desempleo para un individuo que se dedica a la construcción es mayor comparada con la

que tendría si se dedicara a la Administración Pública y Defensa, Enseñanza y Servicios

Sociales y de Salud. Por último, se pudo confirmar una disminución de la chance de

desocupación a través del tiempo.

En conclusión, se puede decir que el modelo aplicado resulta útil para estudiar la

desocupación utilizando datos de tipo longitudinal provenientes de la EPH. Sería

enriquecedor contar con la opinión de expertos en el tema, que puedan aportar su punto de

Page 41: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

39

vista respecto de las categorizaciones elegidas para las variables y las asociaciones

encontradas.

Por último, cabe destacar que resultaría conveniente estudiar y explorar

metodológicamente de manera más amplia el supuesto de normalidad de efectos aleatorios.

En este sentido se han presentado recientemente algunos test que permiten evaluar la

validez de este supuesto (Alonso et al., 2008), por lo que queda evidenciado que se trata de

un área de investigación actual.

Page 42: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

40

VI-Anexo

VI-A Análisis descriptivo de la muestra total de individuos y la submuestra

correspondiente a los individuos utilizados para ajustar el modelo.

Tabla XI: Tabla de frecuencias de la variable sexo.

Tabla XII: Tabla de frecuencias de la variable nivel educativo. Nivel Educativo Frecuencia Porcentaje

Submuestra de individuos que no

presentan valores faltantes

Sin instrucción/ Primaria incompleta/ Educación especial 408 7,24

Primaria completa o Secundaria incompleta 2366 42,01

Secundaria completa o Superior universitaria incompleta 2042 36,26

Superior universitaria completa 816 14,49

Total 5632 100

Muestra total de individuos

Sin instrucción/ Primaria incompleta/ Educación especial 589 6,73

Primaria completa o Secundaria incompleta 3390 38,75

Secundaria completa o Superior universitaria incompleta 3257 37,23

Superior universitaria completa 1513 17,29

Total 8749 100

Tabla XIII: Tabla de frecuencias de la variable condición de jefe de hogar. Condición de Jefe de

Hogar

Frecuencia Porcentaje

Submuestra de individuos que no presentan valores faltantes

Es jefe 2848 50,57

No es jefe 2784 49,43

Total 5632 100

Muestra total de individuos

Es jefe 4083 46,67

No es jefe 4666 53,33

Total 8749 100

Tabla XIV: Tabla de frecuencias de la variable rama de actividad económica. Rama de Actividad Frecuencia Porcentaje

Submuestra de individuos que no

presentan valores faltantes

Construcción 592 10,51

Manufactura 956 16,92

Serv. Comerciales 1689 29,99

Intermediación financiera 498 8,84

Adm. Pública y defensa, enseñanza y serv. Soc. y de salud 824 14,63

Otras actividades de servicio 1076 19,11

Total 5632 100

Muestra total de individuos

Construcción 820 9,83

Manufactura 1438 17,24

Serv. Comerciales 2588 31,02

Intermediación financiera 807 9,67

Adm. Pública y defensa, enseñanza y serv. Soc. y de salud 1133 13,58

Otras actividades de servicio 1557 18,66

Total 8343 100

Sexo Frecuencia Porcentaje

Submuestra de individuos que no presentan valores faltantes

Hombre 3245 57,62

Mujer 2387 42,38

Total 5632 100

Muestra total de individuos

Hombre 5040 57,61

Mujer 3709 42,39

Total 8749 100

Page 43: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

41

Tabla XV: Tabla de frecuencias de la variable nivel de ingreso familiar. Nivel de Ingreso Familiar Frecuencia Porcentaje

Submuestra de individuos que no presentan valores

faltantes

Bajo (deciles 1º, 2º y 3º) 1878 33,29

Medio (deciles 4º, 5º, 6º y 7º) 2401 42,63

Alto (deciles 8º, 9º y 10º) 1356 24,08

Total 5632 100

Muestra total de individuos

Bajo (deciles 1º, 2º y 3º) 2008 33,96

Medio (deciles 4º, 5º, 6º y 7º) 2499 42,27

Alto (deciles 8º, 9º y 10º) 1405 23,77

Total 5912 100

Tabla XVI: Tabla de frecuencias de la variable trimestre.

Tabla XVII: Tabla de frecuencias de la variable sexo para los distintos trimestres del período 2005-2006

Año Trimestre Frecuencia Porcentaje

Submuestra de individuos que no presentan valores faltantes

2005

1er 720 12,78

2do 665 11,81

3er 757 13,44

4to 729 12,94

2006

1er 679 12,06

2do 688 12,22

3er 688 12,22

4to 706 12,54

Total 5632 100,00

Muestra total de individuos

2005

1er 1028 11,75

2do 966 11,04

3er 1118 12,78

4to 1061 12,13

2006

1er 1109 12,68

2do 1167 13,34

3er 1186 13,56

4to 1114 12,73

Total 8749 100,00

Sexo

Año

2005 2006

1er

trimestre

2do

trimestre

3er

trimestre

4to

trimestre

1er

trimestre

2do

trimestre

3er

trimestre

4to

trimestre

Submuestra

de

individuos que no

presentan

valores

faltantes

Hombre 437

(60,69 %)

387

(58,20 %)

423

(55,88 %)

402

(55,14 %)

399

(58,76 %)

381

(55,38 %)

397

(57,70 %)

419

(59,35 %)

Mujer 283

(39,31 %)

278

(41,80 %)

334

(44,12 %)

327

(44,83 %)

280

(41,24 %)

307

(44,62 %)

291

(42,30 %)

287

(40,65 %)

Total 720

(100%)

665

(100 %)

757

(100 %)

729

(100 %)

679

(100 %)

688

(100 %)

688

(100 %)

706

(100 %)

Muestra

total de

individuos

Hombre 614

(59,73 %)

561

(58,07 %)

628

(56,17 %)

585

(55,14 %)

654

(58,97 %)

663

(56,81 %)

678

(57,17 %)

657

(58,98 %)

Mujer 414

(40,27 %)

405

(41,93 %)

490

(43,83 %)

476

(44,86 %)

455

(41,03 %)

504

(43,19 %)

508

(42,83 %)

457

(41,02 %)

Total 1028

(100 %) 966

(100 %) 1118

(100 %) 1061

(100 %) 1109

(100 %) 1167

(100 %) 1186

(100 %) 1114

(100 %)

Page 44: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

42

Tabla XVIII: Tabla de frecuencias de la variable nivel educativo para los distintos trimestres del período 2005-2006

Nivel

Educativo

Año

2005 2006

1er trimestre

2do trimestre

3er trimestre

4to trimestre

1er trimestre

2do trimestre

3er trimestre

4to trimestre

Submuestra

de

individuos

que no

presentan valores

faltantes

Sin instrucción/

Primaria

incompleta/

Educación

especial

53

(7,36%)

51

(7,67%)

45

(5,94%)

57

(7,82%)

43

(6,33%)

45

(6,54%)

53

(7,70%)

61

(8,64%)

Primaria completa o

Secundaria

incompleta

315

(43,75%)

290

(43,61%)

311

(41,08%)

308

(42,25%)

284

(41,83%)

283

(41,13%)

277

(40,26%)

298

(42,21%)

Secundaria

completa o

Superior

universitaria incompleta

254

(35,28%)

229

(34,44%)

272

(35,93%)

251

(34,43%)

262

(38,59%)

260

(37,79%)

264

(38,37%)

250

(35,41%)

Superior

universitaria

completa

98

(13,61%)

95

(14,29%)

129

(17,04%)

113

(15,50%)

90

(13,25%)

100

(14,53%)

94

(13,66%)

97

(13,74%)

Total 720

(100%)

665

(100%)

757

(100%)

729

(100%)

679

(100%)

688

(100%)

688

(100%)

706

(100%)

Muestra

total de

individuos

Sin

instrucción/ Primaria

incompleta/

Educación

especial

71

(6,91%)

75

(7,76%)

72

(6,44%)

75

(7,07%)

63

(5,68%)

68

(5,83%)

78

(6,58%)

87

(7,81%)

Primaria

completa o

Secundaria incompleta

430

(41,83%)

379

(39,23%)

422

(37,75%)

406

(38,27%)

447

(40,31%)

437

(37,45%)

452

(38,11%)

417

(37,43%)

Secundaria

completa o

Superior

universitaria

incompleta

370 (35,99%)

345 (35,71%)

403 (36,05%)

376 (35,44%)

438 (39,50%)

453 (38,82%)

455 (38,36%)

417 (37,43%)

Superior

universitaria completa

157

(15,27%)

167

(17,29%)

221

(19,77%)

204

(19,23%)

161

(14,52%)

209

(17,91%)

201

(16,95%)

193

(17,32%)

Total 1028

(100%)

966

(100%)

1118

(100%)

1061

(100%)

1109

(100%)

1167

(100%)

1186

(100%)

1114

(100%)

Tabla XIX: Tabla de frecuencias de la variable condición de jefe de hogar para los distintos trimestres del período 2005-2006

Condición

de Jefe

de Hogar

Año

2005 2006

1er

trimestre

2do

trimestre

3er

trimestre

4to

trimestre

1er

trimestre

2do

trimestre

3er

trimestre

4to

trimestre

Submuestra

de individuos

que no

presentan

valores

faltantes

Es jefe 368

(51,11%)

326

(49,02%)

383

(50,59%)

363

(49,49%)

337

(49,63%)

355

(51,60%)

350

(50,87%)

366

(51,84%)

No es jefe 352

(48,89%) 339

(50,98%) 374

(49,41%) 366

(50,21%) 342

(50,37%) 333

(48,40%) 338

(49,13%) 340

(48,16%)

Total 720

(100%)

665

(100%)

757

(100%)

729

(100%)

679

(100%)

688

(100%)

688

(100%)

706

(100%)

Muestra

total de

individuos

Es jefe 484

(47,08%)

449

(46,48%)

528

(47,23%)

502

(47,31%)

509

(45,90%)

551

(47,22%)

542

(45,70%)

518

(46,50%)

No es jefe 544

(52,92%) 517

(53,52%) 590

(52,77%) 559

(52,69%) 600

(54,10 %) 616

(52,78%) 644

(54,30%) 596

(53,50%)

Total 1028

(100%)

966

(100%)

1118

(100%)

1061

(100%)

1109

(100%)

1167

(100%)

1186

(100%)

1114

(100%)

Page 45: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

43

Tabla XVIII: Tabla de frecuencias de la variable rama de actividad para los distintos trimestres del período 2005-2006

Rama de

Actividad

Año

2005 2006

1er trimestre

2do trimestre

3er trimestre

4to trimestre

1er trimestre

2do trimestre

3er trimestre

4to trimestre

Submuestra de

individuos

que no

presentan

valores

faltantes

Construcción 75

(10,42%) 77

(11,58%) 69

(9,11%) 70

(9,60%) 87

(12,81%) 62

(9,01%) 70

(10,17%) 82

(11,61%)

Manufactura 128

(17,78%)

114

(17,14%)

144

(19,02%)

130

(17,83%)

106

(15,61%)

105

(15,26%)

101

(14,68%)

125

(17,71%)

Serv.

Comerciales

212

(29,44%)

180

(27,07%)

228

(30,12%)

219

(30,04%)

195

(28,72%)

208

(30,23%)

210

(30,52%)

237

(33,57%)

Intermediación

financiera

57

(7,92%)

60

(9,02%)

64

(8,45%)

57

(7,82%)

68

(10,01%)

65

(9,45%)

70

(10,17%)

57

(8,07%)

Adm. Pública y

defensa, enseñanza y

serv. Soc. y de

salud

102

(14,17%)

102

(15,34%)

95

(12,55%)

110

(15,09%)

109

(16,05%)

104

(15,12%)

110

(15,99%)

92

(13,03%)

Otras

actividades de

servicio

146

(20,28%)

132

(19,85%)

157

(20,74%)

143

(19,62%)

114

(16,79%)

144

(20,93%)

127

(18,46%)

113

(16,01%)

Total 720

(100%)

665

(100%)

757

(100%)

729

(100%)

679

(100%)

688

(100%)

688

(100%)

706

(100%)

Muestra

total de

individuos

Construcción 98

(10,17%) 95

(10,27%) 97

(9,10%) 90

(8,88%) 113

(10,82%) 102

(9,16%) 109

(9,57%) 116

(10,77%)

Manufactura 168

(17,43%)

160

(17,30%)

197

(18,48%)

191

(18,84%)

162

(15,52%)

167

(14,99%)

197

(17,30%)

196

(18,20%)

Serv.

Comerciales

282

(29,25%)

276

(29,84%)

317

(29,74%)

296

(29,19%)

326

(31,23%)

352

(31,60%)

364

(31,96%)

375

(34,82%)

Intermediación

financiera

92

(9,54%)

85

(9,19%)

106

(9,94%)

92

(9,07%)

109

(10,44%)

121

(10,86%)

113

(9,92%)

89

(8,26%)

Adm. Pública y

defensa, enseñanza y

serv. Soc. y de

salud

135

(14,00%)

129

(13,95%)

137

(12,85%)

150

(14,79%)

148

(14,18%)

144

(12,93%)

157

(13,78%)

133

(12,35%)

Otras

actividades de

servicio

189

(19,61%)

180

(19,46%)

212

(19,89%)

195

(19,23%)

186

(17,82%)

228

(20,47%)

199

(17,47%)

168

(15,60%)

Total 964

(100%)

925

(100%)

1066

(100%)

1014

(100%)

1044

(100%)

1114

(100%)

1139

(100%)

1077

(100%)

Page 46: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

44

Tabla XX: Tabla de frecuencias de la variable nivel de ingreso familiar para los distintos trimestres del período 2005-2006

Nivel de

ingreso

familiar

Año

2005 2006

1er trimestre

2do trimestre

3er trimestre

4to trimestre

1er trimestre

2do trimestre

3er trimestre

4to trimestre

Submuestra de

individuos

que no

presentan

valores

faltantes

Bajo (deciles 1º, 2º y 3º)

255 (35,42%)

225 (33,83%)

254 (33,55%)

244 (33,47%)

254 (37,41%)

196 (28,49%)

217 (31,54%)

230 (35,58%)

Medio

(deciles 4º,

5º, 6º y 7º)

311

(43,19%)

281

(42,26%)

315

(41,61%)

321

(44,03%)

275

(40,50%)

314

(45,64%)

285

(41,42%)

299

(2,35%)

Alto (deciles

8º, 9º y 10º)

154

(21,39%)

159

(23,91%)

188

(24,83%)

164

(22,50%)

150

(22,09%)

178

(25,87%)

186

(27,03%)

177

(25,07%)

Total 720

(100%)

665

(100%)

757

(100%)

729

(100%)

679

(100%)

688

(100%)

688

(100%)

706

(100%)

Muestra

total de

individuos

Bajo (deciles 1º, 2º y 3º)

278 (36,63%)

235 (33,76%)

270 (33,92%)

260 (33,94%)

276 (38,07%)

214 (29,56%)

232 (32,40%)

243 (33,29%)

Medio

(deciles 4º,

5º, 6º y 7º)

322

(42,42%)

296

(42,53%)

331

(41,58%)

337

(43,99%)

290

(40,00%)

325

(44,89%)

292

(40,78%)

306

(41,92%)

Alto (deciles

8º, 9º y 10º)

159

(20,95%)

165

(23,71%)

195

(24,50%)

169

(22,06%)

159

(21,93%)

185

(25,55%)

192

(26,82%)

181

(41,92%)

Total 759

(100%)

696

(100%)

769

(100%)

766

(100%)

725

(100%)

724

(100%)

716

(100%)

730

(100%)

Tabla XXI: Medidas descriptivas para la edad considerando los distintos trimestres del período 2005-2006

Año Trimestre Media Desvío

Estándar Mediana

Submuestra de individuos que no presentan

valores faltantes

2005

1er 38,48 13,33 37,00

2do 38,29 14,22 37,00

3er 38,60 14,06 37,00

4to 39,42 14,15 38,00

2006

1er 37,66 14,03 36,00

2do 38,08 13,77 37,00

3er 38,46 13,93 37,00

4to 38,55 14,01 37,00

Medidas descriptivas generales 38,45 13,94 37,00

Muestra total de individuos

2005

1er 38,29 13,65 37,00

2do 39,01 14,72 37,00

3er 38,76 14,15 37,00

4to 39,25 14,05 38,00

2006

1er 37,99 14,29 36,00

2do 38,43 14,30 37,00

3er 38,37 14,31 36,00

4to 38,92 14,52 37,00

Medidas descriptivas generales 38,62 14,25 37,00

Page 47: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

45

VI-B Métodos para la determinación de la escala para las variables continuas

Con el fin de determinar la escala con la cual las variables continuas ingresan al modelo

se recurre a dos métodos, Variables de Diseño y Polinomios Fraccionarios (Hosmer y

Lemeshow, 2000).

- Variables de Diseño.

Consiste en obtener los cuartiles correspondientes de la distribución de la variable

continua. Luego se crea una variable categórica con cuatro niveles en base a los cuartiles

calculados anteriormente. Pueden utilizarse otras estrategias de categorización pero ésta

generalmente funciona de manera adecuada en la práctica.

Se ajusta un modelo reemplazando la variable continua por la variable categorizada de

forma tal que se utilizan tres variables de diseño con el cuartil menor como grupo de

referencia. Se grafican los coeficientes estimados versus los puntos medios de cada grupo.

Para esto en el punto medio del primer cuartil se grafica el coeficiente igual a 0. Se conectan

mediante líneas los 4 puntos graficados. Se inspecciona visualmente el gráfico obtenido y en

base a éste se trata de buscar la forma paramétrica más adecuada para la escala de la

variable continua.

- Polinomios Fraccionarios.

Es una técnica desarrollada por Royston y Altman (1994) para sugerir transformaciones.

Se desea estimar qué valor de xp provee el mejor ajuste para la covariable. Este método

consiste en reemplazar la estimación máximo verosímil de la potencia buscándola a través de

un pequeño pero razonable conjunto de posibles valores para la misma.

La técnica de Polinomios Fraccionarios puede ser usada con un Modelo Logit Mixto

multivariado, pero por simplicidad se describirá el procedimiento con una sola covariable

continua y sin efecto aleatorio.

Page 48: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

46

El Modelo Logit lineal en la covariable es:

3

0 1g(x, ) x ,

donde β es el vector de coeficientes del modelo y x el vector de covariables. Una forma de

generalizar el modelo anterior es especificarlo de la siguiente manera:

0 1

1

J

ij

g(x, ) F(x)

donde Fj(x) es un tipo particular de función de potencia, y el valor de la primer función es

F1(x)= 1px .

Royston y Altman (1994) proponen restringir p1 entre los valores del siguiente conjunto:

2 1 0 5 0 0 5 1 2 3, , . , , . , , ,

Donde p1=0 corresponde al logaritmo de la variable. El resto de las funciones se definen de

la siguiente forma:

1

1

p

j j

j

j j j

x , p pF (x)

F (x) ln(x), p p

para j=2,...,J y valores de potencias restringidos a los del conjunto P.

Al implementar el método, para J=1 se ajustan 8 modelos, es decir p1 P. El mejor de

ellos es el que posee el mayor valor de log verosimilitud. El proceso se repite con J=2

ajustando 36 modelos obtenidos con los pares de potencias, es decir (p1, p2) PxP y el

mejor de los modelos es nuevamente el que tiene la mayor log verosimilitud.

Por ejemplo, para J=1 y p1=3 el modelo correspondiente es:

3

0 1g(x, ) x

Para J=2, p1=2 y p2=0,5 el modelo queda de la siguiente manera:

2

0 1 2g(x, ) x x

Para la elección del modelo significativamente mejor se procede de la siguiente forma:

Page 49: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

47

Sea L(1) la log verosimilitud para el modelo lineal, es decir para J=1 y p1=1; L(p1), la log

verosimilitud para el mejor modelo con J=1 y L(p1, p2), la log verosimilitud para el mejor

modelo con J=2.

Luego el test de razón de verosimilitud comparando el modelo lineal con el mejor modelo

para J=1 es G(1, p1)=-2{L(1)-L(p1)}, que se distribuye como una 2

1 bajo la hipótesis nula

de linealidad de x.

El test de razón de verosimilitud comparando el mejor modelo para J=1 con el mejor

para J=2 es G[p1,(p1, p2)]=-2{L(p1)-L(p1,p2)}, el cual se distribuye como una 2

2 bajo la

hipótesis nula de que la segunda función es igual a 0.

Similarmente, el test de razón de verosimilitud comparando el modelo lineal con el mejor

modelo J=2 es G[1,(p1,p2)]=-2{L(1)-L(p1, p2)} se distribuye aproximadamente como una 2

3

bajo la hipótesis nula.

Cabe destacar que p1 denota la mejor potencia tanto para J=1 como para la primer

potencia de J=2 pero que probablemente no tomen el mismo valor.

El procedimiento a seguir en el caso de cada covariable a las que se les estudia la escala

es el que se describe a continuación:

Se realiza el test con 3 grados de libertad para el mejor modelo para J=2 versus el lineal

utilizando G[1,(p1,p2)]; si no resulta significativo a un nivel de significación entonces la

covariable es lineal en el logit.

En cambio, si es significativo, se prueba mediante un test de 2 grados de libertad el

mejor modelo para J=2 versus el mejor modelo para J=1 usando G[p1, (p1, p2)]. Si es

significativo a un nivel de significación entonces se elige el mejor modelo para J=2, caso

contrario se elige el mejor modelo para J=1.

Finalmente se explora cada covariable y el proceso se itera usando los resultados del

primer ciclo. El propósito de la iteración es ver cuándo la transformación aplicada a una

Page 50: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

48

covariable cambia la transformación aplicada a una o más de las otras covariables. El

proceso se repite hasta que no se presenten cambios entre transformaciones.

Page 51: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

49

Bibliografía

ALONSO A, LETIERE S, MOLENBERGHS G. 2008. A family of tests to detect

misspecifications in the random-effects structure of generalized linear mixed models.

Computational Statistics and Data Analysis, 52, 4474-4486.

AGRESTI A. 2002. Categorical Data Analysis. John Wiley & Sons.

AGRESTI A, CAFFO B, OHMAN-STRICKLAND P. 2004. Examples in which

misspecification of random effects distribution reduces efficiency, and possible

remedies. Computational Statistics and Data Analysis, 47, 639-653.

FITZMAURICE G, LAIRD N, WARE J. 2004. Applied Longitudinal Analysis. John Wiley

& Sons.

HACHUEL L, BOGGIO G, BORRA V. 2006. Uso de Modelos Logit Mixtos para el estudio

del bajo peso al nacer en Rosario. Undécimas Jornadas “Investigaciones en la

Facultad” de Ciencias Económicas.

http://www.fcecon.unr.edu.ar/investigacion/jornadas/archivos/hachuelyotros.PDF

(15/04/2009)

HOSMER D, LEMESHOW S. 2000. Applied Logistic Regression. Second Edition. John

Wiley & Sons.

Instituto Nacional de Estadística y Censos. 2003. La nueva encuesta permanente de

hogares de Argentina.

http://www.indec.gov.ar/nuevaweb/cuadros/4/Gacetilla_EPHContinua.pdf

(04/04/2008)

Instituto Nacional de Estadística y Censos. 2003. Encuesta Permanente de Hogares

(EPH). Cambios Metodológicos.

http://www.indec.gov.ar/nuevaweb/cuadros/4/Gacetilla_EPHContinua.pdf

(04/04/2008)

Instituto Nacional de Estadística y Censos. 1997. ¿Cómo se mide el desempleo?

Page 52: Tesina Ivana Barbona

Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario

50

http://www.indec.gov.ar/nuevaweb/cuadros/4/metempleo1.pdf (04/04/2008)

LETIERE S, ALONSO A, MOLENBERGHS G. 2008. The impact of a misspecified

random-effects distribution on the estimation and the performance of the inferential

procedures in generalized linear mixed models. Statistics in Medicine, 27, 3125-3144.

MOLENBERGHS G, VERBEKE G. 2005. Models for Discrete Longitudinal Data.

Springer.

ROYSTON P, ALTMAN D, 1994. Regression using fractional polynomials of continuous

covariates: Parsimonious parametric modelling (with discussion). Applied Statistics,

43, 429-467.

SAS INSTITUTE INC. 2006. The GLIMMIX Procedure.

http://support.sas.com/rnd/app/papers/glimmix.pdf (25/04/2008)