2015. uba.m2. clase 13 multiv avanzado valdabenigno

26
UNIVERSIDAD DE BUENOS AIRES 1º CUATRIMESTRE 2015 FACULTAD DE CIENCIAS SOCIALES CARRERA DE SOCIOLOGIA Cátedra: Ruth Sautu METODOLOGIA Y TECNICAS DE LA INVESTIGACION SOCIAL II Clase 13: 10 de junio Modelos para el análisis estadístico avanzado: Ejemplo de regresión logística y razón de probabilidad (Odds ratio) Docente: Valeria Dabenigno

Upload: thegroundation

Post on 16-Dec-2015

221 views

Category:

Documents


1 download

DESCRIPTION

clase

TRANSCRIPT

  • UNIVERSIDAD DE BUENOS AIRES 1 CUATRIMESTRE 2015

    FACULTAD DE CIENCIAS SOCIALES

    CARRERA DE SOCIOLOGIA

    Ctedra: Ruth Sautu

    METODOLOGIA Y TECNICAS DE LA INVESTIGACION SOCIAL II

    Clase 13: 10 de junio

    Modelos para el anlisis estadstico avanzado:

    Ejemplo de regresin logstica y razn de

    probabilidad (Odds ratio)

    Docente: Valeria Dabenigno

  • Estadstica Descriptiva Multivariada.

    Tcnicas de dependencia

    Anlisis logit/ modelos probit

    (CLASE DE HOY)

  • RL: determina el poder explicativo de un conjunto de VI predictoras (de cualquier nivel de medicin) sobre una sola variable dependiente (VD) dicotmica.

    RL: obtiene una funcin lineal de ese set de VI que permita clasificar a unidad de anlisis en una de las dos subpoblaciones de la VD. Selecciona el conjunto de VI que ms informacin arroje sobre probabilidades de pertenecer a una de esas dos subpoblaciones (categoras de la VD) (Ferrn Aranaz, 2003).

    Su base: modelo de regresin lineal, pero sirve para usar con no mtricas (no intervalares).

    RL: Modelo de mxima verosimilitud entre medicin muestral y parmetro.

    LA REGRESIN LOGSTICA BINOMIALAPLICACIN EN UN ESTUDIO SOBRE PLANES LABORALES

    PROFESIONALES DE ESTUDIANTES SECUNDARIOS (AUSTRAL, 2010)

  • Predecir con variables no mtricas?

    Dijimos en Clase anterior (Nro. 11 del cronograma) que la prediccin es posible con variables intervalares o de razn (en base a la recta de regresin)

    pero la regresin logstica se hace con variables NO mtricas (nominales y ordinales)

    Entonces? Cmo es que se habla de prediccin con variables no mtricas?

  • Tratamiento especfico de las variables no mtricas para aplicar modelos de regresin

    1) Armo variables dummy -que significa: ficticias o simuladas- para cada factor explicativo ordinal o nominal y para la VD.

    Operativamente: convierto cada variable cualitativa en una dicotoma con valores 0 y 1

    2) La regresin explica la variable dependiente binaria, que mide la ocurrencia de un evento o presencia del atributo de inters y que tiene valores 0=ausencia y 1=presencia. Se llama binaria por el carcter dicotmico de las variables dummies.

  • Cmo elijo batera de VI

    No hay un solo camino pero, en general, al igual que en regresin lineal mltiple (clase prxima con Ramiro), la seleccin de las VI es por pasos (secuencial), para poder ir eliminando las VI de menor aporte explicativo.

    Mtodos FORWARD (hacia delante): incorporo predictoras secuencialmente

    Medidas principales para anlisis de resultados de una RL:

    Test Wald de hiptesis y su p-valor (cuando p es alto o mayor a punto crtico -0,1-- no se descarta H0 y en consecuencia, se anula VI; cuando es bajo, se descarta H0 y se retiene VI para pasos o modelos siguientes).

    Coeficiente (eta) Texto de Ferrn Aranaz (2003) menciona otro estadstico:

    Puntuacin eficiente de Rao con su p-valor (misma lgica que Wald para retener o descartar factores).

  • Ejemplo de investigacin de Austral

    (2011)Objetivos del artculo (presentado en ASET 2011):

    1) Describir las orientaciones de futuro laboral -en trminos de sus objetivos principales, plazos y obstculos imaginados- de los estudiantes a punto de concluir la escuela secundaria en la Ciudad de Buenos Aires en 2008

    2) Explorar la incidencia de atributos contextuales, institucionales, sociales y personales de los estudiantes en el hecho de que algunos jvenes privilegien un objetivo profesional en su futuro laboral.

  • Estrategia metodolgica

    Mtodo: encuesta autoadministrada a estudiantes de ltimo ao.

    Muestra probabilstica estratificada de ofertas educativas (1 sola etapa). Una vez elegidas las escuelas, se encuestaba a todos los estudiantes del ltimo ao.

    Para el 1 objetivo descriptivo distribuciones uni y bivariadas de la variable dependiente.

    Para el 2 objetivo explicativo tcnica de regresin logstica binomial multivariada.

    Se construyeron varios modelos con diferentes conjuntos de variables independientes [ver secuencia analtica en ponencia] para identificar condiciones que ms gravitan en eleccin de objetivos laborales profesionales.

  • Variables incluidas en el

    modelo inicial En todos los modelos se utilizaron variables explicativas

    nominales y ordinales, que requiri la previa creacin de dummies.

    En modelo original se incluyeron:

    Aspectos de la oferta: Zona de ubicacin geogrfica de escuela, modalidad del plan de estudios, turno

    Aspectos institucionales: valoracin global de aprendizajes, nivel de abandono y tamao de escuela

    Aspectos relativos al perfil social: Origen educacional familiar y sexo del estudiante

    Aspectos relativos a la trayectoria educativa y laboral: sobreedad y experiencia laboral.

  • PARA JUSTIFICAR LA VD QUE ELEGIR PARA EL MODELO DE

    REGRESIN, PRESENTA LA DISTRIBUCIN UNIVARIADA DE

    OBJETIVO LABORAL

    PLANES

    PROFESIONALES

  • Construccin del modelo explicativo de planes

    profesionales: 1 PASO creacin de dummies

    Se cre una VD dicotmica de Existencia de objetivo laboral profesional,

    Con valor 1= presencia de Planes Profesionales

    y 0= Ausencia de Planes Profesionales

    incluyendo en la categora 1 a los jvenes que tenan alguno de los siguientes objetivos laborales:

    conseguir un trabajo de lo que estudie y ser profesional

    - Se crearon resto de variables dummies

    (ver cuadro siguiente)

  • Fuente: Austral (2013)

  • Tests de hiptesis de las nueve variables explicativas con objetivo laboral profesional (VD) [Tabla con resultados en diapo siguiente]

    5 cruces rechazan la independencia estadstica (ver asteriscos en cuadro).

    La modalidad del plan de estudios, el clima educativo del hogar y el sexo rechazaron ms fuertemente la independencia (significativos al 0,1%).

    Tambin se alejaron de la independencia estadstica: la condicin de sobreedad(significativo al 1%) y el turno de asistencia a las clases (significativo al 5%).

    Construccin de un modelo explicativo de

    planes profesionales: 2 PASO anlisis bivariado

  • Las explicaciones de los objetivos laborales profesionales se concentraban en variables relativas a perfil social (2 variables), biografa escolar (1) y oferta (2), mientras que

    Las 4 variables que quedan afuera (que no rechazan hiptesis nula en cuadro 1) refieren a atributos de nivel institucional (tamao de la escuela y el nivel de abandono escolar intraanual del turno), a la ubicacin geogrfica de la escuela y a la experiencia laboral de los jvenes.

    Los horizontes profesionales (al menos, los indicadores construidos para esta ponencia) parecen trascender las condiciones institucionales analizadas en este trabajo.

    Interpretando el 2 paso

  • 3 paso: construccin de sucesivos

    modelos de regresin

    Usados para despejar los aportes relativos de las cinco variables relacionadas con los planes profesionales (modalidad, sexo, clima educativo, sobreedad y turno) modelo de regresin logstica

    Las 5 variables explicativas, predictoras o independientes fueron incorporadas al modelo en versiones dummy (con valor 1= presencia de atributo y valor 0= ausencia de atributo)

  • Secuencia de modelos

    puestos en juego:

    1 modelo: versin (saturada) que inclua todas las posibles interacciones entre todas las variables explicativas, que fue descartada por resultar poco parsimoniosa (recordar la nocin de economa de recursos).

    2 modelo: se pas luego a un modelo que comprenda todas las interacciones entre pares de variables.

    Resultados: la nica interaccin que se mantena como significativa dentro del modelo era la planteada entre el turno y la sobreedad. Por tanto, en modelo final slo se considerara esta dada (aparecer nueva variable que combina turno y sobreedad).

  • Modelo de regresin final

    3 modelo: cada una de las 5 variables originales ms la nica interaccin importante entre turno y sobreedad (dilucidada en 2do. Modelo).

    La salida de la regresin [Tabla 3] incluye para cada trmino de la ecuacin diferentes medidas, de las cuales nos interesa centrar mirada en:

    la estimacin del coeficiente B, el test Wald de hiptesis (puntaje normal y

    significacin al rechazar la hiptesis nula =0) y

    la Odds Ratio (OR),

  • Resultados del tercer modelo

    Los niveles de significacin resultantes permitieron conservar todos trminos del modelo, incluyendo la interaccin entre el turno y la sobreedad.

    La interaccin apareci como una variable fuertemente explicativa en el modelo (=0,62), seguida por el sexo (=0,35), la modalidad (=0,27) y el clima educativo del hogar (=0,24), todas ellas significativas al 1% y con efectos especficos.

  • Cmo lee Austral los resultados

    de la 3ra. Regresin?Recordemos que la pregunta clave era: Qu

    condiciones propician en los estudiantes expectativas laborales profesionales?

    El gnero y el origen social (NEA madre) se reafirman como condicionamientos estructurales de las aspiraciones de los jvenes.

    A ello se suman, las caractersticas de la formacin secundaria recibida: el plan de estudios (contraste entre planes tcnicos frente a comerciales y bachilleres) gravita fuertemente.

    En primer plano se ubica el efecto combinado del turno de cursada y la sobreedad.

  • MODELO EXPLICATIVO SOBRE LAS METAS

    LABORALES PROFESIONALES

    ATRIBUTOS

    DE LA

    OFERTA

    EDUCATIVA

    LOCAL

    Turno

    Modalidad

    del plan de

    estudios

    CONTEXTO

    INSTITUCIONAL

    Nivel de

    abandono

    escolar

    Tamao de

    la escuela

    PERFIL SOCIAL

    Condicin de

    sobreedad

    Sexo

    Origen

    educacion

    al familiar

    BIOGRAFA EDUCATIVA Y LABORAL

    Experiencia

    laboral

    Valoracin

    estudiantil de la

    orientacin cursada

    para trabajar

    METAS

    LABORALES

    PROFESIONALES

    Ubicacin

    geogrfica de

    la escuela

    (Nota: Este diagrama no es de ponencia, proviene de tesis y muestra

    modelo terico y resultados ojo: tiene una variable ms- )

  • Otras herramientas usadas de la RL

    BONDAD DEL AJUSTELa bondad del ajuste de un modelo de regresin logstica refiere a cunto la prediccin de la VD obtenida en el modelo se asemeja o ajusta a los datos efectivamente observados.

    ODDS RATIO O RAZON DE CHANCES U OPORTUNIDAD: Es una razn entre 2 valores (o probababilidades). En una tabla

    bivariada dicotmica es el producto cruzado de 4 celdas.

    Aparece tambin como resultado en salidas de RL: mide ventaja de ocurrencia cunto incrementa la prediccin de VD conocer la categora 1 de la variable independiente dummy

    Veamos en el ejemplo

  • Odds Ratio o chances de

    probabilidad

    Medida usada para establecer la probabilidad de tener planes laborales profesionales en base

    a cierto atributo explicativo (VIs).

    Resultados en Tabla 3 (en orden decreciente): cursar en turno diurno sin sobreedad, aumenta

    oportunidad de planes profesionales en 88%

    ser mujer incrementa en alrededor de un 42% la probabilidad de tener este tipo de planes (ver 1,42)

    cursar planes no tcnicos: 31% ms chance de tener planes profesionales

    tener madre con secundaria o ms: 27% + chance.

  • FIN DE LA CLASE DE HOY