lección magistral pedro m. valero mora facultat de psicologia universitat de valència datos...
TRANSCRIPT
Lección Magistral
Pedro M. Valero Mora
Facultat de Psicologia
Universitat de València
Datos Faltantes Multivariantes
Ubicación
Esta lección corresponde al Bloque de contenidos sobre Datos Faltantes en su parte Avanzada
Introduce contenidos Teóricos y además Actividades que podrían realizarse en las Prácticas de la Asignatura
El problema
Cuando un sujeto no responde a una pregunta nos encontramos ante un caso con un valor faltante
Algunas variables que producirán valores faltantes a menudo son:
El problema
Los valores faltantes producen dos tipos de problemas Problemas de Cálculo
Problemas de Sesgo
El problema: Problemas de Cálculo
Id Y1 Y2 Y3 Y41 10 5 3 82 5 X 7 X3 4 5 6 74 5 2 2 75 9 X 7 66 4 5 6 87 6 5 X 38 6 7 8 99 4 X 5 610 8 5 6 7
yy
?
101 y 72 y
94 y93 y
El problema: Problemas de Cálculo
Id Y1 Y2 Y3 Y41 10 5 3 82 5 X 7 X3 4 5 6 74 5 2 2 75 9 X 7 66 4 5 6 87 6 5 X 38 6 7 8 99 4 X 5 610 8 5 6 7
24434241
34233231
24232221
14131221
9879
8969
7677
99710
Soluciones a los Problemas de Cálculo
Id Y1 Y2 Y3 Y41 10 5 3 82 5 X 7 X3 4 5 6 74 5 2 2 75 9 X 7 66 4 5 6 87 6 5 X 38 6 7 8 99 4 X 5 610 8 5 6 7
Borrado Caso por Caso
Ventajas
Matriz Completa
Disponibilidad
Aceptación
Soluciones a los Problemas de Cálculo
Id Y1 Y2 Y3 Y41 10 5 3 82 5 X 7 X3 4 5 6 74 5 2 2 75 9 X 7 66 4 5 6 87 6 5 X 38 6 7 8 99 4 X 5 610 8 5 6 7
Borrado Caso por Caso
Desventajas
Agresiva
Diferentes casos según modelo
Sesgo
Soluciones a los Problemas de Cálculo
Id Y1 Y2 Y3 Y41 10 5 3 82 5 X 7 X3 4 5 6 74 5 2 2 75 9 X 7 66 4 5 6 87 6 5 X 38 6 7 8 99 4 X 5 610 8 5 6 7
Borrado por Pares
Ventajas
Menos Agresiva
Disponibilidad
Aprovechable a veces
Soluciones a los Problemas de Cálculo
Id Y1 Y2 Y3 Y41 10 5 3 82 5 X 7 X3 4 5 6 74 5 2 2 75 9 X 7 66 4 5 6 87 6 5 X 38 6 7 8 99 4 X 5 610 8 5 6 7
Borrado por Pares
Desventajas
Los paquetes estadísticos no las usan
El número de casos es inestable en cada par
Soluciones a los Problemas de Cálculo
Estimación-Maximización
Id Y1 Y2 Y3 Y41 10 5 3 82 5 3 7 43 4 5 6 74 5 2 2 75 9 6 7 66 4 5 6 87 6 5 8 38 6 7 8 99 4 5 5 610 8 5 6 7
Id Y1 Y2 Y3 Y41 10 5 3 82 5 X 7 X3 4 5 6 74 5 2 2 75 9 X 7 66 4 5 6 87 6 5 X 38 6 7 8 99 4 X 5 610 8 5 6 7
M
24434241
34233231
24232221
14131221
t 0
Soluciones a los Problemas de Cálculo
Estimación-Maximización
Id Y1 Y2 Y3 Y41 10 5 3 82 5 3 7 43 4 5 6 74 5 2 2 75 9 6 7 66 4 5 6 87 6 5 8 38 6 7 8 99 4 5 5 610 8 5 6 7
24434241
34233231
24232221
14131221
t 1
E
Soluciones a los Problemas de Cálculo
Estimación-Maximización
Id Y1 Y2 Y3 Y41 10 5 3 82 5 5 7 83 4 5 6 74 5 2 2 75 9 3 7 66 4 5 6 87 6 5 9 38 6 7 8 99 4 5 5 610 8 5 6 7
24434241
34233231
24232221
14131221
t 1
E
Soluciones a los Problemas de Cálculo
Estimación-Maximización
Id Y1 Y2 Y3 Y41 10 5 3 82 5 5 7 83 4 5 6 74 5 2 2 75 9 3 7 66 4 5 6 87 6 5 9 38 6 7 8 99 4 5 5 610 8 5 6 7
24434241
34233231
24232221
14131221
t 1
E
M
Soluciones a los Problemas de Cálculo
Estimación-Maximización
Id Y1 Y2 Y3 Y41 10 5 3 82 5 5 7 83 4 5 6 74 5 2 2 75 9 3 7 66 4 5 6 87 6 5 9 38 6 7 8 99 4 5 5 610 8 5 6 7
24434241
34233231
24232221
14131221
t 2
Soluciones a los Problemas de Cálculo
Estimación-Maximización
Id Y1 Y2 Y3 Y41 10 5 3 82 5 5 7 83 4 5 6 74 5 2 2 75 9 3 7 66 4 5 6 87 6 5 9 38 6 7 8 99 4 5 5 610 8 5 6 7
24434241
34233231
24232221
14131221
t 2
E
Soluciones a los Problemas de Cálculo
Estimación-Maximización
Id Y1 Y2 Y3 Y41 10 5 3 82 5 1 7 63 4 5 6 74 5 2 2 75 9 2 7 66 4 5 6 87 6 5 2 38 6 7 8 99 4 5 5 610 8 5 6 7
24434241
34233231
24232221
14131221
t 2
E
Soluciones a los Problemas de Cálculo
Estimación-Maximización
Id Y1 Y2 Y3 Y41 10 5 3 82 5 5 7 83 4 5 6 74 5 2 2 75 9 3 7 66 4 5 6 87 6 5 9 38 6 7 8 99 4 5 5 610 8 5 6 7
24434241
34233231
24232221
14131221
t 2
E
M
Soluciones a los Problemas de Cálculo
Estimación-Maximización
Criterio de detención
t t-1
24434241
34233231
24232221
14131221
t t
24434241
34233231
24232221
14131221
- < 0.0001
Soluciones a los Problemas de Cálculo
Id Y1 Y2 Y3 Y41 10 5 3 82 5 X 7 X3 4 5 6 74 5 2 2 75 9 X 7 66 4 5 6 87 6 5 X 38 6 7 8 99 4 X 5 610 8 5 6 7
Estimación-Maximización
Ventajas
Poco Agresiva
Matriz Completa
Estimaciones de las Puntuaciones
Matriz Covarianzas bien definida
Soluciones a los Problemas de Cálculo
Id Y1 Y2 Y3 Y41 10 5 3 82 5 X 7 X3 4 5 6 74 5 2 2 75 9 X 7 66 4 5 6 87 6 5 X 38 6 7 8 99 4 X 5 610 8 5 6 7
Estimación-Maximización
Desventajas
“Inventar datos”
Las puntuaciones están sobreajustadas
No disponibles
Supuestos acerca de mecanismos
El problema: Sesgo
Ser Faltante es independiente de Y y de X= Datos Faltantes Completamente al Azar(FCA)
Caso a Caso
Estimación-Maximización
Educación
Sal
ario
El problema: Sesgo
Estimación-Maximización
Educación
Sal
ario
Ser Faltante depende de X pero no de Y= Datos Faltantes al Azar (FA)
El problema: Sesgo
Mecanismo No Ignorable
Ni FA ni FCA
Ningún Método
Educación
Sal
ario
Exploración de datos faltantes
¿Cómo podemos evaluar unos datos que no tenemos?
Comparando los diversos resultados
ViSta.exe
Conclusiones
La exploración de datos faltantes con ViSta permite:
• Comprobar el efecto de los valores faltantes sobre nuestros datos
• Evaluar el sesgo que introducen
• Esta exploración puede realizarse de modo interactivo por el alumno, explorando las interconexiones entre gráficos