módulo 7: recopilación de datos posteriores vídeo 1

22
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas Módulo 7: Recopilación de datos posteriores Vídeo 1: Introducción + codificación de respuestas abiertas y preparación de datos Sharan Sharma

Upload: others

Post on 26-Jun-2022

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Módulo 7: Recopilación de datos posteriores

Vídeo 1: Introducción + codificación de respuestas abiertas

y preparación de datos

Sharan Sharma

Page 2: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Al final del módulo, los participantes

deberían...

...estar familiarizados con los pasos clave de recopilación

de datos posteriores

2

Page 3: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

¡No tan rápido!

3

Ya ha recopilado los datos. ¿Quiere publicarlos ya?

Page 4: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 4

Fuente: https://www.oecd.org/pisa/data/pisa2018technicalreport/PISA2018%20TecReport-Ch-10-Data-Management.pdf

Gestión de datos del estudio principal PISA 2018: Validación de datos

Page 5: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

1. Codificación de respuestas abiertas

2. Preparación de los datos

3. Sintetización y visualización

4. Edición de datos

5. Imputación y ponderación (tratado en el módulo 2)

6. Control de divulgación

7. Procesamiento final, documentación y difusión

5

Muchas actividades...

Page 6: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Codificación de preguntas abiertas

• Antes de eso: hacer copia de seguridad de los originales como

datos recopilados sin procesar.

• Aquí hay que centrarse en respuestas a preguntas del siguiente

tipo: «¿A qué clase de trabajo se dedica?»: la respuesta de la

secuencia debe codificarse posteriormente con un código de

ocupación.

• Dos métodos de codificación:

– Completamente manual

– Automatizada

6

Page 7: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Codificación manual

• Los codificadores envían una respuesta a un marco de

codificación y la clasifican en categorías previamente decididas.

– Para preguntas atípicas o nuevas, puede ser necesario revisar las

categorías: el problema de «muchas otras».

• Es útil codificar doblemente un porcentaje de casos para calcular

la fiabilidad.

7

Page 8: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Codificación manual...

• La fiabilidad de los codificadores se mide mediante:

– Una concordancia de porcentaje simple

– Más medidas aplicadas, p. ej., el índice kappa de Cohen (𝜅) se utiliza

mucho; también tiene en cuenta la probabilidad de acuerdo.

– 𝜅 inferior a un umbral, p. ej., 70 %, justifica una revisión

• Existe el mito de que las respuestas largas siempre se codifican

de forma más fiable [Belloni et al. (2016), Conrad et al. (2016)].

– En ocasiones, más texto puede añadir confusión.

8

Page 9: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Codificación manual...

• Algo que no suele hacerse en la práctica, pero que también resulta útil: tomar casos con desacuerdos y debatirlos con los codificadores. Los codificadores normalmente usan reglas informales (Conrad et al., 2016); esto se puedeutilizar para ayudar a formalizar más.

• Animar a los codificadores a ser explícitos sobre las dudas (p. ej., asignar una posibilidad de codificación secundaria).

– Aquí el propio esquema de codificación puede ayudar. P. ej., la Clasificación

Internacional Uniforme de Ocupaciones de 1988 (ISCO-88) tiene una estructura

jerárquica → 10 grupos principales, 28 subgrupos principales, 116 grupos

menores, 390 grupos unitarios.

– Los códigos de nivel superior se usan en caso de falta de información a niveles

inferiores.9

Page 10: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 10

I. Grupos principales II. Grupos y subgrupos principales

III. Grupos y subgrupos principales y grupos menores

IV. Grupos y subgrupos principales, grupos menores y grupos unitarios

«Director de hotel» = 1411

«Director» = 1000

Fuente: https://www.ilo.org/wcmsp5/groups/public/---dgreports/---dcomm/---publ/documents/publication/wcms_172572.pdf

Gerentes

Profesionales

Técnicos y profesionales asociados

Trabajadores de apoyo administrativo

Trabajadores de servicios y ventas

Trabajadores agrícolas, forestales y

pesqueros calificados

Trabajadores de oficios y oficios

relacionados

Operadores y ensambladores de plantas y

máquinas

Ocupaciones elementales

Ocupaciones de las fuerzas armadas

Gerentes

11 jefes ejecutivos, altos funcionarios y legisladores

12 gerentes administrativos y comerciales

13 gerentes de producción y servicios especializados

14 gerentes de hotelería, comercio minorista y otros

servicios

Gerentes de hotelería, venta minorista y otros servicios

141 gerentes de hoteles y restaurantes

142 gerentes de comercio minorista y mayorista

143 gerentes de otros servicios

14 gerentes de hotelería, venta al por menor y otros servicios

141 gerentes de hoteles y restaurantes

1411 gerentes de hoteles

1412 gerentes de restaurantes

142 gerentes de comercio minorista y mayorista

1420 gerentes de comercio minorista y mayorista

143 gerentes de otros servicios

1431 gerentes de centros culturales y de recreación deportiva

1439 gerentes de servicios no clasificados en otra parte

Page 11: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Métodos automáticos

• Como demostró el ejemplo de ISCO, codificar puede resultar

difícil, y la codificación manual es cara y requiere mucho tiempo

(especialmente para encuestas largas).

• Los métodos automáticos se han vuelto más populares, p. ej.,

Sistema de codificación informatizada de industrias y

ocupaciones del NIOSH (NIOCCS)

https://wwwn.cdc.gov/nioccs3/

• Se fundamenta en una tabla de consulta simple basada en datos

históricos o en métodos estadísticos más sofisticados.11

Page 12: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

CASCOT (por sus siglas en inglés): Computer Assisted Structured

Coding Tool

• Instituto Warwick de Investigación sobre el Empleo

[https://warwick.ac.uk/fac/soc/ier/software/cascot/details/]

• Asigna una puntuación de certeza. La práctica común es aceptar la codificación

automática si la puntuación es mayor que, por ejemplo, 70 (p. ej., Belloni et al.

2016).

• El software también sugiere códigos alternativos; para puntuaciones bajas, los

codificadores manuales pueden decidir basándose en estas sugerencias.

• CASCOT se ha comparado con datos codificados manualmente de alta calidad:

el 80 % de los registros recibe una puntuación >40 y de estos, el 80 % coincide

con los datos codificados manualmente.

12

Page 13: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

1. Codificación de respuestas abiertas

2. Preparación de los datos

3. Sintetización y visualización

4. Edición de datos

5. Imputación y ponderación

6. Control de divulgación

7. Procesamiento final, documentación y difusión

13

Muchas actividades...

Page 14: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Preparación de los datos

• Convertir un formato ancho (plano) en un formato largo

(jerárquico).

– Reduce las columnas en blanco; más compacto

– Más fácil para los analistas

14

Page 15: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 15

Formato ancho (plano)

Formato largo (jerárquico)

Fuente: https://guide-for-data-archivists.readthedocs.io/en/latest/prepData.html

• Cada registro (línea) queda ahora a un único nivel individual.

• Las columnas son todas las variables.

jefe de familia

jefe de familia

jefe de familia

jefe de familia

jefe de familia

Cónyuge del jefe

Padre

cónyuge del jefe

Abuelo

Nuera

Hijo soltero

Madre

Hijo casado,

Abuela

Nieto

Identificación del hogar

identificación del miembro edad

Relación con la cabeza de

familia

30 Jefe de hogar

28 Cónyuge del jefe

10 Hijo no armado

28 Jefe de hogar

62 Padre

68 Madre

40 Jefe de hogar

25 Cónyuge del jefe

23 Hijo casado

39 Jefe de hogar

80 Abuelo

82 Abuela

55 Jefe de hogar

31 Hija- suegro

5 nieto

Hogar

IDID

Miembro 1

ID

Miembro 2

ID

Miembro 3

Edad

Miembro 1

Edad

Miembro 2

Edad

Miembro 3Relación con

Miembro 1Relación con

Miembro 2

Relación con

Miembro 3

Page 16: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Variable de identificación

• Define una línea en un juego de datos. Debe ser única. Garantiza

que no se pierda.

• Suele ser numérica, p. ej., puede ser simplemente un número de

serie. También se puede hacer concatenando segmentos

separados.

– Por ejemplo, HHID=identificación del país+identificaicón del

distrito+identificación PSU+orden de la serie dentro de PSU (aquí «+» no

significa adición, sino concatenación)

– Facilita la identificación si es necesario, pero también implica un riesgo de

divulgación, por lo que hay que actuar con cuidado.

16

Page 17: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Preparación de los datos

• Convertir un formato ancho (plano) en un formato largo

(jerárquico).

• Divide juegos de datos basándose en diferentes unidades de

análisis.

17

Page 18: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 18

De: https://simba.isr.umich.edu/VS/s.aspx

- Evita la repetición.

- Puede conectar diferentes archivos

usando un enlace común, p. ej., ID de

hogar.

- Asegurarse de que los archivos del

hogar y los individuales se puedan

fusionar correcta y eficazmente.

PSID Nivel familiar

PSID Nivel individual

Suplemento de desarrollo infantil (incluidos los agregados del diario

de tiempo)

Suplemento de desarrollo infantil Diarios de tiempo Suplemento

Transición a la edad adulta

Historia familiar

Discapacidad y uso del tiempo

Estudio de circunstancias retrospectivas de la infancia

Listas y transferencias familiares

Bienestar y vida diaria

Matriz de relaciones familiares Preparación

Tipo de Data

Page 19: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Preparación de los datos

• Convertir un formato ancho (plano) en un formato largo (jerárquico).

• Divide juegos de datos basándose en diferentes unidades de análisis.

• Garantizar que no haya registros duplicados en el juego de datos; comprobar

el número de registros.

• Comprobar la clase de variable (p. ej., número entero, secuencia).

– Los códigos «DK»/»RF» pueden empujar una clase numérica a una clase

de secuencia.

• Comprobar que las variables y los valores se etiqueten adecuadamente.19

Page 20: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Preparación de los datos

• ¿Se necesita recodificar el nombre de alguna variable? P. ej., se hace si es

necesario tener variables en secuencia.

• ¿Se necesita recodificar el valor de alguna variable?

– Hay que procurar no tener códigos DK/RF sin saberlo = un código de categoría de

respuesta normal.

• Guardar los datos en esta fase como una nueva versión. En general, guardar

en una fase del procesamiento si hay o se espera un cambio significativo, y

solo entonces pasar a la siguiente fase.

• Recurso de la International Red Internacional de Encuestas de Hogares

(RIEHhttps://guide-for-data-archivists.readthedocs.io/en/latest/20

Page 21: Módulo 7: Recopilación de datos posteriores Vídeo 1

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

1. Codificación de respuestas abiertas

2. Preparación de los datos

3. Sintetización y visualización

4. Edición de datos

5. Imputación y ponderación

6. Control de divulgación

7. Procesamiento final, documentación y difusión

21

Muchas actividades...

Page 22: Módulo 7: Recopilación de datos posteriores Vídeo 1

FIN DEL vídeo 1