copyright 2010, grupo del banco mundial. todos los derechos reservados encuestas sobre estadísticas...
TRANSCRIPT
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Encuestas sobre estadísticas de negocios
3. Procesamiento de datos
1
Estadísticas y registros de negocios
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Sistema de archivos de microdatos
• Un archivo de microdatos debe ser configurado para almacenar los datos de la encuesta
• Un cierto número de operaciones de escritorio son necesarias antes de estén listas las etiquetas de direcciones del cuestionario
• Entre las más importantes se encuentran la eliminación de duplicaciones evidentes y la actualización de cambios de dirección reportados recientemente
• Las revisiones y actualizaciones de último momento antes del envío evitarán irritar a los encuestados, ayudarán a reducir la carga impuesta a los encuestados y la no respuesta
2
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Identificación de unidades
• La comunidad de negocios es dinámica• Son de esperarse las discrepancias entre la
unidad informante prevista y la realidad• Es importante establecer la causa de las
discrepancias• Las correcciones y actualizaciones de las
unidades y sus atributos deben llevarse a cabo en estrecha cooperación con personal del RCN.
3
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Modos de captura de datos • Básicamente, se producen cinco tipos de CAPTURA de datos:• Intercambio electrónico de datos (IED)• Escaneo• Reconocimiento óptico de caracteres (OCR, por sus siglas en
inglés)• Captura de datos confirmados• Captura de datos no confirmados
• Se requiere un software especial de captura de datos• Cuál de los métodos se deba aplicar es algo que depende de
los recursos laborales, equipos y conocimientos tecnológicos
4
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Controles primarios• Cuando los formularios completados vuelven a la ONE, la
primera cosa a hacer es comprobar si no están (casi) en blanco
• Los formularios inutilizables pueden considerarse como no respuestas o pueden ser programados para seguimiento
• No se debe esperar para introducir los datos hasta que todo el proceso de recolección haya concluido
• Las acciones de seguimiento para con los encuestados que respondieron datos poco verosímiles debe llevarse a cabo tan pronto como sea posible después de que regrese el formulario
• Independientemente de los procedimientos de edición, los archivos sin procesar, tal como fueron presentados por los encuestados, también deben conservarse
5
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Tipos de controles• La edición es el examen de los datos para la detección de errores• Sólo una parte de los errores cometidos por los encuestados
puede rastrearse• La edición de datos tiene lugar durante o después de la captura
de datos• Los controles de enrutamiento prueban si todas las preguntas
que deberían haberse contestado han sido en realidad contestadas
• Los controles de validación de datos comprueban si las respuestas son permisibles
• Los controles relacionales son una potente herramienta de edición
• Una edición exhaustiva implica el riesgo de una sobreedición6
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Organización de la edición• No todas las estrategias de edición puestas en práctica
son eficientes• Existen cinco alternativas, algunas de las cuales pueden
ser combinadas entre sí:• Papel y lápiz• Iteración de la captura de datos y de las listas de errores• Captura de datos y edición asistidas por computadora • Edición automatizada• Edición selectiva
7
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Tres etapas de la ediciónEn el proceso de edición se pueden diferenciar tres etapas:
• Se utilizan métodos estocásticos y deterministas para detectar errores
8
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
• Edición selectiva
• La edición selectiva se concreta en la detección de valores aberrantes
• Puede tener lugar durante la captura de datos, o cuando se ha recogido ya la mayoría de los datos
• La edición durante la captura de datos (edición de entrada) tiene la ventaja de la puntualidad
• La edición de entrada es costoso• Para reducir los costos uno debe ser selectivo
9
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Macro-edición
• La macro-edición o edición agregada es una forma de edición selectiva centrada en la salida
• Sistematiza lo que cada organismo de estadística hace antes de la publicación: verificar si las cifras de la publicación parecen plausibles
• Para ello se puede comparar los totales en celdas de publicación con las mismas cifras en el momento t-1
• La edición selectiva no está exenta de riesgos• Puede darse un sesgo si, por ejemplo, sólo las grandes desviaciones
positivas a partir del valor esperado, se corrigen, y un gran número de desviaciones negativas (los ceros) son ignoradas
• También la falsa estabilidad, debida a las empresas que envían exactamente las mismas respuestas en cada ocasión, puede dañar la validez de las cifras de la publicación
10
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Controles externos de coherencia
• Hasta ahora nos hemos centrado en comprobaciones de la coherencia entre los elementos de un solo cuestionario
• Sin embargo, también pueden aplicarse controles con los datos de otros estudios
• Los controles externos de coherencia son un medio importante para reducir los problemas durante la etapa de integración
• La aplicabilidad de los controles externos depende del grado de coordinación entre las encuestas
11
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Imputación
• Se distingue entre dos tipos de datos faltantes: no respuesta de unidad y no respuesta de elemento
• La imputación se aplica a la no respuesta de elemento• La no respuesta se aborda mediante una nueva ponderación• Hay una tercera manifestación de los datos faltantes, llamada falta
intencional de datos• Se puede distinguir entre tres tipos de elementos de no respuesta
– En el primer tipo los valores que faltan son completamente al azar– El segundo tipo no depende del valor de la variable, sino de los valores
de alguna(s) otra(s) variable(s)– El tercer tipo depende del valor de la variable en la que no se
encuentra, por ejemplo las puntuaciones altas son más propensas a faltar que las bajas
12
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Estrategias para hacer frente a la no respuesta
• Dos estrategias generales aplican para tratar la no respuesta de elemento
• La primera estrategia ignora los valores que faltan• Este método es llamado análisis completo de caso• En la segunda estrategia se buscan estimaciones
para los datos que faltan• Si se eliminan todos los casos con uno o más valores
faltantes el tamaño de la muestra puede convertirse en algo muy pequeño
13
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Métodos de imputación• Existen varios métodos de imputación, que van desde los procedimientos
estadísticos muy simples e intuitivos hasta los más complicados • Los métodos más importantes son:
– Tratamiento subjetivo: establecer la imputación sobre la base de los valores que parecen razonables
– Imputación promedio/moda: atribuir la media de una variable o la moda– Post estratificación: dividir la muestra en estratos y, a continuación, hacer
la imputación promedio/moda/mediana del estrato – Imputación 'cold deck': encontrar estimaciones razonables de los valores
que faltan en otro conjunto de datos– Imputación 'hot deck': encontrar un caso donante en el conjunto de datos– Imputación por regresión: definir variables de predicción y estimar el valor
faltante
14
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Datos faltantes intencionales
• La faltan de datos intencional se produce cuando se ha decidido abstenerse de encuestar ciertas variables
• Esto se lleva a cabo deliberadamente con el fin de ajustarse mejor a los sistemas contables de los encuestados
• Ejemplo: para la recopilación de datos sobre "formación de capital fijo", es necesario el valor de compra de los activos
• Sin embargo, las empresas que alquilan los activos adquiridos, no serán capaces de proporcionar el valor de compra
• Por lo tanto, el cuestionario menciona "importes de arrendamiento pagados", y la ONE hace la imputación del valor de compra por medio de ciertas claves
• Los datos faltantes intencionales se convertirán en un fenómeno creciente en las estadísticas de las empresas para reducir la carga de reporte
15
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Ponderación• Las muestras se traducen por información sobre sólo una parte de la
población objetivo• Es una práctica común para las oficinas de estadística atribuir
ponderaciones a los elementos de una muestra
• Los objetivos de la ponderación son:1. Ampliar la muestra a la población.2. Hacer frente a observaciones faltantes.3. Aumentar la precisión mediante la utilización de información auxiliar.4. Tener coherencia con los datos procedentes de otras fuentes.
• La ponderación, es decir, la atribución de pesos a unidades incluidas en la muestra, puede tener lugar en principio antes de la recopilación de datos
• La reponderación siempre se aplica después de la recopilación de datos16
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Reponderación
• Se puede utilizar ponderaciones para ampliar la muestra a la población
• Los demás objetivos (hacer frente a las observaciones faltantes, aumentar la precisión, lograr la coherencia con los datos procedentes de otras fuentes) se alcanzan mediante el ajuste de las ponderaciones de inclusión
• El procedimiento de ajuste se llama reponderación• Esto se hace partiendo de la información auxiliar
17
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Errores de marco y estimación• Los errores de marco complican el proceso de estimación• Hay cuatro categorías pertinentes para las encuestas de
negocios: • Subcobertura (unidades faltantes)• Sobrecobertura (inclusión de unidades diferentes a las de la población)• Listados duplicados o múltiples• Información auxiliar incorrecta (tamaño, actividad, construcción errónea de unidades, etc. )
• La subcobertura es quizás el problema más grave
18
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Ajuste estacional
• Muchas series de tiempo económicas muestran fluctuaciones cíclicas
• Esto es más evidente en el caso de series publicadas con un período inferior a un año
• Las fluctuaciones involucradas se denominan fluctuaciones estacionales
• Las principales causas son los efectos calendáricos, los efectos institucionales y el clima
• Las series deben corregirse en cuanto a estas fluctuaciones estacionales
19
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Ajuste estacional
• Los métodos de ajuste presuponen que una serie puede dividirse en tres componentes:• la tendencia y el ciclo• el componente estacional• el componente irregular
• La descomposición da una estimación de los factores estacionales, de la tendencia-ciclo y del componente irregular
• Hay varios métodos en dos amplias categorías: métodos de realización de censos y "enfoques basados en un modelo"
20
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Control de la divulgación de datos tabulares
• Los resultados de las encuestas entre las empresas por lo general se publican en forma de tablas
• Los conjuntos de microdatos con los datos de las empresas casi nunca se publican
• En datos tabulares puede haber situaciones en las que es posible deducir información que corresponde a un encuestado individual a partir del total global
• Esto debe evitarse mediante el control de la divulgación de estadísticas (CDE)
• Hay tres métodos principales:1. Modificación del esquema de clasificación,2. Supresión de las celdas sensibles, y3. Redondeo de los valores de celda
21
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Celdas sensibles en las Tablas
• Regla de dominancia: si la suma de las contribuciones de n o menos encuestados representa más de k % del valor total de la celda, entonces este valor de la celda no puede ser publicado.
• Los valores n y k en esta formula son parámetros cuyos valores han de ser elegidos
• Por ejemplo, uno podría elegir n = 3 y k = 75• La idea principal detrás de esta regla de dominancia es que si un
valor de la celda es dominado por el valor de uno de los encuestados, entonces su contribución puede estimarse con bastante exactitud
• Si hay m encuestados, luego m-1 de ellos pueden, mediante una puesta en común de información, revelar información acerca del valor de los datos de los encuestados restantes
• Debe por tanto elegirse un valor n más grande que el tamaño máximo de las coaliciones (imaginarias) de los encuestados
22
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Tablas vinculadas
• Las secciones anteriores trataban del control de la divulgación de una sola tabla
• Cuando se publica un conjunto de tablas vinculadas, es decir tablas con variables comunes derivadas de los mismos microdatos, pueden surgir otros problemas
• Es posible que una tabla en sí misma no contenga ninguna celda sensible, pero que, al combinar la información que contiene con la información de otras tablas, pueda revelarse información individual
• Se podría eliminar una o varias de las tablas del conjunto de tablas vinculadas
• Otra opción es la de proteger el fichero de microdatos original contra la divulgación
23
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Metadatos
• Los usuarios tienen derecho a ser informados sobre las características del producto que reciben
• La información debe incluir todos los elementos importantes del contenido de los datos y del procesamiento de datos, incluyendo:1. Una definición enumerando los componentes del concepto
(inclusiones y exclusiones) es a menudo más informativa que una definición más teórica
2. ¿Qué tipo de unidad se utiliza y cómo se define? 3. ¿Qué reglas de clasificación se han aplicado?4. ¿Cómo está delimitada la población?5. ¿Qué método de recolección se ha empleado (papel, teléfono,
etc. )?6. ¿Cómo se abordó la no respuesta?7. ¿Cómo han sido editados los datos? Etc.
24
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Difusión
• Los intereses de los usuarios no coinciden necesariamente con los ámbitos cubiertos por las encuestas individuales
• Existe una amplia gama de grupos de usuarios y una amplia variedad de áreas de interés
• Las publicaciones pueden traslaparse• Existen muchos modos de difusión• La difusión electrónica, en particular a través de sitios
web de la ONE, se ha convertido en el modo dominante
25
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Difusión Electrónica
• La cantidad de la información estadística disponible es inmensa...
• Se pueden distinguir tres tipos de clientes:1. El cliente ocasional que quiere algunas cifras básicas;2. El cliente interesado en un conjunto de información
específico con entregas regulares;3. El cliente que necesita grandes cantidades de datos
para necesidades cambiantes.
26
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Tabulaciones
• Las tablas estadísticas son el corazón de una publicación• La primera condición para cada tabla es que el mensaje a comunicar
pueda ser entendido fácilmente• Los datos deben presentarse de forma clara y el título de la tabla debe
describir en esencia el contenido de la tabla• La redacción debe ser lo más informativa posible y fácil de leer y
comprender• Una tabla consiste comúnmente en celdas dispuestas en filas y
columnas• En el caso de una encuesta por muestreo, el contenido de las celdas por
lo general consiste en estimaciones de los totales o en porcentajes de una población predefinida
• El redondeo se realiza a menudo para eliminar números irrelevantes • Una cuestión importante para las encuestas por muestreo son los
indicadores de precisión27