copyright 2010, grupo del banco mundial. todos los derechos reservados encuestas sobre estadísticas...

27
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas y registros de negocios

Upload: leocadio-de-anda

Post on 13-Feb-2015

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Encuestas sobre estadísticas de negocios

3. Procesamiento de datos

1

Estadísticas y registros de negocios

Page 2: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Sistema de archivos de microdatos

• Un archivo de microdatos debe ser configurado para almacenar los datos de la encuesta

• Un cierto número de operaciones de escritorio son necesarias antes de estén listas las etiquetas de direcciones del cuestionario

• Entre las más importantes se encuentran la eliminación de duplicaciones evidentes y la actualización de cambios de dirección reportados recientemente

• Las revisiones y actualizaciones de último momento antes del envío evitarán irritar a los encuestados, ayudarán a reducir la carga impuesta a los encuestados y la no respuesta

2

Page 3: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Identificación de unidades

• La comunidad de negocios es dinámica• Son de esperarse las discrepancias entre la

unidad informante prevista y la realidad• Es importante establecer la causa de las

discrepancias• Las correcciones y actualizaciones de las

unidades y sus atributos deben llevarse a cabo en estrecha cooperación con personal del RCN.

3

Page 4: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Modos de captura de datos • Básicamente, se producen cinco tipos de CAPTURA de datos:• Intercambio electrónico de datos (IED)• Escaneo• Reconocimiento óptico de caracteres (OCR, por sus siglas en

inglés)• Captura de datos confirmados• Captura de datos no confirmados

• Se requiere un software especial de captura de datos• Cuál de los métodos se deba aplicar es algo que depende de

los recursos laborales, equipos y conocimientos tecnológicos

4

Page 5: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Controles primarios• Cuando los formularios completados vuelven a la ONE, la

primera cosa a hacer es comprobar si no están (casi) en blanco

• Los formularios inutilizables pueden considerarse como no respuestas o pueden ser programados para seguimiento

• No se debe esperar para introducir los datos hasta que todo el proceso de recolección haya concluido

• Las acciones de seguimiento para con los encuestados que respondieron datos poco verosímiles debe llevarse a cabo tan pronto como sea posible después de que regrese el formulario

• Independientemente de los procedimientos de edición, los archivos sin procesar, tal como fueron presentados por los encuestados, también deben conservarse

5

Page 6: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Tipos de controles• La edición es el examen de los datos para la detección de errores• Sólo una parte de los errores cometidos por los encuestados

puede rastrearse• La edición de datos tiene lugar durante o después de la captura

de datos• Los controles de enrutamiento prueban si todas las preguntas

que deberían haberse contestado han sido en realidad contestadas

• Los controles de validación de datos comprueban si las respuestas son permisibles

• Los controles relacionales son una potente herramienta de edición

• Una edición exhaustiva implica el riesgo de una sobreedición6

Page 7: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Organización de la edición• No todas las estrategias de edición puestas en práctica

son eficientes• Existen cinco alternativas, algunas de las cuales pueden

ser combinadas entre sí:• Papel y lápiz• Iteración de la captura de datos y de las listas de errores• Captura de datos y edición asistidas por computadora • Edición automatizada• Edición selectiva

7

Page 8: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Tres etapas de la ediciónEn el proceso de edición se pueden diferenciar tres etapas:

• Se utilizan métodos estocásticos y deterministas para detectar errores

8

Page 9: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

• Edición selectiva

• La edición selectiva se concreta en la detección de valores aberrantes

• Puede tener lugar durante la captura de datos, o cuando se ha recogido ya la mayoría de los datos

• La edición durante la captura de datos (edición de entrada) tiene la ventaja de la puntualidad

• La edición de entrada es costoso• Para reducir los costos uno debe ser selectivo

9

Page 10: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Macro-edición

• La macro-edición o edición agregada es una forma de edición selectiva centrada en la salida

• Sistematiza lo que cada organismo de estadística hace antes de la publicación: verificar si las cifras de la publicación parecen plausibles

• Para ello se puede comparar los totales en celdas de publicación con las mismas cifras en el momento t-1

• La edición selectiva no está exenta de riesgos• Puede darse un sesgo si, por ejemplo, sólo las grandes desviaciones

positivas a partir del valor esperado, se corrigen, y un gran número de desviaciones negativas (los ceros) son ignoradas

• También la falsa estabilidad, debida a las empresas que envían exactamente las mismas respuestas en cada ocasión, puede dañar la validez de las cifras de la publicación

10

Page 11: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Controles externos de coherencia

• Hasta ahora nos hemos centrado en comprobaciones de la coherencia entre los elementos de un solo cuestionario

• Sin embargo, también pueden aplicarse controles con los datos de otros estudios

• Los controles externos de coherencia son un medio importante para reducir los problemas durante la etapa de integración

• La aplicabilidad de los controles externos depende del grado de coordinación entre las encuestas

11

Page 12: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Imputación

• Se distingue entre dos tipos de datos faltantes: no respuesta de unidad y no respuesta de elemento

• La imputación se aplica a la no respuesta de elemento• La no respuesta se aborda mediante una nueva ponderación• Hay una tercera manifestación de los datos faltantes, llamada falta

intencional de datos• Se puede distinguir entre tres tipos de elementos de no respuesta

– En el primer tipo los valores que faltan son completamente al azar– El segundo tipo no depende del valor de la variable, sino de los valores

de alguna(s) otra(s) variable(s)– El tercer tipo depende del valor de la variable en la que no se

encuentra, por ejemplo las puntuaciones altas son más propensas a faltar que las bajas

12

Page 13: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Estrategias para hacer frente a la no respuesta

• Dos estrategias generales aplican para tratar la no respuesta de elemento

• La primera estrategia ignora los valores que faltan• Este método es llamado análisis completo de caso• En la segunda estrategia se buscan estimaciones

para los datos que faltan• Si se eliminan todos los casos con uno o más valores

faltantes el tamaño de la muestra puede convertirse en algo muy pequeño

13

Page 14: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Métodos de imputación• Existen varios métodos de imputación, que van desde los procedimientos

estadísticos muy simples e intuitivos hasta los más complicados • Los métodos más importantes son:

– Tratamiento subjetivo: establecer la imputación sobre la base de los valores que parecen razonables

– Imputación promedio/moda: atribuir la media de una variable o la moda– Post estratificación: dividir la muestra en estratos y, a continuación, hacer

la imputación promedio/moda/mediana del estrato – Imputación 'cold deck': encontrar estimaciones razonables de los valores

que faltan en otro conjunto de datos– Imputación 'hot deck': encontrar un caso donante en el conjunto de datos– Imputación por regresión: definir variables de predicción y estimar el valor

faltante

14

Page 15: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Datos faltantes intencionales

• La faltan de datos intencional se produce cuando se ha decidido abstenerse de encuestar ciertas variables

• Esto se lleva a cabo deliberadamente con el fin de ajustarse mejor a los sistemas contables de los encuestados

• Ejemplo: para la recopilación de datos sobre "formación de capital fijo", es necesario el valor de compra de los activos

• Sin embargo, las empresas que alquilan los activos adquiridos, no serán capaces de proporcionar el valor de compra

• Por lo tanto, el cuestionario menciona "importes de arrendamiento pagados", y la ONE hace la imputación del valor de compra por medio de ciertas claves

• Los datos faltantes intencionales se convertirán en un fenómeno creciente en las estadísticas de las empresas para reducir la carga de reporte

15

Page 16: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Ponderación• Las muestras se traducen por información sobre sólo una parte de la

población objetivo• Es una práctica común para las oficinas de estadística atribuir

ponderaciones a los elementos de una muestra

• Los objetivos de la ponderación son:1. Ampliar la muestra a la población.2. Hacer frente a observaciones faltantes.3. Aumentar la precisión mediante la utilización de información auxiliar.4. Tener coherencia con los datos procedentes de otras fuentes.

• La ponderación, es decir, la atribución de pesos a unidades incluidas en la muestra, puede tener lugar en principio antes de la recopilación de datos

• La reponderación siempre se aplica después de la recopilación de datos16

Page 17: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Reponderación

• Se puede utilizar ponderaciones para ampliar la muestra a la población

• Los demás objetivos (hacer frente a las observaciones faltantes, aumentar la precisión, lograr la coherencia con los datos procedentes de otras fuentes) se alcanzan mediante el ajuste de las ponderaciones de inclusión

• El procedimiento de ajuste se llama reponderación• Esto se hace partiendo de la información auxiliar

17

Page 18: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Errores de marco y estimación• Los errores de marco complican el proceso de estimación• Hay cuatro categorías pertinentes para las encuestas de

negocios: • Subcobertura (unidades faltantes)• Sobrecobertura (inclusión de unidades diferentes a las de la población)• Listados duplicados o múltiples• Información auxiliar incorrecta (tamaño, actividad, construcción errónea de unidades, etc. )

• La subcobertura es quizás el problema más grave

18

Page 19: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Ajuste estacional

• Muchas series de tiempo económicas muestran fluctuaciones cíclicas

• Esto es más evidente en el caso de series publicadas con un período inferior a un año

• Las fluctuaciones involucradas se denominan fluctuaciones estacionales

• Las principales causas son los efectos calendáricos, los efectos institucionales y el clima

• Las series deben corregirse en cuanto a estas fluctuaciones estacionales

19

Page 20: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Ajuste estacional

• Los métodos de ajuste presuponen que una serie puede dividirse en tres componentes:• la tendencia y el ciclo• el componente estacional• el componente irregular

• La descomposición da una estimación de los factores estacionales, de la tendencia-ciclo y del componente irregular

• Hay varios métodos en dos amplias categorías: métodos de realización de censos y "enfoques basados en un modelo"

20

Page 21: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Control de la divulgación de datos tabulares

• Los resultados de las encuestas entre las empresas por lo general se publican en forma de tablas

• Los conjuntos de microdatos con los datos de las empresas casi nunca se publican

• En datos tabulares puede haber situaciones en las que es posible deducir información que corresponde a un encuestado individual a partir del total global

• Esto debe evitarse mediante el control de la divulgación de estadísticas (CDE)

• Hay tres métodos principales:1. Modificación del esquema de clasificación,2. Supresión de las celdas sensibles, y3. Redondeo de los valores de celda

21

Page 22: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Celdas sensibles en las Tablas

• Regla de dominancia: si la suma de las contribuciones de n o menos encuestados representa más de k % del valor total de la celda, entonces este valor de la celda no puede ser publicado.

• Los valores n y k en esta formula son parámetros cuyos valores han de ser elegidos

• Por ejemplo, uno podría elegir n = 3 y k = 75• La idea principal detrás de esta regla de dominancia es que si un

valor de la celda es dominado por el valor de uno de los encuestados, entonces su contribución puede estimarse con bastante exactitud

• Si hay m encuestados, luego m-1 de ellos pueden, mediante una puesta en común de información, revelar información acerca del valor de los datos de los encuestados restantes

• Debe por tanto elegirse un valor n más grande que el tamaño máximo de las coaliciones (imaginarias) de los encuestados

22

Page 23: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Tablas vinculadas

• Las secciones anteriores trataban del control de la divulgación de una sola tabla

• Cuando se publica un conjunto de tablas vinculadas, es decir tablas con variables comunes derivadas de los mismos microdatos, pueden surgir otros problemas

• Es posible que una tabla en sí misma no contenga ninguna celda sensible, pero que, al combinar la información que contiene con la información de otras tablas, pueda revelarse información individual

• Se podría eliminar una o varias de las tablas del conjunto de tablas vinculadas

• Otra opción es la de proteger el fichero de microdatos original contra la divulgación

23

Page 24: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Metadatos

• Los usuarios tienen derecho a ser informados sobre las características del producto que reciben

• La información debe incluir todos los elementos importantes del contenido de los datos y del procesamiento de datos, incluyendo:1. Una definición enumerando los componentes del concepto

(inclusiones y exclusiones) es a menudo más informativa que una definición más teórica

2. ¿Qué tipo de unidad se utiliza y cómo se define? 3. ¿Qué reglas de clasificación se han aplicado?4. ¿Cómo está delimitada la población?5. ¿Qué método de recolección se ha empleado (papel, teléfono,

etc. )?6. ¿Cómo se abordó la no respuesta?7. ¿Cómo han sido editados los datos? Etc.

24

Page 25: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Difusión

• Los intereses de los usuarios no coinciden necesariamente con los ámbitos cubiertos por las encuestas individuales

• Existe una amplia gama de grupos de usuarios y una amplia variedad de áreas de interés

• Las publicaciones pueden traslaparse• Existen muchos modos de difusión• La difusión electrónica, en particular a través de sitios

web de la ONE, se ha convertido en el modo dominante

25

Page 26: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Difusión Electrónica

• La cantidad de la información estadística disponible es inmensa...

• Se pueden distinguir tres tipos de clientes:1. El cliente ocasional que quiere algunas cifras básicas;2. El cliente interesado en un conjunto de información

específico con entregas regulares;3. El cliente que necesita grandes cantidades de datos

para necesidades cambiantes.

26

Page 27: Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Encuestas sobre estadísticas de negocios 3. Procesamiento de datos 1 Estadísticas

Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados

Tabulaciones

• Las tablas estadísticas son el corazón de una publicación• La primera condición para cada tabla es que el mensaje a comunicar

pueda ser entendido fácilmente• Los datos deben presentarse de forma clara y el título de la tabla debe

describir en esencia el contenido de la tabla• La redacción debe ser lo más informativa posible y fácil de leer y

comprender• Una tabla consiste comúnmente en celdas dispuestas en filas y

columnas• En el caso de una encuesta por muestreo, el contenido de las celdas por

lo general consiste en estimaciones de los totales o en porcentajes de una población predefinida

• El redondeo se realiza a menudo para eliminar números irrelevantes • Una cuestión importante para las encuestas por muestreo son los

indicadores de precisión27