1046 tratamiento de datos - ilowhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf ·...

83
Programa de Información Estadística y Seguimiento en Materia de Trabajo Infan- til (SIMPOC) Programa Internacional para la Erradicación del Trabajo Infantil (IPEC) Tratamiento de datos de encuestas sobre trabajo infantil y almacenamiento de ficheros electrónicos Guía práctica Revisado en Diciembre 2003 Oficina Internacional del Trabajo · Ginebra

Upload: others

Post on 23-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Programa de Información Estadística y Seguimiento en Materia de Trabajo Infan-til (SIMPOC)Programa Internacional para la Erradicación del Trabajo Infantil (IPEC)

Tratamiento de datos de encuestassobre trabajo infantil y almacenamientode ficheros electrónicos

Guía práctica

Revisado en Diciembre 2003

Oficina Internacional del Trabajo · Ginebra

Page 2: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Copyright © Organización Internacional del Trabajo 2004

Las publicaciones de la Oficina Internacional del Trabajo gozan de la protección de los derechos de propiedad intelectual en virtuddel protocolo 2 anexo a la Convención Universal sobre Derecho de Autor. No obstante, ciertos extractos breves de estas publica-ciones pueden reproducirse sin autorización, con la condición de que se mencione la fuente. Para obtener los derechos de repro-ducción o de traducción, deben formularse las correspondientes solicitudes a la Oficina de Publicaciones (Derechos de autor ylicencias), Oficina Internacional del Trabajo, CH-1211 Ginebra 22, Suiza, solicitudes que serán bien acogidas.

ISBN 92-2-313629-6

Primera edición 2004

Las denominaciones empleadas, en concordancia con la práctica seguida en las Naciones Unidas, y la forma en que aparecenpresentados los datos en las publicaciones de la OIT no implican juicio alguno por parte de la Oficina Internacional del Trabajosobre la condición jurídica de ninguno de los países, zonas o territorios citados o de sus autoridades, ni respecto de la delimita-ción de sus fronteras.La responsabilidad de las opiniones expresadas en los artículos, estudios y otras colaboraciones firmados incumbe exclusivamentea sus autores, y su publicación no significa que la OIT las sancione.Las referencias a firmas o a procesos o productos comerciales no implican aprobación alguna por la Oficina Internacional delTrabajo, y el hecho de que no se mencionen firmas o procesos o productos comerciales no implica desaprobación alguna.

Las publicaciones de la OIT pueden obtenerse en las principales librerías o en oficinas locales de la OIT en muchos países o pidién-dolas a: Publicaciones de la OIT, Oficina Internacional del Trabajo, CH-1211 Ginebra 22, Suiza, que también puede enviar aquienes lo soliciten un catálogo o una lista de nuevas publicaciones.

Fotocompuesto en Suiza BRIImpreso en Suiza VAU

Page 3: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Prólogo y nota de agradecimiento*

La preparación de los datos obtenidos en una encuesta suele llevar mucho tiempodebido, entre otras cosas, a que algunos aspectos relacionados con su tratamiento no seabordan adecuadamente ni con la suficiente antelación. Es muy importante que el tratamientode los datos se realice minuciosa e informadamente, por lo que en esta guía se ofrecen instruc-ciones detalladas que los expertos en planificación, digitación y sistemas informáticos encon-trarán útiles para el desempeño de su labor. Asimismo, se indican las condiciones y los proce-dimientos de transferencia de ficheros electrónicos a la OIT tras la finalización de lasencuestas sobre trabajo infantil, contribuyendo así a incrementar la cantidad de informacióndisponible al respecto en el mundo. El objetivo principal es facilitar la generación de micro-datos de gran calidad a partir de las encuestas sobre trabajo infantil.

La presente guía ha sido preparada por el Sr. Muhammad Q. Hasan, de SIMPOC/IPEC(OIT). Son muchas las personas cuya labor guarda relación con las encuestas sobre trabajoinfantil que han contribuido a su elaboración. Así pues, nosotros les expresamos el mássincero agradecimiento. En especial, damos las gracias al Sr. Sylvester Young, Director dela Oficina de Estadística de la OIT, y al Sr. Farhad Mehran, del Departamento de Integra-ción de Políticas de la OIT, por sus útiles comentarios y sugerencias.

Esta guía se revisará y reproducirá oportunamente, por lo que toda observación o suge-rencia será bienvenida. Los usuarios que lo deseen pueden ponerse en contacto con elPrograma de Información Estadística y de Seguimiento en Materia de Trabajo Infantil(SIMPOC) en la siguiente dirección: [email protected]

* A los efectos de la presente guía, el término niño se utiliza en sentido genérico e incluyetanto a los niños como a las niñas.

iii

Page 4: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Índice

1. Introducción

1.1 Antecedentes.............................................................................................................. 1

1.2 Acopio de datos sobre el terreno: sinopsis ................................................................ 2

1.3 Importancia del tratamiento de los datos .................................................................. 3

2. Planificación

2.1 Introducción .............................................................................................................. 5

2.2 Planificación del tratamiento de datos ...................................................................... 6

2.3 Definición de los aspectos pertinentes de un conjunto de datos................................ 6

2.4 Selección de equipos y programas informáticos ...................................................... 15

2.5 Dotación de personal ................................................................................................ 18

2.6 Cronograma del tratamiento de datos........................................................................ 19

2.7 Estrategia de conservación de los datos y procedimiento de acceso ........................ 19

3. Tratamiento de los datos

3.1 Introducción .............................................................................................................. 23

3.2 Entrada de datos y validaciones preliminares............................................................ 24

3.3 Concatenación, fusión y división de ficheros ............................................................ 25

3.4 Validación de los datos .............................................................................................. 30

3.5 Decisiones finales sobre los errores .......................................................................... 33

3.6 Conclusión del tratamiento de datos y generación de ficheros ................................ 33

3.7 Preparación de conjuntos de datos de uso público .................................................... 35

3.8 Documentación final.................................................................................................. 36

3.9 Tabulaciones finales .................................................................................................. 43

3.10 Conversión de los ficheros de datos a otros formatos .............................................. 44

3.11 Almacenamiento de los ficheros................................................................................ 45

4. Conservación de los datos

4.1 Introducción .............................................................................................................. 49

4.2 Organización de los ficheros .................................................................................... 49

4.3 Transferencia de un fichero a un lugar de conservación .......................................... 51

4.4 Copias de seguridad .................................................................................................. 52

Transferencia de ficheros a la OIT ............................................................................................55

Bibliografía y recursos adicionales ............................................................................................57

v

Page 5: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Glosario ........................................................................................................................................ 59

Anexos

Anexo I Comparasión de paquetes estadísticos .......................................................... 63

Anexo II Nombres de países y códigos correspondientes .............................................. 65

Anexo III Cuestionario de Encuesta de Finales de Década y Trabajo Infantil (módulo de educación) de Zambia .................................................................. 72

Anexo IV Ejemplo de lista de códigos para datos ASCII creada con SAS...................... 73

Anexo V Estructura del conjunto de datos .................................................................... 83

vi

Page 6: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

1. Introducción

1.1 Antecedentes

El Programa de Información Estadística y de Seguimiento en Materia de Trabajo Infan-til (SIMPOC) brinda apoyo a las encuestas sobre trabajo infantil que se realizan en muchosdiversos países. Uno de los aspectos más importantes del SIMPOC es la recopilación, elarchivo y la difusión de microdatos fiables, bien documentados y de fácil acceso. Ellorequiere un gran esfuerzo de planificación y organización, así como de ejecución de las acti-vidades previstas, sobre todo en cada país donde se espera reunir datos que se archivarándurante un período de tiempo indefinido.

Entretanto, esa información servirá de base en la OIT para constituir un depósito dedatos sobre el trabajo infantil en el mundo que podrá ser utilizado por diversas personas endiversos países y diversos entornos informáticos. Por consiguiente, los datos deben habersido depurados, ser consistentes, bien documentados y fácilmente accesibles para su uso, encualquier momento, en actividades de investigación y preparación de políticas. Los conjun-tos de datos que se envíen a la OIT deberán estar completos – incluir listas de códigos, cues-tionarios, etc. – y poder ser utilizados directamente por cualquier analista en cualquierentorno informático.

Las encuestas sobre trabajo infantil constan de tres fases. En primer lugar, se recopi-lan los datos mediante entrevistas a los niños o sus familiares. Tras la obtención de los datos,se lleva acabo su tratamiento. En esa fase se comprueba la información reunida en busca deerrores y se generan los microdatos y los ficheros documentales pertinentes. Por último, seanalizan los resultados desde la perspectiva de cualquier necesidad o política.

Aunque el tratamiento de los datos es un proceso difícil y complejo, es la fase que suelerecibir menos atención. Algunas actividades de tratamiento de datos, como la planificaciónde los equipos y programas informáticos requeridos y la capacitación del personal, puedenefectuarse simultáneamente a otras actividades como en diseño de encuestas y la obtenciónde datos sobre el terreno. Dado que en las encuestas sobre trabajo infantil los plazos son muyrígidos, se recomienda llevar a cabo todos los procedimientos de planificación, formación yensayo antes de acometer el acopio de datos sobre el terreno.

La fase de tratamiento de los datos comprende varias etapas que, a su vez, constan demúltiples pasos en los que pueden producirse – y de hecho se producen – errores. Las encues-tas sobre trabajo infantil son actividades de menor envergadura que los censos, pero, dadoque en su mayoría se realizan por primera vez y que en ellas se recoge una mayor cantidadde información que en muchas encuestas de hogares generales, tienden a ser más comple-jas. Si bien las actividades globales de elaboración de datos son, en muchos sentidos, análo-gas a las de otras encuestas de hogares generales, las encuestas sobre trabajo infantil requie-ren a veces más tiempo y más recursos porque las muestras son más grandes y loscuestionarios más extensos.

La consecución de resultados presentables tras las encuestas suele demorarse debido aque, a menudo, las cuestiones relacionadas con el tratamiento de los datos no se abordan demanera adecuada ni con la suficiente antelación. En esta guía se hace un rápido recorrido dela fase de recogida de datos para pasar, primero, a resaltar la importancia del tratamiento delos datos y, segundo, a proporcionar unas directrices pormenorizadas para su realización conespecial atención a ciertos aspectos relacionados con las encuestas sobre trabajo infantil. Enel capítulo 2 se aborda la planificación del tratamiento de los datos. En el capítulo 3 seexamina el tratamiento de los datos e, inmediatamente después de la conclusión de unaencuesta sobre trabajo infantil, la generación de ficheros y de conjuntos de datos bien docu-mentados para uso público. Una de las finalidades principales de esta guía es ayudar a los

1

Page 7: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

especialistas en tratamiento de datos de cada país a preparar conjuntos de datos fiables ydepurados junto con toda la documentación necesaria para realizar análisis secundarios trasla conclusión de una encuesta, a fin de que se elaboren datos agregados fidedignos. En elcapítulo 4 se facilita información sobre la conservación de los conjuntos de datos para queexista un acceso fácil y continuo a lo largo de un período de tiempo indefinido.

Los temas relacionados con el diseño de las encuestas, el análisis de los datos y su difu-sión quedan fuera del ámbito de la presente guía.

La información que presentamos en los siguientes capítulos debe considerarse única-mente como una orientación – naturalmente, es posible adaptar los procedimientos reseña-dos en función de los recursos disponibles a nivel nacional y de la experiencia en cadacontexto.

Esta guía, en su conjunto, está destinada a los planificadores y a los especialistas técni-cos encargados de supervisar las actividades de tratamiento de datos. Ahora bien, el capí-tulo 3 ha sido específicamente concebido para aquéllos que llevan a cabo el tratamiento efec-tivo de los datos, mientras que el capítulo 4 está pensado para los administradores de sistemasinformáticos encargados del almacenamiento de los datos de encuestas sobre trabajo infan-til. Asimismo, se ofrece un panorama general de aquellas actividades de tratamiento de datosque pueden realizarse en la fase de diseño de una encuesta.

1.2 Acopio de datos sobre el terreno: sinopsis

En general, es posible utilizar diversos métodos para recopilar datos, desde entrevistaspersonales o telefónicas hasta fotografías aéreas. Sin embargo, las encuestas sobre trabajoinfantil se realizan únicamente mediante entrevistas personales en las que sólo caben dosmétodos.

PAPI. En las entrevistas a lápiz y papel (paper-and-pencil interviews), los encuesta-dores utilizan cuestionarios en papel y anotan los datos con lápices. A continuación,las personas encargadas de la digitación los registran en las computadoras o los tras-forman para que las máquinas puedan leerlos combinando alguna técnica de lecturaóptica con tecnología de reconocimiento de caracteres. Sea cual fuere el método deentrada de datos que se utilice, no es necesario verificar la información. Se utilizanvarios medios para asegurarse de que los datos se introducen de forma adecuada. Estacuestión se examinará con mayor detalle en los capítulos siguientes.

CAPI. En las entrevistas personales con computadoras (computer-aided personal inter-views), los encuestadores disponen de aparatos electrónicos de mano (por ejemplo,computadoras tipo palmtop o portátiles) que permiten el registro digital directo de losdatos. Este método tiene varias ventajas en comparación con el de PAPI, ya que loserrores suelen producirse solamente durante el ingreso de los datos, pudiendo reali-zarse una verificación justo después de su obtención. La información se transfiere acomputadoras, sin necesidad de dedicar más tiempo a la entrada adicional de datos, ysu depuración puede comenzar casi de inmediato.

En esta guía se aborda principalmente el método PAPI, que es el utilizado para obtenerdatos en la mayoría de las encuestas sobre trabajo infantil.

2

Page 8: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

1.3 Importancia del tratamiento de los datos

El trabajo infantil es un problema que suele soslayarse en muchos sentidos. Con lasencuestas se pretende obtener datos cuantitativos fiables al respecto. Para llevar a caboencuestas nacionales se precisan cantidades considerables de dinero y un ingente esfuerzode organización en el que deben participar ministerios, oficinas nacionales de estadística yotras instituciones. Los datos resultantes se facilitan a especialistas en políticas, investiga-dores, analistas mundiales y responsables de campañas para que hagan saber al público losnocivos efectos del trabajo infantil. Todos aquellos mencionados anteriormente necesitandatos fiables y de fácil acceso sobre los diversos aspectos del trabajo infantil.

En los conjuntos de datos derivados de encuestas se observan errores de muestreo y deotros tipos. Los errores de muestreo se tratan durante la fase de diseño de la muestra y nolos abordaremos en esta guía. Los otros errores pueden deberse a los entrevistados, los entre-vistadores, los encargados de la digitación o los programadores de sistemas de tratamientode datos. Uno de los principales objetivos del tratamiento de datos es hallar esos errores ycorregirlos lo antes posible. Si se detectan errores irreparables, deben señalarse y explicarse.Los errores que pasan inadvertidos o no se señalan pueden alterar las interpretaciones de losdatos y, en último extremo, propiciar la adopción de políticas inadecuadas.

Es fundamental que las operaciones de tratamiento de datos – corrección de errores,controles de lógica y compilación de información para la documentación, entre otras – selleven a cabo correcta y minuciosamente para que la información de la encuesta sea fiable;de otro modo, los resultados de una encuesta bien hecha (datos obtenidos sobre el terreno)pueden verse limitados a unos pocos cuadros con información de dudosa calidad. Los analis-tas encontrarán difícil, si no imposible, utilizar los datos, mientras que los encargados deelaborar políticas nacionales e internacionales pueden verse inducidos a error por los resul-tados de esa encuesta.

Una de las claves en el tratamiento de datos es realizar una planificación exhaustiva.Es necesario detallar las diversas actividades lo antes posible y establecer planes de correc-ción.

La elaboración de los datos reviste una importancia capital para el resultado de laencuesta y la depuración y la verificación de los datos son vitales.

3

Page 9: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

5

2. Planificación

2.1 Introducción

Una planificación adecuada contribuye a obtener conjuntos de datos de gran calidad.Para lograrlo, hay dos factores esenciales:

• Método estadístico.Es necesario emplear buenos instrumentos de acopio de datosy una metodología de encuesta bien desarrollada.

• Procesamiento y almacenamiento ulterior de los conjuntos de datos.Un segundoaspecto fundamental es el uso informado de instrumentos establecidos de tratamientode datos y de una metodología apropiada, así como la utilización de equipos y progra-mas informáticos modernos para las actividades pertinentes.

En la mayoría de los casos, las encuestas sobre trabajo infantil se efectúan como opera-ciones independientes o vinculadas a algún tipo de encuesta nacional de hogares. En lasencuestas independientes, usualmente se entrevista a los niños y padres. Atendiendo a estu-dios iniciales, en esta guía se ha decidido utilizar la hipótesis de que la recopilación de datosen todas las encuestas sobre trabajo infantil se realiza con el método de lápiz y papel (PAPI).La planificación de las encuestas y la depuración de los datos se abordarán desde el ángulode esa hipótesis.

Una vez terminadas las entrevistas, los datos obtenidos se introducen en una computa-dora. Esa entrada puede llevarse a cabo bajo el control de supervisores en oficinas sobre elterreno o en la sede de la encuesta, que suele ser la oficina nacional de estadística. Si losdatos se introducen sobre el terreno, existirá un fichero al menos en cada ubicación de campo.Dado que se empleará el mismo cuestionario, todos los ficheros generados en esas ubica-ciones tendrán algunas variables en común. Sea cual fuere el modo de recopilar los datos,los distintos ficheros se agregarán antes de realizar la depuración de los datos o justo después,normalmente en la sede de la encuesta.

Si la encuesta sobre trabajo infantil es un módulo de una encuesta de hogares másamplia (si, por ejemplo, forma parte del módulo sobre la salud y la educación de los miem-bros de la familia), los datos relativos al trabajo infantil podrán obtenerse al mismo tiempoque los demás (como sucede con las encuestas independientes) o por separado, sin la infor-mación correspondiente a la vivienda (que se obtiene como parte de otro módulo). Asimismo,es posible recopilar los datos en momentos diferentes (por ejemplo, si se trata de una encuestatrimestral sobre la mano de obra, la muestra total será la de todo el año). En esos casos, esnecesario extraer de otros ficheros la información correspondiente al hogar y combinarlacon los datos sobre trabajo infantil. Habrá, pues, que agregar y fusionar datos (ambas acti-vidades se describen con mayor detalle más adelante). Después de preparar un fichero dedatos, se realiza la depuración (también pueden efectuarse depuraciones parciales en elfichero de cada módulo).

Cabe señalar que resulta difícil definir el trabajo infantil si no se estudia detenidamentetoda la información relativa a los niños – hay que analizar la información sobre el hogar ylos demás miembros de la familia para poder comprender las causas y las consecuencias deltrabajo infantil.

Un caso distinto1 es el de las encuestas realizadas en varias fases con una serie decuestionarios para entidades diferentes o con una cobertura distinta. En ese caso, puede quehaya que presentar los datos en ficheros separados, sin fusionarlos ni concatenarlos.

1 Un ejemplo de ello es el informe Survey of activities of young people in South Africa 1999[trad.: Encuesta de actividades de personas jóvenes en Sudáfrica 1999]realizado con ayuda delSIMPOC , http://www.ilo.org/childlabour/simpoc/southafrica/report/rep1999,pdf (en inglés).

Page 10: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Todas las situaciones descritas nos advierten de la necesidad de realizar una planifica-ción detenida antes de tratar la información reunida y ponerla a disposición de los analistas.Todos los aspectos de la planificación se pueden abordar mientras se diseña la encuesta. Silas limitaciones financieras y temporales no son óbice, habría que ensayar todas las activi-dades de tratamiento de datos durante la encuesta piloto (ese proceso es fundamental cuandose utiliza el método CAPI para la recogida de los datos). Una planificación exhaustiva yoportuna reduce considerablemente el tiempo realmente dedicado al tratamiento de los datos.

En las siguientes secciones examinaremos los aspectos de planificación que hay queconsiderar antes de llevar a cabo el tratamiento de datos.

2.2 Planificación del tratamiento de datos

La planificación repercute en el tratamiento de datos sobre todo de dos maneras. Porun lado, debe decidirse la forma en que se llevará a cabo el tratamiento efectivo de los datos,lo cual se examinará detenidamente en el capítulo 3. Pero, primero, hay que establecer losrecursos y las definiciones necesarios para realizar un tratamiento de datos eficaz y eficiente.Este primer paso puede denominarse «planificación».

La planificación comprende los siguientes elementos esenciales:

• definición de los aspectos pertinentes del conjunto de datos,

• selección de equipos y programas informáticos,

• establecimiento de la dotación de personal,

• cronograma del tratamiento de datos,

• formulación de una estrategia de conservación de los datos,

• diseño de un procedimiento de acceso.

2.3 Definición de los aspectos pertinentes de un conjunto de datos

En primer lugar, los microdatos deben ser correctamente procesados para que los analis-tas puedan utilizar eficazmente el conjunto de datos derivado de ellos. Ello implica variasetapas. La planificación preliminar es fundamental e incluye el establecimiento y la defini-ción de algunos aspectos del conjunto de datos como los siguientes.

Variables de identificación de registros

Para identificar un caso o registro, suele crearse y codificarse una variable de identifi-cación con un valor único. Hay, pues, que determinar el método de codificación y los elemen-tos que constituyen esa variable – que a menudo se designa como identificador único deregistro – a la que se asignará un nombre según el procedimiento descrito más adelante eneste capítulo. Esa variable de identificación será el único vínculo entre el conjunto de datosoriginal, que contiene todas las variables, y los conjuntos de datos de uso público (en que esposible que se hayan suprimido muchas variables de identificación por razones de confi-dencialidad) o que se encuentran en ficheros diferentes, aunque será necesario realizar unacomparación cruzada de la información.

6

Page 11: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

7

Por ejemplo, puede bastar una combinación de un código estatal o provincial, un códigode zona y un número de hogar consecutivamente para identificar un hogar de forma distin-tiva. Es posible utilizar un número de línea (posición de una persona en un hogar) para iden-tificar a un miembro de la familia de forma exclusiva. Existen otras posibilidades para alcan-zar el mismo objetivo, pero habrá que tener siempre cuidado a la hora de combinar losnúmeros y, además, cada hogar y cada una de las personas que integran la familia deberántener su propio identificador único.

Estructura de los ficheros

En las encuestas sobre trabajo infantil, la unidad de análisis es el «niño» o la «persona»,mientras que el medio es el «hogar», porque para obtener la información sobre el niño o lapersona se identifica primero el hogar. Así pues, merece la pena decidir de antemano cómodeben ser los ficheros de datos finales.

La estructura de los ficheros de datos puede diferir considerablemente en cuanto a suformato y organización cuando, después de la introducción de los datos, los ficheros se ponena disposición de especialistas para que realicen análisis secundarios. ¿Es preferible un granfichero con un registro extenso de datos (que describan tanto al niño como la vivienda enque reside, por ejemplo), o sería mejor disponer de varios ficheros pequeños con registrosbreves (en que, por ejemplo, la información sobre el niño y el hogar se encuentren en fiche-ros diferentes con una variable vinculante)? La decisión dependerá de factores como el modode realizar la encuesta y el soporte lógico estadístico empleado para introducir y elaborarlos datos. Cabe utilizar las siguientes consideraciones como directrices.

Un fichero puede contener un registro grande o varios registros pequeños. Cuando existeun número elevado de registros, la velocidad de tratamiento de los datos es menor. Algunospaquetes estadísticos (por ejemplo, Stata) limitan el número de registros a un máximo devariables. Por otra parte, una de las ventajas de los registros grandes en un único fichero esque los analistas no tendrán que fusionar ficheros más tarde. En el anexo I se describenalgunas limitaciones de paquetes estadísticos como SPSS, SAS y Stata.

Los datos pueden organizarse en un fichero de tal modo que los registros sobre loshogares vayan seguidos de los registros sobre las personas (con distintos tipos de registrosen un fichero jerárquico ASCII). Otra posibilidad es crear dos ficheros separados: uno parala vivienda y otro para una persona que resida en ella, con variables de conexión bien defi-nidas comunes a ambos ficheros, en el formato de un paquete específico. También puedecrearse un fichero único fusionado con registros grandes. En esos ficheros, los valores demuchas variables se repetirán para los miembros del mismo hogar, lo cual requerirá másespacio de almacenamiento. Cada sistema tiene sus ventajas e inconvenientes y en toda deci-sión de planificación deberá tenerse en cuenta la forma de reunir los ficheros que forman unconjunto de datos y cuál será su estructura.

Dependiendo de la forma en que cada programa informático específico maneje losficheros de datos, pueden surgir problemas durante la creación de ficheros de gran tamañoen el entorno Windows. Un fichero de datos sobre trabajo infantil puede resultar grande si seasocia con una encuesta de trabajo, así que puede ser necesario dividirlo antes del análisis.

La estructura de los ficheros debe decidirse en función de los recursos informáticosdisponibles y la experiencia en sistemas de tratamiento de datos. Ahora bien, debido a susencillez, se recomienda utilizar ficheros planos, siempre que sea posible, para las encues-tas de trabajo infantil.

Page 12: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Denominación de los ficheros

Cuando se crea un fichero, hay que darle un nombre, por lo que vale la pena decidir deantemano la forma en que se nombrarán todos los ficheros. Esto significa, como mínimo,adoptar una convención de denominación.

Para empezar, se recomienda que el nombre refleje siempre el contenido del fichero.También puede incluirse el número de versión del fichero (en el capítulo 3 veremos cómose generan versiones diferentes). Por lo que respecta en concreto a las encuestas sobre trabajoinfantil, se recomienda consignar la siguiente información en el nombre de los ficheros:

• contenido del fichero (datos, documentación, cuestionario, etc.),

• persona a la que se refiere el fichero (niño, padre o madre, familia),

• número de versión de que se trate,

• país donde se haya realizado la encuesta,

• si un fichero es de uso general o restringido.

Estas convenciones uniformes de denominación resultan de suma utilidad a los usua-rios cuando tienen que elegir el fichero que necesitan dentro de un conjunto de datos. Engeneral, facilitan el procesamiento del contenido – a menudo después de transcurrido muchotiempo – de sistemas de almacenamiento informático que podrían contener hasta miles deficheros. Asimismo, puede incluirse otro tipo de información en el nombre, como el año dela encuesta o el ciclo. Ahora bien, por lo general el número de caracteres que pueden emple-arse para denominar un fichero es limitado, permitiendo la mayoría de los sistemas infor-máticos estructuras del tipo 8.3 – esto es, 8 caracteres para el nombre del fichero propia-mente dicho y 3 para su extensión (por ejemplo, MY_FILE.DOC). La extensión sueleasignarla el paquete con que se creó el fichero (por ejemplo, MSWORD utilizará la exten-sión DOC). Dicho de otro modo, sólo se puede jugar con 8 caracteres para expresar elmáximo de información posible sobre la naturaleza de un fichero. En vista de esas limita-ciones, se recomienda la siguiente convención de denominación.

Todos los nombres de los ficheros deben comenzar con un código de país (en el anexoII se ofrece una lista de códigos de dos caracteres), seguido de la letra N si se trata de unniño, P si se trata de uno de los padres, F si es una familia (incluidos los padres y los niños)y de V para la vivienda. El número de versión se indica a continuación y, dado que es muyposible que con el tiempo se superen las nueve versiones, conviene utilizar dos caracteres.La letra G indica que el fichero es de uso general y la R que es restringido. En octavo lugarfigurará la letra D, Q o C – datos, cuestionario o código respectivamente –, que indica elcontenido del fichero. Si alguno de esos campos no es aplicable, debe sustituirse por elsímbolo ( _ ), simplificando así las manipulaciones durante el tratamiento informático. Enresumen, cuando se nombren los ficheros siguiendo una estructura de 8.3, debe utilizarse lasiguiente convención.

Primeros ocho caracteres

• Caracteres primero y segundo – código de país

• Caracteres tercero y cuarto – niño/padre o madre (persona), vivienda o ambos

•• Para niño exclusivamente

•• Para el niño y el padre o la madre (familia)

8

Page 13: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

•• V_ Para vivienda

•• P_ Para el padre o la madre solamente

•• FV Para un fichero único que contenga información sobre el niño, los padres yla vivienda.

Nota: el signo de subrayado ( _ ) se utiliza para rellenar el espacio correspondiente alcuarto carácter

• Caracteres quinto y sexto – número de versión

•• 01 Primera versión u original

•• 02 Segunda versión y, por consiguiente, diferente de la original

•• etc.

• Carácter séptimo – uso del fichero

•• G Uso general (público)

•• R Uso restringido (interno) (en caso de que sean sólo datos)

• Carácter octavo – contenido del fichero

•• C Para la lista de códigos (normalmente asociada con un fichero de datos ASCII)

•• D Para datos

•• I Para resumen de la clasificación de industrias

•• S Reglas de control de la consistencia

•• Q Para cuestionario

•• O Para resumen de la clasificación de ocupaciones

•• L Para las variables

Los últimos tres caracteresdespués del punto decimal indican el tipo de fichero(paquete informático u otro).

He aquí varios ejemplos para aclarar la convención:

BDN_01RD.DOC/SAV/POR

La versión original de un fichero con datos sobre niños en Bangladesh podría llamarseBDN_01RD, donde BD significa Bangladesh; N significa niños; _ indica que no se disponeinformación sobre las casas (o viviendas) en las que viven; 01 significa que ese fichero esla primera versión; R expresa que el fichero es de uso restringido y D que son datos. Elfichero de datos de uso público que se deriva el anterior llevaría casi el mismo nombreBDN_01GD. Los cuestionarios correspondientes se denominarían BDN_01GQ (como loscuestionarios son de uso público general, deben llevar siempre el código G). La extensiónindica si se trata de un fichero de datos o de un documento de un paquete específico. Porejemplo, los ficheros de datos SPSS llevan la extensión SAV o POR, mientras que los docu-mentos MS llevan la extensión DOC.

UAFV04RD.[xxx]

Análogamente, un fichero que contenga datos sobre los padres, los hijos y las vivien-das en Ucrania y que sea la cuarta versión puede llamarse UAFV04RD. La versión de usopúblico se denominaría UAFV04GD. Los cuestionarios correspondientes serían

9

Page 14: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

10

UAFV04GQ, mientras que un fichero de descripción de variables se denominaríaUAFV04GL. El nombre de un fichero de clasificación de ocupaciones sería UAFV04GO.Todos los nombres de los ficheros deben llevar la extensión de tres caracteres pertinente.

PAFV02RD.txt

Un fichero de datos ASCII que contenga información sobre los padres, los hijos y lasviviendas en Panamá y que sea la segunda versión puede denominarse PAFV02RD.txt si esde uso restringido y PAFV02GD.txt si es de uso público. El fichero de códigos asociado sellamaría PAFV02GC, con la extensión TXT o DOC según el tipo de fichero.

Creación y denominación de las variables

Después de terminar una encuesta, se crea un conjunto de variables a partir del cues-tionario (variables primarias). En una etapa posterior, podrán generarse variables derivadasa partir de las variables primarias. Si no se sigue una convención, la denominación de esasvariables puede resultar difícil. He aquí varias reglas empíricas:

• Los nombres de las variables deben expresar el significado del contenido de los datosque representan. Cualquier analista potencial debe poder confiar en que se aplicanlos mismos nombres de variables a los mismos datos. Si se utilizan dos preguntaspara determinar la situación laboral de un encuestado – por ejemplo, para preguntarsobre su trabajo actual y su trabajo habitual – las variables que representen esaspreguntas no deben denominarse «trabajo 1» y «trabajo 2», ya que no queda claro aqué se refiere cada una.

• Lo ideal es que los cuestionarios se preparen de tal modo que cada pregunta corres-ponda a una variable cuyo nombre se haya decidido previamente. Por ejemplo, lavariable correspondiente a la pregunta «¿Cuántos años tiene usted?» puede llamarseEDAD. Los cuestionarios de ese tipo suelen denominarse cuestionarios anotados.

• Igual que sucede con los ficheros, la denominación de las variables suele dependerde paquetes estadísticos que restringen el número de caracteres utilizables a ocho omenos (por ejemplo SPSS)2. Los entornos informáticos disponibles en un paísconcreto influyen también en las convenciones de denominación.

• En los cuestionarios de preguntas con respuestas múltiples debe asignarse un nombrede variable a cada respuesta. Por ejemplo, si en la pregunta número 9 hay dos respues-tas para elegir una, las variables pueden llamarse P9a y P9b.

Es posible aplicar varios métodos para denominar a las variables 3.

Variables numeradas desde uno. En este enfoque , se numeran las variables conse-cutivamente. Así, si hay 100 variables en un fichero, ellas pueden ser numeradas desde 1hasta 100. No obstante, muchos paquetes estadísticos de software no admiten nombres devariables que comiencen con un dígito (por ejemplo SPSS), lo que se hace usualmente escolocar una letra al comienzo del nombre de las variables (por ejemplo en SPSS las varia-

2 En el anexo I se ofrece más información sobre el número máximo de caracteres permitidospor algunos paquetes estadísticos para denominar a una variable.

3 Se siguen los enfoques delineados en: Inter-university Consortium for Political and SocialResearch (ICPSR), Guide to Social Science Data Preparation and Archiving. http://www.icpsr.umich.edu/access/dpm.html

Page 15: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

bles serán asignadas de v1 a v100 o de var001 a var00100). Los nombres de las variablespueden ser cambiados manualmente después. Sin embargo, el problema de este método esque frecuentemente es imposible de comprender el significado de una variable o de parearlos nombres de algunas variables con sus respectivas preguntas sin etiquetas adicionales.Errores pueden ocurrir fácilmente si se les da nombre a las variables manualmente deesta manera .

Números de preguntas.Una posible alternativa al método de numerar las variablesdesde uno es de darle a las variables el nombre de la pregunta respectiva, por ejemplo P1 esel nombre que corresponde a la pregunta 1. Dado que las preguntas de respuesta múltiplerequieren de la creación de más de una variable por pregunta, una letra puede ser anexadadespués del número de la pregunta, P4a, P4b, etc. Dado que todos los cuestionarios de trabajoinfantil consisten de varias secciones, la primera letra se puede escoger para que representela sección (A1, A2 ... B4a, B4b, etc. donde A y B son diferentes secciones). De nuevo, etique-tas adicionales pueden ser utilizadas para explicar el significado verdadero de las variables.

Nombres mnemotécnicos.En este método, se le da a las variables un nombre querepresenta el concepto de las variables. No obstante, la misma palabra puede ofrecer dife-rentes significados a diferentes usuarios. Además, el máximos de 8 caracteres en el nombrede las variables puede imponer severas restricciones para transmitir el verdadero significado.También es difícil de asignar manualmente la misma palabra a diferentes variables trans-mitiendo el mismo tipo de significado.

Sistemas de prefijo, raíz y sufijo.Una posible alternativa al método de nombresmnemotécnicos para construir nombres de variables es el de utilizar palabras abreviadasdefinidas con anticipación y unirlas como prefijo, raíz y sufijo. Por ejemplo, todas las varia-bles relacionadas a niños pueden utilizar NI como prefijo; TS y TA para significar el trabajode la última semana y el trabajo del último año, respectivamente, como raíz; y GRP paragrupo de casos, como sufijo.

Variables derivadas.Como hemos mencionado anteriormente, las variables derivadasse crean a partir de una o más variables primarias. Por ejemplo, la edad puede ser una varia-ble primaria, pero los analistas podrían necesitar información sobre niños del grupo de edadentre 5 y 9 años. La información sobre la edad concreta de cada niño puede agruparse paraformar la variable derivada «grupo de edad». Se recomienda diferenciar, siempre que seaposible, las variables primarias de las derivadas. Se aconseja también, por diversas razones,que el conjunto de datos de uso público no contenga un número elevado de variables deri-vadas: ello supone dedicar mucho tiempo al tratamiento de los datos. Además, para que esasvariables puedan utilizarse de forma adecuada, deben acompañarse de suficientes explica-ciones y los conjuntos de datos pueden resultar demasiado extensos o difíciles de manejar.También puede ocurrir que los analistas no tengan la ocasión de emplear las variables deriva-das ulteriormente y prefieran crear variables derivadas a medida de sus propias necesidades.

Cabe recordar que los coeficientes de ponderación que se incluyen en las series de datosno son variables del cuestionario y deben ser tratados por separado. Debería llamárseles«ponderación», siguiendo la convención de denominación aplicada a las variables primarias.

Naturalmente, cada país puede escoger la convención de denominación que convengapara sus variables. Ahora bien, a fin de mantener una consistencia internacional por lo querespecta a los datos sobre trabajo infantil, se recomiendan las siguientes reglas:

• Utilizar el método de números de las preguntas para denominar las variables, demodo que los caracteres que representen la sección aparezcan como primer carácteren el nombre de la variable.

• Utilizar el método de raíz, prefijo y sufijo para denominar las variables derivadas.

11

Page 16: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

12

• Utilizar mayúsculas para las variables primarias, cuando sea posible.

• Utilizar minúsculas para las variables derivadas.

• Denominar el coeficiente de ponderación siguiendo las mismas normas que para lasvariables primarias, pero de modo que sea fácil diferenciarlo de ellas.

Asignación de etiquetas de variables

Los conjuntos de datos son más difíciles de comprender si no se describen correcta-mente los atributos asociados a las variables – por ejemplo, la pregunta literal que se hizo alos encuestados. Los interesados en realizar análisis secundarios de las encuestas sobretrabajo infantil prefieren que se incluya toda la información en cada conjunto. Un métodoposible es asignar etiquetas adecuadas a todas las variables.

Como hoy en día casi todos los software de procesamiento de datos (por ejemplo SPSS)ofrecen la opción de añadir etiquetas, esta opción se debe utilizar para describir cada varia-ble. En caso que no se pueda encontrar ninguna etiqueta apropiada, la pregunta literal juntoen el número de pregunta correspondiente puede ser utilizado como etiqueta. Si la variablees una variable derivada, se puede añadir una etiqueta para indicar cuál variable o cuálesvariables se utilizan para crear esta nueva variable, y si es posible indicar la razón para creardicha variable.

Codificación

Para analizar la información obtenida durante el acopio de datos en el terreno, se utili-zan paquetes de programas informáticos de análisis estadístico. Así pues, es necesario trans-formar esa información en datos que puedan ser leídos por el programa que se vaya a utili-zar. Para ello, hay que codificar cada respuesta. El proceso por el que se determina quésímbolo representa a qué ítem se conoce como codificación. La codificación debe llevarsea cabo durante el diseño de la encuesta y es importante que las personas que se ocuparán deltratamiento de los datos participen en esa labor.

Las encuestas sobre trabajo infantil deberían precodificarse antes del acopio de losdatos. Habría que codificar en el cuestionario todos los valores posibles – inclusive respues-tas como «no disponible», «no aplicable», «no responde» – y los entrevistadores deberíanrecibir formación al respecto. Esa medida reduciría sobremanera el tiempo necesario parala codificación durante la entrada o el tratamiento de los datos. A continuación se presentanalgunas directrices, basadas en Guide to Social Science Data Preparation and Archiving4

[trad.: Guía para la preparación y archivo de datos de las ciencias sociales] de ICPSR y Surveyanálisis[trad. Análisis de encuesta] de Audience Dialogue5.

Si surge la necesidad de códigos adicionales (por ejemplo, para añadir códigos adicio-nales para preguntas abiertas), esto se debe hacer con consideración apropiada al esquemade codificación definido durante el diseño del cuestionario. Es particularmente importantede asegurar que no hay traslapes entre categorías de códigos y que cada código calza en sóloun categoría.

• Para preguntas abiertas, las categorías o clasificaciones mayores deben ser identifi-cadas al examinar el número de respuestas y deben ser utilizadas para codificación

4 ibid. 5 Audience Dialogue: Survey analysis. http://www.audiencedialogue.org/kya5.html

Page 17: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

13

adicional. El significado de cada código debe ser documentado claramente. Duranteel proceso de codificación adicional también es buena práctica el preservar el máximode información posible en los datos como son recolectados (es decir, no colapsar niagrupar, etc).

• Por lo que respecta a la codificación de las ocupaciones, es importante seguir unformato uniforme establecido por alguna de las instituciones de normalización reco-nocidas – por ejemplo, la Clasificación internacional uniforme de ocupaciones,CIUO-88 – y emplear tantos dígitos como sea posible para brindar el máximo deinformación.

• Deben especificarse todos los tipos posibles de valores faltantes (como «no responde»o «no aplicable») y asignarse el mismo valor (99, por ejemplo) a cada tipo en elmismo conjunto de datos. Los siguientes factores suelen ser los causantes de quefalten valores en los datos en encuestas de trabajo infantil y debería asignarse uncódigo diferente a cada caso.

•• No responde.La persona encuestada no responde.

•• No sabe.La persona encuestada es incapaz de responder a la pregunta. Porejemplo, es posible que no tuviera noción del tiempo o de matemáticas y hubieserespondido «no sé» a la pregunta «¿Cuáles fueron sus ingresos totales el añopasado?» (nunca debe animarse a los encuestados a responder «no sé»).

•• No aplicable.Por alguna razón válida, la pregunta no fue formulada. Después deuna respuesta «no trabaja», por ejemplo, no se hicieron las preguntas relativas alos ingresos.

No coincide.Se ha observado en muchas encuestas sobre trabajo infantil que valoresfaltantes quedaron sin completar o se codificaron con un «cero» que no fue definido previa-mente. Por consiguiente, es fundamental asignar códigos diferentes a todos los casos duranteel proceso de codificación: todos los casos deben estar precodificados en el cuestionario. Si,por algún motivo, no se completan los valores faltantes con algún código, deben explicarseclaramente los motivos en la documentación.

A menudo resulta bastante difícil codificar algunos ítems como las ocupaciones y lasindustrias. Cuando se crean códigos, pueden olvidarse algunas clasificaciones (como sucede,por ejemplo, con las ocupaciones), lo que dificulta aún más el trabajo de los encuestadores.Por lo tanto, se alienta a los países a consultar los siguientes recursos de la OIT:

Clasificación internacional uniforme de ocupaciones (CIUO)6

Clasificación internacional de la categoría en el empleo (CISE)7

Clasificación industrial internacional uniforme de todas las actividades económicas(CIIU) 8

Clasificaciones de lesiones profesionales9

Esta lista, que no es exhaustiva, puede consultarse en la página Web de la Oficina deEstadística de la OIT10. Las clasificaciones sobre trabajo infantil, en las que las categorías

6 Ibíd.7 Tomado de http:// http://www.ilo.org/public/spanish/bureau/stat/class/icse.htm 8 Tomado de http://www.ilo.org/public/spanish/bureau/stat/class/isic.htm9 Tomado de http://www.ilo.org/public/spanish/bureau/stat/class/acc/index.htm 10 Detalles pueden ser obtenidos de http://www.ilo.org/public/spanish/bureau/stat/index.htm.

Page 18: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

pertinentes difieren de un país a otro, todavía no están listas y puede ser preciso crear esque-mas adicionales de codificación.

Reglas de consistencia y lógica

Es importante crear todas las reglas de lógica que sea posible utilizando el cuestiona-rio como base. Ello requiere un excelente conocimiento del mismo y de su flujo, lo cual seráde gran ayuda a los programadores informáticos en una etapa posterior. En primer lugar,reglas de consistencia deben elaborarse estudiando el direccionamiento de cada pregunta(por ejemplo, si la respuesta a la pregunta 20 es «sí», hay que introducir la instrucción deque se salten las preguntas 21 y 22). Algunos ejemplos de respuesta a cuestionarios quesugieren otras reglas de control de la consistencia son las siguientes:

• Se indica que un niño menor de 6 años ha terminado la enseñanza secundaria.

• Se indica que un niño no trabaja pero que aporta dinero al hogar.

• Un niño no trabaja, pero se indica que ha sufrido una lesión relacionada con el trabajo.

También hay que establecer reglas de control lógico cuando los datos contienen un valorlegítimo pero que parece incorrecto. Por ejemplo, se señala que una persona tiene 11 hijos.Ese dato puede ser cierto, pero a primera vista puede parecer incorrecto y puede significarfácilmente un error tipográfico. El valor correcto más probable puede ser 1 hijo. La reglacorrespondiente sería: «Señalar los casos en los que los padres indiquen tener más de10 hijos». Los casos que resulten marcados deberán ser comprobados manualmente.

Imputaciones

Después de realizar los controles de consistencia, es posible completar muchos de losvalores faltantes mediante procedimientos de imputación. Las imputaciones sirven paracalcular los valores que faltan cuando los encuestados no responden a determinados ítems.Una regla de imputación es, por ejemplo, calcular los ingresos de una persona mediante unafórmula que comprenda la edad, el tipo de trabajo, la escala salarial y el número de díastrabajados en una zona geográfica determinada. Es conveniente preparar tantas fórmulas deeste tipo como sea posible utilizando el cuestionario como base.

Ha de decidirse el modo de incorporar las variables imputadas a los conjuntos de datos.Cuando sea pertinente, pueden crearse y ensayarse programas computarizados a tales efectos.Para mayor sencillez, es posible generar una variable totalmente nueva que incluya losvalores imputados para los códigos faltantes o sustituya los códigos que faltan por valoresimputados junto con una variable marcada con el valor 1 para imputado y el valor 0 en casocontrario.

Ponderación

Dado que todas las encuestas sobre trabajo infantil se basan en muestras de la pobla-ción, es necesario ponderar los datos para generar estimaciones a nivel nacional. Cuando sedecide el procedimiento de muestreo, hay que preguntarse si los errores típicos basados enun muestreo aleatorio simple son apropiados o si se requieren métodos más complejos. Sihay que efectuar ponderaciones, deben describirse. En la documentación, ha de indicarse latasa de respuesta, especificando la proporción de los integrantes de la muestra que partici-paron efectivamente en la encuesta. La tasa de retención también debe señalarse cuando seaaplicable. Las ponderaciones suelen estar a cargo de especialistas y es fundamental dispo-ner de todas las fórmulas de ponderación con una descripción de todos sus elementos muchoantes de iniciar el tratamiento de los datos.

14

Page 19: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

15

Documentación

La documentación debe ser una parte integrante de la planificación, como lo es el análi-sis. Hay que decidir quién se encargará de llevar un diario de lo que sucede durante el trata-miento de los datos, incluyendo consideraciones como los problemas experimentados, lasprincipales decisiones tomadas y cualquier método de imputación que se haya aplicado. Enla sección sobre «documentación final» (sección 3.8) se ofrece más información al respecto.

2.4 Selección de equipos y programas informáticos

La posibilidad de contar con los recursos necesarios para llevar a cabo una encuestasobre trabajo infantil depende en gran medida de los equipos y programas informáticos ydel personal de que disponga la oficina nacional de estadística. Teniendo en cuenta esas limi-taciones, cuando se seleccionen equipos y programas informáticos para el tratamiento dedatos debe pensarse en los siguientes aspectos:

• las computadoras y las impresoras,

• la entrada y la depuración de los datos,

• el procesamiento estadístico y las tabulaciones,

• la documentación y otras tabulaciones,

• las utilidades informáticas:

•• herramientas automatizadas (para realizar tareas repetitivas),

•• herramientas para transferir ficheros entre computadoras,

•• programas antivirus,

• los accesorios de soporte físico,

•• cables, discos, CD, UPS, etc.

Computadoras e impresoras

Dado que los datos se introducirán por lotes y probablemente de forma paralela, serequiere una computadora personal para cada operador de digitación. Sin embargo, los opera-dores pueden usar a menudo la misma computadora en momentos diferentes. También esnecesario disponer de impresoras que admitan el formato horizontal. Si se utilizan impre-soras matriciales o de líneas, deben tener una capacidad de 120 caracteres por línea.

Una computadora Pentium con un disco duro de 1 GB es más que suficiente para eltratamiento de datos y el almacenamiento temporal de la información correspondiente a lasencuestas sobre trabajo infantil. También hace falta una computadora permanente para archi-var el conjunto final de datos. Es sumamente recomendable que la computadora utilizadapara el almacenamiento permanente de los datos sea distinta de la que se utiliza para el trabajocotidiano, aunque se trate de una computadora central compartida por distinta secciones dela oficina nacional de estadística para conservar datos de manera permanente.

Entrada y depuración de los datos

A veces se dedica un ingente número de horas de trabajo a la preparación de progra-mas informáticos para comprobar los eventuales errores en la entrada de datos. Sería mejorutilizar programas informáticos de entrada automática de datos, ya que suelen disponer de

Page 20: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

16

alguna herramienta de verificación integrada. A lo largo del tiempo, diversas organizacio-nes han diseñado programas de ese tipo para introducir los datos y validarlos inicialmente(la lista que figura a continuación no es exhaustiva):

Blaise11. Blaise es un sistema de soporte lógico flexible y relativamente potente parala gestión de encuestas con microcomputadoras. Creado por la Oficina Central de Estadís-tica de los Países Bajos, permite realizar entrevistas, ingresar datos y editarlos con ayuda deequipos informáticos. Además, simplifica el tratamiento ulterior de los datos recopilados.Este soporte lógico se utiliza principalmente en los países de la Unión Europea.

IMPS 12. Este sistema integrado de procesamiento informático, diseñado inicialmentepara DOS por la Oficina del Censo de los Estados Unidos, ha sido reemplazado por unaversión para Windows. Muchos países en desarrollo lo están utilizando para la entrada dedatos.

ISSA13. Se trata de un sistema integrado para el análisis de encuestas (IntegratedSystems for Survey Analysis)creado por SerPro Ltda., de Chile, y Macro Internacional, delos Estados Unidos. Diversos países en desarrollo lo están utilizando para entrar datos. Laevidencia siguiere que el ISSA no tiene una base amplia de usuarios en los países SIMPOCy ofrece servicios de formación y documentación limitados.

EpiInfo 14. Este programa de tratamiento de textos, bases de datos y estadística para elsector de la salud pública en microcomputadoras compatibles IBM ha sido desarrollado porlos Centros para el Control y la Prevención de Enfermedades de los Estados Unidos. Muchospaíses en desarrollo lo están utilizando para ingresar datos.

CSPro15. Este sistema de tratamiento de censos y encuestas (Census and Survey Proces-sing System)fue creado también por la Oficina del Censo estadounidense. Se ha previstoque el CSPro, que tiene muchas características en común con IMPS, ISSA y EpiInfo, susti-tuya progresivamente a los dos primeros.

La evaluación pormenorizada de los programas informáticos citados queda fuera delámbito de esta guía. Sin embargo, la disponibilidad de fondos, personal capacitado y micro-computadoras influyen en la decisión sobre el soporte lógico que se utilizará para el trata-miento de las encuestas sobre trabajo infantil.

Si no se dispone de otro tipo de soporte lógico para la entrada de datos ni de personalcualificado de la oficina nacional de estadística, puede utilizarse el CSPro (véase más arriba),un programa estadístico de dominio público, para introducir, tabular y procesar los datos delas encuestas. El programa y su documentación están disponibles en línea, aunque tal vezhaya que registrarse. La Oficina del Censo puede organizar cursos, pero no son gratuitos.Según la documentación del programa, éste puede tratar los datos de encuestas sobre trabajoinfantil. Sin embargo, aunque parece que algunas oficinas nacionales de estadística lo utili-zan, todavía no se ha probado específicamente en encuestas sobre trabajo infantil. Tal vezvalga la pena realizar la inversión necesaria para ensayarlo.

11 Para más información, véase http://neon.vb.cbs.nl/blaise.12 Para más información, refiérase al Buró de Censo de Estados Unidos http://www.census.

gov/ipc/www/imps/index.html 13 Para más información, refiérase a http:// www.serpro.com/about.asp 14 Para más información, refiérase a Centre for Disease Control and Prevention http://www.

cdc.gov/epiinfo/epi6man/epi6titl.htm15 Para más información, refiérase al Buró de Censo, http://www.census.gov/ipc/www/

cspro/index.html.

Page 21: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

17

Otra posibilidad es utilizar Blaise (véase más arriba), un programa informático de fácilmanejo en el que la entrada y la manipulación de los datos puede realizarse a gran veloci-dad. Consta de una utilidad de edición interactiva y capacidades de gestión de encuestas.Este programa no es gratuito, pero se ofrece a un precio reducido a los países en desarrollo.Sin embargo, tiene varias características que hacen más difícil su aprendizaje a las personasque no dominan la programación. Una de ellas es la utilización de conceptos avanzados deprogramación, como los parámetros de la trascripción mecanográfica de los datos y de proce-dimiento. Otra es la falta de formularios estructurados para ayudar a definir los cuestiona-rios y sus variables. Además, Blaise se utiliza poco fuera de Europa, por lo que no existetodavía una base establecida de usuarios en los países en desarrollo.

En cualquier caso, es conveniente ensayar el soporte lógico con antelación. El perso-nal de digitación debe recibir la formación oportuna sobre el uso de los programas infor-máticos y estar familiarizado con las encuestas relativas al trabajo infantil antes de llevar acabo la introducción efectiva de los datos.

Procesamiento estadístico y tabulaciones

Según parece, prácticamente todas las oficinas nacionales de estadística tienen accesoa los paquetes estadísticos SAS o SPS, o a ambos. Si no es así, debería escogerse un paqueteestándar de soporte lógico estadístico (por ejemplo, SPSS, SAS o Stata). Cuando no seaposible, el soporte lógico de entrada de datos puede servir para realizar el tratamiento dedatos de las encuestas sobre trabajo infantil (EpiInfo, por ejemplo, permite analizar datos).Véase el anexo 1, en el que se comparan los paquetes estadísticos SAS, SPSS y Stata.

Documentación y otras tabulaciones

Muchas oficinas de estadística están utilizando Microsoft Office Suite, que comprendeWord, Excel y Access y permite crear toda la documentación apropiada, inclusive los cues-tionarios. Tanto MS Excel (una hoja de cálculo) como Access (una base de datos) son fácilesde usar para preparar cuadros. También puede utilizarse TPL, un programa para generarcuadros del soporte lógico QQQ16. Una vez más, la disponibilidad de recursos y de perso-nal cualificado serán los principales criterios a la hora de elegir un sistema informáticocompleto.

Utilidades informáticas

La siguiente de lista de utilidades informáticas no es exhaustiva y, en la actualidad, seestán utilizando muchas otras herramientas en los países.

Bases de datos. Por lo general, los usuarios están poco familiarizados con los paque-tes estadísticos y podrían preferir un subconjunto de datos (o incluso el conjunto completode datos) en un formato de base de datos. Muchos paquetes estadísticos permiten registrarlos datos en dicho formato y algunos programas, como Access de Microsoft, pueden resul-tar bastante útiles.

Programas para comprimir ficheros (por ejemplo, WinZip, PKZIP y gzip).Estosprogramas se utilizan para comprimir ficheros. A veces es posible reducir el tamaño de losficheros hasta un 80% o más con ese tipo de programas. La compresión es útil cuando quedapoco espacio de almacenamiento en el disco duro o si se quiere utilizar disquetes para trans-ferir ficheros de una computadora a otra.

16 Para más información, refiérase a QQQ Software, Inc. http://www.qqqsoft.com.

Page 22: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Compiladores (por ejemplo, Visual Basic, FoxPro, C++). Se trata de aplicacionesinformáticas de programación que pueden utilizarse adicionalmente a las que ya figuran enel paquete estadístico. Se pueden utilizar para crear interfaces de entrada de datos fáciles deusar, por ejemplo, o para crear programas de automatización interna para realizar tareas repe-titivas que respondan a las necesidades del usuario.

Programas de conversión.Algunas utilidades informáticas como Stat Transfer yDBMScopy convierten ficheros de un paquete estadístico a otro. La aplicación proc convertstatementsde SAS puede convertir fácilmente los ficheros portátiles SPSS en conjuntos dedatos SAS.

Programas de transferencia de ficheros.Estos programas permiten transferir fiche-ros entre computadoras sin necesidad de que estén conectadas. Algunas utilidades de esetipo son la conexión directa por cable, que se incluye en el sistema operativo Windows, oLL3 para transferencias que no se basan en Windows. Estos programas son también útilespara transferir ficheros entre computadoras que funcionan en red.

Programas antivirus y de recuperación.Algunos programas como Norton Utilities,McAffe Virus Shield y Scan Disk (que pueden incluirse o no en el sistema operativo) no sóloofrecen protección contra ataques de virus, sino que pueden servir para recuperar ficherosalterados.

Accesorios físicos

Además de las computadoras, tal vez se necesiten algunos accesorios físicos comocables, disquetes, CD, fuentes de alimentación continua (UPS), ventiladores y deshumidi-ficadores. Los problemas relacionados con los accesorios diferirán de un país al otro.

2.5 Dotación de personal

Se precisarán los siguientes recursos humanos:

Operadores de digitación.Su misión es realizar tareas como la entrada de datos y lasvalidaciones iniciales.

Aunque en algunos países se está intentando utilizar tecnología de digitación combi-nada con sistemas de reconocimiento óptico de caracteres para la entrada de datos, la mayoríade los datos de las encuestas sobre trabajo infantil siguen introduciéndose manualmente. Elpersonal de digitación debe estar familiarizado con los programas informáticos de entradade datos, así como con el diseño de cuestionarios. Lo ideal sería que tuviese experienciaprevia en ese tipo de actividades. Como mínimo, se requiere dominio del teclado de lacomputadora y un buen nivel de mecanografía.

Regla empírica: se necesitan 10 operadores de digitación trabajando en paralelo unas40 horas semanales durante dos meses para introducir y realizar la validación preliminar delos datos relativos a 8.000 hogares.

El uso del método CAPI para la obtención de datos elimina la necesidad de operadores.

Personal de tratamiento de los datos.Estas personas deben conocer el cuestionariode la encuesta, así como los procedimientos de tratamiento, edición y tabulación de datos.Han de estar familiarizadas con los paquetes estadísticos y ser capaces de encontrar errores

18

Page 23: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

en un conjunto de datos y corregir algunos de ellos. También han de poder realizar eficien-temente tareas repetitivas.

Un programador de sistemas informáticos.Esta persona debe ser capaz de crearprogramas – en un formato informático concreto o utilizando otros lenguajes de programa-ción de computadoras – basados en reglas de control de la consistencia. Lo ideal sería quefuese también capaz de comprender el cuestionario de la encuesta y de elaborar reglas deconsistencia. Si algún programador participa en el diseño del cuestionario, es muy reco-mendable incluirlo ulteriormente en el equipo de programación.

Un administrador de sistemas informáticos.Se necesita un administrador compe-tente de sistemas informáticos que conozca la gestión de sistemas independientes o en red,impresoras, métodos de transferencia de ficheros, sistemas antivirus, generación de copiasde seguridad y métodos de recuperación de ficheros alterados.

Un supervisor.Para este puesto se requiere un especialista en tratamiento de datos muycualificado, con experiencia en programación, capaz de supervisar todo el proceso de trata-miento de datos. Debe tener experiencia previa en la gestión del tratamiento de los datos deencuestas o censos y conocer los paquetes de programas informáticos utilizados para proce-sar los datos de encuestas sobre trabajo infantil.

Es probable que una sola persona pueda realizar varias de las actividades que acaba-mos de describir. Si tal es el caso, el supervisor debe decidir cuáles de esas actividades estarána su cargo y cuánto tiempo deberá dedicarles a cada una.

2.6 Cronograma del tratamiento de datos

El tiempo es siempre un factor crucial en las encuestas sobre trabajo infantil. Algunosfactores que pueden retrasar la digitación y el tratamiento de los datos son los procedimientosadministrativos, las demoras en la presentación de los informes sobre los progresos realiza-dos a los organismos de financiación, la escasez de recursos y la formación del personal. Enlos planes, debería expresarse que todas las actividades de tratamiento de datos deben termi-nar, como máximo, en un plazo de tres meses a partir de la fecha de inicio de la entrada dedatos, aunque suelen bastar dos meses. Otra importante consideración es determinar quétareas que pueden realizarse en paralelo y de qué recursos humanos se dispone.

A continuación, presentamos directrices para el procesamiento de 8.000 registros dehogares con una cincuentena de preguntas. Cuanto mayor sea el número de registros dehogares o de preguntas, mayor será normalmente la necesidad de recursos para el ingreso yla depuración de los datos y la corrección de errores, así como de tiempo para efectuar todasesas actividades. En cambio, si el número de registros o preguntas es menor, se precisaránmenos recursos y tiempo. El siguiente cronograma puede servir de orientación para lasencuestas independientes sobre trabajo infantil:

• un mes, aproximadamente, para la entrada de datos, incluidas las codificacionesadicionales,

• un mes, aproximadamente, para la validación de los datos.

2.7 Estrategia de conservación de los datos y procedimiento de acceso

Las encuestas suelen concluir con la preparación de cuadros. Si los microdatos no searchivan de manera adecuada, pueden quedar obsoletos con el tiempo. Ello puede suceder,

19

Page 24: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

por ejemplo, si se almacenan en el formato de un paquete informático determinado queposteriormente se sustituye por una versión más moderna. Durante la planificación, hay quetener en cuenta las estrategias de almacenamiento de los datos y de acceso ulterior a lainformación.

Cuando se decidan los procedimientos de conservación de datos y de acceso a losmismos, debe prestarse especial atención a los siguientes factores:

Equipos físicos.A veces, se utilizan en una oficina nacional de estadística equipos enlos que se guardan también otros conjuntos de datos, por ejemplo, una estación de trabajocon capacidad de almacenamiento fuera de línea o un servidor en el que se conserven datos.Como mínimo, se requiere una computadora Pentium que no se utilice para el trabajo coti-diano.

Programas informáticos de automatización.Puede tratarse de programas internosdiseñados especialmente para las necesidades del usuario y que variarán en función de lasplataformas de soporte físico disponibles en cada país. Estos programas informáticos se utili-zan para llevar a cabo tareas repetitivas, por ejemplo comprobar que ningún fichero quedasin transferir o etiquetar.

Estructura de los directorios.Es necesario diseñar una estructura para almacenardatos, documentación y ficheros de programas. Cabe recordar que los ficheros se crearáncon paquetes informáticos diferentes. No es una buena práctica almacenar todos los fiche-ros correspondientes a un mismo conjunto de datos en un único directorio (en el capítulo 4presentaremos un ejemplo de estructura de directorios).

Política de acceso. Debe decidirse quién tendrá acceso al conjunto de datos. Es posibleque alguna persona del departamento, de otro ministerio u otra organización, o incluso delexterior, solicite el acceso a los datos. En general, la política de acceso debe permitir quetodos los usuarios tengan acceso a ellos. Sin embargo, puede suceder que determinados datosse restrinjan exclusivamente a un grupo concreto de usuarios.

Política de copias de seguridad (backups).Los procedimientos de generación decopias de seguridad de los datos de encuestas sobre trabajo infantil serán probablementesimilares a los utilizados para los demás datos en general. En cualquier caso, hay que teneren cuenta los siguientes aspectos:

• de qué ficheros hay que hacer copias de seguridad;

• con qué frecuencia se efectuarán copias (diariamente, semanalmente, mensual-mente, etc.);

• qué soporte se utilizará para conservar las copias de seguridad (CD, disquetes, etc.);

• qué procedimiento se utilizará – qué persona estará a cargo y cómo se realizarán lascopias; los procedimientos de generación de copias durante y después del tratamientode los datos son diferentes:

•• Durante el tratamiento, los ficheros están incompletos y las copias de seguridadse efectúen para períodos cortos (de todos modos, casi siempre se pueden recu-perar las versiones más recientes si el sistema se colapsa). Por lo general, los fiche-ros temporales son pequeños; normalmente es posible guardar los ficheros de trata-miento de los datos sobre trabajo infantil en un par de disquetes.

•• Después del tratamiento de datos es necesario efectuar copias de seguridad perma-nentes.

Procedimientos de divulgación.La política de acceso determina, en parte, de ladivulgación de los datos. Los procedimientos de divulgación deberían ser sencillos. Algunos

20

Page 25: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

enfoques posibles son la divulgación en línea por Internet o en una Intranet y la divulgaciónfuera de línea mediante disquetes o CD-ROM. Es preciso establecer procedimientosdetallados.

Todas las actividades de planificación pueden realizarse al mismo tiempo que se diseñala encuesta y se obtienen los datos sobre el terreno. La planificación debe haber concluidoantes de que finalice el acopio de datos para que la digitación pueda comenzar de inmediato.

21

Page 26: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

3. Tratamiento de los datos

3.1 Introducción

En muchos sentidos, el tratamiento de los datos de encuestas no ha cambiado en lasúltimas décadas. Sin embargo, con la aparición de tecnología más sofisticada, esa actividadse ha agilizado y su fiabilidad ha aumentado.

En primer lugar, se recogen los datos con cuestionarios que se cumplimentan manual-mente. Después, se cuentan los cuestionarios rellenados y se coteja la cifra obtenida con elnúmero de personas entrevistadas. Luego, se codifican los datos y se envían para su digita-ción. Los operadores entran los datos con la mayor rapidez posible introduciendo automá-ticamente lo que ven. En algunos países, se utiliza tecnología de lectura óptica (escáner) yprocedimientos de reconocimiento óptico de caracteres (OCR): se digitan las respuestas delos cuestionarios y se hace un reconocimiento de los caracteres para identificar códigos mane-jables por los programas informáticos de estadística. Si el acopio de datos se realiza con elmétodo CAPI, ese proceso no será necesario. Ahora bien, la mayoría de las encuestas sobretrabajo infantil se realizan con el método PAPI, así que hay que recoger los datos lo antesposible para efectuar un cómputo preliminar de la encuesta.

Como hemos mencionado anteriormente, el tratamiento de los datos es la segunda etapadel proceso de encuesta. Primero se reciben los datos, normalmente de varias fuentes, y luegose transforman en un formato conveniente para la etapa siguiente, el análisis.

Los datos pueden recogerse en papel o en forma digital. Análogamente, su tratamientopuede ser electrónico o no. De las consultas iniciales a los países se desprende que las acti-vidades de tratamiento de los datos de encuestas sobre trabajo infantil se realizan electróni-camente, en la mayoría de los casos con computadoras personales de sobremesa. Así pues,solamente abordaremos en esta guía el tratamiento electrónico de datos.

Independientemente de la forma de digitar los datos, debe prestarse atención a lassiguientes fases durante su tratamiento:

• entrada de datos y validaciones preliminares;

• concatenación, fusión y división de ficheros;

• validación de los datos (nuevos controles, edición e imputaciones);

• decisiones finales sobre los errores;

• finalización del tratamiento y generación de uno o varios ficheros de datos;

• preparación de conjuntos de datos de uso público;

• documentación final;

• tabulaciones finales;

• conversión de los ficheros de datos en otros formatos si es necesario;

• almacenamiento de todos los ficheros.

Los datos de las encuestas sobre trabajo infantil deben pasar por estas etapas sin quese utilicen «atajos» o métodos simplificados. Los «atajos» rara vez son eficaces, ya que incre-mentan el riesgo de producir conjuntos de datos dudosos y, por ende, menos fiables, en losque se requiere más tiempo para corregir los errores.

En las siguientes secciones de este capítulo examinaremos esas etapas con mayorprofundidad. Se recomienda la lectura detenida de este capítulo a las personas encargadasdel tratamiento de los datos antes de iniciar su labor. Cabe recordar que también es impor-tante incluir coeficientes de ponderación adecuados en los datos.

23

Page 27: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

3.2 Entrada de datos y validaciones preliminares

Dependiendo de la situación en un país dado, la entrada de datos puede realizarse sobreel terreno (bajo el control de un supervisor de campo) o en la sede de la encuesta.

Si los datos se introducen por lotes, cada lote debe figurar en un fichero distinto, enlugar de todos juntos en un único fichero de gran tamaño. Lo más importante es que en estaetapa los datos se ingresen justo después de su obtención y que se verifiquen para compro-bar que toda la información se ha introducido correctamente. Deben existir procedimientosde detección de errores, los cuales deben corregirse de inmediato.

Los operadores de digitación no deben interrumpir su trabajo mientras introducen losdatos de un registro de hogar específico. Aunque la interrupción sea muy breve, se trata deuna práctica que propicia errores.

Después de introducir los datos de un lote, los cuestionarios deben empacarse, etique-tarse y almacenarse para poderlos consultar en el futuro si se desea.

A continuación, presentamos diversos errores habituales en la entrada de datos y lasmedidas de precaución o corrección pertinentes:

Introducción de datos de un cuestionario antiguo (por ejemplo, de una encuestapiloto). Esta circunstancia puede verificarse comprobando la fecha de la entrevista oel color del papel del cuestionario (ya que deberían utilizarse colores diferentes paralas encuestas piloto y las encuestas reales). Convendría programar el soporte lógico dela entrada de datos de forma que reconociese este problema automáticamente.

Datos erróneos pero dentro del intervalo de variación.Ejemplo: se consigna el sexode una niña como varón. Tanto «hombre» como «mujer» son válidos, por lo que esoserrores escapan a los controles estadísticos normales. Es conveniente crear programasespecíficos para determinadas preguntas y ensayarlos antes de utilizarlos.

Datos erróneos fuera del intervalo de variación (código aberrante o wild code). Si1 significa «hombre» y 2 «mujer», el valor 3 es un error. Los procedimientos de distri-bución de frecuencias pondrán de relieve esos casos. Cuando se localice un error deeste tipo, debe compararse el registro erróneo con otras respuestas para corregirlo.

Lógica errónea (consistencia).Supongamos que se indica que un niño de 6 años haterminado el ciclo de enseñanza secundaria. Es posible que el niño haya contestadocorrectamente, pero que se haya inscrito mal la respuesta. Este tipo de error es detec-tado también por programas hechos a medida para distintas preguntas. Cuando se loca-lice un error, debe compararse con otras respuestas para corregirlo.

Espacios sin llenar en el cuestionario (datos faltantes).Los códigos de datos faltan-tes para ítems como «no aplicable» y «no contesta» pueden no haber sido establecidosen el cuestionario, aunque hubiera sido lo correcto. También puede suceder que durantela entrada de los datos se hayan dejado esos espacios sin llenar para hacerlo más tarde.Sea como fuere, todos estos espacios en blanco deben detectarse y completarse con elcódigo apropiado.

Doble entrada (mismos registros o casos digitados más de una vez).Dado que losdatos se ingresan por lotes, puede suceder que un mismo caso o registro sea digitadodos veces. Es posible efectuar controles para detectar ese tipo de errores (por ejemplo,mediante los números de identificación única). Cuando aparezca un caso de este tipo,las acciones posibles son suprimirlo (algunos programas informáticos de entrada dedatos no lo permiten), marcarlos o comunicárselos al supervisor.

24

Page 28: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Disparidad en el número de registros (para los ficheros jerárquicos).Un registrode «vivienda» puede ir seguido de un registro de «personas que residen en la vivienda».En este caso, pueden producirse dos tipos de error. Uno de ellos es que el número deregistros de personas sea mayor o menor que el que se obtuvo realmente. El segundoes que falten todos los registros de algún hogar. Ambos casos pueden detectarse y corre-girse con un programa adecuado.

Casos descartados (entrevistados pero abandonados).A veces no se introducendeterminados datos en la computadora. Si se descartan casos o registros por algúnmotivo, hay que efectuar las verificaciones pertinentes.

Errores de concatenación (datos ingresados pero agregados incorrectamente).Cuando se entran los datos por lotes, es necesario crear programas para concatenar ofusionar los ficheros. El número de casos debe ser igual al tamaño de la muestra o alnúmero de personas entrevistadas (o registros obtenidos), según el que sea aplicable.

Los programas informáticos de entrada de datos que hemos descrito pueden detectarmuchos de estos errores. La entrada de datos con soporte lógico interactivo suele llamarse«entrada inteligente de datos». El método de «doble entrada» – en el que dos personas dife-rentes entran los mismos datos y luego se comparan los dos ficheros para hallar las even-tuales diferencias – se utiliza también para validar el proceso de introducción de datos.

Por lo que respecta a las encuestas sobre trabajo infantil, se recomienda aplicar ambosmétodos, el de «doble entrada» y el de «entrada inteligente de datos».

Los ficheros electrónicos resultantes de la entrada de datos pueden generarse en formade módulos. En ese caso, debe verificarse cada módulo por separado, repasando los cues-tionarios cada vez que sea necesario. Cuando se concluya la entrada de los datos, habrá quecomprobar las variables de identificación de los registros para asegurarse de que todas sonexclusivas. De no ser así, habrá que corregir los casos en los que haya errores consultandode nuevo los cuestionarios para que los digitadores no tengan problemas durante la fusiónde los ficheros.

3.3 Concatenación, fusión y división de ficheros

«Concatenación» es el método de combinar varios ficheros con diferentes observacio-nes (consistiendo de variables) en un solo fichero. Las propiedades de cada variable sonusualmente las mismas en cada fichero. Conceptualmente, ayuda pensar en la concatena-ción como un incremento vertical del tamaño de los datos.

«Fusión» es le método de combinar variables de diferentes ficheros en un solo fichero.Las variables en cada fichero describen la misma observación, usualmente con diferentesunidades, tales como hogar y persona. Conceptualmente, ayuda el pensar en la fusión comoun incremento horizontal del tamaño de los datos. Los ficheros a fusionar deben tener unao más variables de identificación únicas en común. Operaciones de fusión pueden ser dediferente tipos dependiendo de cómo se fusionan los ficheros.

Por un lado, «división», también llamada partición, se refiere a la división de ficheros.Esto puede ocurrir en términos de números ya sea de variables u observaciones.

Extrema precaución debe tomarse al concatenar ficheros. Concatenación frecuente-mente lleva a valores faltantes, aun si los ficheros a ser concatenados están perfectamentelimpios y correctos. Diferentes tipos de concatenación, fusión y división de ficheros sedescriben adelante. Éstos están basados en las notas de clase de SPSS de los Servicios

25

Page 29: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Académicos de Tecnología de la Universidad de California en Los Angeles (UCLA)17 y elCentro de Población de Carolina de la Universidad de Carolina del Norte18.

Fusión «uno a uno»

La fusión «uno a uno» (one-to-one merging)se refiere al proceso de unir ficheros enlos que un registro en cada fichero constituye un caso y cada registro en cada fichero debetener al menos una variable de identificación única. Puede o no haber más de una variablecomún.

La fusión se lleva a cabo en función de las variables de identificación única. Este proce-dimiento suele aplicarse cuando se obtienen datos en momentos diferentes, o cuando seentran como dos módulos distintos, de manera que se genera más de un fichero. Por ejemplo,el Fichero 1 (fichero de vivienda) puede incluir tres variables (a1, a2 y a3) que representanla edad del cabeza de familia, las fuentes de energía de la vivienda y el número de personasque residen en la casa (véase el cuadro 1 más adelante). Por otra parte, el Fichero 2 (ficherode persona) puede incluir información más detallada sobre el cabeza de familia, como elnúmero de horas trabajadas por semana (x1), el nivel de estudios (x2) y los ingresos (x3).Los números 1, 2 y 3 son identificadores únicos de registros o casos basados, quizás, en elgrupo, la vivienda y el número de línea colocados en orden. En ese caso, se producirá unafusión de uno a uno, ya que en una vivienda hay un cabeza de familia. El fichero resultantede la fusión presentará los seis ítems de información (variables) sobre esa persona en unsolo fichero.

Durante la fusión uno-a-uno, algunos paquetes estadísticos ponen restricciones alnúmero de variables (Stata, por ejemplo, tiene un límite de 2.047 variables. Las limitacio-nes impuestas por algunos paquetes se incluyen en el Anexo I). A pesar de que es poco proba-ble en encuestas de trabajo infantil que el número de variables exceda el número permitidopor algún paquete estadístico en particular, los procesadores de datos deben mantenerse alertaante la posibilidad durante una fusión uno-a-uno.

Cuadro 1 Ejemplo de fusión uno a uno

Antes de la fusión Después de la fusión

Fichero 1 (vivienda) Fichero 2 (persona) (Los números son identificadores únicos utilizados para la fusión)

1 a1 a2 a3 1 x1 x2 x3 1 a1 a2 a3 x1 x2 x3

2 b1 b2 b3 2 y1 y2 y3 2 b1 b2 b3 y1 y2 y3

3 c1 c2 c3 3 z1 z2 z3 3 c1 c2 c3 z1 z2 z3

Excepciones: Uno de los ficheros tiene más casos que el otro. O ambos ficheros tienen lasmismas variables. Cada paquete estadístico puede tratar esas situaciones de manera diferente.

La operación puede realizarse de la siguiente manera:

• Ordenar (SORT) el fichero de vivienda por variable de identificación única y grabarcomo un fichero separado (Fichero1), conservando así el original por si hubiera algúnaccidente.

26

17 SPSS Learning Module Match merging data fileshttp://www.ats.ucla.edu/stat/spss/modules/merge.htm

18 Stata Programming: Data Management http://www.cpc.unc.edu/services/computer/presen-tations/statatutorial#combining

Page 30: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

• Ordenar (SORT) el fichero de persona por variable de identificación única y grabarcomo fichero separado (Fichero2), conservando así el original por si hubiera algúnaccidente.

• Asegurarse de que ambos ficheros (Fichero1) y (Fichero2) están correctamentegrabados cerrándolos y reabriéndolos.

• Ejecutar la correspondencia de ficheros ( MERGE FILES) para fusionar los fiche-ros Fichero1 y Fichero2.

• Grabar el fichero fusionado (Nuevo fichero).

Ejemplo sintaxis de programación con SPSS:

GET FILE=«Household.sav».SORT CASES BY ID.SAVE OUTFILE=«Fichero1.sav».GET FILE=«Persons.sav».SORT CASES BY ID.SAVE OUTFILE=«Fichero2.sav».MATCH FILES FILE=«Fichero2.sav» /FILE=«Fichero1.sav» /BY ID.SAVE OUTFILE=«Nuevo.sav».

Fusión «uno a varios»

La fusión «uno a varios» (one-to-many merging)es el proceso de fusión de ficheroscuando un conjunto de varios registros constituye una observación y los registros de la mismaobservación están emplazados en ficheros diferentes. Cada registro de cada fichero debetener al menos una variable de identificación única. Puede haber o no más de una variablecomún. Por ejemplo, puede haber una vivienda en la que residan tres personas. La infor-mación sobre la vivienda (por ejemplo, tipo de construcción, situación de propiedad o arren-damiento, renta, etc.) figura en el Fichero 1, mientras que la información sobre cada persona(por ejemplo, edad, sexo, situación socioeconómica, etc.) figura en el Fichero 2. La infor-mación sobre la vivienda será la misma para cada uno de los miembros que residen en ella.En el cuadro 2 se ofrece un ejemplo de fusión de uno a varios, en el que un registro de viviendapuede estar asociado con los registros de más de una persona, dependiendo del número depersonas que residan en ella. Cada registro de cada fichero debe constar de una «variable deidentificación única» común para la fusión, que se realizará sobre la base de esa variable única.

Cuadro 2 Ejemplo de fusión uno a varios

Antes de la fusión Después de la fusión

Fichero 1 (vivienda) Fichero 2 (persona) (Los números son identificadores únicos utilizados para la fusión)

1 a1 a2 a3 1 x1 x2 x3 1 a1 a2 a3 x1 x2 x3

Igual que en la vivienda 1 1 y1 y2 y3 1 a1 a2 a3 y1 y2 y3

Igual que en la vivienda 1 1 z1 z2 z3 1 a1 a2 a3 z1 z2 z3

2 b1 b2 b3 2 m1 x1 z1 2 b1 b2 b3 m1 x1 z1

Igual que en la vivienda 2 2 z1 m1 m2 2 b1 b2 b3 z1 m1 m2

3 c1 c2 c3 3 m1 y1 y2 3 c1 c2 c3 m1 y1 y2

Igual que en la vivienda 3 3 x1 y1 y2 3 c1 c2 c3 x1 y1 y2

Excepción: Uno de los ficheros tiene registros que no coinciden con el otro. Cada paqueteestadístico puede tratar esa situación de manera diferente.

27

Page 31: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

La operación puede realizarse de la siguiente manera:

• Ordenar (SORT) el fichero de vivienda por variable de identificación única y grabarcomo fichero separado (Fichero1), conservando así el original por si hubiera algúnaccidente.

• Ordenar (SORT) el fichero de persona por variable de identificación única y grabarcomo fichero separado (Fichero2), conservando así el original por si hubiera algúnaccidente.

• Asegurarse de que ambos ficheros (Fichero1) y (Fichero2) están correctamentegrabados cerrándolos y reabriéndolos.

• Ejecutar la correspondencia de ficheros (MERGE FILES) para fusionar los ficherosFichero1 y Fichero2.

• Guardar el fichero fusionado (Nuevo)

Ejemplo de sintaxis de programación con SPSS:

GET FILE=«Household.sav».SORT CASES BY ID.SAVE OUTFILE=«Fichero1.sav».

GET FILE=«Persons.sav».SORT CASES BY ID.SAVE OUTFILE=«Fichero2.sav».

MATCH FILES FILE=«Fichero2.sav» /TABLE=«Fichero1.sav» /BY ID.SAVE OUTFILE=«Nuevo.sav».

Nótese que si la opción /FILE es utilizada en lugar de /TABLE concon el comando desintaxis MATCH FILES, se generarán valores faltantes.

Fusión «varios a varios»

La fusión «varios a varios» (many-to-many merging) se utiliza cuando muchas de lasobservaciones de un fichero coinciden, pero no todas. Esta situación puede surgir cuando serecogen datos sobre el terreno en momentos diferentes (por ejemplo, en una encuesta pormódulos o en una encuesta de seguimiento) con algunas preguntas comunes, algunos hogarescomunes y algunas personas residentes en la misma vivienda comunes, pero sin que hayauna coincidencia total. Antes de llevar a cabo la fusión, se sabrá el nivel de solapamientoexistente entre los ficheros. Una vez más, la fusión se realiza según las variables de identi-ficación única que coinciden en todos los ficheros que vayan a fusionarse.

En cierto sentido, la fusión varios a varios es una combinación de los procesos descri-tos anteriormente (fusión uno a uno y uno a varios). En el cuadro 3 se fusionan dos fiche-ros. Tanto el Fichero 1 como el Fichero 2 contienen variables que describen la vivienda y alas personas que residen en ella, pero la información se obtuvo en momentos diferentes. Enla primera encuesta, dos personas residían en la misma vivienda (Fichero 1) y hay dos regis-tros. Sin embargo, en el Caso 1 de la segunda encuesta, una de las personas ya no residíaallí. Por consiguiente, después de la fusión hay espacios en blanco para la segunda persona.En cuanto al Caso 2, no se entrevistó a ninguno de los miembros de esa familia o bien esavivienda no figuraba en la primera encuesta, pero sí en la segunda. Análogamente, en elCaso 3, se entrevistó a los miembros de una familia, mientras que en la segunda encuesta nofueron entrevistados porque quizás ya no constituía un hogar. En los ficheros fusionadossuele haber valores faltantes del tipo «no aplicable».

28

Page 32: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Cuadro 3 Ejemplo de fusión varios a varios

Antes de la fusión Después de la fusión

Fichero 1 Fichero 2 (Los números son identificadores únicos (vivienda y persona) (vivienda y persona) utilizados para la fusión)

1 a1 a2 a3 (persona 1) 1 x1 x2 x3 1 a1 a2 a3 x1 x2 x3

1 b1 b2 b3 (persona 2) 1 persona 1 b1 b2 b3 — — — no entrevistada

2 persona no entrevistada 2 z1 z2 z3 2 — — — z1 z2 z3

3 d1 d2 d3 3 persona 3 d1 d2 d3 — — —no entrevistada

Concatenación de ficheros de datos

La concatenación (appending)se utiliza cuando todos los ficheros de datos contienenlas mismas variables, pero en cada fichero se registran observaciones diferentes. Esto sueleser fundamental durante la entrada de datos y el proceso prosigue hasta que se hayan añadidotodos los lotes de ficheros.

La concatenación es necesaria, por ejemplo, cuando los datos se introducen en lugaresdiferentes y luego se remiten a la sede de la encuesta en momentos distintos, o cuando losdatos se entran por lotes (módulos) y cada lote (módulo) constituye un fichero. En el cuadro4, los datos se entraron por lotes. Cada fichero contiene el mismo número de variables, perocada caso o registro se refiere a un número diferente de vivienda o persona. Así pues, loscasos o registros simplemente se suman al final. Después de la concatenación, el número decasos o registros del fichero final debe ser igual al número total de casos o registros de cadafichero. Puede haber excepciones cuando los registros tienen variables diferentes.

Cuadro 4 Ejemplo de concatenación de ficheros de datos

Antes de la concatenación

Fichero 1 Fichero 2

1 a1 a2 a3 1 x1 x2 x3

2 b1 b2 b3 2 y1 y2 y3

3 c1 c2 c3 3 z1 z2 z3

Después de la concatenación

1 a1 a2 a3

2 b1 b2 b3

3 c1 c2 c3

4 x1 x2 x3

5 y1 y2 y3

6 z1 z2 z3

Problemas potenciales de la concatenación y la fusión de ficheros.La fusión puederesultar muy compleja y, por lo general, hay que conocer bien los datos antes de intentarrealizar una fusión. Los problemas potenciales (algunos de ellos son sólo pequeñosinconvenientes) que hay que tener en cuenta antes de concatenar o fusionar ficheros son lossiguientes:

29

Page 33: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

• Es posible que se hayan utilizado nombres diferentes para variables que representanlo mismo en dos ficheros de datos (por ejemplo, edad en uno y c_edad en el otro).

• Puede que se haya utilizado el mismo nombre para variables que representan cosasdiferentes en dos ficheros de datos (por ejemplo, la variable «salario» representaingresos semanalesen un fichero e ingresos mensuales en otro). Esto no constituyeningún problema en ficheros que vayan a fusionarse.

• Alguna variable puede tener el mismo nombre en dos ficheros pero ser de diferentetipo (por ejemplo, en uno numérico y en el otro de cadena de caracteres).

• Las variables de cadena en dos ficheros diferentes pueden tener distinta longitud (porejemplo, 8 y 16 caracteres).

• Los dos ficheros de datos contienen variables con el mismo nombre pero códigosdiferentes (los valores para «sí» y «no» están cambiados).

• Durante la fusión, los registros se han combinado de forma incorrecta.

• Hay que leer siempre los mensajes de advertencia específicos de cada paquete yaplicar las precauciones o soluciones aconsejadas cuando sea oportuno.

Es fundamental resolver algunos de los problemas que hemos mencionado, si se presen-tan, antes de intentar realizar una fusión o concatenación. Los procedimientos de concate-nación y de fusión difieren según el paquete estadístico. Hay que prestar atención al modoen que se completan las celdas vacías y consultar los manuales siempre que sea necesario.

División de ficheros de datos

El proceso de dividir (splitting) un fichero, denominado también partición, suele sernecesario durante la depuración y el análisis de los datos. Los ficheros de datos pueden divi-dirse según el número de casos o registros, o según el número de variables. Durante las opera-ciones de escisión, la mayoría de los paquetes estadísticos ofrecen opciones de borrar o filtrarlos casos o variables no deseados. Hay que asegurarse de que los ficheros divididos se grabancorrectamente, ya que un descuido puede dar lugar a que se sobrescriba el fichero originalcon un fichero dividido.

3.4 Validación de los datos

Cuando el procedimiento de entrada de datos es eficaz, los datos se depuran básica-mente durante su introducción. Las ediciones secundarias implican controles complejos deconsistencia interna y estructura que requieren la revisión de diversas secciones de los cues-tionarios y, si hay que introducir correcciones, deben seguirse recomendaciones pormeno-rizadas. Los tratamientos de datos más avanzados permiten realizar esta tarea de manerainteractiva. Algunas personas prefieren llevar a cabo todas las validaciones de datos antesde fusionar ficheros. En cada país se decidirá el enfoque adecuado para su situación.

Aun cuando las primeras operaciones estadísticas se efectúen con la máxima cautela ycon datos nuevos no es raro encontrar casos tales como en los que se dice que un niño de6 años ya ha terminado el ciclo de enseñanza secundaria. Es necesario realizar controles devalidación para hallar esos errores y corregirlos. Aunque ningún sistema es perfecto, no cabeduda de que puede reducirse el número de errores si, como mínimo, se toman las siguientesmedidas.19

30

19 Desarrollo adicional de los precedimientos presentados por Inter-university Consortium forPolitical and Social Research (ICPSR), en Guide to Social Science Data Preparation and Archiving[trad.: Guía para la preparación y archivo de datos de las ciencias socials], op. cit., y AudienceDialogue: in Survey analysis [trad.: Análisis de encuesta], op. cit.

Page 34: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Control del número de variables.En ocasiones sucede que el número de variablesque deberían generarse a partir de un cuestionario no coincide con el número de varia-bles que aparecen en los datos. Ello puede deberse a diversos factores. Por ejemplo,puede ocurrir que las variables no se hayan creado en primer lugar o que los cuestio-narios no se hayan traducido bien de una lengua a otra. Aunque estos errores deberíanreconocerse en las primeras etapas, es mejor realizar un nuevo control después de lafusión o concatenación de todos los ficheros.

Control del número de registros o casos.Si el hogar se considera un caso, debecomprobarse que el número de casos introducidos equivale al número esperado dehogares (puede ser igual al tamaño de la muestra). Asimismo, hay que comprobar queel número de registros de personas coincide con el número de personas entrevistadas(o de datos recogidos).

Correspondencia y cómputo de registros.Si registros de hogares o registros de perso-nas que viven en el hogar son dos ficheros diferentes, hay que cerciorarse de que lasvariables de identificación requeridas para fusionar están claramente definidas. Tambiénes necesario asegurarse que todos los miembros que pertenecen al hogar están apro-piadamente ingresados al comparar el número de personas en el fichero de hogar conel número de personas en el mismo hogar en el fichero de personas.

Códigos aberrantes y valores fuera del intervalo de variación.Los códigos aberran-tes son aquéllos que no están aceptados como códigos legales en los datos, mientrasque valores fuera del intervalo de variación son aquellos valores que están asignados acódigos legales aceptables pero que pueden no ser correctos. Por ejemplo, si 1 repre-senta masculino y 2 femenino, 3 sería un código aberrante, mientras que un ingresosemanal de 1000 para un niño es un valor fuera de intervalo cuando en realidad deberíaser 100. Distribuciones de frecuencias, al igual que gráficos, exponen este tipo deerrores, por lo cual distribuciones de frecuencias de todas las variables deben ser exami-nadas para posibles anomalías. Si es necesario se deberá revisar el cuestionario paracorregir estos problemas.

Valores faltantes.Todos los valores faltantes deben señalarse indicando en cada casola razón por la que faltan. Convendría marcar claramente las respuestas del tipo «nosabe», «no aplicable», «no disponible» y «no responde». Sus valores deberían sertambién uniformes, en la medida de lo posible, en todo el conjunto de datos. No debenquedar espacios en blanco en ninguna casilla del conjunto.

Controles de consistencia. Siempre existen posibilidades de inconsistencias entre lasrespuestas de preguntas relacionadas. Por ejemplo, 100 niños dicen que trabajan, pero105 reportan ingresos. La presencia de algunas inconsistencias también puede surgirde más de dos variables, por ejemplo, cinco niños adicionales que reportan ingresopuede ser un error porque estaban en realidad asistiendo a la escuela.

Una de las maneras más sencillas de llevar a cabo comprobaciones de consistencia esverificar el «direccionamiento de la pregunta». Por ejemplo, si el cuestionario dice «cuandola respuesta a la pregunta 10 sea 2 («NO»), pase a la pregunta 14», puede crearse una reglalógica que diga:

Si P10=2, entonces P11= P12= P13=99 (99 significa «no aplicable»).

Si los datos indican que esto no ocurre, es posible que P10 sea en realidad 1, pero quedurante la entrada de los datos se consignase como 2. Es probable que así sea si P11, P12 yP13 tienen códigos válidos. De modo que puede cambiarse lógicamente la respuesta a P10a 1 («SÍ») en base a la lógica. Si las respuestas han sido codificadas pero no todas son válidas,tal vez sea necesario consultar el cuestionario original para averiguar qué es lo que debe

31

Page 35: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

cambiarse. Comparando recuentos de frecuencias o tabulaciones cruzadas entre todas lasposibles variables relacionadas revelaría varias inconsistencias. Revise el cuestionario paracorregir estos problemas.

A continuación presentamos un ejemplo útil (ver también Anexo 3) de cómo crearnormas de control de la lógica con las siguientes reglas de verificación de la consistenciaextraídas para la Encuesta de Final de Década y Trabajo Infantil realizada en Zambia en1999 (módulo de educación)20, en la que se recabó información sobre niños de edadescomprendidas entre 5 y 17 años:

Si un niño responde SÍ a la pregunta «¿Ha ido alguna vez a la escuela?», saltar lapregunta de porqué no ha ido a la escuela (no aplicable).

Si un niño responde NO a «¿Ha ido alguna vez a la escuela?», pero indica un grado enel ítem «grado más alto alcanzado», la respuesta a la pregunta «¿Ha ido alguna vez ala escuela?»debe cambiarse a SÍ.

Debe considerarse que la respuesta de los niños que no contestan al ítem «¿Ha idoalguna vez a la escuela?» ni al ítem «grado más alto alcanzado» es NO para el rimeroy 0 para el segundo. Lógica: no se respondió a ninguna de las dos preguntas, que estánrelacionadas entre sí, luego, probablemente la respuesta sea NO.

Si un niño responde NO a «¿Ha ido alguna vez a la escuela?» y NO a «¿Va a la escuelaactualmente?», debe considerarse que las preguntas restantes del módulo de educaciónno son aplicables.

Si un niño responde NO a «¿Ha ido alguna vez a la escuela?», hay que saltar la pregunta«¿Qué grado cursa actualmente?» (no aplicable).

Si un niño responde NO a la pregunta «¿Fue a la escuela el año pasado?», pero respondea «tipo de escuela a la que fue el año pasado» y a «¿Qué grado cursó el año pasado?»,debe cambiarse la primera respuesta a SÍ. Lógica: las dos respuestas afirmativas sugie-ren, en este caso, que una respuesta afirmativa es más plausible que una negativa parala primera pregunta.

Durante los controles de consistencia hay que tener sumo cuidado de no ejecutar scriptsbasados en una lógica errónea (regla de consistencia). Si hay que efectuar varias operacio-nes de control de consistencia para la misma variable, hay que elegir la frecuencia adecuadade ejecución de esas operaciones y de modificación de valores.

Algunos programadores consideran más eficaz dividir los ficheros antes de realizar loscontroles de consistencia y fusionarlos de nuevo después.

Es inevitable que se produzcan errores cuando los controles de consistencia son comple-jos. Se aconseja conservar los ficheros antiguos para disponer siempre de una copia de losdatos originales.

Los controles de consistencia deben realizarse al menos para estar seguros de que noqueda ningún ítem vacío y de que todos los campos contienen valores válidos.

Finalmente, hay que comprobar minuciosamente el último 3-5% de los registros paracerciorarse de que no contienen ningún error. Después, se pueden realizar controles aleato-rios para verificar la integridad general del conjunto de datos.

32

20 Central Statistical Office, Zambia End of Decade and Child Labour Survey (1999) Cues-tionario de Hogar http://www.ilo.org/public/english/standards/ipec/simpoc/zambia/document/zafh01gq.pdf

Page 36: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Al final de la etapa de validación de los datos, no debe haber ningún tipo de valoresfaltantes (por ejemplo, códigos de «no aplica» están apropiadamente incluidos); los erroresde consistencia y todos los registros deben corresponderse con los identificadores únicos deregistro o caso establecidos. Dicho de otro modo, deben haberse definido correctamentetodos los valores faltantes. Ahora bien, si en un conjunto de datos queda algún valor que nose puede rectificar, habría que generar un fichero con la siguiente información:

• identificación del caso o registro;

• tipo de error (valor faltante, no-respuesta, etc.);

• un desglose pormenorizado del número de casos, registros, etc.;

• los motivos por los que no se han podido corregir los errores;

• algunas tabulaciones para mostrar su impacto en el conjunto global de datos;

• el número de inadecuaciones entre los casos y los registros aplicables en un caso;

• la inadecuación entre el número de casos y la recopilación de datos, así como lasposibles razones de los errores.

Además, hay que confeccionar una lista con todas las variables y sus etiquetas. Luegohabrá que remitir al supervisor esos cuadros junto con el fichero que contiene la informa-ción sobre el error y la lista de variables para que los examine.

3.5 Decisiones finales sobre los errores

Después de elaborar una lista de errores con cuadros que muestren su impacto generalen los datos, el supervisor decidirá, en consulta con los demás asociados en la encuesta, quése debe hacer con esos ítems.

Según el tipo de error, las decisiones incumbirán:

• el modo en que deben señalarse los errores en los datos;

• los casos, los registros o las variables que pueden imputarse, así como las condicio-nes y la forma de incorporar la información al conjunto de datos tras la decisión;

• los registros o casos que deben consultarse de nuevo en los cuestionarios para inves-tigarlos con mayor detenimiento y la forma de incorporar la información al conjuntode datos;

• los casos, los registros o las variables que pueden eliminarse y los motivos para supri-mirlos, así como las repercusiones de esa acción en los datos en general;

• la redacción de la documentación concerniente a todos esos casos.

En cuanto se tomen las decisiones pertinentes, se comunicarán al personal de digita-ción para que las apliquen lo antes posible.

3.6 Conclusión del tratamiento de datos y generación de fichero(s) de datos

La mayoría de los operadores de digitación considera su trabajo como un proceso inter-minable. Incluso cuando los datos están ya depurados, tienen que subdividirlos, crear varia-bles adicionales, etc. Esto conduce a un importante problema: varios operadores se dancuenta de que están trabajando con versiones diferentes de los conjuntos de datos.

Cuando toda la información necesaria para preparar la documentación final esté dispo-nible, el supervisor declarará finalizadas las actividades de tratamiento de datos. En ese

33

Page 37: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

momento, se designará el fichero o los ficheros de datos como versión 1 del conjuntode datos.

A continuación, los supervisores deberán encargar a una persona la compilación detoda la información recabada por el personal de digitación en un documento (fichero) único.

Gestión del tratamiento de datos

Es conveniente que un supervisor controle todas las operaciones de entrada y trata-miento de datos.

Algunas de las actividades que incumben al supervisor son:

• asegurarse de que todas las actividades de datos progresan según el calendarioprevisto;

• prestar asistencia administrativa al personal encargado del tratamiento de datos (porejemplo, consiguiendo una computadora alternativa si la que se estaba utilizandodeja de funcionar);

• cerciorarse de que todos los ficheros de datos están estructurados (por ejemplo, fiche-ros planos o jerárquicos, tipos de registro, etc.) antes de entrar los datos; comprobarque todas las variables están codificadas, etiquetadas y los valores asignados, inclui-dos los tipos de valores faltantes y sus códigos;

• hacer lo posible por que el personal encargado del tratamiento de los datos no tengaque preocuparse por la codificación y, si tuviera que hacerlo, reducir esa tarea lo másposible;

• asegurarse de que todos los ficheros se han fusionado o concatenado;

• controlar el fichero maestro para que el personal encargado de depurar y analizar losdatos trabaje siempre con ficheros actualizados;

• en consulta con otras partes interesadas (por ejemplo, analistas de datos y diseña-dores de encuestas), tomar las decisiones pertinentes sobre los errores (véase el apar-tado 3.5);

• supervisar los controles aleatorios de registros de hogares como medida general decontrol de la calidad;

• asegurarse de que todas las decisiones quedan registradas durante el tratamiento dedatos y de que la documentación final contiene toda la información pertinente;

• asegurarse de que se han tomado las medidas necesarias para generar un conjuntode datos útil para uso público;

• decidir cuándo hay que concluir las actividades de tratamiento de datos y asumir elcontrol de todos los ficheros de datos y documentación;

• cerciorarse de que los ficheros necesarios están ubicados adecuadamente en elsistema principal de almacenamiento para su posterior consulta y

• actuar, tras la finalización del tratamiento, como punto de contacto respecto delconjunto de datos.

La principal preocupación del supervisor debe ser reducir al máximo el tiempo quemedia entre la obtención de los datos sobre el terreno y su preparación para el análisis, sincomprometer la calidad.

34

Page 38: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

3.7 Preparación de conjuntos de datos de uso público

Confidencialidad

La mayoría de las encuestas sobre trabajo infantil son onerosas y revisten gran impor-tancia a nivel nacional. Proporcionan datos estadísticos que ayudarán a mejorar la escolari-zación, a erradicar la pobreza y a incrementar los recursos para la asistencia sanitaria y otrosservicios públicos o privados. Todas las respuestas individuales a las encuestas son signifi-cativas y es importante compartir la información con el mayor número posible de personas.A continuación se presentan algunos conceptos adoptados de documentos de doble refe-rencia.21,22

Anonimato de los datos.Los encuestados deben confiar en que se respetará su inti-midad manteniendo la confidencialidad de los datos. Así pues, por un lado, los datos de lasencuestas sobre trabajo infantil deben ponerse a disposición del público para que puedanefectuarse análisis secundarios exhaustivos y, por otro, es fundamental seguir procedimien-tos adecuados para garantizar el anonimato, de modo que no se pueda identificar, a partir delos datos brutos, a los niños ni a sus familiares o a las personas u organizaciones para lasque trabajan. Si el conjunto de datos no es anónimo, no podrá distribuirse libremente.

Alteración de los ficheros.Toda información que pueda poner en peligro la privaci-dad de los niños, los padres, los familiares o las organizaciones, especialmente en los casosde trabajo peligroso, debe ser reservada. Por consiguiente, es posible que haya que alteraralgunos ficheros de los conjuntos de datos sobre trabajo infantil para uso público.

Hay dos tipos de variables que pueden revelar la identidad de una persona u organización:

Identificadores directos.Éstos son variables de identificación de una persona, entidad,etc. (por ejemplo, código postal). Esas variables, junto con otros números de identifi-cación como la fecha de nacimiento, pueden servir para identificar a una persona. Porlo tanto, es necesario suprimir o codificar adecuadamente esos identificadores.

Identificadores indirectos.Éstas son variables que son tratadas como identificadoresdirectos pero pueden ser utilizadas en conjunto con otras variables u otra informacióndisponible al público y se puede utilizar para identificar una persona, entidad, etc. Porejemplo, cuando un número muy reducido de personas están involucrados en ciertaocupación en cierta región, la información puede ser acoplada con datos disponibles alpúblico del censo reciente para identificar una persona.

Los analistas, junto con otros miembros de oficinas nacionales de estadística y exper-tos técnicos de la OIT, deberían examinar los identificadores potenciales y hacer propues-tas al respecto si fuera oportuno. Hasta ahora, sin embargo, con todas las encuestas nacio-nales SIMPOC, se ha encontrado que identificadores indirectos no son un problema.

Sin ser exhaustivos,los métodos para garantizar el anonimato en los datos de encues-tas sobre el trabajo infantil son, entre otros, los siguientes:

Supresión.Es posible eliminar una o más variables de los conjuntos de datos. Porejemplo, se pueden suprimir la dirección y el número de la vivienda de los conjuntosde datos de uso público.

Creación de intervalos.Intervalos de valores de una variable pueden ser incluidos enuna variable. Por ejemplo, puede crearse el intervalo de edad «5 a 9 años».

35

21 Inter-university Consortium for Political and Social Research (ICPSR), Guide to SocialScience Data Preparation and Archiving, op. cit.

22 American Statistical Association, Rasinski, K. et al ; Producing a public use file – A casestudy, retrieved from http://www.amstat.org/sections/srms/Proceedings/papers/1997_074.pdf (1997)

Page 39: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Creación de intervalos abiertos.El rango superior y/o inferior de una variable puededejarse abierto. Por ejemplo, los niños que ganan mucho dinero se pueden localizar yagrupar con otros niños describiendo la variable como «ingresos superiores a cien unida-des de la moneda local por día».

Recodificación. Se pueden combinar dos o más variables similares y recodificarlas enuna. Por ejemplo, se puede combinar la provincia, el distrito, la ciudad y el número devivienda en una única variable.

Intercambio de datos.Se pueden intercambiar registros personales de un hogar conregistros personales de otro hogar en los datos de tal manera que el resultado global nosea alterado. Identificadores de hogar no pueden ser utilizados para identificar las perso-nas que habitan en esa vivienda.

Perturbación de datos.Se pueden modificar los registros individuales (por ejemploal añadir/sustraer un número constante) de tal manera que los registros individuales soncambiados pero los recuentos globales permanecen iguales.

Los conjuntos de datos de uso público deben copiarse siempre de los conjuntos de datosoriginales y denominarse según la convención apropiada (véase el apartado 2.3). La versiónoriginal puede seguir siendo de acceso restringido y debe conservarse siempre como refe-rencia sin modificarla.

3.8 Documentación final

La preparación de documentación de gran calidad puede llevar mucho tiempo, pero sila documentación es clara y completa mejorará mucho el proceso de la encuesta. Es conve-niente contratar al personal que ha trabajado con el conjunto de datos desde el comienzo, yaque conoce mejor que nadie el proceso de elaboración del conjunto, las variables derivadasque se han creado, las decisiones importantes que se han tomado y las normas de ediciónque se han aplicado durante el tratamiento de los datos y las razones de ello.

El inconveniente es que las personas que se ocupan de la encuesta y del tratamientoinicial de los datos están tan inmersas en el proyecto que consideran innecesario documen-tar algunos aspectos. Sin embargo, los datos serán utilizados por personas muy diversas y,por consiguiente, la existencia de una documentación exhaustiva, clara y concisa facilitarámucho su utilización.

La preparación de la documentación o los metadatos debería comenzar mucho antesdel inicio el tratamiento efectivo de los datos. En cuanto se termine el tratamiento, hay quecompilar toda la información pertinente. Dos elementos pueden servir como documentaciónfinal. El primero es un fichero breve en el que se describa la estructura del conjunto de datoscon información relativa a las variables y los valores, los esquemas de codificación y clasi-ficación, así como la ponderación. Asimismo, debería incluirse una descripción breve de laencuesta. El segundo documento es más pormenorizado y se define a continuación.

He aquí algunos pasajes de interés en relación con las encuestas sobre trabajo infantilextraídos de la versión final del libro de códigos de Data Document Initiative (DDI) DTDVersión 1.0 (FINAL).23

36

23 The Data Documentation Initiative Codebook DTD, http://www.icpsr.umich.edu/DDI/users/dtd/codebook.html (Los pasajen has sido modificados, ya que el documento fue preparadocomo una guía para diferentes tipos de encuestas llevadas a cabo en situaciones diversas, y algunoscampos pueden no ser aplicables en determinados paises. Además, hay información que se repiteen varios secciones debido a que, durante la consulta en línea, el software puede intentar localizarla misma información en varios rubros. Una versión completa del libro de códigos está disponibleen el sitio web de Codebook DTD.)

Page 40: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Nótese que la información facilitada en los siguientes apartados no sustituye el librode códigos o el diccionario de datos de un conjunto de datos ASCII que define el formatode los microdatos.

Descripción resumida de la encuesta

Título. Debe utilizarse el título oficial completo de la encuesta en todos los datos ydocumentación e indicarse tanto el ámbito geográfico de la recopilación como elperíodo de tiempo abarcado. Por ejemplo: Trabajo infantil en Portugal: caracteriza-ción social de niños en edad escolar y sus familias, 1998.

Subtítulo. Puede utilizarse un segundo título para ampliar o precisar el título princi-pal. Por ejemplo: Trabajo infantil en Portugal, 1998.

Título alternativo. El título alternativo puede ser el título con el que se suela llamar ala recopilación de datos o una abreviación del título completo. Por ejemplo: Encuestadel SIMPOC en Portugal, 1998.

Título paralelo. Es posible traducir el título a otro idioma. Por ejemplo: Trabalho Infan-til em Portugal: Caracterização social dos menores em idade escolar e suas famílias,1998.

Palabras clave.Deben especificarse las palabras o frases que describen los aspectosmás destacados de la encuesta y que pueden utilizarse para crear índices a los efectosde clasificación o recuperación de datos.

Sumario.Se trata de un resumen en el que se describen el propósito, la naturaleza y elalcance de la recopilación de datos sobre trabajo infantil. Es posible agregar las carac-terísticas especiales del contenido y un listado de las principales variables que figuranen los datos.

Descripción resumida de los datos

En este apartado debe describirse brevemente la encuesta sobre trabajo infantil: dura-ción, fechas de recopilación de datos, ámbito geográfico y unidad de análisis.

Período de tiempo abarcado.Se trata del período al que se refieren los datos – elperíodo cubierto por los datos y no las fechas de codificación o creación de los docu-mentos en lenguaje máquina o las fechas en que se obtuvieron los datos. Por ejemplo,si los datos se recopilaron en 1999 y una de las preguntas fue «¿Trabajó usted el añopasado?», el período de tiempo sería 1998-1999.

Fecha del acopio de datos.Contiene la fecha o fechas en que se obtuvieron los datos.

País.Nombre del país en que se realizó la encuesta.

Cobertura geográfica.Incluye el ámbito geográfico total de los datos y cualquier niveladicional de división geográfica que se ofrezca en las variables. La mayoría de lasencuestas sobre trabajo infantil se realiza a escala nacional.

Unidad geográfica.Se refiere al nivel mínimo de agregación geográfica que abarcanlos datos – por ejemplo, provincia, estado o distrito.

Unidad de análisis.En la mayoría de las encuestas sobre trabajo infantil, la unidadbásica de análisis u observación es la persona.

37

Page 41: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Universo. El resumen debería incluir también una descripción de la población a la queconciernen los datos del fichero – el grupo de personas u otros elementos que son objetode la encuesta y a los que se refieren los resultados. La edad, la nacionalidad y la resi-dencia suelen ser útiles para caracterizar un universo – conocido también como pobla-ción o grupo meta –, pero se pueden agregar otros rasgos como la edad, el sexo, elestado civil, la raza, el grupo étnico, la nacionalidad, los ingresos, el hecho de que setrate de veteranos o los antecedentes penales. El universo puede estar integrado porotros elementos que no sean personas, como las viviendas y los países. En general, sepuede decir, a partir de la descripción del universo, si una persona o un elemento dados(hipotéticos o reales) pertenecen a la población de la encuesta (por ejemplo, en el casode una encuesta sobre trabajo infantil en la que se entrevistase exclusivamente a niñosentre 5 y 15 años de edad).

Tipo de datos.Este ítem se refiere al tipo de datos incluidos en el fichero, por ejemplo,datos de una encuesta, agregados, clínicos o de un evento o transacción; código fuentedel programa; texto en lenguaje máquina; datos de registros administrativos; datostextuales; datos textuales codificados; documentos codificados; diarios sobre distribu-ción del tiempo; datos o apreciaciones de las observaciones o datos generados por unproceso. Deberían incluirse todos los tipos de datos aplicables.

Notas.Deben utilizarse para facilitar información adicional que aclare y complete lainformación de la lista de códigos sobre el alcance de la recopilación de datos.

Metodología y tratamiento de la encuesta

Método temporal.Algunas maneras de enfocar la dimensión temporal de la obtenciónde datos son los métodos transversal, de panel, de tendencias y de series cronológicas.

Recopilador de datos.Se refiere a la entidad (por ejemplo, una oficina nacional deestadística) encargada de administrar el cuestionario o la entrevista, o de recopilarlos datos.

Frecuencia de la recopilación de datos. Si los datos se han recogido en momentosdiferentes, debe indicarse la frecuencia con que se han recopilado. Por ejemplo, en unaencuesta sobre trabajo infantil realizada por primera vez bastaría con indicar «primera».

Procedimiento de muestreo. Se trata del tipo y del diseño de la muestra que se utilizapara seleccionar a los encuestados que representarán a la población meta. Puede incluirreferencias al tamaño de la muestra meta y la fracción de muestreo.

Principales desviaciones con respecto al diseño de la muestra.Son las correspon-dencias y las discrepancias entre las unidades de la muestra (obtenidas) y las estadís-ticas disponibles sobre la población en su conjunto (edad, proporción de cada sexo,estado civil, etc.)

Modo de obtener los datos.Es el método utilizado para obtener los datos (por ejemplo,entrevistas personales).

Tipo de instrumento de investigación.El término «estructurado» indica que se tratade un cuestionario con las mismas preguntas para todos los encuestados y que puedeincluir respuestas precodificadas. Si una porción reducida de ese cuestionariocomprende preguntas abiertas, hay que incluir las observaciones pertinentes. El término«semiestructurado» indica que el cuestionario contiene principalmente preguntas abier-tas. El término «no estructurado» indica que se llevaron a cabo entrevistas exhaustivas.La mayoría de las encuestas sobre trabajo infantil son estructuradas.

38

Page 42: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Acciones para minimizar las pérdidas.En el resumen deberían consignarse las accio-nes tendientes a minimizar la pérdida de datos como las visitas de seguimiento, loscontroles de supervisión, las comprobaciones históricas y las estimaciones.

Operaciones de control.Se describen los métodos utilizados para facilitar el controlde los datos durante la encuesta y su ulterior tratamiento.

Ponderación.El uso de muestras puede requerir la aplicación de ponderaciones paragenerar resultados estadísticos exactos. Deben describirse aquí los criterios para la apli-cación de ponderaciones en el análisis de una recopilación de datos. Si se ha elaboradouna fórmula o un coeficiente de ponderación, hay que indicar dicha fórmula o coefi-ciente, definir sus elementos y señalar cómo se aplicó a los datos.

Operación de depuración.Los métodos utilizados para depurar los datos recolecta-dos pueden incluir controles de consistencia y de códigos aberrantes, por ejemplo.

Nota sobre el nivel de error en el estudio.Se proporciona cualquier información queexprese o aclare la metodología y los procedimientos de tratamiento de datos.

Información para la evaluación de los datos

Tasa de respuesta.Se refiere al porcentaje de los miembros de la muestra que ha faci-litado información.

Estimación del error de muestreo.Incluye una medida de cómo estimar con preci-sión un valor poblacional a partir de una muestra dada.

Otros indicadores para evaluar los datos.Se incluyen indicadores como la varianzade la respuesta, la tasa de no-respuesta y el cálculo del sesgo de las preguntas, del entre-vistador y de la respuesta, así como los niveles de confianza.

Acceso a los datos

En esta sección se describen las condiciones de acceso y uso de los datos, así comootros aspectos sobre la disponibilidad y el almacenamiento de la recopilación de datos.

Ubicación. Indica el lugar donde se encuentran almacenados los datos en ese momento(por ejemplo, en una oficina nacional de estadística).

Archivo donde se almacenó inicialmente el estudio.Especifica el lugar, si lo hubiere,donde se almacenaron los datos anteriormente (por ejemplo, en otro ministerio o depar-tamento).

Disponibilidad. Indica la disponibilidad de los datos. Por ejemplo, es posible que losdatos no estén disponibles porque se haya prohibido su divulgación antes de la difu-sión oficial del informe final.

Extensión de los datos.Es un resumen del número de ficheros físicos existentes en unconjunto de datos, con indicación del número de ficheros que contienen datos y de sila recopilación contiene documentación en lenguaje máquina o ficheros adicionales,además de información sobre eventuales diccionarios o definiciones de los datos y losinstrumentos de obtención de datos.

Exhaustividad del estudio almacenado.Describe la relación entre los datos obteni-dos y la cantidad de datos codificados y almacenados en la recopilación de datos.

39

Page 43: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Cuando es pertinente, se explica porqué no se han incluido algunos ítems de la infor-mación recogida en el fichero de datos.

Número de ficheros.Indica el número total de ficheros físicos de una recopilación.

Notas sobre la recopilación.Proporcionan cualquier información adicional sobre ladisponibilidad de los datos.

Permiso de acceso. Se indica qué persona u organización se ocupa de controlar elacceso a la recopilación de datos a nivel nacional (con las señas completas y el númerode teléfono si es posible).

Enunciado sobre el uso de los datos.Se explican las condiciones de utilización de larecopilación de datos, si las hubiera.

Condiciones.Si es pertinente, se describen las condiciones de uso y acceso que no sehan abordado en otros rubros.

Normas sobre citas.Se especifica cualquier texto que deba citarse en publicacionesbasadas en el análisis de los datos.

Requisito de depósito.Se trata de información relativa a la responsabilidad de los usua-rios externos de informar a los países o a la OIT de que han utilizado los datos cadavez que citan o facilitan ejemplares del trabajo publicado.

Notas. Debe incluirse un apartado genérico de «notas» en la sección sobre el acceso alos datos para facilitar información o aclaraciones en relación con éste.

Descripción de cada fichero

Todos los ficheros, incluidos los de datos y documentación, deben describirse indivi-dualmente.

Nombre del fichero. Debe utilizarse un título corto para distinguir un fichero o unaparte concreta de éste de los demás ficheros o partes en la recopilación de datos.

Contenido del fichero.Proporciona un resumen o una descripción breve del ficheroen el que se indica su finalidad, naturaleza y alcance, las características especiales desu contenido, los principales temas abordados y la razón por la que se creó el fichero.Asimismo, es importante mencionar las variables principales que contiene. En el casode recopilaciones con múltiples ficheros, hay que describir el contenido de cada ficheropor separado.

Estructura de los ficheros.Describe el tipo de estructura de los ficheros indicando,por ejemplo, si un fichero es jerárquico, rectangular o relacional.

Registro o grupo de registros.Si el fichero es jerárquico o relacional, se describen lasagrupaciones de registros.

Etiqueta (de un registro).Proporciona más información para cada grupo de registros.

Dimensiones (de un registro).Se describen las características físicas del registro,incluidos algunos aspectos como el número de variables por registro, el número decasos y la longitud del registro cuando sea aplicable.

Notas (sobre un registro o grupo de registros).Se brinda toda información comple-mentaria sobre ese tipo de registros.

40

Page 44: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Dimensiones del fichero general

Cómputo general de casos.Si los ficheros son rectangulares, debe especificarse elnúmero de casos u observaciones en todo el fichero.

Cómputo total de variables.Si los ficheros son rectangulares, debe especificarse elnúmero de variables en todo el fichero.

Longitud del registro lógico.La longitud del registro lógico de un fichero es el númerode caracteres que contiene. Este dato debe proporcionarse si se trata de ficheros rectan-gulares o si todos los registros de un fichero jerárquico tienen la misma longitud.

Tipo de fichero. Si los ficheros de datos son de tipo mixto (por ejemplo, ASCII ydependientes del soporte lógico a la vez), hay que mencionar los tipos.

Formato de los datos. Especifica el formato físico del fichero de datos, es decir, deli-mitado, libre, dependiente del soporte lógico, etc.

Lugar de creación del fichero.Indica qué departamento ha creado el fichero.

Alcance de los controles del tratamiento.Se indican aquí los tipos de controles y lasoperaciones realizadas en cada fichero de datos.

Situación respecto del tratamiento.Indica la situación en cuanto al tratamiento delfichero si éste forma parte de una recopilación de múltiples ficheros.

Datos faltantes. Facilita información sobre los datos faltantes – que esos datos se hanuniformizado en toda la compilación, que son el resultado de una fusión, etc.

Programas informáticos.Se especifica qué programa informático se ha empleado paracrear el fichero, incluido el número de versión de dicho programa.

Enunciado de la versión.Se proporciona el enunciado de la versión del ficherode datos.

Notas.Se facilita información adicional sobre el fichero de datos que no se haya apor-tado en otros apartados de este resumen.

Grupos de variables

Este apartado se refiere a las variables que tienen un tema común, han surgido de lainterpretación de una pregunta o están relacionadas de algún otro modo. Deben especificarselos elementos siguientes cuando sean aplicables:

Tipo. Expresa el tipo del grupo de variables en general (tema, respuestas múltiples, etc.).

Var. Indica los identificadores de las variables que forman el grupo.

Grupo de variables.Indica todos los grupos subsidiarios de variables incluidos en elgrupo real de variables, lo que permite conocer su estructura jerárquica.

Nombre. Se trata de un identificador único para todo el grupo.

Referencia a la descripción resumida de los datos.Se trata de un registro de todoslos identificadores de los elementos de la descripción resumida de los datos mencio-nados anteriormente y que se aplica a este grupo de variables. Esos elementos compren-

41

Page 45: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

den el período de tiempo abarcado, la fecha de la recopilación, el país, la coberturageográfica, la unidad geográfica, la unidad de análisis, el universo y el tipo de datos.

Referencia a la metodología y al tratamiento.Se consignan todos los valores de iden-tificación de los elementos de la sección de metodología y tratamiento del estudiodescritos anteriormente y que se aplican al grupo de variables. Estos elementoscomprenden información sobre la recopilación y la evaluación de los datos (porejemplo, muestreo, fuentes, ponderación, depuración de los datos, tasa de respuesta yestimaciones sobre el error de muestreo).

Etiqueta del grupo de variables

Debe proporcionarse una descripción breve del grupo de variables.

Texto sobre el grupo de variables.Se trata de una descripción más extensa del grupode variables.

Definición del grupo de variables.Hay que explicar porqué se han agrupado las varia-bles de ese modo.

Notas. Se añade cualquier información o aclaración sobre los grupos de variables.

Variables

Cada variable necesita un nombre que servirá de identificador único. Debe proporcio-narse el siguiente tipo de información para cada variable:

• si la variable es una ponderación;

• referencia a la ponderación para esa variable;

• un identificador de pregunta para la variable;

• una referencia al fichero al que pertenece la variable;

• el formato que se ha utilizado (por ejemplo, SAS, SPSS);

• el número de puntos decimales de la variable;

• si las opciones son discretas o continuas;

• el tipo de registro a que pertenece esa variable;

• referencias a la descripción resumida de los datos que recogen los valores de iden-tificación de todos los elementos aplicables a esa variable;

• referencias a la metodología y al tratamiento que recoge los valores de identifica-ción de todos los elementos aplicables a esa variable.

•• Etiqueta de la variable.Se trata de una frase descriptiva que define la variable.La longitud de la frase puede depender del sistema de análisis estadístico utilizado.

•• Imputación. Imputación es el proceso mediante el cual los valores faltantes delos ítems no facilitados por un encuestado son estimados. Si se aplica en estecontexto, debe mencionarse el procedimiento utilizado.

•• Prohibición de divulgación.Facilita información sobre variables que pueden noestar disponibles debido a las políticas adoptadas por las oficinas nacionales deestadística y los ministerios.

•• Unidad de respuesta.Describe quién facilitó la información que contiene la varia-ble (por ejemplo un encuestado, un representante, un entrevistador, etc.)

42

Page 46: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

•• Unidad de análisis.Proporciona detalles de a quién o qué describe la variable.

•• Pregunta literal. Se trata del texto literal de la pregunta realizada.

•• Texto sobre hechos posteriores a la pregunta. Se trata de una descripción de loque ocurrió después de que se formulase la pregunta literal, cuando sea pertinente.

•• Instrucciones para el entrevistador.Son instrucciones específicas para la personaque debe realizar una entrevista.

•• Intervalo de valores válidos de los datos.Se refiere a los valores de una varia-ble concreta que constituyen respuestas legítimas.

•• Intervalo de valores no válidos de los datos.Se refiere a los valores de una varia-ble concreta que constituyen datos faltantes, respuestas «no aplicable», etc.

•• Lista de códigos sin documentar.Se trata de valores cuyo significado sedesconoce.

•• Estadísticas resumidas.Se refiere a uno o varios cálculos estadísticos que descri-ben las respuestas a una variable concreta. Pueden incluir uno o más resúmenesestándar, por ejemplo, los valores mínimos y máximos.

•• Texto de la variable.Se refiere a una descripción más amplia de la variable. Seaporta información adicional a la que se facilita en el «nombre de la variable» yen la «etiqueta de la variable».

•• Instrucciones para el codificador.Se trata de instrucciones especiales para laspersonas que transforman la información de una variable concreta de una formaa otra. Puede incluir la reordenación de la información numérica o la conversiónde la información de texto a información numérica.

•• Enunciado de la versión. Si se han introducido cambios en una variable, se indicala versión de que se trata.

•• Derivación.Se utiliza solamente en el caso de variables derivadas. Este elementoproporciona una descripción del modo en que se ha llevado a cabo la derivacióny del comando utilizado para generar la variable derivada, así como las demásvariables del estudio utilizadas en la derivación.

•• Descripción de la derivación.Se trata de una descripción detallada del modo enque se ha derivado la variable para que los usuarios comprendan mejor el procesoseguido.

•• Comando de derivación.Se trata del comando utilizado para generar la variablederivada. Se utiliza el atributo de sintaxis para indicar el lenguaje de comandoempleado (por ejemplo, SPSS, SAS, Fortran).

•• Formato de la variable.Se refiere al formato de una variable concreta. Incluyeel tipo (caracteres o numérico), el nombre del formato (si el esquema es aplica-ble: vendedor u órgano de normalización que define el formato, SAS, SPSS, IBM,ANSI, ISO o XML-DATA), la categoría (fecha, hora, moneda u otros) y el iden-tificador de la red para la definición del formato.

3.9 Tabulaciones finales

En esta sección se destacan algunos aspectos de la tabulación que revisten gran impor-tancia para los operadores encargados de la digitación. Los planes de tabulación final suelenestablecerse al principio del proceso de encuesta y no se consideran necesariamente partedel tratamiento de los datos. Ahora bien, son precisamente estos operadores quienes suelenpreparar los cuadros para los analistas.

43

Page 47: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Todas las encuestas siguen algún plan de tabulación. Por lo que respecta a las encues-tas sobre trabajo infantil, el plan de tabulación se suele formular teniendo en cuenta la opiniónde todos los interesados. Una vez concluido el tratamiento de los datos, los operadores prepa-ran una serie completa de cuadros basados en las variables designadas por los analistas.

Durante la tabulación, el conjunto de datos se modifica, realizándose incluso agrega-ciones y supresiones y, aunque la depuración de los datos en las etapas anteriores haya sidoabsolutamente rigurosa, es posible que se localicen nuevos errores. Además, será necesariocrear variables que no se habían previsto y algunos analistas pueden querer generar subcon-juntos de datos atendiendo a los casos o las variables. Así pues, es probable que lleguen autilizarse varias versiones del conjunto de datos. Esas versiones diferentes se copian a vecesen distintas computadoras de sobremesa, lo cual incrementa la confusión potencial.

Hay que tener en cuenta que cualquier variable derivada adicional que se establezca eincluya en el conjunto de datos con el fin de mantenerla debe ajustarse también a una conven-ción de denominación adecuada y debe asignársele una etiqueta de la manera descrita ante-riormente. Asimismo, hay que someter las variables derivadas a los procedimientos de controldel error típico, como los códigos aberrantes y los valores faltantes. En la lista de códigos ometadatos se explicará cómo y porqué se han creado. Por último, debe darse nombres dife-rentes a todos los ficheros, indicando el número de versión que corresponda.

Es especialmente importante asegurarse de que se utilizan ficheros actualizados ycompletos (no subconjuntos) para las tabulaciones.

3.10 Conversión de los ficheros de datos a otros formatos

Los ficheros de datos suelen generarse en formatos específicos para cada paquete, comoSPSS o SAS, y sólo pueden ser leídos eficazmente por esos programas. Es posible que lapersona que realice un análisis secundario no tenga acceso al paquete con el que se crearonlos datos inicialmente. Su lectura con otros sistemas (por ejemplo, si un fichero se crea enSAS para Windows y quiere leerse en SPSS para Windows) o en un entorno informáticodiferente (por ejemplo, si se crea en un PC con Windows y se quiere leer en una estación detrabajo con Unix) no suele ser automática. En ocasiones, resulta incluso imposible.

Por lo tanto, se recomienda registrar los datos en formatos alternativos. La mejor opciónes crear el conjunto de datos en formato ASCII (fichero texto).

• ASCII tiene la ventaja de que puede ser importado por cualquier soporte lógico,siempre y cuando se disponga de la documentación necesaria.

• También es más adecuado para la conservación a largo plazo. Una serie de datoscreada y conservada hoy puede no ser utilizada durante años. Cuando una personaquiera emplear los datos más adelante, la versión de ese programa informáticoconcreto puede no estar ya disponible y las versiones existentes entonces podrían noser compatibles con otra anterior. En esos casos, el conjunto de datos queda obso-leto. Desde el punto de vista del archivo es, pues, deseable que los datos estén regis-trados en formato ASCII además del formato del programa de análisis estadístico.

Los datos SPSS pueden convertirse en formato ASCII siguiendo los pasos que se indicaa continuación:

1. Abrir los datos en «vista de variables».

2. Etiquetar todas las variables con un enunciado adecuado (véase la sección 3.8sobre la documentación final). Si no se encuentra un enunciado correcto, puedeutilizarse el texto literal de la pregunta como último recurso.

44

Page 48: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

3. Introducir todos los valores en la columna correspondiente.

4. Asegurarse de que la opción de ponderación está desactivada para evitar que hayaun número mayor de casos en el fichero de los datos.

5. Grabar el fichero de datos como un fichero ASCII de longitud fija con el comando«Guardar como» seleccionando la opción ASCII fijo para crear un fichero de datoscon la extensión DAT.

6. Los nombres de las variables y los números de las columnas se mostrarán en laventana de resultados.

7. En la ventana de resultados, seleccionar «Archivo» y «Mostrar información dedatos» y aparecerán todas las variables con sus etiquetas y valores.

8. Calcular la frecuencia de repuesta para todas las variables (opción sin gráfico).

9. Exportar todos los objetos de la ventana de resultados a un fichero de texto selec-cionando «Archivo», «Exportar» y «Guardar» para crear un fichero con la exten-sión TXT.

10. Editar el fichero texto añadiendo o suprimiendo información según convenga.

11. Ahora, ese fichero texto es el diccionario de datos y la lista de códigos del ficherode datos ASCII (con la extensión DAT) que se creó en el paso 5.

12. Tomar todos los cuadros de frecuencias para todas las variables y grabarlos comoun fichero de resultados. Dado que algunos cuadros, como los de los identifica-dores únicos, serán muy grandes y pueden ocupar mucho espacio de memoria, esposible descartarlos aunque no es aconsejable. Esos cuadros pueden servirán a laspersonas que lean los ficheros ASCII en un paquete informático para asegurarsede que los datos han sido leídos correctamente.

En el anexo IV incluimos un ejemplo de lista de códigos y diccionario de datos gene-rados con SAS. Debe tenerse en cuenta que la lista de códigos que figura en el anexo IV noes producto del proceso que acabamos de mencionar.

Sea cual fuere el paquete estadístico utilizado para el tratamiento de los datos, se insisteen la utilidad de crear una serie de datos ASCII con la documentación y el diccionario dedatos oportunos.

3.11 Almacenamiento de los ficheros

Distintas personas tendrán acceso a los datos generados a partir de las encuestas sobretrabajo infantil. Inicialmente, los datos y la documentación correspondiente suelen prepa-rarse en el formato de un soporte lógico concreto. Una vez más, la elección del programainformático para el tratamiento de los datos de la encuesta dependerá tanto de la disponibi-lidad de ese programa como de recursos humanos y financieros en cada país. Sin embargo,habrá distintas personas, en países diferentes, que utilicen programas informáticos distintosy estén interesadas en tener acceso a los datos. Así pues, la accesibilidad de los ficheros dedatos y la documentación requeridos reviste capital importancia. Esto significa que será nece-sario generar y almacenar eficazmente diferentes tipos de ficheros.

Cuando todos los ficheros estén listos, deben ser transferidos a un nuevo directorio. Acontinuación figura una lista típica de tipos de ficheros; el número de ficheros que comprendala lista variará según el país.

45

Page 49: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

46

1. Datos en el formato de un paquete concreto (por ejemplo, SAS para Windows, elprograma informático utilizado para depurar y analizar los datos).

2. Datos en el formato ASCII delimitado, con el diccionario de datos necesario (todoslos ficheros en texto, y más de un fichero).

3. Conjunto de datos de uso público sin las variables que puedan servir para identi-ficar a las personas o las instituciones, en el formato de un paquete concreto(fichero codificado a partir del punto 1 supra).

4. Conjunto de datos de uso público sin las variables que puedan servir para identi-ficar a las personas o instituciones, en el formato ASCII delimitado con el diccio-nario de datos oportuno (modificado a partir de los puntos 1 ó 3 supra).

5. Documentación final, preferiblemente en el formato de la Data DocumentationInitiative (DTD) y en ASCII texto, en el idioma original.

6. Cuestionario con respuestas, texto en idioma original (preferiblemente anotadocon nombres de variables, incluidas las derivadas, y creado con cualquier programadel paquete informático MS Office Suite).

7. Cualquier regla lógica que se haya elaborado como parte del tratamiento de losdatos y que no se haya incluido en ningún otro lugar, en el idioma original.

8. Programas creados como parte del tratamiento de datos y actividades de tabula-ción, en el idioma original (preferiblemente en ASCII texto).

9. Manual de instrucciones del entrevistador y/o el supervisor, preferiblemente enMSWord y en el idioma original;

10. Documentación, preferiblemente en MSWord y en el idioma original, en que sedescriba la estructura del conjunto de datos y se facilite información sobre lasvariables y los valores, los esquemas de codificación y clasificación, las variablesderivadas, la ponderación y la conversión. Detalles de cualquier medida adoptadapara garantizar el anonimato del conjunto de datos, a partir del punto 5 supra,como referencia.

11. Cualquier informe basado en el conjunto de datos, preferiblemente en MSWord yen el idioma original.

12. Códigos generados, como los de ocupaciones, industrias y lesiones.

13. Cualquier fichero de clasificación (por ejemplo, de ocupaciones o lesiones, creadoespecíficamente para la encuesta sobre trabajo infantil.

14. Todos los ítems mencionados en los puntos 5 a 13 en cualquier otro idioma, si sehan traducido.

Asimismo, habría que controlar del grado de cobertura para cerciorarse de que:

• el conjunto de datos correcto se encuentra en el lugar de almacenamiento temporaly está listo para ser trasferido al lugar de almacenamiento permanente. A menudo,el personal encargado de la digitación participa en diversas actividades a la vez y esposible que se hayan colocado ficheros incorrectos en el archivo temporal;

• se incluye el cuestionario en su forma original exacta;

Page 50: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

• se cuenta con todo el material documental (por ejemplo, listas de códigos y progra-mas) y está disponible para su utilización por las personas que realicen los análisissecundarios.

Por último, debería generarse un fichero índice con, al mínimo, los tres elementos deinformación siguientes sobre cada fichero:

• nombre del fichero,

• fecha de creación o de última modificación,

• descripción en línea del contenido del fichero.

También puede incluirse información como el tamaño del fichero, el nombre del autory los motivos de su creación en el fichero índice, que debería grabarse como fichero texto.

47

Page 51: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

4. Conservación de los datos

4.1 Introducción

La conservación de los datos – una de las etapas más importantes en una encuesta – esla actividad a la que menos atención suele prestarse. Muchas veces, el resultado de grandesencuestas se limita a unos pocos informes basados en una selección de cuadros, mientrasque los datos brutos utilizados para preparar esos informes simplemente se pierden. Ahorabien, deberían seguir disponibles para una utilización más amplia en análisis secundarios,para lo cual se requiere una estrategia de conservación y difusión eficaz y claramente defi-nida. A los efectos una correcta conservación de los datos es necesario:

• transferir los ficheros a una máquina donde puedan conservarse,

• indexar los ficheros,

• crear de una estructura de conservación en la máquina principal de almacenamiento,

• aplicar procedimientos eficientes de generación de copias de seguridad,

• adoptar procedimientos de seguridad física y técnica,

• supervisar de forma continúa todos los procedimientos que acabamos de mencionar.

El sistema final de conservación debería estar localizado en una máquina diferente delas empleadas para las operaciones cotidianas. Los datos y la documentación no deben guar-darse en una computadora de sobremesa o que se utilice para actividades habituales. Cuandoconcluya el tratamiento, la información debe transferirse a una máquina independiente, prefe-riblemente una que no se utilice para tratamiento de datos en el futuro.

Si no pueden tomarse esas medidas por escasez de recursos, habrá que copiar todos losficheros en un soporte fuera de línea como los CD-ROM. Esos soportes deberán etiquetarse,fecharse y almacenarse correctamente en un lugar seguro. Como medida de seguridad contrala eventual destrucción de las versiones originales, por ejemplo en un incendio, deben conser-varse copias en varios lugares diferentes.

Por lo demás, hay que controlar el acceso a la máquina de almacenamiento o a lossoportes fuera de línea (por ejemplo, CD-ROM, casetes, etc.), de forma que sólo el perso-nal autorizado pueda leer o modificar los ficheros.

Si alguna persona tiene interés en utilizar el conjunto de datos, se le proporcionaránsiempre copiasde los ficheros oportunos.

Los ficheros sólo se modificarán de acuerdo con los procedimientos de gestión de datosestablecidos. Todas las versiones anteriores deberán conservarse y habrá que actualizar el índice.

4.2 Organización de los ficheros

Cuando el tratamiento de los datos ha terminado y se han generado todos los ficheros,el personal encargado de su almacenamiento a largo plazo (normalmente el administradordel sistema) debe crear una estructura de directorio para la conservación permanente en unacomputadora. Los ficheros se pueden agrupar de varias formas, atendiendo a aspectos comoel tipo de fichero (contenido), la manera en que se han creado, etc.

Por lo que respecta al contenido, los ficheros pueden agruparse de este modo:

• Datos.Se trata de los ficheros efectivos de datos y pueden prepararse en diversosformatos (SPSS, ASCII, etc.).

49

Page 52: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

• Documentación. Se trata de ficheros que describen los datos. Pueden crearse utili-zando un paquete de tratamiento de textos o ser ficheros de texto plano.

• Programas.Se trata de ficheros de programas creados durante el tratamiento de losdatos (programas para diseñar la pantalla de entrada de los datos, por ejemplo). Unavez más, estos ficheros pueden corresponder a un paquete concreto o tener formatode texto plano.

• Cuestionarios.Los cuestionarios utilizados para la encuesta suelen tener el formatocorrespondiente a un paquete informático concreto.

• Manual para la encuesta.Los manuales de instrucciones suelen proporcionar direc-trices concretas a los encuestadores sobre cómo efectuar la recopilación de datos enel terreno.

• Informes. Los informes (incluidos los cuadros) preparados a partir de los datossuelen estar elaborados en el formato correspondiente a un paquete informáticoconcreto.

• Códigos (ocupaciones, industrias, lesiones, etc.). En la encuesta se utilizan códigosuniformes específicos para cada país.

Pueden existir datos de uso público diferentes de los utilizados internamente. Además,es posible que existan ficheros (como los programas informáticos creados para realizarcontroles de consistencia) que no estén disponibles para uso público.

Modelo de estructura de organización

A continuación presentamos una estructura de organización de ficheros que puede utili-zarse como modelo.

ETI. Para una gestión más fácil, debe almacenarse toda la información relacionada conla encuesta sobre trabajo infantil en un directorio que podemos denominar «ETI», odirectorio sobre trabajo infantil. El ETI es el directorio raíz de toda la informaciónconexa.

INTERNO y EXTERNO. El directorio ETI contiene dos subdirectorios denominadosINTERNO y EXTERNO respectivamente. El subdirectorio INTERNO consta de todos los fiche-ros generados durante el tratamiento de los datos. Todos los ficheros de este directorio sonde uso restringido. El subdirectorio EXTERNO contiene los ficheros de uso público. La estruc-tura de ambos es análoga, salvo que el subdirectorio INTERNO puede contener un númeromayor de ficheros.

VER_1. Dado que es inevitable que surjan versiones diferentes de los datos, existe laopción de crear un subdirectorio denominado VER_1.

DATOS, DOCUMENTOS e INFORMES. Dentro de VER_1 pueden crearse tressubdirectorios denominados DATOS, DOCUMENTOS e INFORMES. Un ficheroíndice describirá el contenido de cada uno.

• Directorio de datos.El directorio de datos contiene solamente ficheros de datos quepueden ser de texto o característicos del paquete. Dado que los ficheros de datos enformato texto siempre están asociados con listas de códigos, éstas aparecen en elmismo directorio. En un fichero índice se explicará el contenido de cada fichero.

• Directorio de documentos.Este directorio contiene toda la documentación necesa-ria en relación con los datos. Todos los programas creados para la consistencia, lastabulaciones, etc. figurarán también en este directorio, incluidos los cuestionarios.En un fichero índice se explicará el contenido de cada fichero.

50

Page 53: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

51

• Directorio de informes.Este directorio contiene todos los informes asociados conlos datos, incluidos el informe del país, el perfil del país, etc. En un fichero índicese explicará el contenido de cada fichero.

VER_2. Cuando un cambio el fichero de datos da lugar a una versión diferente, elfichero de documentación asociado debe cambiar también. Como mínimo, debe indicarque el fichero de datos se ha modificado, cuándo y porqué. Habrá que copiar toda laestructura del directorio. Sin embargo, si hay problemas de capacidad de almacena-miento, los ficheros modificados se guardarán en el directorio VER_2 y todos los fiche-ros que permanezcan intactos deben trasladarse también a VER_2. El fichero índice deVER_1 debe actualizarse para indicar la ubicación de los ficheros que faltan (en esteejemplo, los trasladados a VER_2) para que todos los ficheros sean fáciles de locali-zar. Esto se hace así porque normalmente los interesados buscarán primero en la últimaversión los ficheros que necesitan.

La estructura del directorio EXTERNO debe seguir un modelo similar. No obstante, elnúmero de ficheros externos puede ser inferior al de internos, ya que es posible quealgunos no se pongan a disposición de los usuarios exteriores. Éstos no deben teneracceso a ningún directorio VER_1; se les ofrecerá siempre la versión más reciente dispo-nible.

Si todos los ficheros se traducen a otro idioma, habrá que crear una estructura de direc-torios similar para cada idioma, siguiendo el modelo del gráfico que figura más adelante.Los nombres de los recuadros representan directorios, mientras que los nombres que apare-cen con guiones representan ficheros. Para mayor claridad, no se ha seguido en este caso elmétodo 8.3 para denominar los ficheros (véase el apartado 2.3 sobre la denominación de losficheros).

4.3 Transferencia de ficheros a un lugar de conservación

Cuando se transfieran los ficheros al lugar donde se almacenarán permanentemente,los administradores deben asegurarse de que ninguno se ha dañado durante la transferencia.Para asegurarse de que todos los ficheros están intactos, deben efectuarse las siguientescomprobaciones:

• El número de ficheros y sus nombres deben coincidir con la información que figuraen el fichero índice asociado.

• Debe certificarse que los ficheros no contienen virus.

• Los ficheros fuente y destino deben tener el mismo tamaño (en bytes).

• Deberían abrirse varios ficheros al azar para comprobar que se han transferido correc-tamente.

• Los administradores del sistema deberían realizar otros controles que considerenpertinentes.

• Si el sistema lo permite, las fechas de creación de los ficheros deben seguir siendolas mismas.

Page 54: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

4.4 Copias de seguridad

Tras finalizar el tratamiento de los datos, hay que generar copias de seguridad (backups).Por lo general, los conjuntos de datos completos sobre trabajo infantil no suelen rebasar los640 MB y lo mejor es almacenarlos en un único CD-ROM. Éste debe marcarse claramentede modo que se identifique su contenido y la fecha de creación. Si cambian los datos o ladocumentación, habrá que almacenarlos en otro CD o crear un nuevo conjunto de datos enel mismo CD, señalando la fecha de creación e instalándolos en un directorio diferente.

52

Page 55: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

53

Dato

s

Ver_

1

INTE

RNO

ETI

EXTE

RNO

Ver_

2

La e

stru

ctur

ase

rá a

nálo

ga a

lade

la v

ersi

on 1

Docu

men

tos

Info

rmes

Indi

ce.tx

t

Indi

ce.tx

t

Dato

s.sa

v

Dato

s.po

r

Dato

s.tx

t

Códi

gos.

txt

Indi

ce.tx

t

Met

adat

os

Prog

ram

as

Cues

tiona

rio

Etc.

Indi

ce.tx

t

Perf

il pa

ís

Info

rme

país

Otro

sin

form

es

Dato

sDo

cum

ento

sIn

form

esIn

dice

.txt

Indi

ce.tx

t

Dato

s.po

r

ASCI

I fic

hero

sda

tos

yco

nexo

sas

soci

és

Indi

ce.tx

t

Met

adat

os

Cues

tiona

rio

Indi

ce.tx

t

Perf

il pa

ís

Info

rme

país

Otro

sin

form

es

Page 56: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Transferencia de ficheros a la OIT

Todos los microdatos sobre trabajo infantil, junto con la documentación y los informesconexos, se conservarán en el archivo central de información relativa al trabajo infantil dela OIT. Teniendo siempre en cuenta la protección de la confidencialidad, esos datos sepondrán a disposición de otros usuarios.

Los ficheros pueden transferirse a la OIT por medio de procedimientos FTP. Los deta-lles de cómo transferir ficheros con ese procedimiento se facilitarán antes de que se ejecutela transferencia. Las personas que estén interesadas pueden ponerse en contacto con la OITen la siguiente dirección de correo electrónico: [email protected]

Ficheros que deben transmitirse a la OIT:

1. Conjunto de datos de uso público sin las variables que puedan servir para identi-ficar a las personas o las instituciones, en el formato ASCII delimitado, con la listade códigos o el diccionario de datos pertinentes. También en el formato del paqueteinformático concreto que se utilizó para la depuración de los datos o las tabula-ciones (por ejemplo, SPSS, SAS, etc.)

2. Documentación final, preferiblemente en el formato de la Data DocumentationInitiative (DTD) y en ASCII texto, en el idioma original.

3. Cuestionario con las categorías de respuesta en el idioma original (preferiblementeanotado con nombres de variables, incluidas las derivadas, y creado con cualquierprograma del paquete informático MS Office Suite).

4. Cualquier regla lógica que se haya elaborado como parte del tratamiento de losdatos y que no se haya incluido en ningún otro lugar, en el idioma original.

5. Programas creados como parte del tratamiento de datos y actividades de tabula-ción, en el idioma original (preferiblemente en ASCII texto).

6. Manual del entrevistador o el supervisor, preferiblemente en MSWord y en elidioma original.

7. Documentación, preferiblemente en MSWord y en el idioma original, en que sedescriba la estructura del conjunto de datos y se facilite información sobre lasvariables y los valores, los esquemas de codificación y clasificación, las variablesderivadas, la ponderación y la conversión, así como cualquier medida adoptadapara garantizar el anonimato del conjunto de datos. También la media, la desvia-ción estándar y los valores máximo y mínimo de cada variable.

8. Cualquier esquema de codificación o referencia a la codificación de información(por ejemplo, ocupaciones, industrias y lesiones) en MSWord.

9. Cualquier informe basado en el conjunto de datos, preferiblemente en MSWord yen el idioma original.

10. Todos los ítems mencionados en cualquier otro idioma, si se han traducido.

55

Page 57: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Recursos adicionales

Active Server Corner. What’s in a name? Part I: Variables and methods.http://www.kamath.com/columns/squareone/so001_whatname1.asp

Audience Dialogue.Survey analysis.http://www.audiencedialogue.org/kya5.html

Carolina Population Center. Stata Programming: Data Management.University of NorthCarolina.http://www.cpc.unc.edu/services/computer/presentations/statatutorial#combining

Center for Statistical Information and Research (CSCAR).Guide to data entry. Universityof Michigan. http://www.umich.edu/~cscar/software/dataentry.html

Centers for Disease Control and Prevention. EpiInfo, Version 6.http://www.cdc.gov/epiinfo/epi6man/epi6titl.htm

Data Documentation Initiative – A project of the social science community http://www.icpsr.umich.edu/DDI/

Data Documentation Initiative. Codebook DTD Version 1.0 (FINAL) March 17 2000 http://www.icpsr.umich.edu/DDI/index.html

Data, Government and Geographic Information Services. SSDC Data File Structure in aNutshell.University of California, San Diego. http://ssdc.ucsd.edu/ssdc/browse/dataformat.html#structure

Deakin University, School of Information Technology. Introduction to Data Collectionand Analysis: Processing survey data.http://www.deakin.edu.au/~agoodman/sci101/chap9.php

History Data Service. Creating Data.http://hds.essex.ac.uk/create.asp

ILO. Classifications of Occupational Injuries. http://www.ilo.org/public/english/bureau/stat/class/acc/index.htm

ILO. International Classification of Status in Employment (ICSE). http://www.ilo.org//public/english/bureau/stat/class/icse.htm.

ILO. International Programme on the Elimination of Child Labour. http://www.ilo.org/childlabour

ILO. International Standard Classification of Occupations. http://www.ilo.org/public/english/bureau/stat/class/isco.htm

ILO. International Standard Industrial Classification of all Economic Activities (ISIC). http:// www.ilo.org//public/english/bureau/stat/class/isic.htm.

ILO. Survey of activities of young people 1999.http://www.ilo.org/public/english/standards/ipec/simpoc/southafrica/document/quest_2.pdf

Inter-University Consortium for Political and Social Research (ICPSR). Guide to SocialScience Data Preparation and Archiving.http://www.icpsr.umich.edu/ACCESS/dpm.html

57

Page 58: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

North Carolina State University – Department of Statistics. How to Collect Survey Data.http://www.stat.ncsu.edu/info/srms/survcoll.html

North Carolina State University – Department of Statistics.How to Plan a Survey. http://www.stat.ncsu.edu/info/srms/survplanl.html

Office of Information Technology Services.An introduction to SPSS. Murdoch University.http://www.its.murdoch.edu.au/services/software/sitelic/spss/spss-intro.html

QQQ software Inc. http://www.qqqsoft.com/

Rasinksi, K., Timberlake, J., Lee, L., Porras, J. and Mulrow, J : Producing a Public UseFile: A Case Study.American Statistical Association. http://www.amstat.org/sections/srms/Proceedings/papers/1997_074.pdf

SRS Data Library. Introduction to data handling.University of Chicago. http://www.spc.uchicago.edu/DATALIB/DLguides/Gdathand.html

The Blaise System Homepage. http://neon.vb.cbs.nl/blaise

U.S. Census Bureau, CS Pro.http://www.census.gov/ipc/www/cspro/index.html

U.S. Census Bureau.The Integrated Microcomputer Processing System. http://www.census.gov/ipc/www/imps/index.html

U.S. Department of Health and Human Services. Documenting Survey Data Files. http://aspe.hhs.gov/hsp/leavers99/datafiles/ch_4.pdf

U.S. Department of Health and Human Services. Producing welfare outcomes data files.http://aspe.hhs.gov/hsp/leavers99/datafiles/ch_1.pdf

UCLA Academic Technology Services,SPSS Learning Module Match: Merging DataFiles.University of California, Los Angeles. http://www.ats.ucla.edu/stat/spss/modules/merge.htm

UCLA Academic Technology Services. SPSS Class notes: Splitting and merging files.University of California, Los Angeles. http://www.ats.ucla.edu/stat/spss/notes/merge.htm

UK Data Archive. http://www.data-archive.ac.uk

UNICEF.MICS data processing.http://childinfo.org/MICS2/Dproc/ver2/m2dprocb.htm

58

Page 59: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Glosario 24

ASCII. Código normalizado en Estados Unidos para el intercambio de información (Ameri-can Standard Code for Information Interchange). Es una de las formas en que muchascomputadoras codifican caracteres, dígitos y caracteres especiales. Dicho de otro modo,todos los caracteres están en formato texto y no se precisa ninguna conversión para leero escribir caracteres ASCII (al contrario que con los formatos de paquetes informáti-cos concretos).

CAPI. Entrevistas personales con computadoras (computer-aided personal interviews),donde los datos se recaban en entrevistas personales utilizando pequeñas computado-ras (palmtop o portátiles, o aparatos electrónicos de mano que pueden conectarse acomputadoras) para el acopio de datos.

Caso.Datos completos sobre una persona, un hogar o una entidad. A veces se le denominatambién observacióno unidad de observación. Un registro simple o registros múlti-ples, dependiendo de la encuesta y de la estructura de los datos, constituirían un caso.

CATI. Entrevistas telefónicas con computadoras (computer-aided telephone interviews),donde los datos se obtienen mediante entrevistas por teléfono utilizando pequeñascomputadoras (palmtop o portátiles, o aparatos electrónicos de mano que pueden conec-tarse a computadoras) para el acopio de datos.

Código.En la mayoría de los ficheros de datos numéricos, las respuestas a las preguntas seregistran con números en lugar de texto y, a menudo, incluso las respuestas numéricasse registran con otros números en lugar de la respuesta dada. Los números utilizadosen los ficheros de datos se denominan «códigos». Así pues, cuando un niño encuestadodice que trabaja, podría utilizarse el código «1» para «recoger agua», «2» para «mendi-gar», etc. Análogamente, se puede codificar la edad de 18 años con el número 2, queindicaría «18 o más». Los códigos utilizados y su correspondencia con las respuestareales se plasman en una lista de códigoso, cuando están precodificados, en elcuestionario.

Código aberrante.En las investigaciones mediante encuestas, los códigos aberrantes (wildcodes) son aquellos no autorizados para una pregunta concreta. Por ejemplo, si unapregunta sobre el sexo de los encuestados puede llevar los códigos «1» para mujer, «2»para hombre y «9» para datos faltantes, el código «3» sería aberrante. También se ledenomina código no documentado.

Conexión directa por cable.Se trata de un procedimiento basado en Windows que permitetransferir ficheros entre computadoras que no están conectadas en red. El programasuele instalarse con Windows y estar emplazado en el grupo de programas «Acceso-rios/Comunicación». Las computadoras deben de estar conectadas a través de suspuertos en serie o paralelos y haber sido correctamente configuradas antes de realizarla transferencia de ficheros.

Cuestionario.Denominado también instrumento de encuesta, consiste en la lista de pregun-tas que se formularán durante las entrevistas.

Cuestionario precodificado.Se trata de un cuestionario en el que se han incluido los códigospara cada respuesta.

59

24 Varias definiciones en este glosario se basan en Glossary of Selected Social ScienceComputing Terms and Social Science Data Termshttp://odwin.ucsd.edu/glossary/glossary.html

Page 60: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Datos agregados.Datos calculados a partir de microdatos.

Datos brutos.Sinónimo de microdatos.

DDI. La iniciativa de documentación de datos (Data Documentation Initiative)es unesfuerzo para establecer criterios y una metodología a nivel internacional en relacióncon el contenido, la presentación, la transferencia y la conservación de metadatossobreconjuntos de datos en las ciencias sociales y del comportamiento.

Doble entrada.Se produce cuando, durante la entrada de datos, dos personas diferentesintroducen los mismos datos y luego se comparan los resultados para detectar errores.

DTD. Una definición de tipo de documento (Document Type Definition)es un conjunto denormas, determinado por una aplicación que utiliza el lenguaje estándar generalizadode composición de páginas SGML (Standard Generalized Mark-up Language)paramarcar los documentos de un tipo concreto.

Entrada inteligente de datos. Consiste en la utilización de programas informáticos paradetectar errores durante la entrada de datos, así como en la adopción de medidas preven-tivas para evitar errores.

Fichero jerárquico. Es un fichero de datos ASCII en el que se organizan varios tipos deregistros. El tipo y, normalmente, el número de variables asociadas a cada encuestadoo unidad de análisis difieren para cada tipo de registro. Por ejemplo, un hogar puedeser del tipo de registro 1, que consiste en diez variables que describen la vivienda, mien-tras que una persona puede ser del tipo de registro 2, que consiste en veinte variablesdistintas que describen a cada miembro que reside en la vivienda.

Fichero plano.Se refiere a la estructura de un fichero. Un fichero plano es aquel en el quecada encuestado o unidad de análisis contiene el mismo número de variables. A menudose le denomina también fichero rectangular. Lo contrario es el fichero jerárquico.

FTP. Un protocolo de transferencia de ficheros (File Transfer Protocol)es un método fiablepara transferir ficheros electrónicamente entre computadoras conectadas en red.

HTML. El lenguaje de marcado de hipertexto (HyperText Markup Language)es el lenguajehabitual de publicación de páginas en la World Wide Web.

Imputación. El proceso mediante el cual se estiman los valores faltantes de los ítems nofacilitados por un encuestado.

LapLink. Programa informático que permite transferir ficheros de una computadora a otracuando no están conectadas en red. En primer lugar, se conectan las dos computadorascon un cable LapLink mediante sus puertos paralelos o en serie. Cuando se arrancanambas computadoras en modo Dos y LL3 (LapLink 3.0), se ejecuta el programa y losficheros pueden transferirse entre ambas computadoras de manera muy sencilla.

Lista o libro de códigos. Genéricamente, toda información sobre la estructura, el contenidoy el diseño de un fichero de datos. La lista de códigos suele incluir la ubicación y laamplitud de las columnas correspondientes a cada variable; definiciones de distintostipos de registro; códigos de respuesta para cada variable; códigos de respuestas no faci-litadas y datos faltantes; preguntas exactas y patrones de salto utilizados en la encuesta,así como otros elementos del contenido de cada variable. Muchas listas de códigoscomprenden también las frecuencias de respuesta. La calidad y la cantidad de la infor-mación consignada en estas listas (en lenguaje máquina, papel o microfichas) varíanmucho.

60

Page 61: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Metadatos. Datos sobre los datos. Constituyen información útil para el empleo eficaz,eficiente y preciso de los conjuntos de datos a los que se refieren.

Microdatos. Información sobre personas obtenida con algún procedimiento de acopio dedatos (entrevistas personales en la mayoría de las encuestas sobre trabajo infantil). Losficheros que contiene microdatos se denominan con ese nombre, es decir, ficheros demicrodatos.

PAPI. Entrevistas a lápiz y papel (paper-and-pencil-interview). Los datos se obtienenmediante entrevistas personales y las respuestas se anotan en papel (en los cuestiona-rios). A continuación, se entran los datos en una computadora para su tratamiento.

Ponderación.En las investigaciones mediante encuestas, se refiere a un número asociado aun caso o una unidad de análisis. La ponderación se utiliza como medida de la contri-bución relativa de las variables de ese caso cuando se efectúan estimaciones para lapoblación total. Cuando se utiliza una muestra de probabilidades, es fácil que algunoselementos de la población estén subrepresentados o sobrerepresentados en la muestra.A fin de que las estimaciones de la población completa sean más exactas, se asigna un«peso» a cada caso para ajustar los datos generales de modo que se acerquen más a lapoblación total real.

RDF. Marco de descripción de recursos (Resource Description Framework). Es una formaestándar de describir una entidad, por ejemplo las condiciones en las que ciertos datosno pueden ponerse a disposición de determinados usuarios.

Registro. Datos completos sobre una persona, un hogar o una entidad. Varias variables cons-tituyen un registro. Cuando un registro constituye un caso, el número de registros es igualal número de casos (observaciones o unidades de observación) en un fichero de datos.

SGML. Lenguaje estándar generalizado de composición de páginas (Standard GeneralizedMarkup Language).

Telnet. Es un proceso para acceder a una computadora remota que trabaja en red y utilizarrecursos disponibles en ella.

Tipo de registro.A veces, en un fichero de datos ASCII una misma columna se refiere auna variable diferente. En la lista de códigosasociada a un fichero de datos ASCII seexplica la manera en que el paquete estadístico interpretará cada columna del ficherosegún el tipo de registro.

Unidad de análisis.Se trata de la entidad básica observable analizada en una encuesta ypara la que se obtienen datos en forma de variables. Aunque a menudo se le denominacasou observación, esos términos no son siempre sinónimos. En el caso de las encues-tas sobre trabajo infantil, la «unidad de análisis» es una persona, mientras que un «caso»es un hogar, porque el hogar puede contener variables diferentes para distintas unida-des de análisis: esto es, la vivienda, la familia dentro de la estructura y la persona dentrode la familia.

Valores faltantes.Son los valores (códigos) que no aparecen en un conjunto de datos. Aveces, los espacios previstos para los datos correspondientes a una variable en un regis-tro concreto están en blanco, por ejemplo si la pregunta no es aplicable.

Variable. En ciencias sociales, cada ítem de datos para cada unidad de análisis (por ejemplo,edad de la persona, ingresos de la familia) se denomina variable.

XML. El lenguaje de marcas extensible (Extensible Markup Language)es el formato univer-sal para documentos y datos estructurados en la World Wide Web.

61

Page 62: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

63

Anexo I

Comparación de paquetes estadísticos 25

STATA STATA SAS SAS SPSSVersión 6 Versión 7 Versión 6.12 Versión 8.x Versión 10

Tamaño máx. 1 024 (usandofichero de datos 8 192 8 192 32 767 1 megabyte data list); mayor si

brutos (en Windows se usa File Handle)

Depende Depende Windows NTFS: Windows NTFS: Ilimitado (salvo Tamaño máx. de la memoria de la memoria 17GB. 4 billones GB por espacio

fichero de datos libre en la libre en la Otros: Otros: disponiblecomputadora computadora Windows: 2GB Windows: 2GB en el disco)

Ilimitado (salvo Ilimitado (salvo Ilimitado (salvo Número máx. por espacio por espacio por espacio

de observaciones 2 147 483 647 2 147 483 647 disponible disponible disponible en el disco) en el disco) en el disco)

Ilimitado (salvo Número máx. por espacio de variables 2 047 2 047 32 767 32 767 disponible

en el disco)

Longitud máx. del nombre 8 32 8 32 8

de una variable

Longitud máx. de la etiqueta 80 80 40 256 255

de una variable

Longitud máx. de la etiqueta de un valor 80 80 40 256 60

Longitud máx. de la etiqueta de un 80 80 ? 32 60conjunto de datos

Longitud máx. 8 para cadenas de una variable 80 80 200 32 767 cortas; 255 para

de cadena cadenas largas

Número máx. de códigos de 1 1 27 27 Ilimitado

valores faltantes

Número máx. de notas que pueden adjuntarse al fichero 9 999 9 999 No disponible No disponible Ilimitado

de datos

Número de conjuntos de datos

que pueden abrirse a la vez 1 1 Ilimitado Ilimitado 1

25 Basado en UCLA Academic Technology Services: SPSS FAQ What are the limits of SPSS version 10and other statistical packages?http://www.ats.ucla.edu/stat/spss/faq/spsslimits.htm

Page 63: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

STATA STATA SAS SAS SPSSVersión 6 Versión 7 Versión 6.12 Versión 8.x Versión 10

Número de Fechas Número de días Número de días Número de días Número de días segundos

calculadas como desde 1/1/1960 desde 1/1/1960 desde 1/1/1960 desde 1/1/1960 desde el 14 oct. 1582

Número máx. de variables clave 10 10 Ilimitado Ilimitado Ilimitado

en una fusión

Número máx. de niveles en codific./ 80 80 No disponible No disponible Ilimitado

auto recodific.

Número máx. de condiciones

en un enunciado 30 100 Ilimitado Ilimitado Ilimitado

del tipo «si …»

Número máx.de filas en un 3 000 3 000 32 760 casillas 32 760 casillas Ilimitado

cuadro unívoco

Número máx. de filas en un 300 300 32 760 casillas 32 760 casillas Ilimitado

cuadro biunívoco

Número máx. de columnas en un 20 20 32 760 casillas 32 760 casillas Ilimitadocuadro biunívoco

64

Page 64: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Anexo II

Nombres de países y códigos correspondientes 26

http://www.europarl.eu.int/transl_es/plataforma/pagina/maletin/colecc/glosario/pe/paises.htm

(Traducción de la lista de códigos ISO en español, disponible en el sitio Web del Parla-mento Europeo)

En la presente lista se exponen los nombres de los países (nombres usuales oficiales enespañol) por orden alfabético según la norma ISO 3166-1 y los códigos correspondientessegún la norma ISO 3166-1-Alpha-2.

Esta lista se actualiza cada vez que el organismo encargado del mantenimiento de ISO3166 modifica la lista de códigos oficiales ISO 3166-1.

He aquí la lista completa y actualizada al 26 de febrero de 2001. Contiene 239 nombrescortos con sus códigos respectivos.

AFGANISTÁN AF

ALBANIA AL

ALEMANIA DE

ANDORRA AD

ANGOLA AO

ANGUILA AI

ANTÁRTIDA AQ

ANTIGUA Y BARBUDA AG

ANTILLAS NEERLANDESAS AN

ARABIA SAUDITA SA

ARGELIA DZ

ARGENTINA AR

ARMENIA AM

ARUBA AW

AUSTRALIA AU

AUSTRIA AT

AZERBAIYÁN AZ

BAHAMAS BS

BAHREIN BH

BANGLADESH BD

BARBADOS BB

BELARÚS BY

65

26 Basado en International Organization for Standardization : http://www.iso.ch/iso/en/prods-services/iso3166ma/02iso-3166-code-lists/list-en1.html

Page 65: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

BÉLGICA BE

BELICE BZ

BENIN BJ

BERMUDAS BM

BHUTÁN BT

BOLIVIA BO

BOSNIA Y HERZEGOVINA BA

BOTSWANA BW

BRASIL BR

BRUNEI DARUSSALAM BN

BULGARIA BG

BURKINA FASO BF

BURUNDI BI

CABO VERDE CV

CAMBOYA KH

CAMERÚN CM

CANADÁ CA

CHAD TD

CHILE CL

CHINA CN

CHIPRE CY

COLOMBIA CO

COMORAS KM

CONGO CG

COSTA RICA CR

CÔTE D’IVOIRE CI

CROACIA HR

CUBA CU

DINAMARCA DK

DJIBOUTI DJ

DOMINICA DM

ECUADOR EC

EGIPTO EG

EL SALVADOR SV

El VATICANO Véase LA SANTA SEDE

EMIRATOS ÁRABES UNIDOS AE

ERITREA ER

ESLOVAQUIA SK

ESLOVENIA SI

66

Page 66: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

ESPAÑA ES

ESTADOS UNIDOS US

ESTONIA EE

ETIOPÍA ET

FEDERACIÓN DE RUSIA RU

FIJI FJ

FILIPINAS PH

FINLANDIA FI

FRANCIA FR

GABÓN GA

GAMBIA GM

GEORGIA GE

GEORGIA DEL SUR E ISLAS SANDWICH DEL SUR GS

GHANA GH

GIBRALTAR GI

GRANADA GD

GRECIA GR

GROENLANDIA GL

GUADALUPE GP

GUAM GU

GUATEMALA GT

GUAYANA FRANCESA GF

GUINEA GN

GUINEA ECUATORIAL GQ

GUINEA-BISSAU GW

GUYANA GY

HAITÍ HT

HONDURAS HN

HONG KONG HK

HUNGRÍA HU

INDIA IN

INDONESIA ID

IRÁN IR

IRAQ IQ

IRLANDA IE

ISLA BOUVET BV

ISLA CHRISTMAS CX

ISLA NIUE NU

ISLA NORFOLK NF

67

Page 67: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

ISLA PITCAIRN PN

ISLANDIA IS

ISLAS CAIMÁN KY

ISLAS COCOS (KEELING) CC

ISLAS COOK CK

ISLAS FEROE FO

ISLAS HEARD Y MCDONALD HM

ISLAS MALVINAS (FALKLAND) FK

ISLAS MARIANAS DEL NORTE MP

ISLAS MARSHALL MH

ISLAS PERIFÉRICAS MENORES DE LOS ESTADOS UNIDOS UM

ISLAS SALOMÓN SB

ISLAS SVALBARD Y JAN MAYEN SJ

ISLAS TURCAS Y CAICOS TC

ISLAS VÍRGENES BRITÁNICAS VG

ISLAS VÍRGENES DE LOS ESTADOS UNIDOS VI

ISLAS WALLIS Y FUTUNA WF

ISRAEL IL

ITALIA IT

JAMAHIRIYA ÁRABE LIBIA LY

JAMAICA JM

JAPÓN JP

JORDANIA JO

KAZAJSTÁN KZ

KENYA KE

KIRGUISTÁN KG

KIRIBATI KI

KUWAIT KW

LA SANTA SEDE / EL VATICANO VA

LESOTHO LS

LETONIA LV

LÍBANO LB

LIBERIA LR

LIECHTENSTEIN LI

LITUANIA LT

LUXEMBURGO LU

MACAO MO

MACEDONIA MK

MADAGASCAR MG

68

Page 68: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

MALASIA MY

MALAWI MW

MALDIVAS MV

MALÍ ML

MALTA MT

MARRUECOS MA

MARTINICA MQ

MAURICIO MU

MAURITANIA MR

MAYOTTE YT

MÉXICO MX

MICRONESIA FM

MOLDOVA MD

MÓNACO MC

MONGOLIA MN

MONTSERRAT MS

MOZAMBIQUE MZ

MYANMAR MM

NAMIBIA NA

NAURU NR

NEPAL NP

NICARAGUA NI

NÍGER NE

NIGERIA NG

NORUEGA NO

NUEVA CALEDONIA NC

NUEVA ZELANDA NZ

OMÁN OM

PAÍSES BAJOS NL

PAKISTÁN PK

PALAU PW

PALESTINA PS

PANAMÁ PA

PAPÚA NUEVA GUINEA PG

PARAGUAY PY

PERÚ PE

POLINESIA FRANCESA PF

POLONIA PL

PORTUGAL PT

69

Page 69: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

PUERTO RICO PR

QATAR QA

REINO UNIDO GB

REPÚBLICA CENTROAFRICANA CF

REPÚBLICA CHECA CZ

REPÚBLICA DE COREA KR

REPÚBLICA DEMOCRÁTICA DEL CONGO CD

REPÚBLICA DEMOCRÁTICA POPULAR LAO LA

REPÚBLICA DOMINICANA DO

REPÚBLICA POLULAR DEMOCRÁTICA DE COREA KP

REUNIÓN RE

RUMANIA RO

RWANDA RW

SAHARA OCCIDENTAL EH

SAINT KITTS Y NEVIS KN

SAMOA WS

SAMOA AMERICANA AS

SAN MARINO SM

SAN PEDRO Y MIQUELÓN PM

SAN VICENTE Y LAS GRANADINAS VC

SANTA ELENA SH

SANTA LUCÍA LC

SANTO TOMÉ Y PRÍNCIPE ST

SENEGAL SN

SEYCHELLES SC

SIERRA LEONA SL

SINGAPUR SG

SIRIA SY

SOMALIA SO

SRI LANKA LK

SUDÁFRICA ZA

SUDÁN SD

SUECIA SE

SUIZA CH

SURINAME SR

SWAZILANDIA SZ

TAILANDIA TH

TAIWÁN TW

TANZANÍA TZ

70

Page 70: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

TAYIKISTÁN TJ

TERRITORIO BRITÁNICO DEL OCÉANO ÍNDICO IO

TERRITORIOS AUSTRALES FRANCESES TF

TIMOR ORIENTAL TP

TOGO TG

TOKELAU TK

TONGA TO

TRINIDAD Y TABAGO TT

TÚNEZ TN

TURKMENISTÁN TM

TURQUÍA TR

TUVALU TV

UCRANIA UA

UGANDA UG

URUGUAY UY

UZBEKISTÁN UZ

VANUATU VU

VENEZUELA VE

VIET NAM VN

YEMEN YE

YUGOSLAVIA YU

ZAIRE Véase, REPÚBLICA DEMOCRÁTICA DEL CONGO

ZAMBIA ZM

ZIMBABWE ZW

71

Page 71: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

72

¿Cuál fue el grado másalto alcanzado por…?

INDICAR GRADO

¿Porqué no ha ido ….nunca a la escuela?

TRABAJO . . . . . . . . . . 1CARO . . . . . . . . . . . . . 2DISTANCIA . . . . . . . . . 3MATRÍCULA DENEGADA . . . . . . . . 4

OTROS . . . . . . . . . . . . 5(ESPECIFICAR)

>> SIGUIENTE PERSONA

¿Ha ido … alguna vez ala escuela?

SÍ . . . . . . . . . . . 1 >> P4NO. . . . . . . . . . . . . . . . 2

COMPROBAR LA EDAD.SI … TIENE 15 AÑOS OMÁS, PREGUNTAR

¿Es … capaz de leer unacarta o un periódico?

FÁCILMENTE. . . . . . . . 1CON DIFICULTAD . . . . 2NO, EN ABSOLUTO . . . 3NO RESPONDE . . . . . . 8NO SABE . . . . . . . . . . . 9

MÓDULO DE EDUCACIÓN – CONTINUACIÓN

PREGUNTAR SÓLO CON RESPECTO A LAS PERSONAS DE 5-30 AÑOS, LAS DEMÁS >> MÓDULO SIGUIENTE

NÚMERO 5 6 7 8DE PERSONA

¿Va … a la escuelaactualmente (aunque eneste momento esté devacaciones)?

SÍ . . . . . . . . . . . . . . . . 1NO . . . . . . . . . . 2 >> P8

¿A qué tipo de escuelava …?

PÚBLICA . . . . . . . . . . . 1PRIVADA. . . . . . . . . . . 2RELIGIOSA . . . . . . . . . 3COMUNITARIA . . . . . . 4OTROS . . . . . . . . . . . . 5

¿Qué grado cursa …actualmente?

INDICAR GRADO >> . P9

¿Cuál es el principalmotivo de que … novaya a la escuela?

TRABAJO . . . . . . . . . . 1CARO . . . . . . . . . . . . . 2DISTANCIA . . . . . . . . . 3NO SELECCIONADO(A) /FRACASO . . . . . . . . . 4

EMBARAZO. . . . . . . . . 5ESCOLARIZACIÓN TERMINADA . . . . . . . 6

MATRIMONIO . . . . . . . 7OTROS__________ . . 8

(ESPECIFICAR)

MÓDULO DE EDUCACIÓN – CONTINUACIÓN

PREGUNTAR SÓLO CON RESPECTO A LAS PERSONAS DE 5-30 AÑOS, LAS DEMÁS >> MÓDULO SIGUIENTE

NÚMERO DE PERSONA 9 10 11

¿Fue … a la escuela el añopasado?

SÍ. . . . . . . . . . . . . . . . . . . . 1NO. . . . . . . . . . . . . . . . . . . 2

>> MÓDULO SIGUIENTE

¿A qué tipo de escuela fue… el año pasado?

PÚBLICA . . . . . . . . . . . . . . 1PRIVADA . . . . . . . . . . . . . . 2RELIGIOSA . . . . . . . . . . . . 3COMUNITARIA . . . . . . . . . 4OTROS . . . . . . . . . . . . . . . 5

¿Qué grado cursó … el añopasado?

INDICAR GRADO

Anexo III

Cuestionario de la Encuesta de Finales de Década y Trabajo Infantil (módulo deeducación) de Zambia 27

PREGUNTAS

NÚMERO 1 2 3 4DE PERSONA

27 Basados en ILO/IPEC/SIMPOC/Zambia http://www.ilo.org/public/english/standards/ipec/simpoc/zambia/document/zafh01gq.pdf

Page 72: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Anexo IV

Ejemplo de lista de códigos para datos ASCII creada con SAS 28

Índice Nombre del fichero: HOGARPregunta Nombre de la variable

Número único . . . . . . . . . . . . . . . . . . . . . . . . NOUNP4.1 Tipo de vivienda que ocupa la familia . . . . . . . . . . . P41VIVIEP4.2 Número de habitaciones . . . . . . . . . . . . . . . . . . . P42NOHABP4.3 Fuente de energía (cocina) . . . . . . . . . . . . . . . . . P43COCINP4.3 Fuente de energía (calefacción) . . . . . . . . . . . . . . . P43CALEFP4.3 Fuente de energía (iluminación) . . . . . . . . . . . . . . . P43ILUMIP4.4a Persona encargada de recoger leña/carbón . . . . . . . . . P44ARECLP4.4b Sexo de las personas encargadas de recoger leña/carbón . . P44BRECLP4.5 Fuente principal de agua de la familia . . . . . . . . . . . P45FAGUAP4.6a Persona encargada de recoger agua . . . . . . . . . . . . . P46ARECAP4.6b Sexo de las personas encargadas de recoger agua . . . . . . P46BRECAP4.7a Cultivo de las tierras o cría de ganado . . . . . . . . . . . P47ACUCRP4.7b Miembro de la familia que posee la tierra . . . . . . . . . . P47BTIEAP4.7b Tierra asignada por la tribu . . . . . . . . . . . . . . . . . P47BTIEBP4.7b Familia con permiso del propietario para cultivar tierras . . P47BTIECP4.7b Familia que paga para arrendar las tierras . . . . . . . . . . P47BTIEDP4.7b Familia que proporciona mano de obra . . . . . . . . . . . P47BTIEEP4.7b Paga una renta con parte de la producción . . . . . . . . . P47BTIEFP4.7b Derecho a usar la tierra porque la trabaja . . . . . . . . . . P47BTIEGP4.7b Familia con acceso gratuito a la tierra . . . . . . . . . . . . P47BTIEHP4.8a Ingresos brutos totales anuales de la familia . . . . . . . . P48ABRUTP4.8b Salarios o pagas regulares . . . . . . . . . . . . . . . . . . P48BREGUP4.8b Pagas esporádicas . . . . . . . . . . . . . . . . . . . . . . P48BESPOP4.8b Ingresos de autoempleo / negocio propio . . . . . . . . . . P48BPROPP4.8b Rentas exteriores al hogar . . . . . . . . . . . . . . . . . . P48BEXTHP4.8b Ingresos de la agricultura . . . . . . . . . . . . . . . . . . P48BAGRIP4.8b Pensión por vejez . . . . . . . . . . . . . . . . . . . . . . P48BPENSP4.8b Subsidio por hijos, subsidio por acogida de niños . . . . . P48BSHIJP4.8c Alojamiento subvencionado . . . . . . . . . . . . . . . . . P48CSUBAP4.8c Alimentos subvencionados . . . . . . . . . . . . . . . . . P48CSUBB

Provincia . . . . . . . . . . . . . . . . . . . . . . . . . . PROVTipo de zona . . . . . . . . . . . . . . . . . . . . . . . . . ESTRATOReúne los requisitos para la segunda fase . . . . . . . . . . CALIFICSeleccionado para segunda fase . . . . . . . . . . . . . . . SELECCIONúmero de persona del principal encuestado . . . . . . . . P49PRINELengua de la encuesta . . . . . . . . . . . . . . . . . . . . P410LENGPonderación del hogar para la fase uno . . . . . . . . . . . HPOND

73

28 Véase también http://www.ilo.org/public/english/standards/simpoc/southafrica/index.htm

Page 73: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Nombre del fichero HOGARSección: Sección 4

Número único

Nombre var.: NOUN Posición: 1 Tipo/long.: Numérico 10Código válido: 1011010101 - 9313021471

P4.1 ¿Qué tipo de vivienda ocupa esta familia? (Si ocupa más de una vivienda,rodee con un círculo el tipo principal de vivienda)

Nombre var.: P41VIVIE Posición: 11 Tipo/long.: Numérico 3Código válido: 1 Casa o estructura de ladrillo en un lote separado*

2 Construcción tradicional/choza/estructura hecha conmateriales tradicionales*

3 Apartamento en un edificio*4 Casa en la ciudad/barriada/adosada (una, dos o tres

plantas)*5 Casa/apartamento/cuarto en una barriada6 Vivienda improvisada/choza en una barriada7 Vivienda improvisada/choza fuera de una barriada,

por ejemplo en un asentamiento o zona tradicional-mente precarios*

8 Cuarto(s)/garaje fuera de una barriada pero en una propiedad compartida*

9 Caravana/tienda de campaña*10 Otros, especificar

-99 Sin especificar* Incluya en las categorías 1 a 4 y 7 a 9 estructuras similares en explotaciones agrícolas.

P4.2 ¿De cuántas habitaciones, incluidas las cocinas, dispone esta familia?Excluir las letrinas y los cuartos de aseo

Nombre var.: P42NOHAB Posición: 14 Tipo/long.: Numérico 3Código válido: 1 – 20

-99 Sin especificar

P4.3 ¿Cuál es la principal fuente de energía/combustible de esta familia?(Para cocinar)

Nombre var.: P43COCIN Posición: 17 Tipo/long.: Numérico 3Código válido: 1 Electricidad

2 Gas3 Queroseno4 Leña5 Carbón6 Candelas7 Boñigas8 Energía solar9 Otros, especificar

-99 Sin especificar

P4.3 ¿Cuál es la principal fuente de energía/combustible de esta familia?(Para calefacción)

Nombre var.: P43CALEF Posición: 20 Tipo/long.: Numérico 3Código válido: 1 Electricidad

2 Gas

74

Page 74: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

3 Queroseno4 Leña5 Carbón6 Candelas7 Boñigas8 Energía solar9 Otros, especificar

-99 Sin especificar

P4.3 ¿Cuál es la principal fuente de energía o combustible de esta familia?(Para iluminación)

Nombre var.: P43ILUMI Posición: 23 Tipo/long.: Numérico 3Código válido: 1 Electricidad

2 Gas3 Queroseno4 Leña5 Carbón6 Candelas7 Boñigas8 Energía solar9 Otros, especificar

-99 Sin especificar

P4.4a (Formular la P4.4 si alguna respuesta a P4.3 es 4 ó 7) ¿Quién se encarganormalmente de recoger la leña o las boñigas?

Nombre var.: P44ARECL Posición: 26 Tipo/long.: Numérico 4Código válido: 1 Una persona que no pertenece a la familia (persona

contratada) (Pasar a P4.5)2 Una persona que no pertenece a la familia

(gratuitamente) (Pasar a P4.5)3 Sólo uno/varios adultos de la familia4 Sólo uno/varios niños (menores de 18 años) de la

familia5 Uno/varios adultos y uno/varios niños (menores de

18 años) de la familia6 Otros, especificar

-99 Sin especificar-999 No aplicable

P4.4b Las personas que recogen normalmente la leña o las boñigas son …

Nombre var.: P44BRECL Posición: 30 Tipo/long.: Numérico 4Código válido: 1 Principalmente personas de sexo masculino

2 Principalmente personas de sexo femenino3 Misma proporción de ambos sexos

-99 Sin especificar-999 No aplicable

P4.5 ¿Cuál es la principal fuente de agua de la familia?

Nombre var.: P45FAGUA Posición: 34 Tipo/long.: Numérico 3Código válido: 1 Agua corriente en la vivienda (Pasar a P4.7)

2 Agua corriente en otro lugar o en la barriada (Pasar a P4.7)

3 Grifos públicos4 Cisterna/depósito de agua

75

Page 75: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

5 Pozo en la vivienda6 Pozo fuera de la vivienda/comunitario7 Depósito de agua de lluvia en la vivienda8 Arroyo o riachuelo9 Represa/alberca/agua estancada

10 Aljibe11 Manantial12 Otros, especificar

-99 Sin especificar

P4.6a ¿Quién suele recoger el agua?

Nombre var.: P46ARECA Posición: 37 Tipo/long.: Numérico 4Código válido: 1 Una persona que no pertenece a la familia (persona

contratada)(Pasar a P4.7)2 Una persona que no pertenece a la familia

(gratuitamente) (Pasar a P4.7)3 Sólo uno/varios adultos de la familia4 Sólo uno/varios niños (menores de 18 años) de la

familia5 Uno/varios adultos y uno/varios niños (menores de

18 años de la familia6 Otros, especificar

-99 Sin especificar-999 No aplicable

P4.6b Las personas que buscan normalmente agua son …

Nombre var.: P46BRECA Posición: 41 Tipo/long.: Numérico 4Código válido: 1 Principalmente personas de sexo masculino

2 Principalmente personas de sexo femenino3 Misma proporción de ambos sexos

-99 Sin especificar-999 No aplicable

P4.7a ¿Cultiva su familia alguna tierra o cría animales, aunque sean pollos,para vender o consumir en casa?

Nombre var.: P47ACUCR Posición: 45 Tipo/long.: Numérico 4Código válido: 1 Sí

2 No (Pasar a P4.8)-99 Sin especificar

-999 No aplicable

P4.7b ¿Qué relación tiene la familia con la tierra que cultiva o en la que cría elganado? (Puede tratarse de varias parcelas de terreno)a) Un miembro de la familia es propietario de la tierra o miembro de unaentidad legal que posee la tierra.

Nombre var.: P47BTIEA Posición: 49 Tipo/long.: Numérico 4Código válido: 1 Sí

2 No-99 Sin especificar

-999 No aplicable

76

Page 76: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

P4.7b ¿Qué relación tiene la familia con la tierra que cultiva o en la que cría elganado? (Puede tratarse de varias parcelas de terreno)b) Una autoridad tribal o tradicional ha atribuido la tierra a unmiembro de la familia.

Nombre var.: P47BTIEB Posición: 53 Tipo/long.: Numérico 4Código válido: 1 Sí

2 No-99 Sin especificar

-999 No aplicable

P4.7b ¿Qué relación tiene la familia con la tierra que cultiva o en la que cría elganado? (Puede tratarse de varias parcelas de terreno)c) La persona que está a cargo de la tierra permite a uno de losmiembros de la familia utilizarla.

Nombre var.: P47BTIEC Posición: 57 Tipo/long.: Numérico 4Código válido: 1 Sí

2 No-99 Sin especificar

-999 No aplicable

P4.7b ¿Qué relación tiene la familia con la tierra que cultiva o en la que cría elganado? (Puede tratarse de varias parcelas de terreno)d) Un miembro de la familia paga un arrendamiento en efectivo.

Nombre var.: P47BTIED Posición: 61 Tipo/long.: Numérico 4Código válido: 1 Sí

2 No-99 Sin especificar

-999 No aplicable

P4.7b ¿Qué relación tiene la familia con la tierra que cultiva o en la que cría elganado? (Puede tratarse de varias parcelas de terreno)e) La familia debe proporcionar mano de obra a la persona que está acargo de la tierra.

Nombre var.: P47BTIEE Posición: 65 Tipo/long.: Numérico 4Código válido: 1 Sí

2 No-99 Sin especificar

-999 No aplicable

P4.7b ¿Qué relación tiene la familia con la tierra que cultiva o en la que cría elganado? (Puede tratarse de varias parcelas de terreno)f) Se paga un arrendamiento que consiste en parte de la producción(aparcería).

Nombre var.: P47BTIEF Posición: 69 Tipo/long.: Numérico 4Código válido: 1 Sí

2 No-99 Sin especificar

-999 No aplicable

P4.7b ¿Qué relación tiene la familia con la tierra que cultiva o en la que cría elganado? (Puede tratarse de varias parcelas de terreno)g) Derecho a usar la tierra porque se trabaja para su propietario.

Nombre var.: P47BTIEG Posición: 73 Tipo/long.: Numérico 4

77

Page 77: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Código válido: 1 Sí2 No

-99 Sin especificar-999 No aplicable

P4.7b ¿Qué relación tiene la familia con la tierra que cultiva o en la que cría elganado? (Puede tratarse de varias parcelas de terreno)h) La familia puede utilizar la tierra gratuitamente.

Nombre var.: P47BTIEH Posición: 77 Tipo/long.: Numérico 4Código válido: 1 Sí

2 No-99 Sin especificar

-999 No aplicable

P4.8a ¿Podría indicar, para los últimos 12 meses, en cuál de los siguientesintervalos se sitúan los ingresos brutos totales anuales de la familia?Deben incluirse las rentas exteriores al hogar y todas las fuentes deingresos (mostrar intervalos).

Nombre var.: P48ABRUT Posición: 81 Tipo/long.: Numérico 3Código válido: 1 No hay ingresos

2 R 1 – R 1.2003 R 1.201 – R 2.4004 R 2.401 – R 4.2005 R 4.201 – R 6.0006 R 6.001 – R 9.0007 R 9.001 – R 12.0008 R 12.001 – R 18.0009 R 18.001 – R 30.000

10 R 30.001 – R 42.00011 R 42.001 – R 54.00012 R 54.001 o más13 No sabe14 No responde

-99 Sin especificar

P4.8b ¿Incluyen los ingresos de la familia alguno de los siguientes?a) Salarios o pagas regulares

Nombre var.: P48BREGU Posición: 84 Tipo/long.: Numérico 3Código válido: 1 Sí

2 No-99 Sin especificar

P4.8b ¿Incluyen los ingresos de la familia alguno de los siguientes?b) Pagas esporádicas

Nombre var.: P48BESPO Posición: 87 Tipo/long.: Numérico 3Código válido: 1 Sí

2 No-99 Sin especificar

P4.8b ¿Incluyen los ingresos de la familia alguno de los siguientes?c) Ingresos de autoempleo / negocio propio

Nombre var.: P48BPROP Posición: 90 Tipo/long.: Numérico 3Código válido: 1 Sí

78

Page 78: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

2 No-99 Sin especificar

P4.8b ¿Incluyen los ingresos de la familia alguno de los siguientes?d) Rentas exteriores al hogar

Nombre var.: P48BEXTH Posición: 93 Tipo/long.: Numérico 3Código válido: 1 Sí

2 No-99 Sin especificar

P4.8b ¿Incluyen los ingresos de la familia alguno de los siguientes?e) Ingresos de la agricultura

Nombre var.: P48BAGRI Posición: 96 Tipo/long.: Numérico 3Código válido: 1 Sí

2 No-99 Sin especificar

P4.8b ¿Incluyen los ingresos de la familia alguno de los siguientes?f) Pensión por vejez

Nombre var.: P48BPENS Posición: 99 Tipo/long.: Numérico 3Código válido: 1 Sí

2 No-99 Sin especificar

P4.8b ¿Incluyen los ingresos de la familia alguno de los siguientes?g) Subsidio por hijos, subsidio por acogida de niños, por ejemplo,subvenciones estatales relacionadas directamente con los niños

Nombre var.: P48BSHIJ Posición: 102 Tipo/long.: Numérico 3Código válido: 1 Sí

2 No-99 Sin especificar

P4.8c ¿Recibe algún miembros de la familia un subsidio para alguno de losconceptos que se mencionan a continuación, o los recibe gratuitamente,por el hecho de estar trabajando?a) Alojamiento

Nombre var.: P48CSUBA Posición: 105 Tipo/long.: Numérico 3Código válido: 1 Sí

2 No-99 Sin especificar

P4.8c ¿Recibe alguno de los miembros de la familia un subsidio para alguno delos conceptos que se mencionan a continuación, o los recibegratuitamente, por el hecho de estar trabajando?b) Alimentos

Nombre var.: P48CSUBB Posición: 108 Tipo/long.: Numérico 3Código válido: 1 Sí

2 No-99 Sin especificar

Provincia (Variable derivada: Primer dígito de un número PSU)

Nombre var. PROV Posición: 111 Tipo/long.: Numérico 1

79

Page 79: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Código válido: 1 Western Cape2 Eastern Cape3 Northern Cape4 Free State5 KwaZulu-Natal6 North West7 Gauteng8 Mpumalanga9 Northern Province

Tipo de zona (Variable derivada: a partir de la enumeración de tipos de zona)

Nombre var.: ESTRATO Posición: 112 Tipo/long.: Numérico 1Código válido: 1 Urbana estructurada

2 Urbana no estructurada3 Otras zonas rurales4 Explotaciones agrícolas

Cualificación (Variable derivada: a partir de la pregunta 3.4)

Nombre var.: CALIFIC Posición: 113 Tipo/long.: Numérico 1Código válido: 1 Si la familia reúne los requisitos para la segunda fase

2 Otros

Selección (Variable derivada)

Nombre var.: SELECCIO Posición: 114 Tipo/long.: Numérico 1Código válido: 1 Si la familia reúne los requisitos para la segunda

fase y es seleccionada2 Otros

P4.9 Número de persona del encuestado principal

Nombre var.: P49PRINE Posición: 115 Tipo/long.: Numérico 3Código válido: 0 – 22

-99 Sin especificar

P4.10 Lengua en que se ha realizado la entrevista

Nombre var.: P410LENG Posición: 118 Tipo/long.: Numérico 3Código válido: 10 Afrikaans

13 Alemán26 Árabe23 Chino17 Francés14 Griego1 Gujarati

19 Hindi4 Holandés3 Inglés1 Isandebele/Ndebele/South Ndebele/North Ndebele2 Isixhosa/Xhosa3 Isizulu/Sizulu/Zulu2 Italiano3 Portugués1 Sepedi/Northern Sotho2 Sesotho/Southern Sotho/Sotho3 Setswana/Tswana

80

Page 80: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

25 Shona4 Siswati/Swazi

23 Swahili18 Tamil20 Telegu1 Tshivenda/Venda

22 Urdu2 Xitsonga/Tsonga/Shangaan1 Otro

-99 No se indica

Ponderación del hogar para la fase I (Variable derivada: ponderado según el censode población de 1996 sobre la base de la provincia y el tipo de zona)

Nombre var.: HPOND Posición: 121 Tipo/long.: Numérico 4Código válido: 7 – 3 686

81

Page 81: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Estadísticas descriptivas: HOGAR.datVariable N Media Desv. Típ. Desv. Mínimo Máximo

NOUN 26105 5335171383 2527122034 1011010101 9313021471P41VIVIE 26105 2.3880866 7.8654339 -99.0000000 10.0000000P42NOHAB 26105 2.0488795 13.2371657 -99.0000000 20.0000000P43COCIN 26105 2.1672477 5.8887941 -99.0000000 9.0000000P43CALEF 26105 1.6592990 11.1480539 -99.0000000 9.0000000P43ILUMI 26105 2.0647002 7.7083625 -99.0000000 9.0000000P44ARECL 26105 -701.9144608 457.2320285 -999.0000000 6.0000000P44BRECL 26105 -734.6049033 440.5416210 -999.0000000 3.0000000P45FAGUA 26105 2.1295920 9.5600602 -99.0000000 12.0000000P46ARECA 26105 -582.6624401 492.7074229 -999.0000000 6.0000000P46BRECA 26105 -606.4159356 487.2248795 -999.0000000 3.0000000P47ACUCR 26105 0.5947137 10.7473066 -99.0000000 2.0000000P47BTIEA 26105 -744.4700249 434.0146826 -999.0000000 2.0000000P47BTIEB 26105 -744.7195173 433.6185791 -999.0000000 2.0000000P47BTIEC 26105 -744.7502011 433.5729078 -999.0000000 2.0000000P47BTIED 26105 -744.7125455 433.6372692 -999.0000000 2.0000000P47BTIEE 26105 -744.7552959 433.5690465 -999.0000000 2.0000000P47BTIEF 26105 -744.7124689 433.6378471 -999.0000000 2.0000000P47BTIEG 26105 -744.7303582 433.6061679 -999.0000000 2.0000000P47BRELH 26105 -744.7078721 433.6408503 -999.0000000 2.0000000P48ABRUT 26105 6.3336526 7.8815061 -99.0000000 14.0000000P48BREGU 26105 0.6804444 8.5040063 -99.0000000 2.0000000P48BESPO 26105 1.1208964 8.6699237 -99.0000000 2.0000000P48BPROP 26105 1.1241525 8.8029268 -99.0000000 2.0000000P48BEXTH 26105 1.0083509 9.4543846 -99.0000000 2.0000000P48BAGRI 26105 1.0907106 9.4173120 -99.0000000 2.0000000P48BPENS 26105 1.0495307 8.7774109 -99.0000000 2.0000000P48BSHIJ 26105 1.0351657 9.6180221 -99.0000000 2.0000000P48CSUBA 26105 1.1292856 8.3520700 -99.0000000 2.0000000P48CSUBB 26105 1.2311435 8.2393964 -99.0000000 2.0000000PROV 26105 5.1251867 2.5748888 1.0000000 9.0000000ESTRATO 26105 2.4666539 1.1889267 1.0000000 4.0000000CIALIFI 26105 1.6494924 0.4771381 1.0000000 2.0000000SELECCIO 26105 1.8278491 0.3775188 1.0000000 2.0000000P49PRINO 26105 1.2481900 6.5899414 -99.0000000 22.0000000P410LENG 26105 5.5339207 7.1309987 -99.0000000 22.0000000HPOND 26105 356.7791228 294.7206583 7.0000000 3868.00

82

Page 82: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Anexo V

Estructura del conjunto de datos 29

Datos jerárquicos y listas de códigos

Datos ASCII:

01234 1 132161 232 019082 230 102234 1 011231 240 103234 1 043711 227 004234 1 040221 213 141162 222 016173 224 110234 1 130111 220 036222 211 121234 1 021751 217 033962 210 132143 226 1

Fichero de datos plano (después de que los datos anteriores se hayan cargado en SPSS)

VIVIENDA GRUPO PERSONA P_NUM EDAD SEXO

1234 1 3216 1 32 01234 1 1908 2 30 12234 0 1123 1 40 13234 0 4371 1 27 04234 0 4022 1 13 14234 0 4116 2 22 04234 0 1617 3 24 1

10234 1 3011 1 20 010234 1 3622 2 11 121234 0 2175 1 17 021234 0 3396 2 10 121234 0 3214 3 26 1

83

29 Con base en UCLA Academic Technology Services SPSS FAQ: Reading hierarchical datahttp://www.ats.ucla.edu/stat/spss/faq/hierspss.htm

Lista de códigos para el registro vivienda (Tipo de reg. 1):

columna 1-5 VIVIENDAcolumna 7 tipo de registrocolumna 9 GRUPO

Lista de códigos para el registro persona (Tipo de reg. 2):

columna 1-4 PERSONAcolumna 5 P_NUM (NUMERO DE PERSONA)columna 7 tipo de registrocolumna 8-9 EDADcolumna 11 SEXO

Page 83: 1046 Tratamiento de datos - ILOwhite.lim.ilo.org/ipec/documentos/guia_trata_datos_estadis_ti.pdf · datos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente

Fichero ASCII de amplitud fija

Fichero ASCII de amplitud fija creado a partir del fichero SPSS:

1234 1 3216 1 32 01234 1 1908 2 30 12234 0 1123 1 40 13234 0 4371 1 27 04234 0 4022 1 13 14234 0 4116 2 22 04234 0 1617 3 24 1

10234 1 3011 1 20 010234 1 3622 2 11 121234 0 2175 1 17 021234 0 3396 2 10 121234 0 3214 3 26 1

84

Libro de códigos ASCII:

Variable Primero Último

VIVIENDA 1 8GRUPO 9 16PERSONA 17 24P_NUM 25 32EDAD 33 40SEXO 41 48