base usuaria de la encuesta nacional de dinámica del...
Post on 06-Feb-2018
217 Views
Preview:
TRANSCRIPT
Base usuaria de la Encuesta Nacional de Dinámica del Empleo
y la Innovación
Resultados y marco conceptual
Julio 2015
Subsecretaría de Programación Técnica y Estudios Laborales
Dirección General de Estudios y Estadísticas Laborales
Observatorio de Empleo y Dinámica Empresarial (OEDE)
Lic. Daniela Guariniello y Lic. Sebastián Rotondo
2
Objetivos de la presentación
Resaltar la importancia de la ENDEI como
nueva fuente de información Principales conceptos y características del
proceso de anonimización Presentación de la base usuaria
3
ENDEI: Necesidad de nuevas fuentes de información
Objetivo: Contar una nueva fuente de información que
vincule los planos del crecimiento económico, la innovación y las dimensiones laborales.
Premisa: Información plenamente disponible para los organismos públicos involucrados en el diseño de políticas públicas vinculadas a temas de innovación.
Necesidad de involucrar a la comunidad académica. Estimular el desarrollo en múltiples perspectivas que
aporten a la gestión de políticas.
4
Desafío 1: Generación de una base usuaria de la ENDEI a
nivel de microdatos. Desafío 2: Base anonimizada cumpliendo con estándares
internacionales. Antecedente reciente: Base usuaria del MAPA PYME. La principal diferencia es que el conjunto de las Pyme es
más sencillo de anonimizar. La ENDEI tiene fuerte presencia de grandes empresas.
Hacia una base usuaria de la ENDEI
5
Anonimización de la ENDEI
6
¿Qué es anonimizar?
Anonimizar es reducir el riesgo de descubrir información confidencial de individuos o empresas a partir de una publicación de las oficinas de estadísticas.
7
¿Por qué anonimizar?
Ley 17.622 protege la confidencialidad de las estadísticas públicas.
Preservar la calidad de las estadísticas
8
¿Por qué anonimizar La ENDEI?
Las unidades encuestadas son empresas. Es importante proteger la
identidad de las empresas ya que la población es dispersa en alguna de las características relevadas.
Contiene información novedosa de las empresas a nivel de microdato
por lo tanto la publicación de esta encuesta permitiría desarrollar nuevas investigaciones.
La información que contiene la encuesta está protegida por la ley de secreto estadístico.
Resguardar la identidad de las empresas permite preservar a largo plazo la calidad de las estadísticas. La falta de confianza en cumplimiento de la confidencialidad podría incrementar la no respuesta.
9
Para poder anonimizar se debe modificar o reducir el nivel de detalle de la información publicada, esto entra en conflicto con la utilidad del producto final.
Existe un trade off entre el nivel de protección de los datos y la utilidad.
Problemas para anonimizar
10
Variables identificadoras: Remiten a características observables o públicamente conocidas. Existen dos tipos:
• Identificadores directos: Permiten identificar sin ambigüedades a los respondentes.
• Identificadores Indirectos: Permiten identificar cuando se los combina con otros identificadores indirectos. En general, remiten a características estructurales de las firmas. Pueden ser variables numéricas o de categorías. Las variables categóricas tienen un rol especial en la determinación de los casos en riesgo.
Tipos de variables en la anonimización
11
Variables sensibles y confidenciales : • Las variables sensibles son aquellas que
contienen información que las empresas tienen especial interés que no se descubra.
• Por otro lado son confidenciales el resto de las
variables de la encuesta ya que están protegidas por la ley de secreto estadístico.
Tipos de variables en la anonimización
12
Identificadores directos en la ENDEI
Los identificadores directos se eliminan ya que permiten identificar sin ambigüedad a los respondentes.
En la encuesta se encontraron los siguientes identificadores directos: identificador de la empresa, domicilio de la empresa, nombre del entrevistado, puesto del entrevistado y nombre del encuestador.
13
Identificadores indirectos en la ENDEI
Variables Descripción Decisión
Localidad –
municipio-
provincia
Identificadores de localización geográfica Eliminar
Ram_mue Rama de actividad Anonimizar
Tamaño Tamaño de la empresa Anonimizar
P.1.4 Actividad principal de la empresa Eliminar
P.1.5 Actividad específica de la empresa Eliminar
P.1.7 Porcentaje del capital nacional de la firma Anonimizar
P.1.8.1 ¿Forma parte de un grupo de empresas? Conservar
P.1.8.2 ¿Es una empresa familiar? Anonimizar
P.1.9.1 ¿Es una empresa (Spin Off) nacida a partir de la
separación de otra empresa?
Eliminar
P.1.9.2 ¿Es una empresa (Spin Off) nacida a partir de un
centro de investigación y/o universidad
Eliminar
Identificadores indirectos: variables categóricas.
14
Evaluación del riesgo - conceptos
Re-identificación: ocurre cuando se logra asociar
la identidad de un individuo u organización con un registro de la base de datos.
Riesgo de reidentificación: probabilidad de que el usuario realice un descubrimiento.
Clave: Es un conjunto de variables identificadoras
categóricas. La combinación de estas variables permite reidentificar a las empresas.
15
Cálculo del riesgo para variables categóricas: enfoque k-anonimidad
Se define un umbral k para separar los registros
riesgosos de los seguros.
El umbral es la cantidad mínima de observaciones que tiene que agrupar una combinación de variables categóricas para considerarse segura.
Cantidad de combinaciones se define como: #Categorias v1*# Categorás v2*…* #categorías vi= Número de combinaciones teóricas
16
Observaciones en riesgo en las variables categóricas
Para el cálculo del riesgo se definieron: Clave: la rama de actividad, el tamaño de la firma,
firma familiar y el origen del capital.
Umbral: 3 observaciones por combinación.
Se encontraron en total 197 observaciones en riesgo.
17
Observaciones en riesgo en las variables numéricas
Las variables identificadoras numéricas tienen distinto poder
identificador por lo tanto el riesgo según el caso.
En algunos casos estas variables también pueden ser categorizadas como sensibles.
El criterio general es proteger a las empresas grandes (más de 400 empleados) ya que presentan valores más diferenciados.
Las variables identificadoras numéricas son: ingresos, egresos, empleo, gastos en innovación y edad de los gerentes.
18
Implementación de la anonimización: Métodos utilizados
Existen distintos tipos de métodos para anonimizar las variables de una encuesta. Los métodos utilizados fueron:
Recodificación Eliminación local de valores Codificación de los extremos Microagregación
19
Anonimización variables categóricas
La rama de actividad incluida en la encuesta tiene una
desagregación a dos, tres y cuatro dígitos del CIIU para la industria. Para reducir el riesgo de reidentificación se agregaron las ramas que no tenían representatividad a nivel de la población. Por lo tanto se redujo el nivel de detalle innecesario.
En cuanto al tamaño de la empresa, el criterio seguido fue el mismo, se agruparon las categorías autorepresentadas y grandes.
20
Anonimización variables categóricas
Para el origen del capital se agrupo en dos categorías: capital
nacional y con presencia de capital extranjero.
El procedimiento redujo a 101 la cantidad de observaciones en riesgo. Para el resto de las observaciones en riesgo se aplicó la eliminación local de observaciones hasta alcanzar el mínimo de observaciones por combinación (3). Para realizar este procedimiento se utilizó un algoritmo que minimiza la pérdida de información.
21
Anonimización de los Identificadores indirectos numéricos y variables sensibles
Grupo Tipo
Empresas de menos de 400
Empresas de más de 400 Menos de 200
De 201 a 400
Empleo
Total Original
Microagregación k=3-mediana
Cota superior=400
Subcategorías Se transforma la variable de nivel a % en relación al total original
Ingresos
Total Se anonimizan las que estén por encima de la cota
Cota superior= mediana del grupo
Subcategorías Se transforma la variable de nivel a % en relación al total original
Ingresos corrientes*
Se anonimizan las que estén por encima de la cota
Cota superior= mediana del grupo
Egresos
Total Se anonimizan las que estén por encima de la cota
Cota superior= mediana del grupo
Subcategorías Se transforma la variable de nivel a % en relación al total original
Gs. Innovación
Total Se anonimizan las que estén por encima del percentil 90 para cada rama. Se reemplaza por la variable microagregada.
Subcategorías Se transforma la variable de nivel a % en relación al total original
Remunerac. Gerentes
Total Se anonimizan las que estén por encima de la cota. Cota= percentil 99
Edad gerentes
Otras Se recodificó en 5 tramos
22
Evaluación del proceso de anonimización: utilidad de la información generada
Para evaluar la utilidad de la base de datos se comparó la
distribución de las variables originales y anonimizadas con el objetivo de poder cuantificar la pérdida de información.
Presentamos un ejemplo de la evaluación realizada para una de las variables categóricas y para una numérica.
Pregunta P.1.8.2: ¿Es una empresa familiar?
23
Ejemplo evaluación de la utilidad: Tipo de propiedad de la firma
Firma
familiar Descripción
Muestra total Casos en riesgo
Original Anonimizada Original Anonimizada
1 Sí 71,1% 70,25% 52,5% 21,8%
2 No 28,9% 28,29% 47,5% 24,8%
. Sin dato 1,46% 53,5%
Total 100% 100% 100% 100%
Pregunta P.1.8.2: ¿Es una empresa familiar?
Esta variable identificadora fue la que tuvo mayor
modificación y solamente se anonimizaron 56 empresas lo que representa 1,5% de las observaciones de la base.
24
Ejemplo evaluación de la utilidad: Ingresos totales
Resúmenes Año 2010
Anonimizada
Año 2010
Original
Año 2011
Anonimizada
Año 2010
Original
Año 2012
Anonimizada
Año 2010
Original
Validos 3.565 3.565 3.607 3.607 3.621 3.621
Perdidos 64 64 62 62 62 62
Media 48,8 103,2 63,5 136,2 71,8 157,1
Mediana 7,5 7,5 9,8 9,8 11,6 11,6
Desvío estándar 107,5 642,4 138,5 874,8 154,4 981,4
Distancia
intercuartil 23,5 23,4 30,2 29,9 35,3 35,2
Mínimo 0,0 0,0 0,0 0,0 0,0 0,0
q1 0,3 0,3 0,5 0,5 0,7 0,7
q5 1,0 1,0 1,4 1,4 1,6 1,6
q10 1,6 1,6 2,1 2,1 2,4 2,4
q25 3,1 3,1 4,0 4,0 4,8 4,8
q75 26,5 26,4 34,2 33,9 40,1 40,0
q90 134,3 124,1 183,6 159,5 216,7 188,4
q99 410,0 1.789,2 520,0 2.259,6 580,0 2.702,4
Máximo 410,0 14.175,0 520,0 22.745,0 580,0 25.597,5
CV 2,2 6,2 2,2 6,4 2,1 6,2
Obs. originales 3.374 3.361 3.363
Obs. anonimizadas 253 268 266
25
En resumen…
El objetivo inicial fue difundir la base datos usuaria, por lo tanto en cada
etapa de la anonimización se busco preservar la mayor cantidad de información tanto en términos de variables como de observaciones.
En este sentido, sobre 3.691 observaciones en riesgo, se anonimizaron en cada variable menos de 400 registros, lo que representa el 11% de las observaciones de la base. Asimismo, se mantuvo la gran mayoría de las variables relevadas por la encuesta. De las 650 variables de la encuesta se anonimizaron 111 y en la mayoría de los casos la anonimización solo consistió en la transformación de la variable.
Esto significa que estamos proporcionando una fuente de información sobre la dinámica del empleo y la innovación que es consistente, por lo tanto permitirá elaborar información confiable y desarrollar indicadores robustos desde diferentes perspectivas de análisis.
26
Base usuaria de la ENDEI
27
CD con la documentación de la ENDEI
28
Contenido CD
29
Información técnica de la encuesta y cuestionarios
Cuestionario autoadministrado
Cuestionario presencial
30
Variables de la base
Variables base usuaria
31
Resumen de variables
Entrando en una variable de las de la base
32
Acceso a la encuesta
Solicitud de acceso a la encuesta: recordar enviarla escaneada con la firma del responsable.
33
Acceso a la encuesta
Solicitud de acceso a la encuesta: recordar enviarla escaneada con la firma del responsable.
34
Tríptico
Indicadores calculados con la base original en formato Excel para descargar
35
Anexo estadístico
Estadísticas calculadas con la base original formato Excel para descargar
36
Informe de resultados
Documento de análisis de la encuesta.
37
Informe de resultados
38
Muchas Gracias
top related