base usuaria de la encuesta nacional de dinámica del...

Post on 06-Feb-2018

217 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Base usuaria de la Encuesta Nacional de Dinámica del Empleo

y la Innovación

Resultados y marco conceptual

Julio 2015

Subsecretaría de Programación Técnica y Estudios Laborales

Dirección General de Estudios y Estadísticas Laborales

Observatorio de Empleo y Dinámica Empresarial (OEDE)

Lic. Daniela Guariniello y Lic. Sebastián Rotondo

2

Objetivos de la presentación

Resaltar la importancia de la ENDEI como

nueva fuente de información Principales conceptos y características del

proceso de anonimización Presentación de la base usuaria

3

ENDEI: Necesidad de nuevas fuentes de información

Objetivo: Contar una nueva fuente de información que

vincule los planos del crecimiento económico, la innovación y las dimensiones laborales.

Premisa: Información plenamente disponible para los organismos públicos involucrados en el diseño de políticas públicas vinculadas a temas de innovación.

Necesidad de involucrar a la comunidad académica. Estimular el desarrollo en múltiples perspectivas que

aporten a la gestión de políticas.

4

Desafío 1: Generación de una base usuaria de la ENDEI a

nivel de microdatos. Desafío 2: Base anonimizada cumpliendo con estándares

internacionales. Antecedente reciente: Base usuaria del MAPA PYME. La principal diferencia es que el conjunto de las Pyme es

más sencillo de anonimizar. La ENDEI tiene fuerte presencia de grandes empresas.

Hacia una base usuaria de la ENDEI

5

Anonimización de la ENDEI

6

¿Qué es anonimizar?

Anonimizar es reducir el riesgo de descubrir información confidencial de individuos o empresas a partir de una publicación de las oficinas de estadísticas.

7

¿Por qué anonimizar?

Ley 17.622 protege la confidencialidad de las estadísticas públicas.

Preservar la calidad de las estadísticas

8

¿Por qué anonimizar La ENDEI?

Las unidades encuestadas son empresas. Es importante proteger la

identidad de las empresas ya que la población es dispersa en alguna de las características relevadas.

Contiene información novedosa de las empresas a nivel de microdato

por lo tanto la publicación de esta encuesta permitiría desarrollar nuevas investigaciones.

La información que contiene la encuesta está protegida por la ley de secreto estadístico.

Resguardar la identidad de las empresas permite preservar a largo plazo la calidad de las estadísticas. La falta de confianza en cumplimiento de la confidencialidad podría incrementar la no respuesta.

9

Para poder anonimizar se debe modificar o reducir el nivel de detalle de la información publicada, esto entra en conflicto con la utilidad del producto final.

Existe un trade off entre el nivel de protección de los datos y la utilidad.

Problemas para anonimizar

10

Variables identificadoras: Remiten a características observables o públicamente conocidas. Existen dos tipos:

• Identificadores directos: Permiten identificar sin ambigüedades a los respondentes.

• Identificadores Indirectos: Permiten identificar cuando se los combina con otros identificadores indirectos. En general, remiten a características estructurales de las firmas. Pueden ser variables numéricas o de categorías. Las variables categóricas tienen un rol especial en la determinación de los casos en riesgo.

Tipos de variables en la anonimización

11

Variables sensibles y confidenciales : • Las variables sensibles son aquellas que

contienen información que las empresas tienen especial interés que no se descubra.

• Por otro lado son confidenciales el resto de las

variables de la encuesta ya que están protegidas por la ley de secreto estadístico.

Tipos de variables en la anonimización

12

Identificadores directos en la ENDEI

Los identificadores directos se eliminan ya que permiten identificar sin ambigüedad a los respondentes.

En la encuesta se encontraron los siguientes identificadores directos: identificador de la empresa, domicilio de la empresa, nombre del entrevistado, puesto del entrevistado y nombre del encuestador.

13

Identificadores indirectos en la ENDEI

Variables Descripción Decisión

Localidad –

municipio-

provincia

Identificadores de localización geográfica Eliminar

Ram_mue Rama de actividad Anonimizar

Tamaño Tamaño de la empresa Anonimizar

P.1.4 Actividad principal de la empresa Eliminar

P.1.5 Actividad específica de la empresa Eliminar

P.1.7 Porcentaje del capital nacional de la firma Anonimizar

P.1.8.1 ¿Forma parte de un grupo de empresas? Conservar

P.1.8.2 ¿Es una empresa familiar? Anonimizar

P.1.9.1 ¿Es una empresa (Spin Off) nacida a partir de la

separación de otra empresa?

Eliminar

P.1.9.2 ¿Es una empresa (Spin Off) nacida a partir de un

centro de investigación y/o universidad

Eliminar

Identificadores indirectos: variables categóricas.

14

Evaluación del riesgo - conceptos

Re-identificación: ocurre cuando se logra asociar

la identidad de un individuo u organización con un registro de la base de datos.

Riesgo de reidentificación: probabilidad de que el usuario realice un descubrimiento.

Clave: Es un conjunto de variables identificadoras

categóricas. La combinación de estas variables permite reidentificar a las empresas.

15

Cálculo del riesgo para variables categóricas: enfoque k-anonimidad

Se define un umbral k para separar los registros

riesgosos de los seguros.

El umbral es la cantidad mínima de observaciones que tiene que agrupar una combinación de variables categóricas para considerarse segura.

Cantidad de combinaciones se define como: #Categorias v1*# Categorás v2*…* #categorías vi= Número de combinaciones teóricas

16

Observaciones en riesgo en las variables categóricas

Para el cálculo del riesgo se definieron: Clave: la rama de actividad, el tamaño de la firma,

firma familiar y el origen del capital.

Umbral: 3 observaciones por combinación.

Se encontraron en total 197 observaciones en riesgo.

17

Observaciones en riesgo en las variables numéricas

Las variables identificadoras numéricas tienen distinto poder

identificador por lo tanto el riesgo según el caso.

En algunos casos estas variables también pueden ser categorizadas como sensibles.

El criterio general es proteger a las empresas grandes (más de 400 empleados) ya que presentan valores más diferenciados.

Las variables identificadoras numéricas son: ingresos, egresos, empleo, gastos en innovación y edad de los gerentes.

18

Implementación de la anonimización: Métodos utilizados

Existen distintos tipos de métodos para anonimizar las variables de una encuesta. Los métodos utilizados fueron:

Recodificación Eliminación local de valores Codificación de los extremos Microagregación

19

Anonimización variables categóricas

La rama de actividad incluida en la encuesta tiene una

desagregación a dos, tres y cuatro dígitos del CIIU para la industria. Para reducir el riesgo de reidentificación se agregaron las ramas que no tenían representatividad a nivel de la población. Por lo tanto se redujo el nivel de detalle innecesario.

En cuanto al tamaño de la empresa, el criterio seguido fue el mismo, se agruparon las categorías autorepresentadas y grandes.

20

Anonimización variables categóricas

Para el origen del capital se agrupo en dos categorías: capital

nacional y con presencia de capital extranjero.

El procedimiento redujo a 101 la cantidad de observaciones en riesgo. Para el resto de las observaciones en riesgo se aplicó la eliminación local de observaciones hasta alcanzar el mínimo de observaciones por combinación (3). Para realizar este procedimiento se utilizó un algoritmo que minimiza la pérdida de información.

21

Anonimización de los Identificadores indirectos numéricos y variables sensibles

Grupo Tipo

Empresas de menos de 400

Empresas de más de 400 Menos de 200

De 201 a 400

Empleo

Total Original

Microagregación k=3-mediana

Cota superior=400

Subcategorías Se transforma la variable de nivel a % en relación al total original

Ingresos

Total Se anonimizan las que estén por encima de la cota

Cota superior= mediana del grupo

Subcategorías Se transforma la variable de nivel a % en relación al total original

Ingresos corrientes*

Se anonimizan las que estén por encima de la cota

Cota superior= mediana del grupo

Egresos

Total Se anonimizan las que estén por encima de la cota

Cota superior= mediana del grupo

Subcategorías Se transforma la variable de nivel a % en relación al total original

Gs. Innovación

Total Se anonimizan las que estén por encima del percentil 90 para cada rama. Se reemplaza por la variable microagregada.

Subcategorías Se transforma la variable de nivel a % en relación al total original

Remunerac. Gerentes

Total Se anonimizan las que estén por encima de la cota. Cota= percentil 99

Edad gerentes

Otras Se recodificó en 5 tramos

22

Evaluación del proceso de anonimización: utilidad de la información generada

Para evaluar la utilidad de la base de datos se comparó la

distribución de las variables originales y anonimizadas con el objetivo de poder cuantificar la pérdida de información.

Presentamos un ejemplo de la evaluación realizada para una de las variables categóricas y para una numérica.

Pregunta P.1.8.2: ¿Es una empresa familiar?

23

Ejemplo evaluación de la utilidad: Tipo de propiedad de la firma

Firma

familiar Descripción

Muestra total Casos en riesgo

Original Anonimizada Original Anonimizada

1 Sí 71,1% 70,25% 52,5% 21,8%

2 No 28,9% 28,29% 47,5% 24,8%

. Sin dato 1,46% 53,5%

Total 100% 100% 100% 100%

Pregunta P.1.8.2: ¿Es una empresa familiar?

Esta variable identificadora fue la que tuvo mayor

modificación y solamente se anonimizaron 56 empresas lo que representa 1,5% de las observaciones de la base.

24

Ejemplo evaluación de la utilidad: Ingresos totales

Resúmenes Año 2010

Anonimizada

Año 2010

Original

Año 2011

Anonimizada

Año 2010

Original

Año 2012

Anonimizada

Año 2010

Original

Validos 3.565 3.565 3.607 3.607 3.621 3.621

Perdidos 64 64 62 62 62 62

Media 48,8 103,2 63,5 136,2 71,8 157,1

Mediana 7,5 7,5 9,8 9,8 11,6 11,6

Desvío estándar 107,5 642,4 138,5 874,8 154,4 981,4

Distancia

intercuartil 23,5 23,4 30,2 29,9 35,3 35,2

Mínimo 0,0 0,0 0,0 0,0 0,0 0,0

q1 0,3 0,3 0,5 0,5 0,7 0,7

q5 1,0 1,0 1,4 1,4 1,6 1,6

q10 1,6 1,6 2,1 2,1 2,4 2,4

q25 3,1 3,1 4,0 4,0 4,8 4,8

q75 26,5 26,4 34,2 33,9 40,1 40,0

q90 134,3 124,1 183,6 159,5 216,7 188,4

q99 410,0 1.789,2 520,0 2.259,6 580,0 2.702,4

Máximo 410,0 14.175,0 520,0 22.745,0 580,0 25.597,5

CV 2,2 6,2 2,2 6,4 2,1 6,2

Obs. originales 3.374 3.361 3.363

Obs. anonimizadas 253 268 266

25

En resumen…

El objetivo inicial fue difundir la base datos usuaria, por lo tanto en cada

etapa de la anonimización se busco preservar la mayor cantidad de información tanto en términos de variables como de observaciones.

En este sentido, sobre 3.691 observaciones en riesgo, se anonimizaron en cada variable menos de 400 registros, lo que representa el 11% de las observaciones de la base. Asimismo, se mantuvo la gran mayoría de las variables relevadas por la encuesta. De las 650 variables de la encuesta se anonimizaron 111 y en la mayoría de los casos la anonimización solo consistió en la transformación de la variable.

Esto significa que estamos proporcionando una fuente de información sobre la dinámica del empleo y la innovación que es consistente, por lo tanto permitirá elaborar información confiable y desarrollar indicadores robustos desde diferentes perspectivas de análisis.

26

Base usuaria de la ENDEI

27

CD con la documentación de la ENDEI

28

Contenido CD

29

Información técnica de la encuesta y cuestionarios

Cuestionario autoadministrado

Cuestionario presencial

30

Variables de la base

Variables base usuaria

31

Resumen de variables

Entrando en una variable de las de la base

32

Acceso a la encuesta

Solicitud de acceso a la encuesta: recordar enviarla escaneada con la firma del responsable.

33

Acceso a la encuesta

Solicitud de acceso a la encuesta: recordar enviarla escaneada con la firma del responsable.

34

Tríptico

Indicadores calculados con la base original en formato Excel para descargar

35

Anexo estadístico

Estadísticas calculadas con la base original formato Excel para descargar

36

Informe de resultados

Documento de análisis de la encuesta.

37

Informe de resultados

38

Muchas Gracias

top related