base usuaria de la encuesta nacional de dinámica del...

38
Base usuaria de la Encuesta Nacional de Dinámica del Empleo y la Innovación Resultados y marco conceptual Julio 2015 Subsecretaría de Programación Técnica y Estudios Laborales Dirección General de Estudios y Estadísticas Laborales Observatorio de Empleo y Dinámica Empresarial (OEDE) Lic. Daniela Guariniello y Lic. Sebastián Rotondo

Upload: ngothu

Post on 06-Feb-2018

217 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

Base usuaria de la Encuesta Nacional de Dinámica del Empleo

y la Innovación

Resultados y marco conceptual

Julio 2015

Subsecretaría de Programación Técnica y Estudios Laborales

Dirección General de Estudios y Estadísticas Laborales

Observatorio de Empleo y Dinámica Empresarial (OEDE)

Lic. Daniela Guariniello y Lic. Sebastián Rotondo

Page 2: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

2

Objetivos de la presentación

Resaltar la importancia de la ENDEI como

nueva fuente de información Principales conceptos y características del

proceso de anonimización Presentación de la base usuaria

Page 3: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

3

ENDEI: Necesidad de nuevas fuentes de información

Objetivo: Contar una nueva fuente de información que

vincule los planos del crecimiento económico, la innovación y las dimensiones laborales.

Premisa: Información plenamente disponible para los organismos públicos involucrados en el diseño de políticas públicas vinculadas a temas de innovación.

Necesidad de involucrar a la comunidad académica. Estimular el desarrollo en múltiples perspectivas que

aporten a la gestión de políticas.

Page 4: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

4

Desafío 1: Generación de una base usuaria de la ENDEI a

nivel de microdatos. Desafío 2: Base anonimizada cumpliendo con estándares

internacionales. Antecedente reciente: Base usuaria del MAPA PYME. La principal diferencia es que el conjunto de las Pyme es

más sencillo de anonimizar. La ENDEI tiene fuerte presencia de grandes empresas.

Hacia una base usuaria de la ENDEI

Page 5: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

5

Anonimización de la ENDEI

Page 6: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

6

¿Qué es anonimizar?

Anonimizar es reducir el riesgo de descubrir información confidencial de individuos o empresas a partir de una publicación de las oficinas de estadísticas.

Page 7: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

7

¿Por qué anonimizar?

Ley 17.622 protege la confidencialidad de las estadísticas públicas.

Preservar la calidad de las estadísticas

Page 8: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

8

¿Por qué anonimizar La ENDEI?

Las unidades encuestadas son empresas. Es importante proteger la

identidad de las empresas ya que la población es dispersa en alguna de las características relevadas.

Contiene información novedosa de las empresas a nivel de microdato

por lo tanto la publicación de esta encuesta permitiría desarrollar nuevas investigaciones.

La información que contiene la encuesta está protegida por la ley de secreto estadístico.

Resguardar la identidad de las empresas permite preservar a largo plazo la calidad de las estadísticas. La falta de confianza en cumplimiento de la confidencialidad podría incrementar la no respuesta.

Page 9: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

9

Para poder anonimizar se debe modificar o reducir el nivel de detalle de la información publicada, esto entra en conflicto con la utilidad del producto final.

Existe un trade off entre el nivel de protección de los datos y la utilidad.

Problemas para anonimizar

Page 10: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

10

Variables identificadoras: Remiten a características observables o públicamente conocidas. Existen dos tipos:

• Identificadores directos: Permiten identificar sin ambigüedades a los respondentes.

• Identificadores Indirectos: Permiten identificar cuando se los combina con otros identificadores indirectos. En general, remiten a características estructurales de las firmas. Pueden ser variables numéricas o de categorías. Las variables categóricas tienen un rol especial en la determinación de los casos en riesgo.

Tipos de variables en la anonimización

Page 11: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

11

Variables sensibles y confidenciales : • Las variables sensibles son aquellas que

contienen información que las empresas tienen especial interés que no se descubra.

• Por otro lado son confidenciales el resto de las

variables de la encuesta ya que están protegidas por la ley de secreto estadístico.

Tipos de variables en la anonimización

Page 12: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

12

Identificadores directos en la ENDEI

Los identificadores directos se eliminan ya que permiten identificar sin ambigüedad a los respondentes.

En la encuesta se encontraron los siguientes identificadores directos: identificador de la empresa, domicilio de la empresa, nombre del entrevistado, puesto del entrevistado y nombre del encuestador.

Page 13: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

13

Identificadores indirectos en la ENDEI

Variables Descripción Decisión

Localidad –

municipio-

provincia

Identificadores de localización geográfica Eliminar

Ram_mue Rama de actividad Anonimizar

Tamaño Tamaño de la empresa Anonimizar

P.1.4 Actividad principal de la empresa Eliminar

P.1.5 Actividad específica de la empresa Eliminar

P.1.7 Porcentaje del capital nacional de la firma Anonimizar

P.1.8.1 ¿Forma parte de un grupo de empresas? Conservar

P.1.8.2 ¿Es una empresa familiar? Anonimizar

P.1.9.1 ¿Es una empresa (Spin Off) nacida a partir de la

separación de otra empresa?

Eliminar

P.1.9.2 ¿Es una empresa (Spin Off) nacida a partir de un

centro de investigación y/o universidad

Eliminar

Identificadores indirectos: variables categóricas.

Page 14: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

14

Evaluación del riesgo - conceptos

Re-identificación: ocurre cuando se logra asociar

la identidad de un individuo u organización con un registro de la base de datos.

Riesgo de reidentificación: probabilidad de que el usuario realice un descubrimiento.

Clave: Es un conjunto de variables identificadoras

categóricas. La combinación de estas variables permite reidentificar a las empresas.

Page 15: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

15

Cálculo del riesgo para variables categóricas: enfoque k-anonimidad

Se define un umbral k para separar los registros

riesgosos de los seguros.

El umbral es la cantidad mínima de observaciones que tiene que agrupar una combinación de variables categóricas para considerarse segura.

Cantidad de combinaciones se define como: #Categorias v1*# Categorás v2*…* #categorías vi= Número de combinaciones teóricas

Page 16: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

16

Observaciones en riesgo en las variables categóricas

Para el cálculo del riesgo se definieron: Clave: la rama de actividad, el tamaño de la firma,

firma familiar y el origen del capital.

Umbral: 3 observaciones por combinación.

Se encontraron en total 197 observaciones en riesgo.

Page 17: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

17

Observaciones en riesgo en las variables numéricas

Las variables identificadoras numéricas tienen distinto poder

identificador por lo tanto el riesgo según el caso.

En algunos casos estas variables también pueden ser categorizadas como sensibles.

El criterio general es proteger a las empresas grandes (más de 400 empleados) ya que presentan valores más diferenciados.

Las variables identificadoras numéricas son: ingresos, egresos, empleo, gastos en innovación y edad de los gerentes.

Page 18: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

18

Implementación de la anonimización: Métodos utilizados

Existen distintos tipos de métodos para anonimizar las variables de una encuesta. Los métodos utilizados fueron:

Recodificación Eliminación local de valores Codificación de los extremos Microagregación

Page 19: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

19

Anonimización variables categóricas

La rama de actividad incluida en la encuesta tiene una

desagregación a dos, tres y cuatro dígitos del CIIU para la industria. Para reducir el riesgo de reidentificación se agregaron las ramas que no tenían representatividad a nivel de la población. Por lo tanto se redujo el nivel de detalle innecesario.

En cuanto al tamaño de la empresa, el criterio seguido fue el mismo, se agruparon las categorías autorepresentadas y grandes.

Page 20: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

20

Anonimización variables categóricas

Para el origen del capital se agrupo en dos categorías: capital

nacional y con presencia de capital extranjero.

El procedimiento redujo a 101 la cantidad de observaciones en riesgo. Para el resto de las observaciones en riesgo se aplicó la eliminación local de observaciones hasta alcanzar el mínimo de observaciones por combinación (3). Para realizar este procedimiento se utilizó un algoritmo que minimiza la pérdida de información.

Page 21: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

21

Anonimización de los Identificadores indirectos numéricos y variables sensibles

Grupo Tipo

Empresas de menos de 400

Empresas de más de 400 Menos de 200

De 201 a 400

Empleo

Total Original

Microagregación k=3-mediana

Cota superior=400

Subcategorías Se transforma la variable de nivel a % en relación al total original

Ingresos

Total Se anonimizan las que estén por encima de la cota

Cota superior= mediana del grupo

Subcategorías Se transforma la variable de nivel a % en relación al total original

Ingresos corrientes*

Se anonimizan las que estén por encima de la cota

Cota superior= mediana del grupo

Egresos

Total Se anonimizan las que estén por encima de la cota

Cota superior= mediana del grupo

Subcategorías Se transforma la variable de nivel a % en relación al total original

Gs. Innovación

Total Se anonimizan las que estén por encima del percentil 90 para cada rama. Se reemplaza por la variable microagregada.

Subcategorías Se transforma la variable de nivel a % en relación al total original

Remunerac. Gerentes

Total Se anonimizan las que estén por encima de la cota. Cota= percentil 99

Edad gerentes

Otras Se recodificó en 5 tramos

Page 22: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

22

Evaluación del proceso de anonimización: utilidad de la información generada

Para evaluar la utilidad de la base de datos se comparó la

distribución de las variables originales y anonimizadas con el objetivo de poder cuantificar la pérdida de información.

Presentamos un ejemplo de la evaluación realizada para una de las variables categóricas y para una numérica.

Pregunta P.1.8.2: ¿Es una empresa familiar?

Page 23: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

23

Ejemplo evaluación de la utilidad: Tipo de propiedad de la firma

Firma

familiar Descripción

Muestra total Casos en riesgo

Original Anonimizada Original Anonimizada

1 Sí 71,1% 70,25% 52,5% 21,8%

2 No 28,9% 28,29% 47,5% 24,8%

. Sin dato 1,46% 53,5%

Total 100% 100% 100% 100%

Pregunta P.1.8.2: ¿Es una empresa familiar?

Esta variable identificadora fue la que tuvo mayor

modificación y solamente se anonimizaron 56 empresas lo que representa 1,5% de las observaciones de la base.

Page 24: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

24

Ejemplo evaluación de la utilidad: Ingresos totales

Resúmenes Año 2010

Anonimizada

Año 2010

Original

Año 2011

Anonimizada

Año 2010

Original

Año 2012

Anonimizada

Año 2010

Original

Validos 3.565 3.565 3.607 3.607 3.621 3.621

Perdidos 64 64 62 62 62 62

Media 48,8 103,2 63,5 136,2 71,8 157,1

Mediana 7,5 7,5 9,8 9,8 11,6 11,6

Desvío estándar 107,5 642,4 138,5 874,8 154,4 981,4

Distancia

intercuartil 23,5 23,4 30,2 29,9 35,3 35,2

Mínimo 0,0 0,0 0,0 0,0 0,0 0,0

q1 0,3 0,3 0,5 0,5 0,7 0,7

q5 1,0 1,0 1,4 1,4 1,6 1,6

q10 1,6 1,6 2,1 2,1 2,4 2,4

q25 3,1 3,1 4,0 4,0 4,8 4,8

q75 26,5 26,4 34,2 33,9 40,1 40,0

q90 134,3 124,1 183,6 159,5 216,7 188,4

q99 410,0 1.789,2 520,0 2.259,6 580,0 2.702,4

Máximo 410,0 14.175,0 520,0 22.745,0 580,0 25.597,5

CV 2,2 6,2 2,2 6,4 2,1 6,2

Obs. originales 3.374 3.361 3.363

Obs. anonimizadas 253 268 266

Page 25: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

25

En resumen…

El objetivo inicial fue difundir la base datos usuaria, por lo tanto en cada

etapa de la anonimización se busco preservar la mayor cantidad de información tanto en términos de variables como de observaciones.

En este sentido, sobre 3.691 observaciones en riesgo, se anonimizaron en cada variable menos de 400 registros, lo que representa el 11% de las observaciones de la base. Asimismo, se mantuvo la gran mayoría de las variables relevadas por la encuesta. De las 650 variables de la encuesta se anonimizaron 111 y en la mayoría de los casos la anonimización solo consistió en la transformación de la variable.

Esto significa que estamos proporcionando una fuente de información sobre la dinámica del empleo y la innovación que es consistente, por lo tanto permitirá elaborar información confiable y desarrollar indicadores robustos desde diferentes perspectivas de análisis.

Page 26: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

26

Base usuaria de la ENDEI

Page 27: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

27

CD con la documentación de la ENDEI

Page 28: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

28

Contenido CD

Page 29: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

29

Información técnica de la encuesta y cuestionarios

Cuestionario autoadministrado

Cuestionario presencial

Page 30: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

30

Variables de la base

Variables base usuaria

Page 31: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

31

Resumen de variables

Entrando en una variable de las de la base

Page 32: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

32

Acceso a la encuesta

Solicitud de acceso a la encuesta: recordar enviarla escaneada con la firma del responsable.

Page 33: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

33

Acceso a la encuesta

Solicitud de acceso a la encuesta: recordar enviarla escaneada con la firma del responsable.

Page 34: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

34

Tríptico

Indicadores calculados con la base original en formato Excel para descargar

Page 35: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

35

Anexo estadístico

Estadísticas calculadas con la base original formato Excel para descargar

Page 36: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

36

Informe de resultados

Documento de análisis de la encuesta.

Page 37: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

37

Informe de resultados

Page 38: Base usuaria de la Encuesta Nacional de Dinámica del ...indicadorescti.mincyt.gob.ar/documentos/04-Presentacion.pdf · y la Innovación Resultados y marco conceptual ... Base usuaria

38

Muchas Gracias