limpieza de datos

19
Limpieza de datos la etapa previa al interrogatorio

Upload: phi-requiem

Post on 28-Jan-2018

473 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Limpieza de datos

Limpieza de datos la etapa previa al interrogatorio

Page 2: Limpieza de datos

Según wikipedia

Limpieza de datos: es el acto de descubrimiento, corrección o eliminación de

datos erróneos de una base de datos.

Transformación de datos: En estadística, la transformación de datos se efectúa

para asegurarse así de que tienen una distribución normal (un remedio para los

valores atípicos, fallas de la normalidad, la linealidad, y homocedasticidad).

Page 3: Limpieza de datos

Un excel sucio no causa

desastres...¿o sí?

Page 4: Limpieza de datos

http://www.cnnexpansion.com/finanzas-personales/2012/01/04/londres-2012-sobrevende-10000-entradas

Page 5: Limpieza de datos

Historias de horror

Los errores en los datos y en el

manejo de herramientas son tan

comunes que incluso existe una

organización llamada Grupo europeo

de evaluación de riesgos para hojas

de cálculo (ESRIG, por sus siglas en

inglés) y que hace recomendaciones

al usuario para evitar errores cuando

se usa una hoja de cálculo.

La ESRIG se encarga de rastrear

historias trágicas en el manejo de

datos. Si quieres saber más, visita

data errors in spreadsheets have led

to real consequences.

http://www.eusprig.org

Page 6: Limpieza de datos

“Dirty Data”Generalmente es necesario realizar alguna limpieza a los

datos para obtener materia prima adecuada.

Page 7: Limpieza de datos

Reconocimiento

Consiste en realizar un resumen de las características y observar el

modelo para verificar errores.

● Algunos aspectos pueden salir a simple vista

○ Cinco valores para el sexo

● Otros aspectos son más difíciles de encontrar, para ellos se usan

otras herramientas:

○ Histogramas, gráficas de dispersión

Page 8: Limpieza de datos
Page 9: Limpieza de datos

Valores faltantes

Causas:

Faltan valores relevantes porque no se

pudieron obtener

No existen los valores

Datos incompletos (varios orígenes)

Tratamiento

Ignorarlos

Eliminar toda la columna

Reemplazar el valor

Segmentar

Limpieza, integración y transformación

Evitar problemas ocasionados por datos faltantes, valores duplicados y datos incorrectos

Valores erróneos

Algunas veces no es un proceso trivial,

clasificar y agrupar pueden ayudar

Tratamiento:

Ignorar

Eliminar

Filtrar

Reemplazar

Discretizar

Page 10: Limpieza de datos

Integración

Se puede dar de dos maneras:

Unificar dos o más objetos

Separar un objeto en dos o más

Ejemplos

Separar (nombres, apellidos)

Unificar formatos de fechas, sexo, estado

civil

Limpieza, integración y transformaciónTransformación

Es cualquier proceso que modifique la forma

de los datos

Crear nuevos atributos

Cambiar tipo de dato

Cambiar total o parcialmente una tabla

Ejemplos

convertir columna en tipo número o fecha

agregar columna edad basado en fecha de

nacimiento

nivel de estudio de una persona (sin estudio,

primaria, secundaria, universidad) se

Page 11: Limpieza de datos

Tipos de datos

Carácter

por ejemplo para definir sexo (F,M)

Texto

el más común de todos

Boolean

(si, no), (verdadero, falso), (0,1)

Control de flujo

según la opción se toman unos u otros datos

Número

se puede hacer operaciones con ellos

Fecha

no siempre es lo que parece

Page 12: Limpieza de datos

Siempre lleva una bitácora con todos los

cambios mantén una copia del archivo original

Page 13: Limpieza de datos

Pero Phi… mi base tiene miles de

registros... ¿y ahora qué hago?

Page 14: Limpieza de datos

Hora de ensuciarse las manosVeamos algunos ejemplos

Page 15: Limpieza de datos

OpenRefinela lavadora de los datos

Page 16: Limpieza de datos

OpenRefinehttp://openrefine.org

Page 17: Limpieza de datos

Ahora sí a torturar esos datoshasta que nos digan la verdad

Page 18: Limpieza de datos

Conclusiones¿qué opinas? ¿alguna duda?

Page 19: Limpieza de datos

Esta obra está bajo una Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.

http://goo.gl/qupgNz