calidad de datos - uruguay › agencia-gobierno-electronico-sociedad-informac… · - mediciones...
Post on 25-Jun-2020
3 Views
Preview:
TRANSCRIPT
CALIDAD DE DATOS
Diego Rosselli
Objetivos
- Introducción Calidad Datos
- Estrategia aseguramiento calidad
- Lecciones aprendidas
1
2
3
Objetivos
- Introducción Calidad Datos
- Estrategia aseguramiento calidad
- Lecciones aprendidas
1
2
3
Introducción
Calidad:
1
- La percibimos
- La definimos
- La medimos
Datos
Calidad datos: ¿algo nuevo? 1
Reporte Gestión decalidaddatosA B C
1 1 22 1 1
F G H
a c d
D E
1 1
4 2
A B C1 1 22 1 1
F G H
a c d
D E
1 1
4 2
Adecuación al uso
- Calle, número puerta
1
- Calle, esquina, destinatario
- Plano
Calidad - Valor - Expectativas
Puede ser correcto, preciso, actualizado y no colaborar con las necesidades del usuario.
1
Puede no alcanzar o por el contrario superar las expectativas del usuario.
Calidad <> Precisión
Causas de problemas de calidad
- Producción: ingreso manual, sensores, unificar diferentes fuentes
1
Causas de problemas de calidad
- Almacenamiento: ausencia de formato común, diseño inadecuado de base de datos
1
Causas de problemas de calidad
- Utilización: actualización, cambios de requerimientos, errores de interpretación
1
Multi-dimensión de la calidad de datos
- Completitud- Unicidad- Exactitud- Consistencia- Actualidad- Otras: ISO/IEC 25012, ISO 8000
1
Dimensión Unicidad 1
CI Nombre Calle Nro. F.Nto. Edad
1 José Calle A 1 A 3011 José Calle A 1 A 301 José Calle A 1 A 303 María Calle B 2 B 284 Juana Calle C 3 C 29
Unicidad: Medición y Registro 1
CI Nombre Calle Nro. F.Nto. Edad
1 José Calle A 1 A 3011 José Calle A 1 A 301 José Calle A 1 A 303 María Calle B 2 B 284 Juana Calle C 3 C 29
Calidad de cada línea
0
00
1
1
Unicidad: Medición y Registro 1
CI Nombre Calle Nro. F.Nto. Edad
1 José Calle A 1 A 3011 José Calle A 1 A 301 José Calle A 1 A 303 María Calle B 2 B 284 Juana Calle C 3 C 29
Calidad de cada línea
3
33
1
1
Dimensión Completitud 1
CI Nombre Calle Nro. F.Nto. Edad
1 José Calle A 1 A 302 Pepe C4 Juana Calle B 2 203 María Calle C D 40
Falta Inferir
EstimarNC
Completitud: Medición y Registro 1
CI Nombre Calle Nro. F.Nto. Edad
1 José Calle A 1 A 302 Pepe C4 Juana Calle B 2 203 María Calle C D 40
Calidad de cada celda0 1
Dimensión Completitud 1
CI Nombre Calle Nro. F.Nto. Edad
1 José Calle A 1 A 302 Pepe C4 Juana Calle B 2 203 María Calle C D 40
Falta Inferir
EstimarNC
Dimensión Correctitud sintáctica 1
CI Nombre Calle Nro. F.Nto. Edad
1 José Calle A 1 A 302 Pepe Calle D A# C 304 Juana Calle B B& B 403 María Calle C 3 D 40
Entero > 0
Especificación de una métrica 1
Nombre
Tipo resultado
Granularidad
Método medición
Valores correctos
Nombre
{0,1}
Celda
1
Entero > 0
0VC VNC
M1C.SintácticaNumPuerta
Especificación de una métrica 1
Nombre
Tipo resultado
Granularidad
Método medición
Valores correctos
Nombre
{0,1}
Celda
1 0VC VNC
M1C.SintácticaNomEmp
(A-Z)(a-z)+
Corrección de errores y mejoras
Estandarización
Limpieza
Liniers 1324
1000null
3# 2000Liniers
1324
Enriquecimiento Liniers 1324 CP11000
Depto.CuantitativoCualitativo
...
1
Prevención de errores: Catálogos
Direcciones
Datos personales
Liniers 1122
CI
Liniers1324
CP11000
NombreApellido
Esquina
Barrio
1
Prevención de errores: Estándares
Liniers 1324
País Localidad
Número puerta
Tipo vialidad
Letra puerta
Departamento Municipio
Nombre vialidad
Nombre inmueble
Bloque
Torre
Barrio
Sección
Componentesde una
Dirección uy
1
......
Resumen
- Principales conceptos, y dimensiones
- Especificación métrica
- Corrección de errores
- Prevención de errores
1
Objetivos
- Introducción Calidad Datos
- Estrategia aseguramiento calidad
- Lecciones aprendidas
1
2
3
Mediciones de calidad 2SelecciónDimensión
EspecificaciónMétrica
EjecuciónMediciones
Análisisresultados
Corrección deerrores y causas
SelecciónDato
Aseguramiento de calidad 2
Métricas
Dimensiones
Mediciones
Clasificación datos 2
RelevanciaAtr. Rel.
A.1 Si
A.2 NoPrioridad
FuenteAtr. Prioridad
A.3 1
A.4 3
A.6 2
Atr. Fuente
A.5 S1
A.7 S2
... ... ...
Análisiscalidad
Ciclo de vida del dato 2
ProducciónDigitación
Otros sistemas
Uso EdiciónActualización
Sensor
Destrucción
Juan Pepe 1a 12 11 1b 100
IncorrectaPor error
Inconsistencia
Procesos 2
Propiosde los datos
OrigenActualización
Análisisde calidad
Integración
MediciónCorrección
Negocio
Analizar
Construir
Almacenamiento resultados
- Mediciones BD Resultados
2
Mediciones periódicas 2
Medición Diagnóstico
Corrección
Automatizaciónmediciones
Periodicidad
Reportes
Aseguramiento calidad 2
Ciclo vida deldato
Personas-Roles
Clasificaciónde datos
Procesos
Medicionesde calidad
Sistema degestión CD
.. .. ..PrevenciónAlmacenamiento
resultados
Automatizaciónmediciones
Estrategia de comienzo 2
Medición Diagnóstico
Corrección
Sistema degestión CD
Ciclo de vidaProcesos
Clasificación
...AutomatizarSGCDSGCDSGCD
Objetivos
- Introducción Calidad Datos
- Estrategia aseguramiento calidad
- Lecciones aprendidas
1
2
3
Herramientas
- Mediciones con Pentaho PDI- Simplifica implementación- Permite automatizar ejecución- Libre uso
3
Correcciones
- Esfuerzo importante de análisis y corrección de datos y errores
alterar alterar BDsistemasy procesos
3
Datos generados en mediciones 3
CI Att1 Att2
1 A 10
2 B 20
1 C 30
3 D 40
12 mediciones
4 mediciones
celda
línea
Datos generados en mediciones 3
58
3
80.000.000
7.000.000
2.800.000
CI Att1 Att2
1 A 10
2 B 20
1 C 30
3 D 40 Clasificación
Granularidad
Automatización y Paneles
- Automatización de mediciones, para sucesivas ejecuciones
- Diseñar panel de resultados para mostrar resultados a usuarios
3
Espacio de intercambio
MUCHAS GRACIASPOR DUDAS, CONSULTAS O SUGERENCIASJORNADASTECNOLOGICAS@AGESIC.GUB.UY
top related