gestión de calidad de datos tópicos a considerar una tarea
TRANSCRIPT
1
UA
S C
arlo
s L
ópez
Váz
quez
Gestión de Calidad de Datos
Carlos Ló[email protected]
Universitario Autónomo del Universitario Autónomo del Sur Sur -- 20052005
Estrategias para Mejorar
Viene de:
Introducción
Continúa con:
Política de Calidad de Datos
2
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
■ Introducción
■ Algunas definiciones
■ Estrategias
■ Qué datos mejorar
■ Caso de una única BD
■ Caso del DW
3
UA
S C
arlo
s L
ópez
Váz
quez
Una tarea siempre titánica...
■ Volumen de datos tamaño empresa
■ Tendencia es a manejar más datos» DW
» BDOO
» Herramientas de última generación
» Intranet/Internet
■ Se requieren planes...
4
UA
S C
arlo
s L
ópez
Váz
quez
===D
efin
e có
mo
===>
proc
eder
en
ese
caso
<==Solicita recursos==
<=Infor
ma sobre
problem
as obser
vados==Definen qué datos serán mejorados=>
Plan de Calidad de Datos (PCD)
Infraestructura administrativa
Administración del PCD
Planes operacionales
Objetivos claros para el negocio
Administración del PCD
Infraestructura administrativa
Planes operacionales
Objetivos claros para el negocio
5
UA
S C
arlo
s L
ópez
Váz
quez
Algunas definiciones...
▼Calidad
▼Precisión
▼¿Correctitud?
▼¿Exactitud?
▲Quality
▲Precision
▲Accuracy
■ El idioma español tiene limitaciones en este aspecto...
6
UA
S C
arlo
s L
ópez
Váz
quez
Una definición operativa...
Def.: “...Calidad(A) > Calidad(B) si...”– intrínsecamente subjetiva
– asociada a las necesidades
– dos clientes podrían disentir
– eso si el cliente “sabe lo que quiere”...
7
UA
S C
arlo
s L
ópez
Váz
quez
Ejemplo de las dificultades...
MINMAX: Cal(A)=5.0;Cal(B)=0.5 A<B
StdDev: Cal(A)=2.04;Cal(B)=0.0 A<B
RMSE: Cal(A)=5.0;Cal(B)=1.22 A<B 8
UA
S C
arlo
s L
ópez
Váz
quez
Una definición operativa (2) ...
– dos clientes podrían disentir
Hay cosas que todos quieren o esperan:
!relevancia
!correctitud
!poder “ver”
!acceso simple
!seguridad
!privacidad9
UA
S C
arlo
s L
ópez
Váz
quez
Son dimensiones diferentes...
En Calidad de Datos se distinguen cuatro:
■ Modelo de Datos (ej. relevancia)
■ Valores mismos (ej. correctitud)
■ Presentación (ej. poder “ver”)
■ Tecnológicos (ej. acceso simple)
El curso trata sobre la segunda dimensión
10
UA
S C
arlo
s L
ópez
Váz
quez
Para los valores mismos...
...también se distinguen cuatro dimensiones:
■ Correctitud
■ Vigencia
■ Completitud
■ Consistencia
11
UA
S C
arlo
s L
ópez
Váz
quez
Correctitud (1)
<E,A,V1>
<E,A,V2>
<E,A,V3>
...
<E,A,V2>
<E,A,V>
Ej. <EMPLEADO,AÑO_NACIMIENTO,VALOR>
E=“1745”,E.AÑO_NACIMIENTO=”1960” 12
UA
S C
arlo
s L
ópez
Váz
quez
Correctitud (2)
Quizá lo mejor que pueda lograrse es...
<E,A,[VMAX,VMIN]>
Ej. < FECHA,TEMPERATURA_AMBIENTE, VALOR>
FECHA=“18071825.120000”,FECHA.TEMP=”19.60”
Un caso con dos problemas:
•No existe “verdadero”
•No existió nunca
13
UA
S C
arlo
s L
ópez
Váz
quez
Correctitud (3)
Las combinaciones formalmente posibles no necesariamente son válidas
Ej. EMPLEADO=“9999”
EMPLEADO.NOMBRE=“Jorge Batlle Ibáñez”
EMPLEADO.AÑO_NACIMIENTO=“1925”
EMPLEADO.CARGO=“Desconocido”
¡ Simplemente no es empleado!
14
UA
S C
arlo
s L
ópez
Váz
quez
Correctitud (4)
<E,A,”Juguetería/Bazar”>
<E,A,”JUGUETERIA/BAZAR”>
<E,A,”Jugueteria/Bazar”>
...
<E,A,”Jugueteria / Bazar”>
¡Hay varios valores “correctos”!
15
UA
S C
arlo
s L
ópez
Váz
quez
Correctitud (5)
En resumen:
• No siempre existe un “verdadero valor”
• Aún existiendo, puede ser inaccesible
• Métricas específicas al problema
• Métricas problemáticas
16
UA
S C
arlo
s L
ópez
Váz
quez
Para los valores mismos...
...también se distinguen cuatro dimensiones:
✔ Correctitud
■ Vigencia
■ Completitud
■ Consistencia
17
UA
S C
arlo
s L
ópez
Váz
quez
Vigencia (1)
ESTALLOVIENDO.NOW=TRUE
LUN MAR MIE JUE
Es algo que depende del tiempo...
18
UA
S C
arlo
s L
ópez
Váz
quez
Vigencia (2)
■ Datos permanentes– Fecha de nacimiento
– Tipo de sangre
– Lugar de nacimiento ≠ País de nacimiento!
■ Datos dinámicos|– Cambian ocasionalmente
» Nombre y/o apellido (ej.: USA)
» Dirección
– Cambian regularmente» Salario|
19
UA
S C
arlo
s L
ópez
Váz
quez
Para los valores mismos...
...también se distinguen cuatro dimensiones:
✔ Correctitud
✔ Vigencia
■ Completitud
■ Consistencia
20
UA
S C
arlo
s L
ópez
Váz
quez
■ Cuatro posibilidades– El empleado no tiene teléfono ==>OK
– El empleado tiene teléfono, pero se ignora el número==>INC
– El empleado tiene un número que no figura en la guía ==>OK
– Se ignora si el empleado tiene teléfono ==>OK
Completitud (1)
■ EMPLEADO.HOMEPHONE=“Null”
■ Veamos un poco más de detalle21
UA
S C
arlo
s L
ópez
Váz
quez
Completitud (2)
■ El “Null” debería tener colores...» Valor desconocido de un atributo aplicable (el
registro es incompleto)
» Indicador de atributo no aplicable (el registro es completo)
» Atributo de aplicabilidad desconocida
» Valor especial de un atributo (el registro es completo)
■ Difícil de implementar...
22
UA
S C
arlo
s L
ópez
Váz
quez
Completitud (3)
■ Dos problemas:✔ Completitud de registros en la base
– Completitud de la base
■ Ej.: Lista de Empleados Activos
■ Ej.: Diccionario de neologismos
23
UA
S C
arlo
s L
ópez
Váz
quez
Para los valores mismos...
...también se distinguen cuatro dimensiones:
✔ Correctitud
✔ Vigencia
✔ Completitud
■ Consistencia
24
UA
S C
arlo
s L
ópez
Váz
quez
Consistencia (1)
■ Dos o más cosas no son incompatibles
■ Dos o más datos pueden ser correctos a la vez
■ Un par de casos típicos– Redundancia
– Consistencia interna
25
UA
S C
arlo
s L
ópez
Váz
quez
Consistencia (2)
■ Redundancia– Varias copias de lo mismo
– Actualización independiente
– Mantenimiento separado
Empleado.Dirección=“Aconcagua 1234”
Empleado.Dirección=“Rancagua 1234”
Empleado.Dirección=“Aconcagua 2134” 26
UA
S C
arlo
s L
ópez
Váz
quez
Consistencia (3)
■ Consistencia interna– Existen reglas a cumplir
» explícitas
» implícitas
Empleado.Dirección=“Aconcagua 1234”
Empleado.CP=“11600”
27
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
✔ Introducción
✔ Algunas definiciones
■ Estrategias
■ Qué datos mejorar
■ Caso de una única BD
■ Caso del DW
28
UA
S C
arlo
s L
ópez
Váz
quez
Tres niveles, tres generaciones
Detección + corrección
Diseño de procesos
Mejora de procesos
29
UA
S C
arlo
s L
ópez
Váz
quez
Detección + corrección
Tácticas corrientes:– Laissez fair
– Comparar: » datos vs. realidad
» con otra base
» con reglas del negocio
30
UA
S C
arlo
s L
ópez
Váz
quez
Comparar datos con realidad...
■ Viable para pocos datos
■ Caro y lento
■ Útil para evaluar niveles de calidad mediante muestreo
■ Inviable para datos muy dinámicos
31
UA
S C
arlo
s L
ópez
Váz
quez
Comparar datos con otra base...
■ Trabajo de laboratorio (la realidad no entra)
■ Hipótesis implícitas» Existe una base, independiente, y redundante
» No tiene demasiados errores
■ La comparación puede no ser simple
■ Es un método seductor...
32
UA
S C
arlo
s L
ópez
Váz
quez
...con reglas del negocio... (1)
Se expresan como Data Edits...
■ Un único campo:– “el valor debe ser uno de {0,1,2...9}”
■ Múltiples campos:– “Ciudad y País deben coordinarse”
■ Relaciones probabilísticas:– “Hijos=4 y Edad=15 es improbable”
■ Si fallan, se revisan los casos anómalos33
UA
S C
arlo
s L
ópez
Váz
quez
...con reglas del negocio... (2)
A Favor:
■ Revelan muchas inconsistencias
■ No requiere una segunda base
En contra:
■ Difíciles de hallar/explicitar
■ Requieren “expertos”
■ Pueden cambiar con el tiempo
■ Se aplican una vez, o son permanentes
34
UA
S C
arlo
s L
ópez
Váz
quez
...con reglas del negocio... (3)
Ej.: Caso del Censo (López, JISS 1997)
■ Escaneado+interpretación automática
■ Sólo datos categóricos
■ Digitar dos veces, o sólo lo erróneo
■ Reglas derivadas de los datos ==>¡No hay experto!
■ Resultado de la simulación:35
UA
S C
arlo
s L
ópez
Váz
quez
0 2 4 6 8 10 12 14 16 18 200
10
20
30
40
50
60
70
80
90
100Overall results vs. effort level
3% of the surveys initially contaminatedwith 2 errors each; Marginal 0.10%
% of controlled data
% o
f err
ors
foun
d
Bes
t po
ssib
le o
p era
t ion
line
Expected duplicate performance locus
...con reglas del negocio... (4)
36
UA
S C
arlo
s L
ópez
Váz
quez
Tres niveles, tres generaciones
Detección + corrección
Mejora de procesos
Diseño de procesos
37
UA
S C
arlo
s L
ópez
Váz
quez
Mejora de procesos
■ ¿Y la prevención?
■ Ej.: 1000 datos/día, 20 campos, 2% errores ==>¡400 errores/día!
38
UA
S C
arlo
s L
ópez
Váz
quez
Un ejemplo...
VENTAS
ÓRDENES
DESPACHO
FACTURACIÓN
39
UA
S C
arlo
s L
ópez
Váz
quez
Prevención...
■ Uso extenso de reglas del negocio
■ Quizá pequeños cambios» Ej.: habilitar/inhibir edición
■ Corrección temprana
■ Seguimiento
■ Más barato que corrección
■ Única alternativa si “llueven datos”
40
UA
S C
arlo
s L
ópez
Váz
quez
Tres niveles, tres generaciones
Detección + corrección
Mejora de procesos
Diseño de procesos
41
UA
S C
arlo
s L
ópez
Váz
quez
Diseño del proceso
■ “a prueba de errores”
■ Exitosa en manufactura
Ideas:
■ Eliminar re-digitación
■ Incorporar reglas
■ Reasignar propiedades
■ No hay muchos ejemplos con datos42
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
✔ Introducción
✔ Algunas definiciones
✔ Estrategias
■ Qué datos mejorar
■ Caso de una única BD
■ Caso del DW
43
UA
S C
arlo
s L
ópez
Váz
quez
¿Qué datos mejorar... primero?
■ Tan importante como la estrategia
■ Hay que lograr éxitos al principio
■ Buscar consensos
■ Considerar varios criterios:– estrategia global de la empresa
– relevancia para problemas ya conocidos
– distancia ser<==>deber ser
– impacto económico
44
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
✔ Introducción
✔ Algunas definiciones
✔ Estrategias
✔ Qué datos mejorar
■ Caso de una única BD
■ Caso del DW
45
UA
S C
arlo
s L
ópez
Váz
quez
Una única base
1) Definir estrategia
EstrategiaProblemas conocidosNivel de errorImpacto ($)
Datos prioritarios
Cambios lentos
Cambios rápidos
Caso intermedio
46
UA
S C
arlo
s L
ópez
Váz
quez
Hay casos mezclados...
BD de Clientes:■ Cliente.FechaNacimiento
■ Cliente.Domicilio
■ Cliente.Saldo
¿Razones?– acotar el trabajo de limpieza
– asegurar un retorno 47
UA
S C
arlo
s L
ópez
Váz
quez
Tópicos a considerar
✔ Introducción
✔ Algunas definiciones
✔ Estrategias
✔ Qué datos mejorar
✔ Caso de una única BD
■ Caso del DW
48
UA
S C
arlo
s L
ópez
Váz
quez
Muchas bases...
A) Bases que no se solapan
49
UA
S C
arlo
s L
ópez
Váz
quez
Muchas bases...
B) Bases cliente-servidor
50
UA
S C
arlo
s L
ópez
Váz
quez
Muchas bases...
C) Bases solapadas pero independientes
51
UA
S C
arlo
s L
ópez
Váz
quez
Más de una base...
52
UA
S C
arlo
s L
ópez
Váz
quez
Vale la pena mencionar...
■ Problemas con datos, no con SGBD...
■ Duplicación por razones técnicas– Backup
– Redundancia quizá requerida
==> ¡Usar Master-Slave!
■ DW explícitamente crea redundancia
■ DW recibe datos de varias fuentes
53
UA
S C
arlo
s L
ópez
Váz
quez
El caso del DW
■ Identificar los datos requeridos
■ Identificar la(s) fuente(s)
■ Estimar niveles de error y caracterizar velocidad de cambios
Tres pasos:
54
UA
S C
arlo
s L
ópez
Váz
quez
Resumen
■ Plan operacional:– Detección+corrección
– Manejo de procesos
– Diseño de procesos
■ Pueden convivir
■ Datos críticos
■ Controlar redundancia