gestión de calidad de datos tópicos a considerar una tarea

6
1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López [email protected] Universitario Autónomo del Universitario Autónomo del Sur Sur - 2005 2005 Estrategias para Mejorar Viene de: Introducción Continúa con: Política de Calidad de Datos 2 UAS Carlos López Vázquez Tópicos a considerar Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW 3 UAS Carlos López Vázquez Una tarea siempre titánica... Volumen de datos tamaño empresa Tendencia es a manejar más datos » DW » BDOO » Herramientas de última generación » Intranet/Internet Se requieren planes... 4 UAS Carlos López Vázquez ===Define cómo ===> proceder en ese caso <==Solicita recursos== <=I nforma sobre problemas o bservados= =De fi nen qué datos serán mejorados=> Plan de Calidad de Datos (PCD) Infraestructura administrativa Administración del PCD Planes operacionales Objetivos claros para el negocio Administración del PCD Infraestructura administrativa Planes operacionales Objetivos claros para el negocio 5 UAS Carlos López Vázquez Algunas definiciones... Calidad Precisión ¿Correctitud? ¿Exactitud? Quality Precision Accuracy El idioma español tiene limitaciones en este aspecto... 6 UAS Carlos López Vázquez Una definición operativa... Def.: “...Calidad(A) > Calidad(B) si...” – intrínsecamente subjetiva – asociada a las necesidades – dos clientes podrían disentir – eso si el cliente “sabe lo que quiere”... 7 UAS Carlos López Vázquez Ejemplo de las dificultades... MINMAX: Cal(A)=5.0;Cal(B)=0.5 A<B StdDev: Cal(A)=2.04;Cal(B)=0.0 A<B RMSE: Cal(A)=5.0;Cal(B)=1.22 A<B 8 UAS Carlos López Vázquez Una definición operativa (2) ... dos clientes podrían disentir Hay cosas que todos quieren o esperan: !relevancia !correctitud !poder “ver” !acceso simple !seguridad !privacidad 9 UAS Carlos López Vázquez Son dimensiones diferentes... En Calidad de Datos se distinguen cuatro: Modelo de Datos (ej. relevancia) Valores mismos (ej. correctitud) Presentación (ej. poder “ver”) Tecnológicos (ej. acceso simple) El curso trata sobre la segunda dimensión

Upload: others

Post on 15-Jul-2022

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Gestión de Calidad de Datos Tópicos a considerar Una tarea

1

UA

S C

arlo

s L

ópez

Váz

quez

Gestión de Calidad de Datos

Carlos Ló[email protected]

Universitario Autónomo del Universitario Autónomo del Sur Sur -- 20052005

Estrategias para Mejorar

Viene de:

Introducción

Continúa con:

Política de Calidad de Datos

2

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

■ Introducción

■ Algunas definiciones

■ Estrategias

■ Qué datos mejorar

■ Caso de una única BD

■ Caso del DW

3

UA

S C

arlo

s L

ópez

Váz

quez

Una tarea siempre titánica...

■ Volumen de datos tamaño empresa

■ Tendencia es a manejar más datos» DW

» BDOO

» Herramientas de última generación

» Intranet/Internet

■ Se requieren planes...

4

UA

S C

arlo

s L

ópez

Váz

quez

===D

efin

e có

mo

===>

proc

eder

en

ese

caso

<==Solicita recursos==

<=Infor

ma sobre

problem

as obser

vados==Definen qué datos serán mejorados=>

Plan de Calidad de Datos (PCD)

Infraestructura administrativa

Administración del PCD

Planes operacionales

Objetivos claros para el negocio

Administración del PCD

Infraestructura administrativa

Planes operacionales

Objetivos claros para el negocio

5

UA

S C

arlo

s L

ópez

Váz

quez

Algunas definiciones...

▼Calidad

▼Precisión

▼¿Correctitud?

▼¿Exactitud?

▲Quality

▲Precision

▲Accuracy

■ El idioma español tiene limitaciones en este aspecto...

6

UA

S C

arlo

s L

ópez

Váz

quez

Una definición operativa...

Def.: “...Calidad(A) > Calidad(B) si...”– intrínsecamente subjetiva

– asociada a las necesidades

– dos clientes podrían disentir

– eso si el cliente “sabe lo que quiere”...

7

UA

S C

arlo

s L

ópez

Váz

quez

Ejemplo de las dificultades...

MINMAX: Cal(A)=5.0;Cal(B)=0.5 A<B

StdDev: Cal(A)=2.04;Cal(B)=0.0 A<B

RMSE: Cal(A)=5.0;Cal(B)=1.22 A<B 8

UA

S C

arlo

s L

ópez

Váz

quez

Una definición operativa (2) ...

– dos clientes podrían disentir

Hay cosas que todos quieren o esperan:

!relevancia

!correctitud

!poder “ver”

!acceso simple

!seguridad

!privacidad9

UA

S C

arlo

s L

ópez

Váz

quez

Son dimensiones diferentes...

En Calidad de Datos se distinguen cuatro:

■ Modelo de Datos (ej. relevancia)

■ Valores mismos (ej. correctitud)

■ Presentación (ej. poder “ver”)

■ Tecnológicos (ej. acceso simple)

El curso trata sobre la segunda dimensión

Page 2: Gestión de Calidad de Datos Tópicos a considerar Una tarea

10

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones:

■ Correctitud

■ Vigencia

■ Completitud

■ Consistencia

11

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (1)

<E,A,V1>

<E,A,V2>

<E,A,V3>

...

<E,A,V2>

<E,A,V>

Ej. <EMPLEADO,AÑO_NACIMIENTO,VALOR>

E=“1745”,E.AÑO_NACIMIENTO=”1960” 12

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (2)

Quizá lo mejor que pueda lograrse es...

<E,A,[VMAX,VMIN]>

Ej. < FECHA,TEMPERATURA_AMBIENTE, VALOR>

FECHA=“18071825.120000”,FECHA.TEMP=”19.60”

Un caso con dos problemas:

•No existe “verdadero”

•No existió nunca

13

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (3)

Las combinaciones formalmente posibles no necesariamente son válidas

Ej. EMPLEADO=“9999”

EMPLEADO.NOMBRE=“Jorge Batlle Ibáñez”

EMPLEADO.AÑO_NACIMIENTO=“1925”

EMPLEADO.CARGO=“Desconocido”

¡ Simplemente no es empleado!

14

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (4)

<E,A,”Juguetería/Bazar”>

<E,A,”JUGUETERIA/BAZAR”>

<E,A,”Jugueteria/Bazar”>

...

<E,A,”Jugueteria / Bazar”>

¡Hay varios valores “correctos”!

15

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (5)

En resumen:

• No siempre existe un “verdadero valor”

• Aún existiendo, puede ser inaccesible

• Métricas específicas al problema

• Métricas problemáticas

16

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones:

✔ Correctitud

■ Vigencia

■ Completitud

■ Consistencia

17

UA

S C

arlo

s L

ópez

Váz

quez

Vigencia (1)

ESTALLOVIENDO.NOW=TRUE

LUN MAR MIE JUE

Es algo que depende del tiempo...

18

UA

S C

arlo

s L

ópez

Váz

quez

Vigencia (2)

■ Datos permanentes– Fecha de nacimiento

– Tipo de sangre

– Lugar de nacimiento ≠ País de nacimiento!

■ Datos dinámicos|– Cambian ocasionalmente

» Nombre y/o apellido (ej.: USA)

» Dirección

– Cambian regularmente» Salario|

Page 3: Gestión de Calidad de Datos Tópicos a considerar Una tarea

19

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones:

✔ Correctitud

✔ Vigencia

■ Completitud

■ Consistencia

20

UA

S C

arlo

s L

ópez

Váz

quez

■ Cuatro posibilidades– El empleado no tiene teléfono ==>OK

– El empleado tiene teléfono, pero se ignora el número==>INC

– El empleado tiene un número que no figura en la guía ==>OK

– Se ignora si el empleado tiene teléfono ==>OK

Completitud (1)

■ EMPLEADO.HOMEPHONE=“Null”

■ Veamos un poco más de detalle21

UA

S C

arlo

s L

ópez

Váz

quez

Completitud (2)

■ El “Null” debería tener colores...» Valor desconocido de un atributo aplicable (el

registro es incompleto)

» Indicador de atributo no aplicable (el registro es completo)

» Atributo de aplicabilidad desconocida

» Valor especial de un atributo (el registro es completo)

■ Difícil de implementar...

22

UA

S C

arlo

s L

ópez

Váz

quez

Completitud (3)

■ Dos problemas:✔ Completitud de registros en la base

– Completitud de la base

■ Ej.: Lista de Empleados Activos

■ Ej.: Diccionario de neologismos

23

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones:

✔ Correctitud

✔ Vigencia

✔ Completitud

■ Consistencia

24

UA

S C

arlo

s L

ópez

Váz

quez

Consistencia (1)

■ Dos o más cosas no son incompatibles

■ Dos o más datos pueden ser correctos a la vez

■ Un par de casos típicos– Redundancia

– Consistencia interna

25

UA

S C

arlo

s L

ópez

Váz

quez

Consistencia (2)

■ Redundancia– Varias copias de lo mismo

– Actualización independiente

– Mantenimiento separado

Empleado.Dirección=“Aconcagua 1234”

Empleado.Dirección=“Rancagua 1234”

Empleado.Dirección=“Aconcagua 2134” 26

UA

S C

arlo

s L

ópez

Váz

quez

Consistencia (3)

■ Consistencia interna– Existen reglas a cumplir

» explícitas

» implícitas

Empleado.Dirección=“Aconcagua 1234”

Empleado.CP=“11600”

27

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

✔ Introducción

✔ Algunas definiciones

■ Estrategias

■ Qué datos mejorar

■ Caso de una única BD

■ Caso del DW

Page 4: Gestión de Calidad de Datos Tópicos a considerar Una tarea

28

UA

S C

arlo

s L

ópez

Váz

quez

Tres niveles, tres generaciones

Detección + corrección

Diseño de procesos

Mejora de procesos

29

UA

S C

arlo

s L

ópez

Váz

quez

Detección + corrección

Tácticas corrientes:– Laissez fair

– Comparar: » datos vs. realidad

» con otra base

» con reglas del negocio

30

UA

S C

arlo

s L

ópez

Váz

quez

Comparar datos con realidad...

■ Viable para pocos datos

■ Caro y lento

■ Útil para evaluar niveles de calidad mediante muestreo

■ Inviable para datos muy dinámicos

31

UA

S C

arlo

s L

ópez

Váz

quez

Comparar datos con otra base...

■ Trabajo de laboratorio (la realidad no entra)

■ Hipótesis implícitas» Existe una base, independiente, y redundante

» No tiene demasiados errores

■ La comparación puede no ser simple

■ Es un método seductor...

32

UA

S C

arlo

s L

ópez

Váz

quez

...con reglas del negocio... (1)

Se expresan como Data Edits...

■ Un único campo:– “el valor debe ser uno de {0,1,2...9}”

■ Múltiples campos:– “Ciudad y País deben coordinarse”

■ Relaciones probabilísticas:– “Hijos=4 y Edad=15 es improbable”

■ Si fallan, se revisan los casos anómalos33

UA

S C

arlo

s L

ópez

Váz

quez

...con reglas del negocio... (2)

A Favor:

■ Revelan muchas inconsistencias

■ No requiere una segunda base

En contra:

■ Difíciles de hallar/explicitar

■ Requieren “expertos”

■ Pueden cambiar con el tiempo

■ Se aplican una vez, o son permanentes

34

UA

S C

arlo

s L

ópez

Váz

quez

...con reglas del negocio... (3)

Ej.: Caso del Censo (López, JISS 1997)

■ Escaneado+interpretación automática

■ Sólo datos categóricos

■ Digitar dos veces, o sólo lo erróneo

■ Reglas derivadas de los datos ==>¡No hay experto!

■ Resultado de la simulación:35

UA

S C

arlo

s L

ópez

Váz

quez

0 2 4 6 8 10 12 14 16 18 200

10

20

30

40

50

60

70

80

90

100Overall results vs. effort level

3% of the surveys initially contaminatedwith 2 errors each; Marginal 0.10%

% of controlled data

% o

f err

ors

foun

d

Bes

t po

ssib

le o

p era

t ion

line

Expected duplicate performance locus

...con reglas del negocio... (4)

36

UA

S C

arlo

s L

ópez

Váz

quez

Tres niveles, tres generaciones

Detección + corrección

Mejora de procesos

Diseño de procesos

Page 5: Gestión de Calidad de Datos Tópicos a considerar Una tarea

37

UA

S C

arlo

s L

ópez

Váz

quez

Mejora de procesos

■ ¿Y la prevención?

■ Ej.: 1000 datos/día, 20 campos, 2% errores ==>¡400 errores/día!

38

UA

S C

arlo

s L

ópez

Váz

quez

Un ejemplo...

VENTAS

ÓRDENES

DESPACHO

FACTURACIÓN

39

UA

S C

arlo

s L

ópez

Váz

quez

Prevención...

■ Uso extenso de reglas del negocio

■ Quizá pequeños cambios» Ej.: habilitar/inhibir edición

■ Corrección temprana

■ Seguimiento

■ Más barato que corrección

■ Única alternativa si “llueven datos”

40

UA

S C

arlo

s L

ópez

Váz

quez

Tres niveles, tres generaciones

Detección + corrección

Mejora de procesos

Diseño de procesos

41

UA

S C

arlo

s L

ópez

Váz

quez

Diseño del proceso

■ “a prueba de errores”

■ Exitosa en manufactura

Ideas:

■ Eliminar re-digitación

■ Incorporar reglas

■ Reasignar propiedades

■ No hay muchos ejemplos con datos42

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

✔ Introducción

✔ Algunas definiciones

✔ Estrategias

■ Qué datos mejorar

■ Caso de una única BD

■ Caso del DW

43

UA

S C

arlo

s L

ópez

Váz

quez

¿Qué datos mejorar... primero?

■ Tan importante como la estrategia

■ Hay que lograr éxitos al principio

■ Buscar consensos

■ Considerar varios criterios:– estrategia global de la empresa

– relevancia para problemas ya conocidos

– distancia ser<==>deber ser

– impacto económico

44

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

✔ Introducción

✔ Algunas definiciones

✔ Estrategias

✔ Qué datos mejorar

■ Caso de una única BD

■ Caso del DW

45

UA

S C

arlo

s L

ópez

Váz

quez

Una única base

1) Definir estrategia

EstrategiaProblemas conocidosNivel de errorImpacto ($)

Datos prioritarios

Cambios lentos

Cambios rápidos

Caso intermedio

Page 6: Gestión de Calidad de Datos Tópicos a considerar Una tarea

46

UA

S C

arlo

s L

ópez

Váz

quez

Hay casos mezclados...

BD de Clientes:■ Cliente.FechaNacimiento

■ Cliente.Domicilio

■ Cliente.Saldo

¿Razones?– acotar el trabajo de limpieza

– asegurar un retorno 47

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

✔ Introducción

✔ Algunas definiciones

✔ Estrategias

✔ Qué datos mejorar

✔ Caso de una única BD

■ Caso del DW

48

UA

S C

arlo

s L

ópez

Váz

quez

Muchas bases...

A) Bases que no se solapan

49

UA

S C

arlo

s L

ópez

Váz

quez

Muchas bases...

B) Bases cliente-servidor

50

UA

S C

arlo

s L

ópez

Váz

quez

Muchas bases...

C) Bases solapadas pero independientes

51

UA

S C

arlo

s L

ópez

Váz

quez

Más de una base...

52

UA

S C

arlo

s L

ópez

Váz

quez

Vale la pena mencionar...

■ Problemas con datos, no con SGBD...

■ Duplicación por razones técnicas– Backup

– Redundancia quizá requerida

==> ¡Usar Master-Slave!

■ DW explícitamente crea redundancia

■ DW recibe datos de varias fuentes

53

UA

S C

arlo

s L

ópez

Váz

quez

El caso del DW

■ Identificar los datos requeridos

■ Identificar la(s) fuente(s)

■ Estimar niveles de error y caracterizar velocidad de cambios

Tres pasos:

54

UA

S C

arlo

s L

ópez

Váz

quez

Resumen

■ Plan operacional:– Detección+corrección

– Manejo de procesos

– Diseño de procesos

■ Pueden convivir

■ Datos críticos

■ Controlar redundancia