1 uas carlos lópez vázquez gestión de calidad de datos carlos lópez carlos.lopez@ieee.org...

Post on 22-Jan-2016

216 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

UA

S C

arlo

s L

ópez

Váz

quez

Gestión de Calidad de Datos

Carlos Lópezcarlos.lopez@ieee.org

Universitario Autónomo del Sur - 2005Universitario Autónomo del Sur - 2005

Estrategias para Mejorar

Viene de:

Introducción

Continúa con:

Política de Calidad de Datos

2

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW

3

UA

S C

arlo

s L

ópez

Váz

quez

Una tarea siempre titánica...

Volumen de datos tamaño empresa Tendencia es a manejar más datos

» DW» BDOO » Herramientas de última generación» Intranet/Internet

Se requieren planes...

4

UA

S C

arlo

s L

ópez

Váz

quez

==

=D

efin

e có

mo

==

=>

pro

ced

er e

n e

se c

aso

<==Solicita recursos==

<=Info

rma s

obre

problem

as ob

serv

ados

==Definen qué datos serán mejorados=>

Plan de Calidad de Datos (PCD)

Infraestructura administrativa

Administración del PCD

Planes operacionales

Objetivos claros para el negocio

Administración del PCD

Infraestructura administrativa

Planes operacionales

Objetivos claros para el negocio

5

UA

S C

arlo

s L

ópez

Váz

quez

Algunas definiciones...

Calidad Precisión ¿Correctitud? ¿Exactitud?

Quality Precision Accuracy

El idioma español tiene limitaciones en este aspecto...

6

UA

S C

arlo

s L

ópez

Váz

quez

Una definición operativa...

Def.: “...Calidad(A) > Calidad(B) si...”– intrínsecamente subjetiva– asociada a las necesidades– dos clientes podrían disentir– eso si el cliente “sabe lo que quiere”...

7

UA

S C

arlo

s L

ópez

Váz

quez

Ejemplo de las dificultades...

MINMAX: Cal(A)=5.0;Cal(B)=0.5 A<B

StdDev: Cal(A)=2.04;Cal(B)=0.0 A<B

RMSE: Cal(A)=5.0;Cal(B)=1.22 A<B

8

UA

S C

arlo

s L

ópez

Váz

quez

Una definición operativa (2) ...

– dos clientes podrían disentir

Hay cosas que todos quieren o esperan:

relevancia correctitud

poder “ver” acceso simple

seguridad privacidad

9

UA

S C

arlo

s L

ópez

Váz

quez

Son dimensiones diferentes...

En Calidad de Datos se distinguen cuatro: Modelo de Datos (ej. relevancia) Valores mismos (ej. correctitud) Presentación (ej. poder “ver”) Tecnológicos (ej. acceso simple)

El curso trata sobre la segunda dimensión

10

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones: Correctitud Vigencia Completitud Consistencia

11

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (1)

<E,A,V1>

<E,A,V2>

<E,A,V3>

...

<E,A,V2>

<E,A,V>

Ej. <EMPLEADO,AÑO_NACIMIENTO,VALOR>

E=“1745”,E.AÑO_NACIMIENTO=”1960”

12

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (2)

Quizá lo mejor que pueda lograrse es...

<E,A,[VMAX,VMIN]>

Ej. < FECHA,TEMPERATURA_AMBIENTE, VALOR>

FECHA=“18071825.120000”,FECHA.TEMP=”19.60”

Un caso con dos problemas:

•No existe “verdadero”

•No existió nunca

13

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (3)

Las combinaciones formalmente posibles no necesariamente son válidas

Ej. EMPLEADO=“9999”

EMPLEADO.NOMBRE=“Jorge Batlle Ibáñez”

EMPLEADO.AÑO_NACIMIENTO=“1925”

EMPLEADO.CARGO=“Desconocido”

¡ Simplemente no es empleado!

14

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (4)

<E,A,”Juguetería/Bazar”>

<E,A,”JUGUETERIA/BAZAR”>

<E,A,”Jugueteria/Bazar”>

...

<E,A,”Jugueteria / Bazar”>

¡Hay varios valores “correctos”!

15

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (5)

En resumen:

• No siempre existe un “verdadero valor”

• Aún existiendo, puede ser inaccesible

• Métricas específicas al problema

• Métricas problemáticas

16

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones: Correctitud Vigencia Completitud Consistencia

17

UA

S C

arlo

s L

ópez

Váz

quez

Vigencia (1)

ESTALLOVIENDO.NOW=TRUE

LUN MAR MIE JUE

Es algo que depende del tiempo...

18

UA

S C

arlo

s L

ópez

Váz

quez

Vigencia (2)

Datos permanentes– Fecha de nacimiento– Tipo de sangre– Lugar de nacimiento País de nacimiento!

Datos dinámicos|– Cambian ocasionalmente

» Nombre y/o apellido (ej.: USA)

» Dirección

– Cambian regularmente» Salario|

19

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones: Correctitud Vigencia Completitud Consistencia

20

UA

S C

arlo

s L

ópez

Váz

quez

Cuatro posibilidades– El empleado no tiene teléfono ==>OK– El empleado tiene teléfono, pero se ignora el

número==>INC– El empleado tiene un número que no figura en

la guía ==>OK– Se ignora si el empleado tiene teléfono ==>OK

Completitud (1)

EMPLEADO.HOMEPHONE=“Null”

Veamos un poco más de detalle

21

UA

S C

arlo

s L

ópez

Váz

quez

Completitud (2)

El “Null” debería tener colores...» Valor desconocido de un atributo aplicable (el

registro es incompleto)

» Indicador de atributo no aplicable (el registro es completo)

» Atributo de aplicabilidad desconocida

» Valor especial de un atributo (el registro es completo)

Difícil de implementar...

22

UA

S C

arlo

s L

ópez

Váz

quez

Completitud (3)

Dos problemas:Completitud de registros en la base– Completitud de la base

Ej.: Lista de Empleados Activos Ej.: Diccionario de neologismos

23

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones: Correctitud Vigencia Completitud Consistencia

24

UA

S C

arlo

s L

ópez

Váz

quez

Consistencia (1)

Dos o más cosas no son incompatibles Dos o más datos pueden ser correctos a la vez Un par de casos típicos

– Redundancia– Consistencia interna

25

UA

S C

arlo

s L

ópez

Váz

quez

Consistencia (2)

Redundancia– Varias copias de lo mismo– Actualización independiente– Mantenimiento separado

Empleado.Dirección=“Aconcagua 1234”

Empleado.Dirección=“Rancagua 1234”

Empleado.Dirección=“Aconcagua 2134”

26

UA

S C

arlo

s L

ópez

Váz

quez

Consistencia (3)

Consistencia interna– Existen reglas a cumplir

» explícitas

» implícitas

Empleado.Dirección=“Aconcagua 1234”

Empleado.CP=“11600”

27

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW

28

UA

S C

arlo

s L

ópez

Váz

quez

Tres niveles, tres generaciones

Detección + corrección

Diseño de procesos

Mejora de procesos

29

UA

S C

arlo

s L

ópez

Váz

quez

Detección + corrección

Tácticas corrientes:– Laissez fair – Comparar:

» datos vs. realidad

» con otra base

» con reglas del negocio

30

UA

S C

arlo

s L

ópez

Váz

quez

Comparar datos con realidad...

Viable para pocos datos Caro y lento Útil para evaluar niveles de calidad

mediante muestreo Inviable para datos muy dinámicos

31

UA

S C

arlo

s L

ópez

Váz

quez

Comparar datos con otra base...

Trabajo de laboratorio (la realidad no entra) Hipótesis implícitas

» Existe una base, independiente, y redundante

» No tiene demasiados errores

La comparación puede no ser simple Es un método seductor...

32

UA

S C

arlo

s L

ópez

Váz

quez

...con reglas del negocio... (1)

Se expresan como Data Edits... Un único campo:

– “el valor debe ser uno de {0,1,2...9}” Múltiples campos:

– “Ciudad y País deben coordinarse” Relaciones probabilísticas:

– “Hijos=4 y Edad=15 es improbable” Si fallan, se revisan los casos anómalos

33

UA

S C

arlo

s L

ópez

Váz

quez

...con reglas del negocio... (2)

A Favor: Revelan muchas inconsistencias No requiere una segunda base

En contra: Difíciles de hallar/explicitar Requieren “expertos” Pueden cambiar con el tiempo Se aplican una vez, o son permanentes

34

UA

S C

arlo

s L

ópez

Váz

quez

...con reglas del negocio... (3)

Ej.: Caso del Censo (López, JISS 1997)

Escaneado+interpretación automática Sólo datos categóricos Digitar dos veces, o sólo lo erróneo

Reglas derivadas de los datos ==>¡No hay experto!

Resultado de la simulación:

35

UA

S C

arlo

s L

ópez

Váz

quez

0 2 4 6 8 10 12 14 16 18 200

10

20

30

40

50

60

70

80

90

100Overall results vs. effort level

3% of the surveys initially contaminatedwith 2 errors each; Marginal 0.10%

% of controlled data

% o

f err

ors

foun

d

Bes

t po

ssib

le o

pera

tion

line

Expected duplicate performance locus

...con reglas del negocio... (4)

36

UA

S C

arlo

s L

ópez

Váz

quez

Tres niveles, tres generaciones

Detección + corrección

Mejora de procesos

Diseño de procesos

37

UA

S C

arlo

s L

ópez

Váz

quez

Mejora de procesos

¿Y la prevención? Ej.: 1000 datos/día, 20 campos, 2% errores

==>¡400 errores/día!

38

UA

S C

arlo

s L

ópez

Váz

quez

Un ejemplo...

VENTAS

ÓRDENES

DESPACHO

FACTURACIÓN

39

UA

S C

arlo

s L

ópez

Váz

quez

Prevención...

Uso extenso de reglas del negocio Quizá pequeños cambios

» Ej.: habilitar/inhibir edición

Corrección temprana Seguimiento Más barato que corrección Única alternativa si “llueven datos”

40

UA

S C

arlo

s L

ópez

Váz

quez

Tres niveles, tres generaciones

Detección + corrección

Mejora de procesos

Diseño de procesos

41

UA

S C

arlo

s L

ópez

Váz

quez

Diseño del proceso

“a prueba de errores” Exitosa en manufactura

Ideas: Eliminar re-digitación Incorporar reglas Reasignar propiedades

No hay muchos ejemplos con datos

42

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW

43

UA

S C

arlo

s L

ópez

Váz

quez

¿Qué datos mejorar... primero?

Tan importante como la estrategia Hay que lograr éxitos al principio Buscar consensos Considerar varios criterios:

– estrategia global de la empresa

– relevancia para problemas ya conocidos

– distancia ser<==>deber ser

– impacto económico

44

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW

45

UA

S C

arlo

s L

ópez

Váz

quez

Una única base

1) Definir estrategiaEstrategiaProblemas conocidosNivel de errorImpacto ($)

Datos prioritarios

Cambios lentos

Cambios rápidos

Caso intermedio

46

UA

S C

arlo

s L

ópez

Váz

quez

Hay casos mezclados...

BD de Clientes: Cliente.FechaNacimiento

Cliente.Domicilio

Cliente.Saldo

¿Razones?– acotar el trabajo de limpieza– asegurar un retorno

47

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW

48

UA

S C

arlo

s L

ópez

Váz

quez

Muchas bases...

A) Bases que no se solapan

49

UA

S C

arlo

s L

ópez

Váz

quez

Muchas bases...

B) Bases cliente-servidor

50

UA

S C

arlo

s L

ópez

Váz

quez

Muchas bases...

C) Bases solapadas pero independientes

51

UA

S C

arlo

s L

ópez

Váz

quez

Más de una base...

52

UA

S C

arlo

s L

ópez

Váz

quez

Vale la pena mencionar...

Problemas con datos, no con SGBD... Duplicación por razones técnicas

– Backup– Redundancia quizá requerida

==> ¡Usar Master-Slave! DW explícitamente crea redundancia DW recibe datos de varias fuentes

53

UA

S C

arlo

s L

ópez

Váz

quez

El caso del DW

Identificar los datos requeridos Identificar la(s) fuente(s) Estimar niveles de error y caracterizar

velocidad de cambios

Tres pasos:

54

UA

S C

arlo

s L

ópez

Váz

quez

Resumen

Plan operacional:– Detección+corrección– Manejo de procesos– Diseño de procesos

Pueden convivir Datos críticos Controlar redundancia

55

UA

S C

arlo

s L

ópez

Váz

quez

Gestión de Calidad de Datos

Carlos Lópezcarlos.lopez@ieee.org

Universitario Autónomo del Sur - 2005Universitario Autónomo del Sur - 2005

Estrategias para Mejorar

Viene de:

Introducción

Continúa con:

Política de Calidad de Datos

top related