gest ión de calidad de datos

Post on 10-Jan-2016

28 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

Gest ión de Calidad de Datos. Monitoreo, seguimiento y mejora del proceso. Carlos López carlos.lopez@ieee.org. Viene de : Métodos de Control Estadístico. Universitario Autónomo del Sur - 2005. El Ciclo de Gestión de Procesos. Establecer un Propietario del Proceso. - PowerPoint PPT Presentation

TRANSCRIPT

1

UA

S C

arlo

s L

ópez

Váz

quez

Gestión de Calidad de Datos

Carlos Lópezcarlos.lopez@ieee.org

Universitario Autónomo del Sur - 2005Universitario Autónomo del Sur - 2005

Monitoreo, seguimiento y mejora del proceso

Viene de:

Métodos de Control Estadístico

2

UA

S C

arlo

s L

ópez

Váz

quez

El Ciclo de Gestión de Procesos

Establecer un Propietario del Proceso

Describir el Proceso Establecer Necesidades

del Cliente

Establecer Sistema de Medición

Identificar Oportunidades de Mejora

Instalar SQC; verificar Conformidad

Seleccionar Oportunidades

Hacer y Sostener las Mejoras

3

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen

4

UA

S C

arlo

s L

ópez

Váz

quez

Introducción

Hay varias maneras de medir desempeño– Conteo de datos erróneos

» Reglas de Negocio no cumplidas» Seguimiento de Datos (Data tracking)» Ingreso duplicado

– Tamaño de datos erróneos» Efecto Godzilla

– Efecto de datos erróneos» Número de Quejas de Clientes

5

UA

S C

arlo

s L

ópez

Váz

quez

Reglas del Negocio

Def: Relaciones que tienen que cumplir los datos válidos– Sustanciales: Fecha Nacimiento < Fecha

Casamiento– Formales: Nro. Hijos ≥0

Surgen de:– Expertos en el tema– Análisis estadístico de datos

Son esencialmente especificaciones de

los datos

6

UA

S C

arlo

s L

ópez

Váz

quez

Reglas de Expertos

Son personales Son incompletas Son de difícil actualización (¡Hay que matar al experto!)

¡No requieren datos! Suelen redundar Hay software específico

7

UA

S C

arlo

s L

ópez

Váz

quez

Análisis Estadístico

Hoy conocido como “Minería de Datos” Busca relaciones predictivas empíricas

– No verificadas¿erróneos? Busca describir clases

– No clasificados¿erróneos? Registros individuales conclusiones

globales

100100101001001100100100100010001000100001001000100001000011111110010

8

UA

S C

arlo

s L

ópez

Váz

quez

Modelos predictivos

Modelos de regresión– Vol. Compra=f(ingreso, edad, nro. de hijos)

Típicamente vinculan datos cuantitativos Se analiza y=|Compra-f(x)|

– Si y<=y0 ok– Si y>y0¡sospechoso!

Para corregir se requiere acceso al “verdadero valor”

9

UA

S C

arlo

s L

ópez

Váz

quez

Clasificación

Buscan patrones en los datos– Cerveza+pañales+pizza– Perfume+bombones-leña

– Mañana de domingo+chorizos

Vinculan datos categóricos y cuantitativos Si alguien compra Leña y Perfume … Para corregir se requiere acceso al “verdadero

valor”

10

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen

11

UA

S C

arlo

s L

ópez

Váz

quez

Sistemas de Medición

Tema muy importante Las Métricas definen el comportamiento Peligros

– Métricas inapropiadas – Administrar Métricas y no el proceso

Ejemplos

12

UA

S C

arlo

s L

ópez

Váz

quez

El caso de la Industria siderúrgica

Produce chapas, perfiles, varillas, etc. en serie Objetivo: producción bruta en Ton/mes Cambios ~8 hs. Grandes stocks Demora en cumplir pedidos

Resultado:

Ton/mes cumplidas, y clientes insatisfechos

13

UA

S C

arlo

s L

ópez

Váz

quez

Administrar la métrica

VW nombra CEO español Año 1: récord de ganancias Año 2: récord de ganancias Año 3: ¡CEO despedido!

Corto plazo vs. Largo plazo

14

UA

S C

arlo

s L

ópez

Váz

quez

Medir vs. no Medir

Lo esencial es invisible a los ojos Medir mal es peligroso

15

UA

S C

arlo

s L

ópez

Váz

quez

Cadenas de información

Cuentan con cuatro componentes: Requerimientos de Desempeño Definición de “qué medir” Dispositivo de medida y protocolos Resúmenes de Desempeño Serán los tópicos a tratar

16

UA

S C

arlo

s L

ópez

Váz

quez

En general…

Mejor poco y bueno, que mucho y malo… +medidas+complejidad+difícil y caro Sinergias

Medidas Ideas y oportunidades

Más tecnología

Más

17

UA

S C

arlo

s L

ópez

Váz

quez

En lo que sigue…

Se discutirán las cuatro componentes Se trabajará un ejemplo simple

– 5 procesos– 2 bases de datos

Objetivos a medir/mejorar/controlar:– Correctitud datos en DB A– Consistencia entre DB A y DB B– Tiempo para llegar a DB A

18

UA

S C

arlo

s L

ópez

Váz

quez

Esquema del ejemplo

19

UA

S C

arlo

s L

ópez

Váz

quez

Descripción del Ejemplo

campo 1 2 3 4 5 DB A DB B a c

b c c c

d c e c

f c

g c c

h c

Proceso

20

UA

S C

arlo

s L

ópez

Váz

quez

Cadenas de información

Requerimientos de Desempeño Definición de “qué medir” Dispositivo de medida y protocolos Resúmenes de Desempeño

21

UA

S C

arlo

s L

ópez

Váz

quez

Requerimientos de Desempeño

Diseño del SM debe admitir cosas del tipo de “La cadena debe”. Por ejemplo:

estar y mantenerse bajo Control producir no más de <x> defectos ser susceptible de mejora continua ser susceptible de cumplir requerimientos

futuros

22

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen

23

UA

S C

arlo

s L

ópez

Váz

quez

¿Qué medir?

Cadenas suelen ser complejas– Muchos campos– Muchos cruces de cadenas

Desafíos– Qué procesos medir– Qué campos incluir – Qué números son relevantes

24

UA

S C

arlo

s L

ópez

Váz

quez

“Dispositivo” de medida

Contraste con “la realidad”

Data tracking– Más apropiado para datos– Más barato– Implementable en el sistema

– Muestreo– Encuesta

Digitación duplicada– “Database Bashing”

Ejércitos de digitadores Pérdida de tiempo Imagen empresa ¡Costo!

25

UA

S C

arlo

s L

ópez

Váz

quez

Método tradicional

Producto final

26

UA

S C

arlo

s L

ópez

Váz

quez

Para datos…

Métricas pueden ser:– Binarias: Correcto/incorrecto– Cuantitativas

Difícil declarar “Incorrecto” – Sólo si no cumple reglas– Sólo si hay errores de formato

Más difícil declarar “Correcto” Difícil acceso al “verdadero valor”

27

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen

28

UA

S C

arlo

s L

ópez

Váz

quez

Data Tracking

Se marcan datos Se analizan cambios Se guarda fecha/hora

29

UA

S C

arlo

s L

ópez

Váz

quez

Los pasos claves son…

Muestrear al azar a la entrada, y marcar Seguir los registros marcados

– Al entrar a un proceso

– Al salir del proceso

Identificar dónde ocurren defectos/errores Identificar demoras Generar resúmenes cada tanto

30

UA

S C

arlo

s L

ópez

Váz

quez

Muestrear al azar

Aplicable a cadenas “continuas” o por lotes Eliminan sesgos:

– Pedidos consecutivos correlacionados– Preferencia del inspector por pedidos “grandes”

Procedimientos bien estudiados– Descritos en Manuales– Especificados en Estándares (MIL Std.)

31

UA

S C

arlo

s L

ópez

Váz

quez

r=1100% del total; r=0 no muestrear Otros requerimientos:

– Tamaño del lote

– Frecuencia de muestreo

– Tasa de ingreso al sistema

Muestrear al azar(2)

– Generar al azar

– Si aceptar el registro; si no, rechazarlo

1,0ix

rxi

1

1

Pasos: Especificar r Para cada registro:

32

UA

S C

arlo

s L

ópez

Váz

quez

Seguir los registros marcados

Usar un identificador único ya existente– No requiere cambio del modelo de datos

Agregar una etiqueta específica– Hay que modificar modelo

Invisibilidad… Ejemplo:

33

UA

S C

arlo

s L

ópez

Váz

quez

Ejemplo

1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC-

b 408727 408727 408831 408831 408831 408831 408831 c SRBEX A A A A A

d DEC DEC DEC DEC DEC

e H23A F17B H23A F17B H23A

f $23.25 $23.25

g N Y N Y

h bf bf

Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30

Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00

Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00

34

UA

S C

arlo

s L

ópez

Váz

quez

Tres tipos de cambios

Normalización Traducción Espúreos

– Corrección de errores– Creación de errores

35

UA

S C

arlo

s L

ópez

Váz

quez

Ejemplo

1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC-

b 408727 408727 408831 408831 408831 408831 408831 c SRBEX A A A A A

d DEC DEC DEC DEC DEC

e H23A F17B H23A F17B H23A

f $23.25 $23.25

g N Y N Y

h bf bf

Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30

Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00

Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00

36

UA

S C

arlo

s L

ópez

Váz

quez

Tiempos de ciclos

Tres tipos de análisis– Tiempo de proceso (Ci-Si)

– Puntualidad (Ci-Di)

– Tiempo en cola (Si-Ci-1)

Siendo:Si fecha/hora de comienzo del proceso i

Ci fecha/hora de culminación del proceso i

Di fecha/hora comprometida del proceso i

37

UA

S C

arlo

s L

ópez

Váz

quez

Ejemplo

1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC-

b 408727 408727 408831 408831 408831 408831 408831 c SRBEX A A A A A

d DEC DEC DEC DEC DEC

e H23A F17B H23A F17B H23A

f $23.25 $23.25

g N Y N Y

h bf bf

Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30

Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00

Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00

38

UA

S C

arlo

s L

ópez

Váz

quez

0 2 4 6 8 10 12 14 16 18 20

Cam

bios

por

reg

istr

o

Nro. de muestra

EspúreosNormalizaciónTraducción

Resumir resultados

Para Correctitud y Consistencia

Tres niveles:– Métrica

– Dónde

– Control

Un ejemplo de Métrica

Situación conocida Quizá poco preocupante Quizá legada ¡Seguro que no aporta valor!

39

UA

S C

arlo

s L

ópez

Váz

quez

b e d g a c0

5

10

15

20

25

30

35

40

45

50

Campo

Pro

porc

ión

de c

asos

)

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Los casos graves…

¿Qué es un gráfico de Pareto?

40

UA

S C

arlo

s L

ópez

Váz

quez

Otras gráficas útiles/posibles

Rastreando el campo “b”

3->4 4->DB A 2->3 1->2 In->1 0

5

10

15

20

25

30

35

40

45

50

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Puede usarse más de una representación

41

UA

S C

arlo

s L

ópez

Váz

quez

2 4 6 8 10 12 14 16 18 20 220

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4P

ropo

rcio

n de

def

ecto

s

Muestra

UCL

CL

LCL

Para el control…

Dado el campo “b”, y el proceso “3”…

Hay puntos fuera de rango Deben buscarse las causas

42

UA

S C

arlo

s L

ópez

Váz

quez

Algunos detalles…

Las muestras pueden demorar más o menos– La secuencia de entrada difiere de la de salida

Sólo incluir muestras ya completas

43

UA

S C

arlo

s L

ópez

Váz

quez

Detectando inconsistencias

La métrica es binaria: “consistente/inconsistente” En principio es similar a la correctitud Aislemos los espúreos…

0 2 4 6 8 10 12 14 16 18 20

Cam

bios

por

reg

istr

o

Nro. de muestra

EspúreosNormalizaciónTraducción

44

UA

S C

arlo

s L

ópez

Váz

quez

e g a c d0

5

10

15

20

25

30

34

Cas

os

0%

15%

29%

44%

59%

74%

88%

100%

Pro

porc

ión

de in

cons

iste

ncia

s

Analizando el ejemplo

Focalizando en los espúreos Casos más problemáticos: campos “e” y “g”

45

UA

S C

arlo

s L

ópez

Váz

quez

Rastreando el campo “e”

Mayoría entre 3 y 4 “e” tenía problemas de correctitud No es por tanto problema de inconsistencia

46

UA

S C

arlo

s L

ópez

Váz

quez

Rastreando el campo “g”

No está tan claro Errores altos, pero bajo control

2 4 6 8 10 12 14 16 18 20 220

0.05

0.1

0.15

0.2

0.25

Muestra

Pro

porc

ión

UCL

CL

LCL

47

UA

S C

arlo

s L

ópez

Váz

quez

Rastreando el campo “g” (2)

Hay que mirar más de cerca El campo “g” se genera ¡independientemente!

48

UA

S C

arlo

s L

ópez

Váz

quez

Un detalle…

Métodos y gráficos para Correctitud ≈ Consistencia– ¿Dónde están las diferencias?

Correctitud– Controla <realidad> vs. <DB A>

Consistencia– <DB A> vs. <DB B>– ¡<realidad> no entra!

49

UA

S C

arlo

s L

ópez

Váz

quez

Tiempos…

Hay que ser especialmente cuidadoso

Ilustremos la nomenclatura

tiempo

P3 terminadoP3 prometido

Comienza P3P2 terminado

P3 está retrasado en este lapso

50

UA

S C

arlo

s L

ópez

Váz

quez

Otras hipótesis…

Entrar en DB A implica la entrega de algo– Def. DA=Instante prometido de entrega

– Def. CA=Instante efectivo de entrega

– Def. TA = CA – DA (TA > 0 implica retraso)

DA depende de D1, D2, D3 y D4

El cliente siempre puede cancelar o cambiar antes de DA

51

UA

S C

arlo

s L

ópez

Váz

quez

Primer análisis: TA

UCL debería ser negativo Se debe/puede analizar el gráfico X, u otro Bajo control, pero 37% se entregan tarde

2 4 6 8 10 12 14 16 18 20 22-250

-200

-150

-100

-50

0

50

UCL

CL

LCL

Min

utos

Muestra

X-chart: TA

-500 -400 -300 -200 -100 0 100 200 3000

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

Promedio=-100

Temprano Tarde

Área=37%

52

UA

S C

arlo

s L

ópez

Váz

quez

Si el servicio llega tarde…

Causas: Uno o más procesos tienen problemas El sistema (o algún proceso) no es capaz Clientes cambian la orden demasiado

frecuentemente ¿Cómo detectarlo, identificarlo y corregirlo?

– Repita análisis para T1, T2, T3 y T4 por separado

– Estime tiempo promedio <Ti>, y súmelo

53

UA

S C

arlo

s L

ópez

Váz

quez

Tiempos acumulados de 4 procesos

0 0.5 1 1.5 2 2.5 30

1

2

3

4

5

Dias

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.50

0.5

1

1.5

2

Dias

L2 (=1/2 dia,

=2 horas)

L4 (=1 dia,

=3 horas)

L1 (=1 dia,

=4 horas)

Distribucion de la suma L1+L2+L3+L4

(=4.5 dias, =42+22+32+22 horas)

L3 (=2 dias,

=2 horas)

Percentil 99%

Se asumen independientes

También llamada Capacidad del

Proceso

54

UA

S C

arlo

s L

ópez

Váz

quez

“Otra vez los clientes…”

Tienen derechos (¡!) Podría pensarse:

– “Avisan tarde, y el trabajo está casi hecho” Típicamente es lo contrario Tiempo en cola >> Tiempo en proceso Ideas “Just In Time”

55

UA

S C

arlo

s L

ópez

Váz

quez

Unos comentarios…

Podría prometerse un DA menor

No todo es espera– Tiempo de transmisión no considerado– Buffers (para manejar picos de trabajo)

Buffers suelen ocultar defectos

56

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen

57

UA

S C

arlo

s L

ópez

Váz

quez

Cómo implementar Data Tracking

Será necesario implementar varios módulos Ilustraremos una arquitectura: DCI Es aplicable cuando:

– Pueden ponerse etiquetas– Los procesos están computarizados

La tendencia es hacia esto Veamos un esquema

58

UA

S C

arlo

s L

ópez

Váz

quez

Un posible esquema de DCI

Filtros

Muestreo/etiquetado

PostProcesamiento

Análisis/Reportes

Comunicaciones

59

UA

S C

arlo

s L

ópez

Váz

quez

Detalles…

Tan próximo como se pueda– Muestreo DENTRO del 1er. Proceso– Filtros DENTRO de cada proceso– BD secundaria CERCA del “dueño” del proceso

Fácil de implementar en una reingeniería Más difícil como cambios a un sistema ya

operativo

60

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen

61

UA

S C

arlo

s L

ópez

Váz

quez

En Resumen

Concepto de Sistema de Medida– Cuatro componentes:

» Requerimientos» Ítems o características a medir» Instrumento y reglas para medir» Resúmenes apropiados

Requerimientos: la voz del cliente Requerimientos Qué medir Instrumento: Data Tracking Requerimientos Resúmenes apropiados

62

UA

S C

arlo

s L

ópez

Váz

quez

Resumen de Data Tracking

Es UN posible instrumento; hay otros Explota redundancia entre procesos y datos Objetivo:

– Controlar operación y mejorar» Correctitud» Consistencia» Tiempos de procesamiento

Uso extensivo de SQC

63

UA

S C

arlo

s L

ópez

Váz

quez

Gestión de Calidad de Datos

Carlos Lópezcarlos.lopez@ieee.org

Universitario Autónomo del Sur - 2005Universitario Autónomo del Sur - 2005

Monitoreo, seguimiento y mejora del proceso

Viene de:

Métodos de Control Estadístico

top related