y matemÁticas ciencias
TRANSCRIPT
Escuela Académico-Profesional de Informática
Facultad de Ciencias Físicas y Matemáticas
Universidad Nacional de Trujillo
DESARROLLO DE UN MÉTODO PARA MEJORAR LA CALIDAD
DE DATOS EN EL PROCESO DE
CONSTRUCCIÓN DE UN DATA WAREHOUSE
Tesis para la obtención del Título de Ingeniero Informático
Karina C. Espinoza Pareja Hilda P. Carrillo Bello
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Presentación
Señores Miembros del Jurado:
En cumplimiento a las normas vigentes del Reglamento de Grados y Títulos de la Facultad de Ciencias
Físicas y Matemáticas, carrera de Informática de la Universidad Nacional de Trujillo tenemos a bien
poner a vuestra consideración el presente trabajo de investigación intitulado:
“Desarrollo de un Método para mejorar la Calidad de Datos en el Proceso de Construcción de un
Data Warehouse”.
Con la culminación de este trabajo de investigación se espera cumplir las exigencias formuladas en
toda investigación, agradeciéndoles por anticipado las sugerencias y apreciaciones que se hiciera al
respecto.
Trujillo, Mayo del 2013
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
KARINA CECILIA ESPINOZA PAREJA
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
HILDA PATRICIA CARRILLO BELLO
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Dedicatoria
“Esta tesis quiero dedicarla a mi madre que desde siempre me ha dado su apoyo incondicional, por
sus consejos, sus valores, por la motivación constante que me ha permitido ser una persona de bien y
ha inculcado en mí el deseo de superación”
Hilda Carrillo Bello
A mis padres, la Sra. Lidia Pareja y el Sr. Oswaldo Espinoza por ser el pilar fundamental en todo lo
que he hecho hasta ahora, por los principios y valores que han inculcado en mí y por el apoyo
incondicional que me dan. Ellos son mi mayor ejemplo de perseverancia y constancia. Hoy por hoy me
enorgullezco de quien soy y todo se lo debo a ellos.
Karina Espinoza Pareja
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Agradecimientos
“Quiero darles las gracias a todas las personas que de alguna manera colaboraron conmigo para que
este trabajo esté hoy realizado. A mi madre por el estímulo, la buena predisposición y sobre todo el
apoyo que me brindó siempre para poder culminar este proyecto. Doy gracias a Dios que me enseño a
perseverar y luchar en todo lo relacionado con este proyecto de tesis. También a agradezco a mi
asesor de tesis que estuvo involucrado en el desarrollo de este trabajo por comprometerse enteramente
con él y guiarnos hasta su culminación.”
Hilda Carrillo Bello
Le agradezco infinitamente a DIOS por haberme permitido llegar hasta este punto y haberme dado
salud para lograr mis objetivos, se de corazón que siempre me acompañas y proteges, gracias por
todo. A mis padres porque creen en mí y siempre me apoyan incondicionalmente. A mi asesor Carlos
Castillo, por la buena predisposición para apoyarnos en el desarrollo de esta tesis y finalmente a
todos aquellos que de una u otra manera me apoyaron para hacer posible este trabajo.
Karina Espinoza Pareja
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Resumen En el presente trabajo, se propone el desarrollo de un método para mejorar la calidad de datos en el
proceso de construcción de un Data Warehouse. La calidad en los datos está relacionada con las
dimensiones de calidad que se definen sobre los datos, es por esta razón que el método propuesto mide
la calidad en función a 4 dimensiones de calidad, que son la exactitud, completitud, consistencia y
unicidad. Se ha hecho un análisis de los errores más comunes que se presentan en los datos, en qué
consisten, por qué resulta importante su consideración, las posibles causas que los generó y la forma de
medirlo. También se propone agregar una base de datos temporal dentro del proceso ETL, es en esta
base donde se analizaran los datos, detectaran los errores y a la vez se corregirán.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Índice General
1. PLAN DE INVESTIGACIÓN ......................................................................................................... 1
1.1. REALIDAD PROBLEMÁTICA ............................................................................................. 1
1.2. ANTECEDENTES ................................................................................................................... 2
1.3. OBJETIVOS ............................................................................................................................ 4
1.4. FORMULACIÓN DEL PROBLEMA ..................................................................................... 5
1.5. HIPÓTESIS .............................................................................................................................. 5
1.6. JUSTIFICACIÓN DEL PROBLEMA ..................................................................................... 5
1.7. VIABILIDAD .......................................................................................................................... 6
1.8. LIMITACIONES ..................................................................................................................... 6
1.9. ORGANIZACIÓN DEL ESTUDIO ........................................................................................ 7
2. MARCO TEÓRICO ......................................................................................................................... 9
2.1. INTELIGENCIA DEL NEGOCIO (BI)................................................................................... 9
2.1.1. Importancia de BI ............................................................................................................. 9
2.1.2. Beneficios de BI ............................................................................................................. 10
2.2. DEFINICIÓN DE DATAWAREHOUSE .............................................................................. 10
2.2.1. Diseño de un Data Warehouse ....................................................................................... 12
2.2.2. ETL ................................................................................................................................ 19
2.3. CALIDAD DE DATOS ......................................................................................................... 21
2.3.1. Antecedentes .................................................................................................................. 22
2.3.2. ¿Qué es calidad de datos? ............................................................................................... 23
2.3.3. La Importancia de la calidad de datos ............................................................................ 24
2.3.4. Áreas de investigación en calidad de datos .................................................................... 24
2.3.5. Dimensiones de la calidad de datos ................................................................................ 25
2.3.6. Enfoque en las dimensiones de la calidad de datos ........................................................ 33
2.3.7. Técnicas y actividades de calidad de datos .................................................................... 34
2.4. LIMPIEZA DE DATOS ......................................................................................................... 35
2.4.1. Problemas que enfrenta la limpieza de datos ................................................................. 36
2.4.2. Fases de la limpieza de datos ......................................................................................... 37
2.4.3. Detección y corrección de errores .................................................................................. 38
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
2.4.4. Prevención de errores ..................................................................................................... 40
2.5. CONTROL DE CALIDAD DE LOS DATOS ....................................................................... 41
2.5.1. Valoración de datos ........................................................................................................ 41
2.5.2. Control de calidad de datos ............................................................................................ 41
2.5.3. Seguimiento y reporte .................................................................................................... 41
2.6. CICLO DE MEJORAMIENTO DE LA CALIDAD DE DATOS EN UNA
ORGANIZACIÓN ............................................................................................................................. 42
2.6.1. Valoración ...................................................................................................................... 42
2.6.2. Plan ................................................................................................................................. 42
2.6.3. Implementar ................................................................................................................... 42
2.6.4. Evaluar ........................................................................................................................... 43
2.6.5. Adaptar ........................................................................................................................... 43
2.6.6. Educar ............................................................................................................................ 43
3. RESULTADOS .............................................................................................................................. 45
3.1. ERRORES MÁS COMUNES EN LOS DATOS ................................................................... 45
3.1.1. EXACTITUD ................................................................................................................. 45
3.1.2. COMPLETITUD ............................................................................................................ 48
3.1.3. CONSISTENCIA ........................................................................................................... 49
3.1.4. UNICIDAD .................................................................................................................... 51
3.2. DESARROLLO DE MÉTODO PARA MEJORAR LA CALIDAD DE DATOS ................ 54
3.2.1. DIAGRAMA DE PROCESOS ...................................................................................... 54
3.2.2. DESARROLLO DEL MÉTODO ................................................................................... 56
4. DISCUSIÓN DE RESULTADOS ................................................................................................. 63
5. CONCLUSIONES ......................................................................................................................... 67
5.1. CONCLUSIONES ................................................................................................................. 67
5.2. TRABAJOS FUTUROS ........................................................................................................ 68
REFERENCIAS ..................................................................................................................................... 69
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Índice de Figuras
FIGURA 1: Proceso ETL con la base de datos temporal .................................................................. 57
FIGURA 2: Etapas por las que pasan los datos en la base de datos Temporal ................................. 58
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Índice de Tablas Tabla 1 – Tipos de errores en los datos .................................................................................................. 45
Tabla 2: Análisis de errores en los datos ................................................................................................ 59
Tabla 3: Corrección de errores en los datos ........................................................................................... 60
Tabla 4: Resultados de las dimensiones de calidad para un campo determinado .................................. 61
Tabla 5: Cuadro comparativo entre método tradicional y método propuesto ........................................ 65
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Índice de Cuadros Cuadro 1: Porcentaje de errores encontrados para un campo determinado. ........................................... 63
Cuadro 2: Porcentaje de errores encontrados para un campo determinado después de la corrección de
los mismos. ............................................................................................................................................. 64
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
CAPÍTULO I
PLAN DE INVESTIGACIÓN
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
1
1. PLAN DE INVESTIGACIÓN
1.1. REALIDAD PROBLEMÁTICA
Dado que la información es un recurso organizacional, y que es usada para generar nuevo
conocimiento encaminado hacia la creación de mejores estrategias empresariales, es
importante analizar la calidad de los datos.
El dicho "Garbage in, garbage out" que en español significa “Entra basura, sale basura”
quiere decir que "Si se ingresan datos incorrectos en nuestros sistemas, la salida resultante
también será incorrecta”, esto se convierte en una desafortunada realidad cuando la calidad
de los datos no se aborda.
Ocurre que muchos de los datos dentro de las organizaciones presentan impurezas, esto es,
son inconsistentes, no están presentes, no pueden leerse o simplemente son erróneos. Esto
afecta considerablemente a las organizaciones, ya que tienen que invertir más tiempo de lo
planificado en resolver estas irregularidades, además de pérdidas de confianza, tiempo y
dinero.
El presente trabajo de investigación propone un método para mejorar la calidad de los
datos y así evitar que los datos lleguen al Data Warehouse (DW) con errores.
Características de la realidad problemática
Una baja calidad de datos hace que las empresas incurran en costos innecesarios,
ya que se tiene que volver a realizar el proceso para corregir los errores en los
datos.
La credibilidad de una organización desde el punto de vista de clientes y
proveedores se ve afectada con decisiones tomadas en base a datos de baja calidad.
La baja calidad de datos empeora con el tiempo, como por ejemplo, una base de
clientes se vuelve obsoleta en un mes, debido a que estos se mueren, se divorcian,
se casan, se mudan, etc.
Los continuos cambios en el sistema como las migraciones de sistemas, los
cambios en los sistemas fuente, actualizaciones, datos antiguos y obsoletos, etc.
generan muchísimos nuevos errores.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
2
Pérdidas económicas considerables debido a la baja calidad de los datos en las
empresas, que no fueron detectadas a tiempo.
1.2. ANTECEDENTES
En el artículo “El valor de la calidad de datos y el ETL” escrito por T. Nguyen, se presenta
la importancia de los datos en las organizaciones, cada una de estas, se basa en los datos
para producir información útil para que la toma de decisiones empresariales sea efectiva.
Por desgracia, se pone más énfasis en la información y la calidad de datos no recibe la
atención que merece. El artículo muestra una reciente encuesta donde revela que el 75% de
las organizaciones no tienen procesos de calidad de datos, ya que la mayoría de las
empresas no han tomado medidas para determinar la gravedad de los problemas de calidad
de datos y su impacto en el balance final, debido a que no admiten conscientemente que
sus decisiones empresariales se basan en datos inexactos e incompletos. También se
explica las razones por que la calidad de los datos que las empresas recopilan y analizan es
tan pobre. Según la investigación, menciona que las razones varían, desde la naturaleza
ambigua de los propios datos hasta la confianza en la perfección de la entrada de datos.
En esta investigación se define la calidad de los datos como un proceso de organizar la
información para que los registros individuales sean exactos, actualizados, completos,
consistentes, oportunos, únicos, válidos y coherentes. La integración de la calidad de los
datos y ETL minimiza el riesgo de fracaso, el costo y la cantidad de recursos necesarios
para gestionar los datos [1].
Según Iván Amon Uribe en la tesis de grado “Guía metodológica para la selección de
técnicas de depuración de datos”, expone la importancia que deben tener los datos, y que
estos deben contener la menor cantidad de errores posibles, ya que actualmente las
organizaciones toman decisiones basadas en datos almacenados en sus bases o bodegas de
datos. Según Andreas Bittere, vicepresidente de investigación de Garther “No existe una
compañía en el planeta que no tenga un problema de calidad de datos y aquellas compañías
que reconocen tenerlo, a menudo subestiman el tamaño de éste”. Se habla también sobre
los problemas que presentan los datos, al reunir información de varias fuentes, o al interior
de un archivo o una misma tabla en una base datos relacional, como por ejemplo el
atributo nombre puede contener “Juan Alberto López Gómez” para un registro y para otro
“Juan A. López G.” haciendo referencia a la misma persona o el nombre “Carlos” puede
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
3
presentar errores de digitación con caracteres sobrantes, faltantes o transpuestos
(“Carklos”, “Calos”, Catlos”). Por estas razones, esta tesis muestra una guía metodológica,
que oriente al analista de los datos hacia una selección con mayor rigor científico, de las
técnicas adecuadas para tres de los posibles problemas que puedan presentar los datos:
detección de duplicados, valores atípicos incorrectos y valores faltantes, analizando
detalladamente cada uno de estos, proponiendo técnicas, métricas, diseño y una
metodología para tratar de resolver o minimizar los errores [2].
Otro estudio sobre “Calidad de datos en ingeniería de software empírica” realizado por B.
Bianchi Gallo, muestra las dimensiones de la calidad de datos, donde cada dimensión tiene
un aspecto particular que se define como factor de calidad, este factor se puede medir a
través de métricas y un mismo factor de calidad puede medirse con diferentes métricas. A
continuación se menciona algunas de estas dimensiones de calidad de datos: exactitud y
unicidad, completitud, actualidad, volatilidad y consistencia. En este estudio también se
menciona actividades y técnicas para mejorar la calidad en los datos. Las actividades
relativas a la calidad de datos se refieren a cualquier proceso o transformación que se
aplica a los datos con el objetivo de mejorar su calidad. Para llevar a cabo dichas
actividades, se hace uso de distintas técnicas.
A continuación se describen algunas actividades relativas a la calidad de los datos:
obtención de nueva información, estandarización, identificación de objetos, integración de
datos, confiabilidad de las fuentes, composición de calidad, detección de errores,
corrección de errores, optimización de costos. Se destaca el análisis de los posibles errores
a encontrar en los datos generados, la limpieza de los datos, migrando los mismos a un
nuevo esquema que se adecúa mejor a la realidad planteada, y la construcción de un
programa que automatiza la gran mayoría de los procesos de limpieza y migración [3].
Siguiendo con la investigación, en el artículo “Calidad De Los Datos: Un Reto Para La
Moderna Empresa” escrito por J. Vilalta Alonso y M. Delgado Fernández, nos habla sobre
el papel de los datos como soporte de las decisiones que toman los directivos. Para que las
decisiones sean objetivas no basta con que se tomen basadas en los datos sino que,
además, éstos deben tener la calidad adecuada. Se habla también de sistemas de calidad de
datos que han ido evolucionando desde la simple detección y corrección de datos erróneos
o duplicados hasta la consideración de que la detección y eliminación de errores forma
parte importante de la gestión de los flujos de información que soportan los procesos
fundamentales de las organizaciones. El artículo también presenta las iniciativas para la
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
4
garantía de la calidad de los datos, que son los llamados sistemas de evaluación de la
calidad de los datos y metodologías o procedimientos de diagnóstico, dirigidos a evaluar el
estado actual de los datos, de esta forma las organizaciones toman decisiones y pueden
descubrir las causas que los originan, para prevenir o reducir su ocurrencia [4].
En el artículo “La calidad de los datos: Su importancia para la gestión empresarial” escrito
por J. Heredia Rico y J. Vilalta Alonso, la calidad de los datos está asociada a un conjunto
de dimensiones o atributos que son los que la definen. Un objetivo fundamental de la
definición de las dimensiones es poder establecer un lenguaje común y también focalizar
los problemas de calidad de los datos y las oportunidades de mejora. De acuerdo a este
artículo, las dimensiones más importantes, pues son las más utilizadas están la exactitud, la
integridad, la consistencia y la coherencia. Los resultados de una inadecuada calidad en los
datos implican procesos de toma de decisiones inadecuados, además resulta muy costoso el
efecto sobre los clientes de la empresa. Este se puede materializar en la insatisfacción de
los clientes debido a nombres incorrectos, facturas con cantidades erróneas, envío de
productos o cantidades equivocadas, etc. En algunas empresas de producción, el personal
relacionado con la producción, dedica un porcentaje no despreciable de su tiempo de
trabajo a la corrección de errores en los datos, en otras ocasiones se tiene que realizar
continuamente correcciones en la base de datos. Así mismo en el artículo se menciona una
manera de medir la calidad de los datos, enfocándose en las dimensiones de calidad (la
exactitud, la integridad, la consistencia y la coherencia). En principio, definir las
dimensiones que sean importantes para el conjunto de datos en análisis, y después se deben
establecer indicadores que permitan cuantificar o calificar el grado de adecuación del dato
atendiendo a cada dimensión [5].
Luego de haber estudiado todas estas investigaciones, podemos decir que la calidad de los
datos es un proceso de continuo esfuerzo y que si no se toma en cuenta puede generar
grandes pérdidas para las organizaciones.
1.3. OBJETIVOS
Objetivo General
Desarrollar un método para mejorar la calidad de los datos en el proceso de
construcción de un DW.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
5
Objetivos Específicos
Analizar los tipos de errores que se pueden encontrar en los datos.
Analizar las dimensiones de la calidad de datos.
Asociar los tipos de errores a las dimensiones de calidad.
Desarrollar el método para mejorar la calidad de datos en el proceso de
construcción de un DW.
1.4. FORMULACIÓN DEL PROBLEMA
¿Cómo mejorar la calidad de los datos en el proceso de construcción de un DW?
1.5. HIPÓTESIS
El desarrollo de un método permite mejorar la calidad de datos en el proceso de
construcción de un DW.
1.6. JUSTIFICACIÓN DEL PROBLEMA
Muchos proyectos de DW han fracasado debido a problemas de calidad de datos. Es un
hecho documentado que miles de millones de dólares se pierden debido a la calidad
deficiente de los datos. Más allá de la pérdida de recursos, hay descontento por parte de los
clientes, disminución de los ingresos por ventas, erosión de la credibilidad e incapacidad
para tomar decisiones de negocios. Tanto así que la consecuencia de la mala calidad de
datos es suficiente para causar el fracaso de la organización.
Mejorar la calidad de datos se ha convertido en una prioridad de la alta dirección.
Es por esta razón que se desarrolla el presente trabajo de investigación con la finalidad de
dar a conocer los procedimientos y métodos necesarios para mejorar la calidad de los datos
en las organizaciones. Con lo que lograremos que las organizaciones confíen en sus datos,
por ende en sus decisiones.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
6
1.7. VIABILIDAD
La presente investigación es viable, ya que se dispone de los recursos necesarios para
poder llevarla a cabo. Sólo se requiere la predisposición de las organizaciones a
implementar estos procesos para analizar sus datos, ya que este análisis les permitirá tomar
decisiones que mejorarán sus ventajas competitivas frente a su competencia. El proyecto es
sostenible y rentable económicamente si se realiza de forma correcta.
1.8. LIMITACIONES
El presente trabajo presenta las siguientes limitaciones.
No se abarca la etapa de construcción completa de un proceso de DW porque no se
encuentra dentro del alcance del trabajo de investigación, el mismo se enfoca en la
mejora de la calidad de datos dentro del proceso ETL que es una etapa antes de la
carga de datos en el DW.
El método desarrollado es analítico, queda a disposición de otros trabajos de
investigación la implementación y ejecución del mismo.
Sólo se han considerado los tipos de errores que mayormente se presentan en los
datos y a la vez los más importantes.
Existen varias dimensiones que reflejan distintos aspectos de los datos. Esto no
resulta ser una sorpresa al considerar que los datos pretenden representar todo tipo
de características de la realidad, desde espaciales y temporales, hasta sociales. En
el presente proyecto sólo se han considerado 4 dimensiones de calidad.
En el proceso de corrección de datos se necesitará el apoyo de las áreas que se
encargan de registrar la información en los sistemas, se espera que ellos se
comprometan con el proyecto, para de esta manera reflejar fielmente los datos con
la realidad.
La calidad de los datos está en función a las 4 dimensiones de calidad
consideradas.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
7
1.9. ORGANIZACIÓN DEL ESTUDIO
El presente trabajo de tesis consta de un total de cinco capítulos, divididos en secciones de
acuerdo al nivel de detalle que se consideró necesario.
El primer capítulo es el plan de investigación, incluye todo lo necesario con el
planteamiento del problema a estudiar, partiendo desde la realidad problemática, los
antecedentes, el problema en concreto, la hipótesis planteada, los objetivos establecidos, la
justificación del mismo y las limitaciones más relevantes que se detectaron durante el
desarrollo de la tesis.
El segundo capítulo, Marco Teórico, abarca los conceptos teóricos que sustentan el estudio
relacionado con la mejora de calidad de datos en el proceso de construcción de un DW.
En el tercer capítulo, Resultados, se realiza un análisis de los errores más comunes que se
presentan en los datos, en qué consisten, por qué resulta importante su consideración, la
forma de medirlo y se desarrolla el método para mejorar la calidad de datos.
En el cuarto capítulo, Discusión de Resultados, se realiza una comparativa del antes y
después de aplicar el método propuesto.
Finalmente en el quinto capítulo, se presentan las conclusiones a las cuales se llegaron
durante el proceso del trabajo de investigación y posibles trabajos futuros.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
CAPÍTULO II
MARCO TEÓRICO
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
9
2. MARCO TEÓRICO
2.1. INTELIGENCIA DEL NEGOCIO (BI)
En el mundo actual de los negocios, las empresas que quieren mantenerse en un buen sitial
y ser competitivas no solo deben caracterizarse por la calidad de sus productos sino
también por el grado de información que se maneja con sus clientes, empleados, gerentes y
socios. En el caso de los directivos de las empresas, se tienen que enfrentar
ante ciertos escenarios como disponer de más información pero menos tiempo para
analizarla, sistemas de información que no ayuda a la toma de decisiones ágiles y además
responsables de generar información urgente en muchos de los casos están saturados por
las peticiones de información y no pueden cumplir con todas las peticiones.
Es a partir de estos problemas que nace el concepto de Inteligencia de Negocios o sus
siglas en inglés (Business Intelligence BI) el cual engloba los sistemas de información de
una empresa para obtener algo más que información, se lo usa para obtener conocimiento.
Las empresas en los últimos años han hecho grandes inversiones en sistemas ERP
(Enterprise Resource Planning) y CRM (Customer Relationship Management) los cuales
proveen una gran cantidad de datos para las empresas, las cuales ahora desean poder usar
esta gran cantidad de información para la toma de decisiones y acciones para un mejor
desempeño de sus negocios. Por dichas razones se están adoptando en las empresas en uso
de sistemas BI [7].
2.1.1. Importancia de BI
Generalmente, en las organizaciones se genera una gran cantidad de datos e
información que en muchos de los casos el análisis de la misma se convierte en un
verdadero problema para los directivos.
Las tecnologías y los sistemas de BI permiten realizar un análisis mucho más ágil y
comprensible para la toma de decisiones empresariales, las aplicaciones BI buscan
incrementar la eficiencia en la organización. Podemos decir que la información,
correctamente analizada e interpretada, es la mayor fuente de poder de las
empresas, ya que da pistas muy claras acerca del camino a seguir en futuras
acciones.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
10
2.1.2. Beneficios de BI
Entre los beneficios más importantes que brinda una aplicación BI a las
organizaciones, se puede mencionar los siguientes [7]:
Minimiza el tiempo de carga de datos, debido a que todos los datos se
encuentran en un mismo repositorio o fuente de información.
Los procesos de extracción y carga de la información son automáticos
debido al uso de procesos definidos y metodologías.
Las herramientas BI permiten realizar análisis, y establecer comparaciones
para la toma de decisiones.
Permite a los usuarios no depender de reportes o informes programados,
porque los mismos serán generados de manera dinámica.
Posibilita la formulación preguntas y respuestas que son claves para el
desempeño de la organización.
Permite acceder y analizar directamente los indicadores de éxito.
Una solución BI empieza, desde los sistemas de origen o los sistemas
operacionales de la organización es decir las bases de datos, archivos planos, hojas
de cálculo, sistemas ERP que son los que generan datos de la organización. Sobre
los datos obtenidos se realiza un proceso de extracción de los datos de sus
diferentes fuentes, transformación que consiste en una estandarización de los datos
y carga de los datos en un nuevo repositorio como un Data Warehouse o en varios
Data Marts para de esta manera ser estructurados y presentados a los usuarios
finales en forma de Reportes, Tableros de mando, etc.
2.2. DEFINICIÓN DE DATAWAREHOUSE
Según Inmon [6], un DW es:
“Una colección de datos que sirve de apoyo a la toma de decisiones, organizados
por temas, integrados, no volátiles y en los que el concepto de tiempo varía
respecto a los sistemas tradicionales”.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
11
Debe ser organizado por temas, debido a que los datos en el DW no se organizan acorde
con las aplicaciones que los usan, sino que lo hacen acorde con su semántica,
independientemente de qué aplicación los utilice. Por ejemplo, una compañía podría tener
datos organizados por clientes, proveedores, productos, etcétera, independientemente de la
aplicación que los vaya a utilizar.
Otra de las características que se citan en la definición anterior, y que es, a juicio del
propio autor, la más importante de un DW, es la de la integración. Un DW se construye a
partir de los datos de las diversas fuentes de datos de una organización, lo que hace
necesario un esfuerzo para “poner en común” los datos de las diferentes fuentes.
Cada una de las fuentes de datos de la organización tendrá sus propios modelos de datos,
sus propias políticas de asignación de nombres a campos, de codificación de valores, y
muchas diferencias más, que hacen que el hecho de recolectar los datos de ellas para
unirlos en un esquema común suponga un gran esfuerzo, tanto computacional como
humano.
El esfuerzo computacional proviene del hecho que hay que recorrer todos los datos a
integrar, y realizar una transformación para que encaje con el esquema centralizado que se
adopte para el DW. El esfuerzo humano es debido a la necesidad de estudiar los modelos
conceptuales, realizar uno común, unificar todas las políticas de asignaciones, y, en
definitiva, toda tarea no automatizable que genere el proceso de la recolección e
integración de los datos.
Otra característica importante es la de la no volatilidad. Existen varias razones por las que
los datos de un DW no son volátiles. Las más importantes son:
Un DW se construye para dar soporte a la toma de decisiones, y este tipo de tareas
pueden requerir el análisis de datos de diferentes momentos del tiempo, para
realizar análisis comparativos.
Mantener diferentes versiones temporales de los datos permite recuperar el estado
de los datos de la organización en cualquier instante, de modo que se pueden
deshacer efectos indeseados de procesamientos erróneos.
Por tanto, los datos de un DW no sufren actualizaciones. En él, se mantienen diferentes
versiones temporales de dichos datos, y, por tanto, el proceso que se realiza en vez de una
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
12
actualización de los datos es una inserción de los nuevos datos, a los que se añade una
marca temporal que los distingue de las diferentes versiones temporales ya existentes de
dichos datos.
La siguiente característica mencionada por Inmon en su definición se refiere a que el
tiempo es un factor diferenciador en los datos del DW, y con ello se quiere decir que:
En los sistemas tradicionales, la caducidad de los datos, o su validez no suele
exceder de, como mucho, dos o tres meses. En muchos casos los datos varían
todos los días. Mientras tanto, los datos del DW tienen un horizonte temporal de
años.
En los sistemas de gestión, los datos con los que se trabaja son los datos actuales,
mientras que los datos del DW pueden verse como una serie de “snapshots”
tomados en un momento del tiempo, que no sufren actualizaciones.
La estructura de los datos operacionales puede contener, o no, alguna referencia
temporal. En cambio, la fecha siempre forma parte de la clave de los datos en el
DW, para distinguir las diferentes versiones de los datos, como ya se había
mencionado.
Es importante destacar que un DW no es un producto, por lo tanto no puede comprarse,
este debe ser construido paso a paso. Es de vital importancia entender esto al plantearse
implantar un DW en una organización. Queda claro que no podemos comprarlo, podemos
encontrar herramientas que ayuden a la construcción de este, o gestores de bases de datos
que aporten facilidades para la construcción de un DW. El hecho de que sea algo a
construir implica que se requiere un periodo de tiempo que variará según las necesidades
de la organización hasta que el sistema esté en perfecto funcionamiento [6].
2.2.1. Diseño de un Data Warehouse
De acuerdo a la definición mencionada anteriormente, un DW recoge los datos de
diferentes fuentes, en un proceso que se denominaría adquisición, los almacena en
una base de datos relacional, y posteriormente los ofrece a los usuarios en la fase
de acceso a los datos. Este esquema da pie a pensar en tres módulos principales a
tener en cuenta a la hora de realizar un diseño de un sistema de DW, que son [6]:
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
13
Componente de acceso
Componente de almacenamiento
Componente de adquisición
Componente de Acceso
Una de las partes principales de todo el sistema de DW es aquel que proporciona a
los usuarios el acceso a los datos que éste alberga. Sin este componente, los datos
del DW no valdrían para nada. Este módulo debe ser capaz de entender las
peticiones que los usuarios realicen, proporcionando una interfaz sencilla, clara y
potente, que permita a los usuarios hacer un uso efectivo de los datos. Para ello,
debe ser capaz de realizar peticiones al subsistema de almacenamiento.
El diseño de interfaces de usuario cae fuera del ´ámbito de este capítulo, por lo que
no se ahondara más en ese sentido, pero sí deben destacarse varios aspectos
relacionados con el DW:
El sistema debe distinguir entre usuarios y los posibles permisos que estos
tienen en el ámbito del sistema, ya que de ello dependerá el conjunto de
acciones que pueda realizar el usuario sobre el DW. Deberá por tanto
disponerse de información acerca de usuarios y permisos.
El componente de acceso deberá conocer de qué datos dispone el DW,
para poder proporcionar al usuario dicha información, y que éste pueda
realizar sus consultas. Será necesario, por tanto, que se tenga acceso a un
catálogo de los datos disponibles para cada tipo de usuario.
Por otro lado, es necesario destacar que no son sólo los usuarios los que acceden,
sino que diversas aplicaciones pueden requerir el acceso al DW. Aunque las
aplicaciones de Data Mining son las más frecuentes, debe tenerse en cuenta que
pueden requerir acceso:
Simples consultas de bases de datos
Generadores de informes
Aplicaciones personalizadas
Paquetes de negocios
Facilidades incluidas en productos (hojas de cálculo, por ejemplo)
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
14
Componente de Almacenamiento
Este módulo es el que gestiona el DW, entendiendo por DW la base de datos que
contiene los datos. Pero si bien el DW es una base de datos relacional, hay que
apuntar que tiene una serie de características especiales. Entre éstas, se destacan a
continuación las más relevantes de cara al desarrollo e implantación de un DW:
Gran número de tablas, proveniente de las diferentes fuentes de datos de la
organización.
Tablas extremadamente grandes, ya que albergan datos provenientes de
toda la organización.
Alto nivel de interdependencia
Método de acceso no predefinido, ya que cada tipo de usuario realiza
peticiones bien diferenciadas.
Acceso en modo sólo lectura para usuarios, ya que, como se ha indicado,
el DW surge para los propósitos de análisis. Los cambios se siguen
produciendo en las fuentes originales de datos.
Los datos se refrescan periódicamente de múltiples fuentes. Debido a que
las fuentes de las que proviene el DW sufren cambios, sería necesario
incluir dichos cambios en el DW para que estén disponibles para las tareas
de análisis.
Alto porcentaje de los datos históricos. Como se ha indicado, para permitir
el análisis temporal, en el DW los datos no se modifican, sino que se
mantienen diferentes versiones temporales de los datos. Esto hace que, tras
cierto tiempo de funcionamiento del sistema, se hayan producido
numerosas versiones y que, por tanto, la mayoría de los datos sean datos
históricos.
Las anteriores características se pueden agrupar en tres categorías, que tienen que
tenerse en cuenta a medida que se construye el DW:
A. Alto volumen de datos y accesos no predefinidos: Los expertos en bases
de datos relacionales saben que la combinación de grandes volúmenes de
datos y accesos no predefinidos es toxica para el rendimiento. Por tanto, se
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
15
tendrá un problema de rendimiento/flexibilidad, al que podrán darse las
siguientes soluciones:
Anticiparse al peor caso posible, lo cual puede tener excesivos
requerimientos.
Evitar que los usuarios tengan total libertad de acción,
estableciendo monitorización para establecer tiempos y cargas.
Pre computar parte de las consultas, lo cual puede hacer que se
necesite mucho espacio para las dichas consultas pre computadas.
Establecer patrones fijos de consulta, a costa de perder flexibilidad
en el sistema.
Cualquiera de estas soluciones tiene sus inconvenientes, ya sea para el
usuario, que dispondrá de menor flexibilidad a la hora de acceder al
sistema, o para el desarrollador, que deberá emplear tiempo en preparar
plantillas, o reservando espacio para datos pre computados, por citar
alguna de las tareas.
B. Complejidad del entorno: Es una de las trampas de la construcción,
debido a que muchos desarrolladores no se dan cuenta de la complejidad
que se puede llegar a tener debido principalmente a:
Número de tablas. A medida que crece el número de tablas se
torna más complicado saber qué contiene cada tabla, por lo que
será necesario un catálogo de tablas más sofisticado que una
simple lista de contenidos. Este nuevo catálogo debe organizarse
de tal modo que los nuevos usuarios puedan saber qué contiene.
Interdependencia de tablas. Además de saber qué contienen las
tablas, será necesario conocer las relaciones entre ellas. Como
consecuencia directa de esto, el mencionado catálogo se complica.
Esto ha llevado a que la mayoría de productos se centran en
proporcionar capacidades para gestionar catálogos de una manera
más sofisticada.
C. Tiempo: Se tendrán que mantener cientos de tablas cuyos datos son
refrescados en momentos diferentes. Por lo tanto, es crucial para las
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
16
consultas el momento en que los datos son actualizados, lo que hace
necesario que existan monitores de tiempo y de sincronismo.
Componente de Adquisición
Este componente supone el interfaz con los sistemas operacionales, ya que recoge
los datos que estos usan, para que se almacenen en el DW.
Su tarea es recoger los datos y hacerlos disponibles para el sistema de
almacenamiento. Desde un punto de vista global, esta tarea parece simple:
Identificar los datos que se quieren cargar en el DW y cargarlos.
Por desgracia, cuando se presta más atención a los detalles, esto no es tan simple,
ya que surgen múltiples problemas cuando se trata de integrar datos de múltiples
fuentes.
Desde el momento en que se decide qué datos formarán parte del DW, empieza la
tarea de integración. Una vez establecidos qué datos se incluirán, se procederá a
buscar en las fuentes de datos la integración dichos datos.
El primer problema que se plantea al realizar esta tarea es la heterogeneidad de las
fuentes, que dificultará la tarea de encontrar estos datos. Esta dificultad es debida a
que un mismo dato en distintas bases de datos puede tener:
Diferente nombre
Diferentes tipos de almacenamiento
Diferentes asignaciones de valores
Diferente representación interna, en el caso de que los datos estén
almacenados en diferentes gestores.
El primer problema, que puede denominarse problema de asignación de nombres,
se refiere al hecho de que, en las diversas fuentes de datos, las políticas de
asignación de nombres pueden ser diferentes. Esto da como resultado que tablas,
atributos y demás elementos de una base de datos no puedan ser identificados de
manera univoca por su nombre. No se puede suponer que dos elementos de
diferentes fuentes son iguales por tener el mismo nombre, ni que son diferentes
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
17
sólo por tener nombres diferentes. Será necesario consultar las descripciones de los
datos para comprobar qué datos son los buscados.
El siguiente punto hace notar que tampoco el tipo utilizado para representar un
dato tiene por qué ayudar a la tarea de encontrar atributos iguales. Dos datos
equivalentes no tienen por qué estar almacenados bajo el mismo tipo de
representación.
Y, análogamente lo que ocurría con el nombre, tampoco el hecho de que dos datos
sean del mismo tipo quiere decir nada acerca de su igualdad. Por ´último, la misma
información puede estar representada con diferentes valores de atributos, sean del
mismo tipo o no.
También, como ocurría en los dos casos anteriores la asignación del mismo valor
de atributo no quiere decir que se esté hablando de la misma información real.
Se puede observar que no es sencillo definir un método para automatizar la
búsqueda de los datos a través de la base de datos de la organización.
Una vez se ha identificado qué datos y de qué bases de datos pasarán a formar
parte del DW, se procederá con la integración en sí, lo que conlleva:
La recolección de los datos origen
La traducción de dichos datos al formato con el que se almacenarán en el
DW
El almacenamiento en el DW.
La complejidad de esta tarea no se centra ya en la dificultad de recolección, ya que
esta tarea suele ser susceptible de automatización. El problema en este caso es que
es necesario traducir un gran volumen de datos de múltiples formatos y transportar
dichos datos de su ubicación original al DW, lo cual puede requerir el uso de redes
de ordenadores. No obstante el principal problema suele estar en la integración.
Una vez se realiza esta integración, se dispone de los primeros datos en el DW, por
lo que estará disponible para su uso.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
18
Por tanto, las funciones del módulo de adquisición pueden resumirse en las
siguientes:
Extracción de datos: Este proceso contempla la recolección de datos de
las fuentes seleccionadas, así como la planificación de futuras extracciones
que se realizarán una y otra vez durante la vida del DW para “refrescar” el
contenido de éste.
Limpieza de datos: Ocurre que muchos de los datos presentan impurezas,
esto es, son inconsistentes, no están presentes, no pueden leerse o
simplemente son erróneos.
Existen múltiples causas por las que los datos pueden ser erróneos: pueden ser
inexactos, o puede que hagan referencia a datos inexistentes (un registro de venta
con un número de cliente que no existe), o valores simplemente fuera de rango
(una persona de 200 años de edad). La limpieza de datos es una tarea ardua, que no
puede realizarse de manera plena, ya que la cantidad de datos hace que no sea
eficiente la comprobación de todos y cada uno de los valores. En cambio, si
pueden realizarse una serie de tareas automáticas que evitarán que ciertos errores
lleguen al DW. Así, puede comprobarse de manera automática si los datos están
fuera de rango, o si no contienen valor alguno, y definir políticas para ambos
casos.
Formato de los datos: Una vez que los datos están limpios, será necesario
amoldarlos a los formatos con los que se almacenarán en el DW, ya que
éstos pueden diferir de los originales.
Procesamiento de la mezcla: Si los datos provienen de una única fuente,
no existirá este problema, pero en muchos casos, los datos provienen de
fuentes diversas lo que hace necesario tratar las disparidades introducidas
por cada fuente.
Tratamiento de claves: Una de las necesidades básicas de toda base de
datos es el poder identificar los datos por una clave. Esto no es diferente en
un DW, así que deberán definirse claves para todos los datos. El problema
es que uno de los puntos en que más suelen diferir los diferentes gestores
es en el método de identificación de sus datos, por lo que será necesario
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
19
definir claves que puedan ser traducidas a partir de todas las claves origen.
Este proceso puede parecer una particularización del anterior, pero por su
importancia y complejidad suele requerir un tratamiento aparte.
Proceso de purga: Puede ocurrir que no se quiera almacenar todas las
ocurrencias de datos en el DW, y que se desee que datos que cumplan una
serie de condiciones no estén presentes en éste. Para ello, es necesario un
proceso que “filtre” este tipo de información, buscando el patrón deseado,
y excluyéndolo de la lista a almacenar al DW.
Carga de datos: Por último, una vez que los datos han pasado por todo el
proceso de adecuación, sólo resta almacenarlos en lo que será su nuevo
hogar, el DW.
Además, este componente debe encargarse de monitorizar los cambios que se
produzcan en los datos fuente, para poder integrar éstos en el DW. Cada vez que se
requiera una carga de nuevos datos, se realizará sobre éstos el mismo proceso que
se realizó la primera vez, por lo que debe almacenarse la información necesaria
para repetir el proceso de manera automática.
Cabe comentar que el orden de las tareas de preprocesado puede variar para cada
caso, de modo que debe estudiarse en qué orden se produce una limpieza de los
datos mejor y más eficiente.
2.2.2. ETL
ETL son las siglas en inglés de extraer, transformar y cargar (Extract, Transform
and Load). Es un proceso que permite mover datos desde múltiples fuentes,
reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o DW
para analizar, o en otro sistema operacional para apoyar un proceso de negocio.
La primera parte del proceso ETL consiste en extraer los datos desde las fuentes.
La mayoría de los proyectos de almacenamiento de datos consolidan datos de
diferentes sistemas de fuentes de datos. Cada sistema separado puede usar una
organización diferente de los datos o formatos distintos.
Por otro lado los formatos de las fuentes normalmente se encuentran en bases de
datos relacionales o ficheros planos, pero pueden incluir bases de datos no
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
20
relacionales u otras estructuras diferentes. La extracción convierte los datos en un
formato preparado para iniciar el proceso de transformación. Es necesario que esta
extracción cause un impacto mínimo en los sistemas fuente. La fase de
transformación aplica una serie de reglas de negocio o funciones sobre los datos
extraídos para convertirlos en datos que serán cargados.
Algunas fuentes de datos requieren alguna pequeña manipulación de los datos. No
obstante, en otros casos pueden ser necesarias aplicar algunas de las siguientes
transformaciones:
Seleccionar sólo ciertas columnas para su carga.
Traducir códigos.
Codificar valores libres.
Derivar nuevos valores calculados.
Unir datos de múltiples fuentes.
Sumarizar múltiples filas de datos.
Generación de campos clave en el destino.
Transponer o pivotar.
Estas son sólo algunas de las transformaciones estándar que se aplican, pero
dependerá de cada caso concreto aplicar algunas operaciones específicas. La fase
de carga es el momento en el cual los datos de la fase anterior son cargados en el
destino. Dependiendo de los requerimientos de la organización, este proceso puede
abarcar una amplia variedad de procesos diferentes.
Algunos almacenes de datos sobrescriben información antigua con nuevos datos.
Los sistemas más complejos pueden mantener un historial de los registros de
manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de
toda la historia de un dato. La dificultad del proceso del proceso ETL de un DW
hace que se cometan errores.
Entre los errores más comunes destacan los siguientes:
La periodicidad de los procesos ETL no están bien definida.
No se realiza una limpieza de datos.
No se realiza una ponderación de la calidad de los datos.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
21
Los procesos ETL no están bien definidos.
La primera fase de un proyecto de minería de datos es un proceso de ETL, la
extracción, transformación y carga de la información de los datos necesarios. Pero,
a pesar de ser la menos llamativa, es fundamental para su éxito. La fase de ETL es
[6]:
Crítica, porque el resto de las fases del proyecto se alimentan de ella y no
pueden comenzar hasta que la ETL ha concluido satisfactoriamente.
Una fuente potencial de costes inesperados dado que, si bien no debería
absorber más allá del 60 % del tiempo de ejecución del proyecto de
minería de datos, no es infrecuente que llegue a acaparar el 90 % de ´el y
que, además, acabe provocando retrasos importantes en su ejecución.
Específica, porque la información que se extrae de las bases de datos
empresariales para la realización de estudios de minería de datos tiene que
ajustarse a unos criterios de contenido, calidad y formato a los que los
responsables de los sistemas de información de las empresas no están
habituados.
Difícil, porque conlleva el extraer e integrar datos de fuentes muy diversas
y plataformas muchas veces heterogéneas y acceder a información
contenida en sistemas que no están concebidos ni diseñados para las
exigencias de un proceso masivo de análisis de datos.
Multidisciplinar, porque no se trata de una actividad meramente técnica:
implica la adquisición en un plazo de tiempo corto de la visión de negocio
necesaria para comprender el valor funcional de la información bajo,
además, las ópticas distintas de los distintos usuarios finales y los distintos
departamentos de la empresa.
2.3. CALIDAD DE DATOS
El objetivo del presente capítulo es abordar la temática de la calidad en los datos, llegando
a conocer sus conceptos y características fundamentales, y sobretodo comprender su
relevancia para nuestro estudio.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
22
En primera instancia se introducen sus principales conceptos, las dimensiones y factores de
calidad. Luego se explican las técnicas y actividades que se llevan a cabo en el área de la
calidad de datos, y en línea con este último punto se trata la limpieza de datos, cuyo
objetivo final es la mejora en la calidad de los mismos.
Previo a cualquier análisis de datos, es importante conocer acerca de la relevancia de la
calidad de datos. Es por esto que se menciona de manera breve de qué trata la calidad de
datos y el motivo por el cual resulta importante (por no decir imprescindible) su estudio.
Finalmente se trata cuáles son las áreas de investigación que le competen.
2.3.1. Antecedentes
Las organizaciones invierten mucho dinero y esfuerzo en mejorar sus sistemas de
información en pro de agilizar sus procesos y optimizar sus productos, cuando los
datos no se encuentran en un estado óptimo estos proyectos no generan la
rentabilidad esperada y el costo de devolverse en el proceso puede salir más
elevado que el proyecto mismo.
Los datos son un activo muy importante de la empresa, siendo fundamental que
éstos cumplan con todos los atributos de calidad manejados en la actualidad; desde
que existen los sistemas de información ha existido la preocupación de que los
datos sean correctos y se ha buscado la forma de prevenir y corregir los errores
que se puedan presentar en ellos. Inicialmente la calidad se realizaba de forma
manual o con programas que no fueron desarrollados en lenguajes para ese uso.
Los primeros sistemas de Calidad de Datos fueron desarrollados por el gobierno de
Estados Unidos a principio de los 80, en un sistema denominado NCOA (National
Change Of Address Registry), el cual se creó para regular los cambios de
domicilio, fallecimientos, bodas, divorcios, etc.
A principio de los 90 se creó en España un sistema especializado en Calidad de
Datos para corregir o informar el código postal en la dirección de los clientes de
las principales entidades financieras del país, en ese entonces se utilizó una técnica
muy primitiva llamada “Fuerza bruta” y no implementaba las metodologías que
tienen ahora los sistemas modernos de Calidad de Datos.
Hoy en día aunque se está trabajando en nuevas metodologías y hay tecnología
para el manejo de la Calidad de Datos falta crear un poco más de conciencia en
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
23
cuanto a su manejo, ya que aunque se tiene conocimiento de esto existen muchos
problemas de calidad en las organizaciones.
2.3.2. ¿Qué es calidad de datos?
Los datos representan objetos del mundo real. Dichas representaciones resultan ser
aplicables en contextos de diferentes y variadas características. Por otro lado, los
datos pueden ser almacenados o sometidos a algún proceso o transformación,
siendo siempre de suma importancia para garantizar la sobrevivencia y éxito de las
organizaciones. El problema de la calidad de datos ha sido objeto de estudio desde
varias perspectivas y por diferentes áreas a lo largo de los años, tal es el caso de la
Estadística, Gestión o Computación. A medida que su importancia se hace más
evidente a los ojos de estas y otras áreas, se incrementan también las
investigaciones e intenciones de mejora en este sentido.
Es indudable que el almacenamiento y/o procesamiento de datos es de vital
importancia en la vida de todas las personas y organizaciones, en una gran
variedad de actividades (más allá de la informática y los sistemas de información).
Existen varios ejemplos de situaciones de la vida cotidiana, donde se hace
necesario almacenar, procesar, transmitir y utilizar datos. Uno de ellos, cuando
elaboramos una lista para hacer las compras almacenamos datos correspondientes
a qué productos comprar, en qué cantidad, de qué marca.
En cuanto al concepto de calidad de datos, suele suceder que intuitivamente se
piensa en ciertos aspectos de los datos. Por lo general se tiende a pensar en que los
datos sean exactos. Sin embargo, hace falta ahondar más en este concepto, para
entender que hay varias “caras” o aspectos (las llamadas dimensiones), que hacen
a la calidad de los datos. Más adelante en el documento se explican algunas
dimensiones (exactitud, completitud, actualidad, entre otras) en detalle. Como
ejemplo trivial, se puede pensar en la situación de la elaboración de una lista para
compras: Si se omite anotar un producto o la cantidad a comprar de cierto
producto, se enfrenta el problema de completitud. Si ocurre una equivocación en la
cantidad de cierto producto o se escribe mal su marca, se enfrenta el problema de
exactitud. Si en lugar de llevar la lista de hoy se lleva la de ayer, se enfrenta el
problema de actualidad. Entonces, se puede decir que la definición de la calidad de
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
24
los datos está relacionada estrechamente con la exactitud, completitud,
consistencia y actualidad de los datos (entre otros). Es por esto que la calidad de
datos es denominada un concepto “multifacético”, ya que depende y es función de
las dimensiones que la definen [3].
2.3.3. La Importancia de la calidad de datos
Son pocas las ocasiones en las cuales se es consciente de las consecuencias que la
mala calidad de datos trae aparejada. Sin embargo, es de suma importancia lograr
identificar sus causas para eliminar, o en su defecto mejorar, la problemática de
raíz.
En el ejemplo anterior de elaboración de la lista de compras, la mala calidad de los
datos puede acarrear consecuencias no deseadas (como omitir comprar un
producto que se necesitaba, o una cantidad equivocada), ninguna de ellas de
gravedad. Pero no es difícil pensar en otro tipo de situaciones (listas de productos
para importación en cantidades masivas, nombres de clientes duplicados, errores
en cobros, errores médicos) donde una falta puede provocar problemas de
gravedad.
La mala calidad de los datos influye de manera muy significante y profunda en la
efectividad y eficiencia de las organizaciones así como en todo el negocio,
llevando en algunos casos a pérdidas multimillonarias. Cada día se hace más
notoria la importancia y necesidad en distintos contextos de un nivel de calidad
adecuado para los datos.
2.3.4. Áreas de investigación en calidad de datos
Lograr calidad en los datos es una tarea compleja y multidisciplinaria, debido a su
importancia, naturaleza, y la variedad de tipos de datos y sistemas de información
que pueden estar implicados.
La investigación dentro del área de calidad de datos incluye los siguientes puntos:
Dimensiones: Las mediciones sobre el nivel de calidad de los datos se
aplican a las dimensiones de interés.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
25
Metodologías: Proveen guías de acción.
Modelos: Representan las dimensiones y otros aspectos de la calidad de
datos.
Técnicas: Proveen soluciones a problemas de calidad de datos.
Herramientas: Son necesarias para que las metodologías y técnicas puedan
llevarse a cabo de manera efectiva.
2.3.5. Dimensiones de la calidad de datos
En la sección anterior, se introdujeron a modo de ejemplo conceptos como
exactitud, completitud y actualidad. Todas estas características (y varias más) de
los datos, se denominan dimensiones de la calidad de los datos.
Cada dimensión refleja un aspecto distinto de la calidad de los datos. Las mismas
pueden estar referidas a la extensión de los datos (su valor), o a la intensión (su
esquema). De esta manera podemos distinguir entre calidad en los datos y calidad
en los esquemas. El foco del presente proyecto es en la calidad inherente a los
datos.
Se define factor de calidad como un aspecto particular de una dimensión. En este
sentido, una dimensión puede ser vista como un agrupamiento de factores de
calidad que tienen el mismo propósito. Es claro que la mala calidad en los datos
puede provocar varios problemas, así como también la mala calidad de un
esquema (por ejemplo un esquema de una base de datos relacional sin normalizar)
podría provocar problemas mayores, tales como redundancias. Ambos tipos de
dimensiones, tanto las referidas a los datos como a los esquemas, proveen una
visión cualitativa de la calidad, mientras que las medidas cuantitativas se
representan mediante las métricas.
Una métrica es un instrumento que define la forma de medir un factor de calidad.
Un mismo factor de calidad puede medirse con diferentes métricas. Por otro lado,
definimos método de medición como un proceso que implementa una métrica. A
su vez, una misma métrica puede ser medida por diferentes métodos.
Existen varias dimensiones que reflejan distintos aspectos de los datos. Esto no
resulta ser una sorpresa al considerar que los datos pretenden representar todo tipo
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
26
de características de la realidad, desde espaciales y temporales, hasta sociales. A
continuación se describen algunas dimensiones de la calidad de datos [3].
2.3.5.1. Exactitud (Accuracy) y Unicidad (Uniqueness)
De acuerdo al enfoque teórico que se trata más adelante, la exactitud se define
como una correcta y precisa asociación entre los estados del sistema de
información y los objetos del mundo real.
Existen tres factores de exactitud: exactitud semántica, exactitud sintáctica y
precisión.
La exactitud sintáctica se refiere a la cercanía entre un valor v y los elementos
de un dominio D. Esto es, si v corresponde a algún valor válido de D (sin
importar si ese valor corresponde a uno del mundo real). Para poder medir la
exactitud sintáctica se puede utilizar la comparación de funciones, métrica que
mide la distancia entre un valor v y los valores en el dominio D. Otras
alternativas posibles son la utilización de diccionarios que representen
fielmente el dominio, o el chequeo de los datos contras reglas sintácticas.
La exactitud semántica se refiere a la cercanía que existe entre un valor v y un
valor real v‟.
Esta dimensión se mide fundamentalmente con valores booleanos (indicando si
es un valor correcto o no), para lo cual es necesario conocer cuáles son los
valores reales a considerar. En este caso, interesa medir que tan bien se
encuentran representados los estados del mundo real. Una de las métricas
utilizadas es la comparación de los datos con referenciales considerados
válidos.
La precisión, por otra parte, se refiere al nivel de detalle de los datos.
El enfoque hasta ahora ha sido en la exactitud a nivel de valores, o sea, del
valor de una celda (o campo) de una tupla. Sin embargo, es posible pensar en
la exactitud a nivel de tupla, o a nivel de tablas, e incluso considerando la base
entera. Es decir, se pueden considerar distintos niveles de granularidad a la
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
27
hora de evaluar la calidad de los datos. Es por esto que se definen funciones de
agregación, las cuales miden la exactitud de conjuntos de datos. Por ejemplo,
obtener la medida de una tupla a partir de la medida de exactitud de cada una
de sus celdas. El ratio es una función de agregación que consiste en identificar
la cantidad de valores correctos sobre la cantidad de valores totales. Brinda un
porcentaje de valores correctos. Otros ejemplos de funciones de agregación son
los promedios y promedios ponderados.
Para aclarar los conceptos se plantea un ejemplo sencillo. Se posee una base de
datos donde se almacena el nombre y la edad de determinadas personas. Para
el dato “Edad” se especifica que su valor estará en el rango 0 a 120. Además,
se sabe que existe una persona llamada Oscar Javier Morales, de 23 años de
edad. Se consideran entonces los siguientes casos:
Si existe un registro para una persona donde el campo edad tiene el valor 234,
entonces se trata de un error sintáctico (valor fuera del rango 0 a 120).
Si existe un registro para Oscar donde el campo edad tiene el valor 19,
entonces se trata de un error semántico, ya que es sabido que Oscar no tiene 19
años, sino que tiene 23 (en este caso no hay error sintáctico, pues 19 es un
valor válido para la edad).
Se enfrenta un problema de precisión si existe el interés de conocer la edad
exacta de Oscar, ya que solo se conoce la cantidad de años, no los meses ni
días de vida.
A pesar de que la exactitud semántica es generalmente más compleja de medir
que la exactitud sintáctica (ya que se requieren conocer los valores del mundo
real), cuando ocurren errores de tipeo ambos tipos de exactitud coinciden. Al
modificar su valor, se logrará exactitud sintáctica, ya que el valor escrito
correctamente se corresponderá con alguno del dominio, y semántica, ya que
existirá un valor real asociado al valor escrito correctamente.
Una forma de chequear la exactitud semántica es comparar diferentes fuentes
de datos, y encontrar a partir de estas el valor correcto deseado. Esto también
requiere de la resolución del problema de identificación de objetos, el cual
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
28
consiste en identificar si dos tuplas representan el mismo objeto en el mundo
real.
En el caso en que la exactitud sea considerada en un conjunto de valores, es
necesario considerar también la duplicación. Dicha problemática ocurre
cuando un objeto del mundo real se encuentra presente más de una vez (más de
una tupla representa exactamente el mismo objeto).
Sin embargo, podrían existir también tuplas que representan el mismo objeto
del mundo real pero con diferentes claves. Este aspecto es considerado por la
dimensión de Unicidad. Es importante destacar aquí que existen diferentes
situaciones que pueden llevar a la duplicación de datos: cuando la misma
entidad se identifica de diferentes formas, cuando ocurren errores en la clave
primaria de una entidad, cuando la misma entidad se repite con diferentes
claves.
Distinguimos dos factores de la dimensión Unicidad:
Duplicación: La misma entidad aparece repetida de manera exacta.
Contradicción: La misma entidad aparece repetida con
contradicciones.
2.3.5.2. Completitud (Completeness)
La completitud se puede definir como la medida en que los datos son de
suficiente alcance y profundidad.
De acuerdo al enfoque teórico, esta dimensión se define como la capacidad del
sistema de información de representar todos los estados significativos de una
realidad dada.
Existen dos factores de la completitud: cobertura y densidad.
La cobertura se refiere a la porción de datos de la realidad que se encuentran
contenidos en el sistema de información. Al igual que para la exactitud
semántica, la cobertura involucra una comparación del sistema de información
con el mundo real. Una vez más un referencial es requerido. Debido a que
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
29
suele ser difícil obtenerlo, otra alternativa es estimar el tamaño de tal
referencial.
La densidad se refiere a la cantidad de información contenida, y la faltante
acerca de las entidades del sistema de información.
Completitud de Datos Relacionales: La completitud en un modelo relacional
puede caracterizarse por los siguientes aspectos:
Valores nulos: El significado de los valores nulos puede ser variado.
Un valor nulo puede indicar que dicho valor no existe en el mundo
real, que el valor existe en el mundo real pero no se conoce, o que no
se sabe si el valor existe o no en el mundo real.
Es importante conocer la causa de su presencia.
Suposiciones:
CWA (Suposiciones del Mundo Cerrado, Closed World Assumption):
Todos los valores del mundo real se encuentran en el modelo
relacional. En un modelo CWA con valores nulos, la completitud se
define a partir de la granularidad de los elementos del modelo
(completitud del valor, de la tupla, de un atributo, o de la relación).
OWA (Suposiciones del Mundo Abierto, Open Worl Assumption): No
se puede asegurar que todos los valores del mundo real se encuentran
en el modelo relacional. En un modelo OWA sin valores nulos, la
completitud se mide como la cantidad de tuplas representadas en la
relación sobre su tamaño total (la cantidad de objetos del mundo real
que constituye la totalidad de la relación).
Por ejemplo, si se requiere tener registrados en una base de datos los datos
(nombre, edad y sexo) de todas las personas que habitan en el planeta Tierra,
entonces cada persona no registrada en la base degradará la completitud de los
datos (esto sería completitud a nivel de la relación).
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
30
También se verá disminuida la completitud si no se cuenta con la edad de
ciertas personas, o con su sexo (esto último se refiere a la completitud a nivel
de tupla o registro).
2.3.5.3. Dimensiones Relacionadas con el Tiempo
Los cambios y actualizaciones de los datos son un aspecto importante de la
calidad de datos a tener en cuenta. Es posible afirmar que en determinados
contextos un dato no actualizado es de mala calidad y puede llegar a ocasionar
problemas graves.
Como ejemplo, suponer que se planean unas vacaciones a una isla del Caribe.
Además de los preparativos correspondientes, se verifica el pronóstico del
clima para asegurar que no ocurran huracanes en los días que se estará allí. Si
la información climática no fue debidamente actualizada (por ejemplo si se
consulta una página web que no posee mantenimiento), puede que se esté
recibiendo el pronóstico equivocado, y por ende, que se estropeen las
vacaciones. Por lo tanto, el pronóstico podría ser muy completo y exacto desde
el punto de vista de la información climática que brinda, pero si es antiguo de
nada serviría.
Se describen las siguientes dimensiones relacionadas con el tiempo:
Actualidad (Currency): Trata sobre la actualización de los datos y su
vigencia. Esta dimensión puede ser medida de acuerdo a la
información de “última actualización".
Volatilidad (Volatility): Se refiere a la frecuencia con que los datos
cambian en el tiempo. Una medida para esta dimensión es la cantidad
de tiempo que los datos permanecen siendo válidos.
Edad (Timeliness): Especifica que tan actuales/viejos son los datos
para la tarea/evento en cuestión. Para medir esta dimensión es
necesario considerar una métrica de actualidad, y verificar que los
datos se encuentren dentro del límite establecido por la tarea/evento en
cuestión.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
31
2.3.5.4. Consistencia (Consistency)
Esta dimensión hace referencia al cumplimiento de las reglas semánticas que
son definidas sobre los datos.
De acuerdo al enfoque teórico, la inconsistencia de los datos se hace presente
cuando existe más de un estado del sistema de información asociado al mismo
objeto de la realidad. Una situación que podría ocasionar inconsistencias en los
datos es la incorporación de datos externos o con otros formatos.
Un ejemplo sencillo: Si en una tabla se almacenan datos de personas, tales
como fecha de nacimiento y edad, entonces si en un registro se tiene como
fecha de nacimiento el 01/01/2005 y como edad 42 años, existe una
inconsistencia (como se explica a continuación, se estaría violando una regla
intra-relacional).
Restricciones de integridad: Las restricciones de integridad definen
propiedades que deben ser cumplidas por todas las instancias de un esquema
relacional.
Se distinguen tres tipos de restricciones de integridad:
Restricciones de dominio: Se refiere a la satisfacción de reglas sobre
el contenido de los atributos de una relación.
Restricciones intra-relacionales: Se refiere a la satisfacción de reglas
sobre uno o varios atributos de una relación.
Restricciones inter-relacionales: Se refiere a la satisfacción de reglas
sobre atributos de distintas relaciones.
Existen además diferentes tipos de dependencias:
Dependencias de clave: no existen dos instancias de una relación r con la
misma clave k.
Dependencias de inclusión (restricciones referenciales): Algunas instancias de
la relación r están contenidas en instancias de otra relación s. Un ejemplo de
esta dependencia son las restricciones de clave foránea.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
32
Dependencias funcionales: una relación r satisface la dependencia funcional X-
>Y si para todo par de tuplas t1 y t2 se cumple que: Si t1.x = t2.x t1.y = t2.y
2.3.5.5. Relaciones entre las Dimensiones
Es claro que las dimensiones no son independientes entre sí, sino que se
interrelacionan de manera estrecha. Es necesario ser cuidadoso a la hora de
invertir esfuerzo en mejorar un aspecto (dimensión) de la calidad de datos, ya
que podría estar afectando negativamente otro aspecto de estos.
En línea con lo mencionado anteriormente, dependiendo del contexto
particular en el cual nos situemos elegiremos mejorar aquellas dimensiones
que consideramos de mayor valor para la calidad de nuestros datos, e ignorar
las que no la perjudican o afectan de manera significativa.
A modo de ejemplo, se mencionan algunas de las relaciones negativas más
comunes entre diferentes dimensiones de la calidad de datos:
Datos exactos, completos o consistentes podría implicar su desactualización
debido al tiempo que es necesario invertir en actividades de chequeo y
corrección.
La completitud (muchos datos) tiene mayores probabilidades de acarrear
errores de inconsistencia en los datos. Sin embargo, también existen
correlaciones positivas, esto es, que mejoran más de un factor. Es importante
identificar en primera instancia cuáles son los factores o dimensiones que se
requiere mejorar de acuerdo al contexto de aplicación, para luego evaluar si es
posible realizarlo de forma conjunta.
A modo de ejemplo, mencionamos algunas de las correlaciones positivas más
comunes entre diferentes factores de la calidad de datos:
La corrección de errores de tipeo mejora tanto la exactitud semántica como
sintáctica. Si se logran obtener datos más actualizados, se podría mejorar la
exactitud semántica (más datos corresponderían a la realidad). Si se completan
los valores nulos (densidad) también se podría mejorar la exactitud semántica.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
33
2.3.6. Enfoque en las dimensiones de la calidad de datos
A continuación se definen tres enfoques distintos que es posible adoptar con
respecto a las definiciones de las dimensiones en Calidad de Datos.
Enfoque Teórico
Este enfoque considera la correcta representación de la realidad en un sistema de
información.
En este aspecto, interesa conocer las deficiencias que se generan cuando ocurren
desviaciones en dicha representación. Dentro de las deficiencias relativas al diseño
del sistema de información, se destacan las siguientes:
Representación incompleta: Cuando un objeto del mundo real no se
asocia con ningún estado del sistema de información.
Representación ambigua: Cuando varios objetos del mundo real se
asocian con el mismo estado del sistema de información.
Representación sin significado: Cuando existen estados del sistema de
información que no se encuentran asociados con ningún objeto del mundo
real.
En lo que respecta a las deficiencias operacionales destacamos los errores
(garbling), que se refieren a una incorrecta asociación entre los objetos de la
realidad y los estados del sistema de información.
Enfoque Empírico
En este caso la información es obtenida a partir de entrevistas, cuestionarios y
experimentos. Se destacan cuatro categorías:
Calidad de Datos intrínseca: Calidad que los datos deben tener por sí sola
(ejemplo: exactitud).
Calidad de Datos contextual: Toma en cuenta el contexto en que los datos
son utilizados (ejemplo: completitud).
Calidad de Datos representacional: Referente a la calidad de la
representación de los datos (ejemplo: interpretación).
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
34
Calidad de Datos para la accesibilidad de los mismos.
Enfoque intuitivo
Las dimensiones son definidas de acuerdo al sentido común y la experiencia
práctica. Se destacan tres categorías: esquema conceptual, valor de los datos y
formato de los datos.
2.3.7. Técnicas y actividades de calidad de datos
En esta sección se explican algunas actividades y técnicas desarrolladas para
mejorar la calidad de los datos.
Las actividades relativas a la calidad de datos se refieren a cualquier proceso (o
transformación) que se aplica a los datos con el objetivo de mejorar su calidad.
Para llevar a cabo dichas actividades, se hace uso de distintas técnicas.
A continuación se describen algunas actividades relativas a la calidad de los datos:
Obtención de nueva información: Es el proceso de refrescar la
información almacenada en la base con datos de mayor calidad (por
ejemplo ingresar datos más precisos, de mayor actualidad).
Estandarización: Es el proceso de “normalizar” los datos almacenados,
de manera que queden almacenados respetando cierto formato (por
ejemplo todos los números de teléfono deben incluir el código de región).
Identificación de Objetos: Es el proceso por el cual se identifican
registros (dentro de una misma tabla, o entre tablas) que hacen referencia
al mismo objeto de la realidad.
Integración de datos: Hace referencia a la actividad de unificar datos
provenientes de distintas fuentes, resolviendo los problemas que esto trae
aparejados (redundancias, problemas de consistencia, duplicación).
Confiabilidad de las fuentes: Implica “calificar” a las distintas fuentes de
información de acuerdo a la calidad de los datos que proveen (esto tiene
más sentido considerando un sistema P2P por ejemplo).
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
35
Composición de calidad: Hace referencia a la definición de un álgebra
para calcular la composición (o agregación) de las medidas de las
dimensiones de calidad de datos. Por ejemplo, calcular la completitud de
una unión de relaciones, a partir de la completitud de cada relación.
Detección de errores: Dadas una o más tablas, y ciertas reglas que los
registros de dichas tablas deben cumplir, este es el proceso de detectar qué
registros no cumplen con dichas reglas.
Corrección de errores: Luego de la detección, esta actividad se encarga
de corregir los registros con errores, de manera que se respeten todas las
reglas correspondientes.
Optimización de costos: Implica obtener la mejor relación costo-
beneficio al aplicar procesos de mejora de la calidad de los datos.
2.4. LIMPIEZA DE DATOS
La limpieza de datos es un arma fundamental para lograr mejorar la calidad de los datos.
Es por esto que resulta imprescindible abordar esta temática, para conocer y comprender
los problemas que debe enfrentar, así como las fases que forman parte de cualquier
proceso de limpieza. Por otro lado, la limpieza de datos abre caminos para la detección,
corrección y prevención de errores en los datos.
La limpieza de datos (data cleaning o data cleansing) intenta resolver la problemática de la
detección y corrección de errores e inconsistencias que ocurren en los datos, con el fin de
mejorar su calidad. Estas actividades son de mayor importancia en las bases de datos en las
cuáles la información se ingresó de alguna manera que deja lugar a la aparición de errores.
Por ejemplo, cuando la información la ingresan personas desde el teclado, cuando se
obtiene de fuentes no muy confiables o cuando se integran diferentes fuentes de
información. En este último caso se vuelve necesario también consolidar los datos cuyo
significado es el mismo (pero varían en su representación), así como descartar aquellos
datos que se encuentren duplicados. Un ejemplo de ello son DW y sistemas de información
basados en web.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
36
Existen variadas herramientas que dan soporte a la limpieza de datos. Sin embargo, es
importante tener en mente que esta tarea implica, además de la utilización de herramientas,
un arduo trabajo manual o de programación de bajo nivel para su resolución [3].
2.4.1. Problemas que enfrenta la limpieza de datos
Tanto la limpieza como la transformación de datos se encuentran abocadas a
resolver la misma problemática, ya que es necesario realizar transformaciones a
nivel de la estructura, representación o contenido de los datos para lograr
efectivamente su limpieza. Los problemas que enfrenta la limpieza de datos se
pueden clasificar como sigue [3]:
Problemas provenientes de una sola fuente de información.
La calidad de los datos depende en gran medida de las restricciones de integridad y
el esquema en el cual se encuentran inmersos. Por ejemplo, las bases de datos
tienen menor probabilidad de poseer errores e inconsistencias en los datos, a
diferencia de los archivos de texto plano en los cuales no existe ningún tipo de
reglas ni restricciones con respecto a los datos ni sus valores.
Se distinguen además problemas a nivel del esquema o a nivel de instancia. Estas
últimas son las que conciernen a la calidad de los datos, y son ocasionados por
ejemplo por errores de tipeo.
Problemas provenientes de varias fuentes de información.
Cuando se integran varias fuentes de información, los problemas existentes para
una sola fuente se incrementan drásticamente. En este caso, se distinguen dos tipos
de problemas a nivel del esquema:
Conflictos de nombres: Cuando se utiliza el mismo nombre para
representar distintos objetos, o cuando distintos nombres representan el
mismo objeto.
Conflictos estructurales: Cuando el mismo objeto se representa de distinta
manera en fuentes de información distintas.
A nivel de instancia, los conflictos que pueden suceder son:
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
37
Diferentes representaciones para el mismo valor (por ejemplo el sexo con
valores F/M o 0/1).
Diferentes interpretaciones del mismo valor (por ejemplo una medida
expresada en minutos o segundos).
Diferentes niveles de agregación.
Diferentes puntos en el tiempo.
Sin duda, una de las mayores problemáticas de la limpieza de datos es la
identificación de datos que representan el mismo objeto del mundo real. Sin
embargo, al momento de realizar esta tarea es necesario considerar que a pesar de
que existe información redundante, en muchas ocasiones los datos que representan
el mismo objeto podrían complementarse (por ejemplo obtener la dirección y el
teléfono a partir del registro de una persona, y su edad y sexo a partir de otro
registro de la misma persona).
2.4.2. Fases de la limpieza de datos
A continuación se detallan las fases de las cuales consta un proceso de limpieza de
datos [3].
A. Análisis de datos: Esta fase consiste en determinar los errores e
inconsistencias que deberán eliminarse. Para ello se realiza una inspección
manual y se utilizan programas de análisis de datos.
Existen dos enfoques:
1. Data profiling: Consiste en analizar los datos de una base de datos y a
partir de estos obtener propiedades que se cumplen en la misma. Se
centra en el análisis de los atributos: su contenido, estructura,
dependencias en una relación, solapamiento con atributos de otras
relaciones, valores faltantes y duplicados.
Ejemplos:
Para valores ilegales: Definición de cardinalidades, valores
máximos y mínimos, variaciones/desviaciones.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
38
Para errores de tipeo: Ordenar los campos de manera tal que los
valores con errores se sitúen cerca de los reales.
Para valores faltantes: Cantidad de nulos, presencia de valores por
defecto pueden indicar también la falta de un valor.
Variación en la representación de valores: comparar columnas
iguales de tablas (fuentes) distintas.
Duplicados: Ordenar los valores por cantidad de ocurrencias.
2. Data mining: Se ocupa de la identificación de patrones en conjuntos
de datos (por ejemplo definir una relación entre distintos atributos).
B. Definición de transformaciones de datos y reglas de mapeo: Consiste
en un conjunto de pasos durante los cuales se llevan a cabo
transformaciones a nivel del esquema y de las instancias. Para ello se
pueden utilizar herramientas de ETL (Extraction, Transformation,
Loading), sentencias SQL (Standar Query Language) o funciones
definidas por el usuario.
2.4.3. Detección y corrección de errores
Utilizar el término error puede resultar demasiado amplio, teniendo en cuenta el
concepto multifacético con el que se define la calidad de datos. Por lo tanto, se
puede poner foco en [3]:
Detectar y corregir inconsistencias: Básicamente se trata de detectar registros
que no cumplan con determinadas reglas, y luego modificar los datos, por ejemplo
a partir de la obtención de nueva información, para que cumplan con las reglas.
Esta tarea incluye asegurar que la información se encuentra consistente (sin
contradicciones) y libre de redundancias.
Una técnica para la localización de errores es la llamada Data editing, la cual
consiste en la definición de reglas (edits) que deben ser respetadas por cierto
conjunto de datos, para lograr de esta manera la detección de inconsistencias. Los
edits representan condiciones de error, por lo cual deben ser consistentes y no
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
39
redundantes. Los datos de un registro deben ser ajustados de manera tal que
cumplan con las reglas, pero minimizando las modificaciones a los datos.
A modo de ejemplo, se tiene una tabla de personas donde se almacenan (entro
otros datos) si la persona tiene empleo y la edad de la persona. Luego, es posible
definir una regla que especifique que si la edad de la persona es menor a 16,
entonces el campo empleo debe ser false. A partir de esta regla, se pueden
identificar los registros que no la cumplan, y corregirlos.
Existen varias formas de corregir los errores detectados:
Refrescar la base de datos con nuevos datos.
Utilizar los edits definidos de manera tal que cuando no se cumple una
regla, se imputa un valor que haga que la misma sea verdadera.
Detectar y corregir datos incompletos: Si se consideran las tablas de las bases de
datos relacionales, el primer caso de incompletitud a tener en cuenta son los
valores nulos. En este caso si bien es muy simple detectar los datos incompletos,
puede que corregir sea difícil (en el caso de no tener forma de obtener la
información faltante).
Aquí se distinguen dos tipos de fuentes de incompletitud: datos truncados, que
corresponden a aquellos datos que son eliminados por no ser significantes para la
realidad en cuestión, por ejemplo, y datos censurados, que corresponden a aquellos
datos que se sabe que no fueron obtenidos, ya sea porque no se pudo o porque se
omitió.
Detectar y corregir anomalías: Este es el caso de datos cuyo valor difiere en gran
medida con respecto a los demás datos. La situación puede ser cualquiera de las
siguientes:
El valor fue mal medido, o mal ingresado en la base.
El valor corresponde a una “muestra” distinta a la de todos los demás.
El valor es correcto y simplemente corresponde a algún suceso inusual de
la realidad.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
40
Estos datos se pueden identificar a partir de dos medidas distintas: midiendo la
distancia de los valores registrados a los valores que se espera que haya
(desviación interna), o midiendo la variación de los datos en el tiempo con
respecto a otros datos (desviación relativa). Existen varias técnicas para ello. Una
de ellas, calcula el valor promedio y la desviación estándar de cierto conjunto de
datos, para identificar aquellos valores que se desvíen “demasiado” del valor
promedio. Se podría definir por ejemplo un valor límite a partir del cual el dato es
sospechoso de estar incorrectamente registrado. Otras técnicas utilizan también el
factor tiempo para identificar datos anómalos, partiendo de la base que datos
medidos o registrados en cierto lapso de tiempo pueden estar altamente
relacionados, y también teniendo en cuenta posibles ciclos donde aparezcan
“picos” en los valores, por ejemplo como puede ser el uso de celulares en Navidad
o Año Nuevo.
Lidiar con estas anomalías implica un doble esfuerzo: Primero se deben
identificar, y luego decidir si corresponden a datos correctos de sucesos de la
realidad poco comunes, o si corresponden a datos incorrectos y deben ser
corregidos.
2.4.4. Prevención de errores
Consiste en evitar que ocurran inconsistencias en los datos a futuro. Para ello es
necesario identificar primero cuáles son las causas de los errores y cómo lograr
eliminarlas de manera permanente.
La localización y corrección de errores se lleva a cabo para datos cuya creación y
actualización es poco frecuente. Sin embargo, la prevención de errores a través del
manejo de procesos es utilizada en mayor medida cuando los datos son
actualizados y creados de manera frecuente. Se incluyen controles a los procesos
en los cuales los datos son creados y/o actualizados para evitar que sucedan
inconsistencias.
Los edits también pueden ser utilizados para la prevención de errores y la mejora
de procesos, evitando la ocurrencia de ciertas inconsistencias en la base. Otra
forma de prevención de errores consiste en identificar cuáles con las actividades
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
41
manuales en las cuales suelen ocurrir la mayor cantidad de errores, y buscar su
automatización [7].
2.5. CONTROL DE CALIDAD DE LOS DATOS
Cualquier iniciativa de Calidad de Datos necesita procesos bien definidos para ser seguida
y permitir maximizar el control de calidad. A continuación se menciona los detalles del
proceso del control de Calidad de Datos implicado en la valoración, limpieza e incremento
de datos, y seguimiento y reporte de las anomalías de los datos [7].
2.5.1. Valoración de datos
La valoración de los datos consiste en analizar las estructuras de datos, esta es una
fase importante para la gestión de datos pues las prioridades de esfuerzos de la
corrección se determinan en esta fase. En el mapeo de datos o fase de
perfilamiento, el mapeo es llevado acabo entre los sistemas de origen y destino. El
perfilamiento proporciona más visibilidad a los requisitos de limpieza. Los
informes de limpieza pueden ser creados y priorizados e las entidades que son
críticas para la migración, es decir, la entidd cliente se debe limpiar a fondo para
evitar que afecte entidades dependientes tales como contratos o cuentas
pendientes.
2.5.2. Control de calidad de datos
Esta fase se centra en la corrección y estandarización de los datos e implica la
limpieza e incremento de los datos. Los datos s evalúan para determinar los
errores, las anomalías, las duplicaciones y las insuficiencias. La fase implica la
detección de errores y la corrección de datos para controlar la integridad de datos
en un cierto plazo
2.5.3. Seguimiento y reporte
Esta fase permite saber si la corrección ha sido exitosa o no. Provee la habilidad de
priorizar la calidad de datos. El desempeño de los equipos de calidad de datos
puede ser valorado en la acción tomada en la calidad de los eventos reportados. El
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
42
seguimiento también ayuda a identificar las causas más comunes de error y ayuda
a explorar la posibilidad de procedimientos automatizados de corrección.
2.6. CICLO DE MEJORAMIENTO DE LA CALIDAD DE DATOS EN UNA
ORGANIZACIÓN
2.6.1. Valoración
Cada ciclo de mejora comienza con una valoración. Esto puede ser una evaluación
de calidad a la muestra de datos de toda la empresa, o evaluar la calidad de datos
de uno de los departamentos. Al realizar la evaluación, no se deben limitar los
esfuerzos a los perfiles de datos y la recogida de datos estadísticos sobre los
defectos, se debe analizar toda la entrada de datos o proceso de manipulación de
datos para encontrar las causas profundas de los errores y encontrar oportunidades
de mejora de procesos
Otro tipo de evaluación es una auditoria periódica de datos. Este tipo de
evaluación se limita por lo general a un archivo o una base de datos a la vez. Se
trata de datos de perfil, así como la validación manual de datos, contra los datos de
dominio documentados (válidos los valores de los datos). Estos dominios ya
deberían haber sido documentados como los metadatos, si no, se pueden encontrar
en los programas, el código de traducción de libros, pantallas de ayuda en línea,
hojas de cálculo y otros documentos.
2.6.2. Plan
Después de que las oportunidades de mejora se han definido, se deben analizar,
priorizar, aprobar, financiar, asignar los recursos (personas) y programar. Dado
que todas las inversiones no tienen el mismo retorno, son igual de prácticas o
viables, se debe realizar un análisis de impacto que permita determinar que
mejoras tienen mayores beneficios.
2.6.3. Implementar
En este momento es cuando se ponen en marcha las mejoras propuestas. En
algunos casos, el grupo de calidad de los datos puede poner en práctica las mejoras
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
43
aprobadas, pero en otros casos, otras personas ya sean del negocio o de TI pueden
hacerlo.
Esto implicaría a las personas del negocio quienes están accediendo a los datos, el
administrador de la base de datos quien hace el mantenimiento de ésta, y los
desarrolladores que tienen acceso a ésta.
2.6.4. Evaluar
Las mejores ideas a veces son contraproducentes. Aunque algunos análisis de las
repercusiones se han llevado a cabo durante la planificación, es posible que algo
pase desapercibido. O peor, la implementación de la mejora puede estar creando
un nuevo problema. Por lo tanto, es aconsejable monitorear la implementación de
mejoras y evaluar su eficacia. Si se considera necesario, una mejora puede ser
revertida.
2.6.5. Adaptar
Ojalá la mayoría de las mejoras no deban ser revertidas, sin embargo algunas
pueden tener modificaciones antes de anunciar a toda la organización o ser
convertidas en nuevas normas, directrices o procedimientos.
2.6.6. Educar
El último paso es difundir la información sobre el nuevo proceso de mejora que se
ha implementado. Dependiendo del alcance del cambio, la educación se puede
lograr a través de aulas de formación apoyando este trabajo en computadoras, un
anuncio en la intranet de la organización, un boletín interno, o simple notificación
por correo electrónico.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
CAPÍTULO III
RESULTADOS
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
45
3. RESULTADOS
3.1. ERRORES MÁS COMUNES EN LOS DATOS
En el presente capítulo se describe, cuáles son los tipos de errores más comunes que se
pueden presentar en los datos, en qué consisten, por qué resulta importante su
consideración, las posibles causas que los generó y la forma de medirlo.
Como mencionamos anteriormente en la sección Dimensiones de la Calidad de Datos,
cada dimensión tiene asociado factores de calidad, es por esta razón que los errores en los
datos se han asociado a los factores de calidad y por ende éstos a las dimensiones de
calidad. Esto puede visualizarse en la Tabla 1.
Las dimensiones de calidad de datos que se miden son: Exactitud, Completitud,
Consistencia y Unicidad.
Tabla 1 – Tipos de errores en los datos
Dimensión Factor Tipo de Error
EXACTITUD Exactitud sintáctica Valor fuera de rango
Estandarización
Registro mal ingresado
Exactitud semántica Registro inexistente
Valor fuera de referencial
COMPLETITUD Densidad Valor nulo
CONSISTENCIA Integridad intra-relación Reglas de integridad intra-relación
Valor único
Integridad referencial Referencia inválida
UNICIDAD Duplicación Registro duplicado
Contradicción Registro contradictorio
3.1.1. EXACTITUD
Para la dimensión Exactitud, se identifican los tipos de errores que se mencionan a
continuación.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
46
Dentro del factor exactitud sintáctica:
Valor fuera de rango.
Estandarización.
Registro mal ingresado.
Dentro del factor exactitud semántica:
Registro inexistente.
Valores fuera de referencial.
A continuación se describe cada uno de estos tipos de errores de manera detallada.
3.1.1.1. Valor fuera de rango
Es tipo de error suele darse si se trabaja con fechas, edades o campos
numéricos.
Medición:
La forma de medir estos errores consiste en establecer un rango al que debe
pertenecer el valor de cada celda, y verificarlo mediante la ejecución de
consultas SQL.
3.1.1.2. Estandarización
Este tipo de error suele darse debido a que en diferentes áreas de la
organización los sistemas que se usan, registran su información con diferentes
criterios, esto causará problemas al momento de integrar dicha información.
Un claro ejemplo se da cuando se registra el sexo de una persona, en algunas
bases de datos se registran como 1 y 0 y en otras como F y M. También suele
darse cuando se asignan siglas.
Medición:
Se debe establecer el formato a usar para el registro, y solo los que cumplan
esta condición podrán almacenarse en la base de datos.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
47
3.1.1.3. Registro mal ingresado
Este tipo de error se da cuando el personal encargado de ingresar los datos al
sistema lo hace erróneamente.
Medición:
Es un error que no podremos controlar fácilmente. Si se emiten facturas y los
datos que mostramos en ella, son incorrectos, serán los mismos clientes los
que nos lo harán saber. La solución se hará manualmente.
3.1.1.4. Registro inexistente
En este caso se identifican aquellos registros (tuplas) que no corresponden a
ningún objeto de la realidad. Esto es, registros que se encuentran almacenados
en la base de datos, pero que se asocian a un objeto que en la realidad no
existe. Los registros inexistentes no deberían formar parte de la base en
cuestión ya que no reflejan la realidad, además de que su consideración a la
hora de analizar los datos afectaría el resultado obtenido. Es por este motivo
que interesa identificarlos.
Medición:
No se identifica una forma automática de medir este tipo de error, ya sea
mediante una sentencia SQL o un algoritmo determinado.
La métrica utilizada consiste entonces en la revisión manual de las tuplas
involucradas en el presente tipo de error, con el fin de identificar si las mismas
corresponden o no a objetos de la realidad.
3.1.1.5. Valor fuera de referencial
Este tipo de error suele darse cuando se sabe con certeza cuales son los valores
permitidos por el campo. Por ejemplo cuando usamos combos de datos, de
manera que sólo deben existir en la base de datos valores permitidos por ese
campo.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
48
Los motivos por los que se podría incurrir en este tipo de error son a causa de
incorporación de datos externos, o de ingreso de datos directamente en la base,
que no correspondan con los valores permitidos. Por otra parte, el
administrador del sistema podría definir o registrar de manera incorrecta el
conjunto de valores permitidos para un campo. Este hecho puede ocasionar
que existan valores que es posible registrar, pero que se encuentran fuera de
los valores permitidos por el campo.
Medición:
Se debe corroborar si los valores permitidos por los campos son correctos, una
vez corroborado, se recorren las tuplas para el campo determinado (mediante
una consulta SQL), donde sólo se deben encontrar los valores permitidos. En
caso de encontrar valores incorrectos, se debe analizar si existen registros en la
base de datos que utilicen y/o referencien dichos valores.
3.1.2. COMPLETITUD
Para la dimensión Completitud, se identifica el tipo de error que se menciona a
continuación.
Dentro del factor densidad:
Valor nulo.
A continuación se describe este tipo de error de manera detallada.
3.1.2.1. Valor nulo
La existencia de valores nulos influye en el análisis de los datos que se lleve a
cabo, ya que al obtener estadísticas de los mismos se hace necesario dejar de
lado aquellos valores vacíos.
Resulta necesario identificar en primera instancia cuáles son los campos que
admiten nulos y cuáles no, según el esquema actual de la base de datos. Luego,
se identifican aquellos campos que admiten nulos, pero deberían en la realidad
contener algún valor distinto de vacío. Este último caso es el que interesa
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
49
medir. Se asume que el control sobre los campos declarados como no nulos se
realiza correctamente por el SGBD.
El motivo de omisión de los campos podría ser cualquiera de los siguientes:
La persona encargada de registrar los datos en el sistema no ingresa el
valor (puede ser por omisión accidental o por no saber determinarlo).
Un error en el manejo de los datos (ya sea de la aplicación web, o de la
base) que ocasiona que el valor ingresado por el registrador no se
almacene correctamente.
Medición:
Se incluyen en este tipo de error los atributos que deberían ser no nulos, pero
no fueron definidos como tales en la base de datos. La forma de medir estos
errores consiste en verificar mediante la ejecución de consultas SQL si los
valores de las celdas que interesa medir se encuentran vacíos.
3.1.3. CONSISTENCIA
La consistencia captura la satisfacción de reglas semánticas definidas sobre los
datos. Lo primero que se debe identificar son las reglas existentes, para luego
evaluar su cumplimiento en el dominio bajo estudio. La mayoría de estas reglas
suele ser controlado por el SGBD.
Para la dimensión Consistencia, se identificaron los tipos de errores que se
mencionan a continuación.
Dentro del factor integridad intra-relación:
Reglas de integridad intra-relación.
Valor único.
Dentro del factor integridad referencial:
Referencia inválida.
A continuación se describe cada uno de estos tipos de errores de manera detallada.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
50
3.1.3.1. Reglas de integridad intra-relación
Se definen un conjunto de reglas sobre los atributos que deben ser satisfechas
en la base de datos. El hecho de que alguna de estas reglas sea violada, afecta
la consistencia de los datos y por lo tanto cualquier análisis que se lleve a cabo
a partir de estos.
La causa principal por la cual estas reglas no son satisfechas, es la falta de
definición de restricciones en la base de datos.
Medición:
La forma de medir este tipo de error consiste en verificar mediante la
ejecución de consultas SQL si se cumplen las reglas de integridad intra-
relación previamente definidas para la realidad bajo estudio.
3.1.3.2. Valor único
Este tipo de error suele darse en aquellas tuplas que contengan el mismo valor
en ciertos atributos (que no es la clave primaria), pero que deberían ser únicos.
Se debe identificar cuáles son los campos que son declarados como únicos y
cuáles no, según el esquema actual de la base de datos. Luego, se identifican
aquellos campos que no contienen la restricción de unicidad, pero que
deberían tenerla. Estas últimas tuplas son las que interesa medir. Se asume que
el control sobre los campos declarados como únicos se realiza correctamente
por el SGBD.
La causa de este error es la no definición de restricciones unique sobre los
campos involucrados.
Medición:
La forma de medir este tipo de error consiste en verificar mediante la
ejecución de consultas SQL si se cumplen las restricciones de unicidad en las
celdas que interesa medir.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
51
3.1.3.3. Referencia inválida
Este tipo de error suele darse cuando no se cumplen las reglas establecidas
entre atributos de distintas tablas. Se debe identificar aquellas referencias hacia
determinadas tuplas que no existen, y por lo tanto resultan ser referencias
inválidas.
Este tipo de error se debe a un error en el diseño del esquema de la base de
datos, ya que se omite la definición de foreign keys sobre ciertos atributos. Lo
primero que se debe analizar son las restricciones de integridad referencial
existentes sobre la base de datos en cuestión. A partir de dicho análisis, se
obtienen los campos para los cuales la definición de foreign key fue omitida.
Medición:
La forma de medir este tipo de error consiste en verificar mediante la
ejecución de consultas SQL si existen tuplas que contengan referencias
inválidas.
3.1.4. UNICIDAD
Para la dimensión Unicidad, se identifican los tipos de errores que se mencionan a
continuación.
Dentro del factor duplicación:
Registro duplicado.
Dentro del factor contradicción:
Registro contradictorio.
A continuación se describe cada uno de estos tipos de errores de manera detallada.
3.1.4.1. Registro duplicado
Este tipo de error se da cuando existen dos o más registros que aparecen
repetidos de manera exacta. Existen dos situaciones:
Cuando contienen el mismo valor en la clave y demás atributos.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
52
A pesar de contener distinta clave primaria, hacen referencia al mismo
objeto de la realidad y contienen los mismos datos en los campos que
se definan.
A pesar de que los controles del SGBD evitan la existencia de registros
duplicados con la misma clave primaria, se deben realizar los chequeos
necesarios para verificar que no existan registros repetidos.
La causa de este tipo de error se puede deber a una equivocación por parte de
la persona encargada de registrar la información, ya que podría registrar varias
veces las misma información, o un error del sistema que ocasione se
almacenen registros repetidos en la base de datos. Es importante considerar
este tipo de error ya que, de no ser así, los resultados obtenidos a partir del
análisis de los datos que se lleve a cabo resultarían erróneos.
Medición:
La forma de medir este tipo de error consiste en verificar mediante la ejecución
de consultas SQL si existen tuplas duplicadas, según los criterios de
duplicación que se definan.
3.1.4.2. Registro contradictorio
Este tipo de error se da cuando existen dos o más registros que aparecen
repetidos de manera contradictoria. Esto significa que contienen distinto valor
en la clave y/o demás atributos, a pesar de que hacen referencia al mismo
objeto de la realidad.
La causa de este tipo de error se puede deber a una equivocación de la persona
encargada de registrar la información en el sistema, o un error en el sistema
que ocasione que se almacenen registros contradictorios en la base. Es
importante considerar este tipo de error ya que, de no ser así, los resultados
obtenidos a partir del análisis de los datos que se lleve a cabo resultarían
erróneos.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
53
Medición:
La forma de medir este tipo de error consiste en verificar mediante la
ejecución de consultas SQL y algoritmos programados si existen tuplas
contradictorias.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
54
3.2. DESARROLLO DE MÉTODO PARA MEJORAR LA CALIDAD DE DATOS
3.2.1. DIAGRAMA DE PROCESOS
Método Propuesto
BASE DE DATOS TEMPORAL
Extracción
Detección de
errores
Análisis de datos
Corrección de
errores
Transformación
Carga
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
55
A. Extracción
Consiste en extraer los datos desde los sistemas de origen. La mayoría de los proyectos
de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de
origen. Cada sistema separado puede usar una organización diferente de los datos o
formatos distintos. Los formatos de las fuentes normalmente se encuentran en base de
datos relacionales o ficheros planos, pero pueden incluir base de datos no relacionales
u otras estructuras diferentes. La extracción convierte los datos a un formato preparado
para iniciar el proceso de transformación.
B. Almacenamiento en base de datos temporal
Luego de la extracción almacenamos los datos en la base de datos temporal, donde se
realizará el análisis, detección y corrección de errores. Es recomendable que el modelo
de datos que se trabaje para esta base de datos se corresponda con el que se usará para
el DW, de esta manera se logrará recuperar la mayor cantidad de datos para la toma de
decisiones.
C. Análisis de datos
Dependiendo del contexto particular en el cual nos situemos elegiremos mejorar
aquellas dimensiones que consideramos de mayor valor para la calidad de nuestros
datos, e ignorar las que no la perjudican o afectan de manera significativa, queda a
criterio del analista de datos realizar este proceso. Lo primero que se debe identificar
son los factores o dimensiones que se requiere mejorar para cada campo de las tablas
de la base de datos temporal, una vez definidas las dimensiones, se elegirá qué tipo de
error se analizará para cada una de ellas y a la vez se debe definir las reglas que los
campos de dichas tablas deben cumplir. Para el desarrollo de este análisis nos
apoyaremos en la Tabla 1 donde se muestran los tipos de errores asociados a sus
respectivas dimensiones, lo que nos permitirá medirlos posteriormente.
D. Detección de errores
Una vez definidos los errores que se deben analizar, se deben definir las consultas que
nos permitirán obtener la cantidad de errores encontrados para cada campo. En este
proceso se debe detectar qué registros no cumplen con las reglas establecidas en la
etapa anterior.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
56
E. Corrección de errores
Esta etapa se encarga de corregir los registros con errores, de manera que se respeten
las reglas establecidas en la etapa de análisis. Los errores encontrados pueden ser
solucionados de 2 formas: manualmente y automáticamente. En el primer caso lo que
se hace es identificar los errores, a que área de la organización le corresponde el
registro de la información y que sean ellos los encargados de actualizarla con data
correcta y la segunda se hace mediante consultas SQL a la base de datos.
F. Transformación
Esta fase aplica una serie de reglas de negocio o funciones sobre los datos extraídos
para convertirlos en datos que serán cargados.
Algunas fuentes de datos requieren alguna pequeña manipulación de los datos. No
obstante, entre otros casos pueden ser necesarias aplicar algunas de las
transformaciones mencionadas en el capítulo 2.
G. Carga
La fase de carga es el momento en el cual los datos de la fase anterior (transformación)
son cargados en el sistema de destino
3.2.2. DESARROLLO DEL MÉTODO
Nuestro método propone tener una base de datos temporal en el proceso ETL
donde se detecten y corrijan los errores. Esta base se encontraría entre la etapa de
Extracción y Transformación como se muestra en la Figura 1. Como
mencionamos anteriormente, la extracción convierte los datos en un formato
preparado para iniciar el proceso de transformación y La fase de transformación
aplica una serie de reglas de negocio o funciones sobre los datos extraídos para
convertirlos en datos que luego serán cargados en el DW. Si los datos que
mandamos a cargar no cumplen las reglas de negocio establecidas, lo que se hará
es asignarle un valor por defecto o en el peor de los casos no se tomará en cuenta.
Se corre el riesgo de que justamente la información que no se tome en cuenta sea
esencial para nuestro análisis posterior.
Es por esta razón que se propone que los errores en los datos sean corregidos en la
base de datos temporal para luego aplicar las transformaciones correspondientes y
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
57
posteriormente cargarlo en el DW como se muestra en la Figura 2. En la sección
Análisis de errores más comunes, se detallan los tipos de errores que se han
considerado, se explican las posibles causas que generaron el error y la manera de
solucionarlo. Este es una etapa muy importante ya que nos permite actualizar la
información con data fidedigna, lo que mejorará enormemente la calidad de los
datos de la organización.
Los errores que encontramos en los datos pueden ser solucionados de 2 formas:
manualmente y automáticamente. En el primer caso lo que se hace es identificar
los errores, a que área de la organización le corresponde el registro de la
información y que sean ellos los encargados de actualizarla con data correcta y la
segunda se hace mediante consultas SQL a la base de datos. Hay casos donde el
error encontrado se debe a errores en el código de sus sistemas, a la falta de
especificaciones para los campos de sus bases de datos, en estos casos se emite un
informe con los detalles de los mismos, para que estas observaciones sean
solucionadas por los desarrolladores de la organización.
FIGURA 1: Proceso ETL con la base de datos temporal
Extracción
Base
Temporal
Transformación Carga
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
58
FIGURA 2: Etapas por las que pasan los datos en la base de datos Temporal
A continuación se describe el método propuesto.
1. Almacenar los datos seleccionados para el proceso de DW en la base de datos temporal.
2. Buscar los errores especificados en la Tabla 1 mediante consultas SQL, esto se debe hacer
para cada campo almacenado en la base de datos temporal. Dependerá del encargado de este
proceso que tipos de errores analizará para cada campo. A medida que vamos encontrando los
errores vamos registrando los resultados en la Tabla 2.
Analizar Datos
Detectar Errores
Corregir Errores
Prevenir
Errores
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
59
Tabla 2: Análisis de errores en los datos
ANÁLISIS DE ERRORES EN UN CAMPO DETERMINADO
TOTAL DE TUPLAS 1000
Dimensión Factor Tipo de Error Total de
Errores
Porcentaje
de Error
EXACTITUD Exactitud
sintáctica
Valor fuera de rango 200 20%
Estandarización 250 25%
Registro mal ingresado 150 15%
Exactitud
semántica
Registro inexistente 130 13%
Valor fuera de
referencial
180 18%
COMPLETITUD Densidad Valor nulo 170 17%
CONSISTENCIA Integridad intra-
relación
Reglas de integridad
intra-relación
160 16%
Valor nulo 200 20%
Integridad
referencial
Referencia inválida 110 11%
UNICIDAD Duplicación Registro duplicado 180 18%
Contradicción Registro contradictorio 170 17%
3. Una vez obtenida la Tabla 2, elegimos aquellos tipos de error donde su porcentaje es mayor a
15%, se ha considerado este valor de manera general, pero sería recomendable asignar el
margen dependiendo de la importancia del campo, esto depende mucho del proyecto que se
esté trabajando y de los efectos que estos puedan tener dentro de la organización. Los tipos de
errores de un campo determinado que tengan el porcentaje de error mayor a 15% deben pasar
por el proceso de corrección de datos. En la sección Análisis de errores más comunes, se
explica cómo se deben solucionar dichos errores.
4. Una vez corregidos los errores, volvemos hacer un análisis de cada campo, como se hizo en el
paso 2, con la finalidad de hacer un comparativo entre los porcentajes de error que presentan
ahora los datos y vamos registrando los resultados en la Tabla 3.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
60
Tabla 3: Corrección de errores en los datos
CORRECCIÓN DE ERRORES EN UN CAMPO DETERMINADO
TOTAL DE TUPLAS 1000
Dimensión Factor Tipo de Error Total de
Errores
Porcentaje
de Error
EXACTITUD Exactitud
sintáctica
Valor fuera de rango 100 10%
Estandarización 100 10%
Registro mal ingresado 50 5%
Exactitud
semántica
Registro inexistente 50 5%
Valor fuera de
referencial
80 8%
COMPLETITUD Densidad Valor nulo 100 10%
CONSISTENCIA Integridad intra-
relación
Reglas de integridad
intra-relación
40 4%
Valor nulo 130 13%
Integridad
referencial
Referencia inválida 50 5%
UNICIDAD Duplicación Registro duplicado 70 7%
Contradicción Registro contradictorio 30 3%
5. Se obtendrá un valor promedio de todos los porcentajes de error relacionados con la dimensión
en estudio como se muestra en la Tabla 4, esto se hará para cada campo que pasará al DW.
Los valores de los porcentajes que hemos colocado son a modo de ejemplo ya que lo que se
propone es un método general.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
61
Tabla 4: Resultados de las dimensiones de calidad para un campo determinado
NOMBRE DEL CAMPO PARA EL QUE SE HACE EL ANÁLISIS
Dimensión Factor Tipo de Error Porcentaje
de Error
Promedio
EXACTITUD Exactitud sintáctica Valor fuera de rango 10%
7.6%
Estandarización 10%
Registro mal ingresado 5%
Exactitud semántica Registro inexistente 5%
Valor fuera de referencial 8%
COMPLETITUD Densidad Valor nulo 10% 10%
CONSISTENCIA Integridad intra-
relación
Reglas de integridad intra-
relación
4%
7.3% Valor nulo 13%
Integridad referencial Referencia inválida 5%
UNICIDAD Duplicación Registro duplicado 3%
3% Contradicción Registro contradictorio 3%
6. Una vez que tenemos lista la Tabla 4, podemos hacer un análisis de los porcentajes de error
promedio obtenidos, por ejemplo en la Tabla 4 podemos interpretar que la exactitud para el
campo “X” se cumple en 7.6%, la completitud en 10%, la consistencia en 7.3% y la Unicidad
en 3%, si se está de acuerdo con ellos (porcentajes de error permitidos), se podrá decir que el
proceso de corrección de datos fue exitoso y por ende se mejoró la calidad de los datos para
cada campo de la base de datos temporal, por ende estaría lista para la etapa de transformación
y carga en el DW.
.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
CAPÍTULO IV
DISCUSIÓN DE RESULTADOS
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
63
4. DISCUSIÓN DE RESULTADOS
Cada campo considerado en la base de datos temporal debería pasar por el proceso de análisis,
detección y corrección de errores. De esta manera se podrá analizar las dimensiones de calidad
en cada uno de ellos como se hace en el Cuadro 2, éste análisis nos permitirá saber si los datos
son de calidad o no, ya que es el principal objetivo del presente trabajo de investigación.
En el Cuadro 1 se muestra el análisis de errores que presenta el campo “X”, podemos darnos
cuenta que los porcentajes de errores que se muestra en cada dimensión de calidad son
superiores a los permitidos, por lo que este campo debe pasar por el proceso de corrección de
datos.
Cuadro 1: Porcentaje de errores encontrados para un campo determinado.
Exactitud Completitud Consistencia Unicidad
Porcentaje de Error Permitido 15% 15% 15% 15%
Porcentaje de Error Actual 18.20% 17% 16.00% 18%
0%
2%
4%
6%
8%
10%
12%
14%
16%
18%
20%
Po
rce
nta
je d
e E
rro
r
Análisis de errores en los datos
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
64
Después de pasar por la etapa de Corrección de Datos, se vuelve hacer el análisis de las
dimensiones de calidad para cada campo. En el Cuadro 2 podemos darnos cuenta que los
porcentajes de errores actual para el campo “X” son menores a los permitidos, con lo que se
demuestra que la calidad en los datos se ha logrado.
Cuadro 2: Porcentaje de errores encontrados para un campo determinado después de la
corrección de los mismos.
Exactitud Completitud Consistencia Unicidad
Porcentaje de Error Permitido 15% 15% 15% 15%
Porcentaje de Error Actual 7.60% 10% 7.30% 3%
0%
2%
4%
6%
8%
10%
12%
14%
16%
Po
rce
nta
je d
e E
rro
r
Análisis de errores en los datos
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
65
4.1. Cuadro comparativo de método tradicional y el método propuesto
A continuación se muestra en la Tabla 5 un cuadro comparativo entre el método
tradicional (ETL) y el método propuesto.
Tabla 5: Cuadro comparativo entre método tradicional y método propuesto
MÉTODO TRADICIONAL MÉTODO PROPUESTO
Extracción Extracción
Base Temporal
Análisis
Detección
Corrección
Transformación Transformación
Carga Carga
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
CAPÍTULO V
CONCLUSIONES
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
67
5. CONCLUSIONES
En este capítulo se presentan las conclusiones y aportes obtenidos con el desarrollo de este
proyecto así como las recomendaciones para futuras investigaciones. Es fundamental que los
datos resultantes sean de buena calidad, ya que estos son el punto de partida para análisis
estadísticos, estudios comparativos, análisis de datos y toma de decisiones dentro de una
organización, razón principal para la elaboración de esta tesis.
5.1. CONCLUSIONES
1. Se realizó el análisis de los diferentes tipos de errores que se presentan en los datos y
se seleccionó aquellos que pueden presentarse con mayor frecuencia dentro de los
datos de las organizaciones.
2. Luego de haber analizado los tipos de errores que se presentan en los datos, se realizó
el estudio de las dimensiones de calidad de datos y se seleccionaron aquellas que están
relacionadas con los errores en estudio. Las dimensiones consideradas son exactitud,
completitud, consistencia y unicidad.
3. Todo el análisis sobre errores y dimensiones de calidad de datos nos permitió proponer
un método para mejorar la calidad de datos en el proceso de construcción de un DW.
4. Para mejorar la calidad de datos y reflejar fielmente la realidad de los datos de las
organizaciones, se propone tener una base de datos temporal en el proceso ETL, en la
que se detecten y corrijan los errores. De esta manera evitaremos que ciertos datos que
son importantes para la organización, se le asignen valores por defecto o simplemente
no sean tomados en cuenta.
5. El método propuesto está sujeto a las características del proyecto en el que se trabaje.
Esto quiere decir que los errores que se busquen en los datos, las dimensiones que se
tomen en cuenta para medir la calidad de los datos y los porcentajes de error
permitidos dependerán del proyecto en particular.
6. Se presentan casos donde el error encontrado se debe a errores en el código de sus
sistemas, a la falta de especificaciones para los campos de sus bases de datos, en estos
casos se emite un informe con los detalles de los mismos, para que estas observaciones
sean solucionadas por los desarrolladores de la organización.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
68
5.2. TRABAJOS FUTUROS
1. Se propone que se automatice el método propuesto, mediante el uso de una
herramienta existente en el mercado o un software de la propia empresa, para realizar
el análisis de los datos en el menor tiempo posible.
2. Hacer un catálogo de todas las dimensiones de calidad que existen y de los tipos de
errores que se presentan en los datos, donde se defina qué tipos de errores abarca cada
dimensión. Este sería un catálogo general y serviría de mucha ayuda a todas las
organizaciones que piensan implementar un proceso de DW.
3. Se podría desarrollar un método que mida la calidad de datos después de la
construcción de un DW, ya que nuestro método mide la calidad de datos antes de que
los datos se carguen en el DW.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
69
REFERENCIAS
[1] Tho Nguyen, SAS Institute Inc. Cary, North Carolina. The Value of ETL and Data Quality.
[2] I. Amon Uribe. Guía metodológica para la selección de técnicas de depuración de datos, 2010.
[3] B. Bianchi gallo, M. Valverde Corrado. Un caso de estudio en Calidad de Datos para Ingeniería de
Software Empírica, 2009.
[4] J. Vilalta Alonso, M. Delgado Fernández. Calidad de datos: Un reto para la empresa moderna,
2007.
[5] J. Heredia Rico, J. Vilalta Alonso. La calidad de los datos: Su importancia para la gestión
empresarial, 2009.
[6] I. Arribas López. Data Warehouse de soporte a datos de GSA, 2008.
[7] Byron Boada, Alvaro Tituaña. "Desarrollo de una aplicación de bussiness intelligense (bi) para la
empresa empaqplast". Escuela Politecnica del Ejercito. Departamento de Ciencias de la
Computacion.Sangolqui - Ecuador 2012.
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS
Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse
70
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
BIBLIO
TECA DE C
IENCIAS FÍSIC
AS
Y MATEMÁTIC
AS