calidad de datos: detección y corrección
DESCRIPTION
Calidad de datos: detección y corrección. I Taller sobre calidad en bases de datos sobre biodiversidad 13-14 septiembre 2007. Madrid. Francisco Pando Unidad de Coordinación GBIF-España. Guión. Conceptos Ciclo de vida de los datos y detección - PowerPoint PPT PresentationTRANSCRIPT
Calidad de datos: detección y corrección
Francisco PandoUnidad de Coordinación GBIF-España
I Taller sobre calidad en bases de datos sobre biodiversidad
13-14 septiembre 2007. Madrid.
Guión
• Conceptos• Ciclo de vida de los datos y detección• Introducción de datos: interpretar,
distorsionar, errar• Captura de errores: validación y
detección• Diseño de base de datos y gestión de
errores• Virtualidad y realidad en las BBDD• Casos• La casa por los cimientos. Un ejemplo de
Eslovenia
Información original y derivada
Ciclo de vida de los datos y detección
Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for GBIF
Introducción de datos: interpretar, distorsionar, errar
Una base de datos debe conciliar dos requisitos en extremo irreconciliables:
1. Representar la realidad2. Que la información se encuentre, se pueda
comparar y analizar ( estandarizar y normalizar interpretar)
Estándares (o referencias) explícitos usados con consistencia
Componentes de la validación
Validación = detectar y corregir:
• Inexactitudes • Falta de datos • Potenciales errores (datos no
razonables)
La validación trata de garantizar la veracidad del registro
Captura de errores: validación y detección
• Validación: asegura que los datos se corresponden con el objeto. Incluye también el control de inexactitudes y pérdida de datos
Procedimiento
• Establecer procedimientos que no conlleven pérdida de datos• Las reglas de normalización deben
cubrir todos los casos• Los procedimientos no deben bloquear
el progreso del trabajo ante casos no contemplados o dudas
Procedimientos que permita que los errores detectados se corrijan en la base de datos
Por ejemplo:
http://data.gbif.org/occurrences/76377384/
Proporcionar al usuario la posibilidad de reportar errores o comentarios
Diseño de base de datos y gestión de errores
• Diseños normalizados de bases de datos
Diseño de base de datos y gestión de errores• Recomendación: distintos formatos de la misma información
debe calcularse de un campo a otro para su uso específico y no duplicar la información en campos paralelos
Campo UTM: 30TUF345871
Campo UTM: 30TUF38temporalcalculado
Campo UTM: 30TUF345871Campo UTM10: 30TUF38
Campo UTM: 30TUF345871Campo UTM10: 30TUF31
… Y si..
Virtualidad y realidad en las BBDD
Cuestión para debatir¿Debe el objeto reflejar toda la información acumulada a partir del el?
por ejemplo: ref. al Genbank, nombre de la camisa (Bot.) o de colección (Zool.)
Casos (1)
“Misma especie, misma localidad, al mismo sobre”
¡no hacer en casa!
Casos (2)
“Las malas identificaciones son errores que se han de corregir [i.e. eliminar]”
¡no hacer en casa!
Casos (3)
Casos (4)
Casos(3)
Herbar 3.4
Herbar 3.5
Para terminar:La casa por los cimientos: Un ejemplo de Eslovenia