información sobre medidor de calidad de datasets de opi

Calidad de Datos

Ciencia de Datos - OPI: Open Intelligence

Mayo del 2015

Introduccion

Aquellas empresas que utilizan los datos para generar productos de valoragregado, consideran estos como un activo estrategico, por lo que se vuelveindispensable tener iniciativas de administracion de datos ası como progra-mas de gobernanza de datos los cuales aseguran la calidad de los mismos. Lasdecisiones de alto impacto que se tomaran a partir de los analisis realizadosdependen crucialmente de la confiabilidad de los datos.

La calidad de datos se fundamenta en estandares que permiten homologary compartir datos de fuentes distintas y requiere de metricas clave que re-presenten propiedades esenciales de los mismos. La importancia de datos dealta calidad reside en la precision y confianza que brindan a los tomadores dedecisiones. Ademas el perfilado de datos permite planificar la transformacionde un conjunto de datos crudo en un conjunto de datos util para su posterioranalisis.

En terminos resumidos el analisis de calidad de datos permite optimizarprocesos necesarios y clarificar las oportunidades de beneficio al determinarla confianza con la que cuentan los resultados.

1

Metodologıa

Para mitigar el riesgo de datos de baja calidad se realizan tareas de auto-matizacion de analisis de datos con el fin de descubrir y detectar problemas deanomalıas escondidos en los datos. Se disea la arquitectura de datos adecua-da para reducir los riesgos de integracion de bases de datos nuevas ası comomejorar, limpiar, reparar y monitorear los datos existentes.

Los elementos principales de la calidad de datos son: precision, completez,consistencia y actualidad.

OPI, a traves del equipo profesional de cientıficos e ingenieros de datosse encarga de generar metricas sobre la calidad de datos de la siguinete forma

Precision: Se generan algoritmos estadısticos que determinan la pre-cision que poseen los datos para poder realizar estimaciones puntualesde parametros distribucionales. 1.

Actualidad: Se verifica a traves de algoritmos de scraping que la in-formacion con la que cuenta en su almacen de datos sea la mas actuali-zada y rastrea las posibles modificaciones por parte de los generadoresde informacion.

Completez: Se contabiliza la porporcion de registros faltantes y de-tecta patrones anomalos de falta de informacion dentro de un almacende datos.

Integridad: Se realiza pruebas de consistencia a traves de los nivelesde agregacion geografica y temporal disponibles, ademas de considerarlas inconsistencias generadas por la metodologıa de medicion de lasdiversas fuentes.

1Revisar documentacion metodolgica

2

Bibliografıa

Elliot King, Government MOves Big Data from Hype to Confidence, Unisp-here Resarch, Information Today, Inc., IBM, 2014

Information Integration and Governance, IBM, 2014

Peter Krensky, Aberdeen Group, The Information Confidence Calculator:Measuring Trust in Big Data, IML14423USEN, April 2014

Ballou D., I. Chengalur-Smith, R.Y. Wang, A sampling Procedure forData Quality Auditing in the Relational Environment, MIT, 2000

Richard Y. Wang, Mostapha Ziad, Yang W. Lee, Data Quality, Springer,US, 2002

Albert, J., Bayesian Computation with R, Bowling Green, OH, Springer,2009

3

Metodologıa: Calidad de Datos

Ciencia de Datos - OPI: Open Intelligence

Mayo del 2015

La metodologıa detallada para el score de precision que se muestra ennuestra plataforma se presenta a continuacion.

Para calcular un score de precision en las variables de las distintas basesde datos se usaron dos parametros:

1. Longitud del intervalo de confianza frecuentista.

2. Longitud del intervalo de credibilidad bayesiano.

El intervalo de confianza frecuentista se encuentra calculando el errorestndar de la media con nivel de significancia del α = 5 % (probabilidadde equivocarnos). Dicho intervalo (con longitud 2 veces el error estandarcentrado en la media) nos da un rango de valores en el cual se encuentra elverdadero valor del parametro con una probabilidad de 1−α = 95 % llamadanivel de confianza.

Por otro lado, el intervalo de credibilidad bayesiana, es un intervaloen el dominio de la distribucion de probabilidad posterior, a diferencia delintervalo de confianza frecuentista don las fronteras del intervalo son pro-babilısticas y el parametro estimado fijo, el intervalo de credibilidad tienefronteras fijas mientras que el parametro estimado se da en terminos de unaprobabilidad. En esta caso queremos encontrar el intervalo de confianza Ba-yesiano del 95 % de una poblacion normal donde no conocemos ni la mediani la varianza. Suponga que tenemos n datos observados y1, ..., yn que repre-sentan una muestra aleatoria de una distribucion normal N(µ, σ2). Vamos

1

a usar una probabilidad a priori no informativa g(µ, σ2) ∝ 1σ2 , entonces la

densidad posterior de la media y la varianza sera:

g(µ|σ2) ∝ 1

(σ2)n2+1exp

(− 1

2σ2(S + n(µ− y)2)

)(1)

Donde S =∑n

i=1(yi − y)2.

La probabilidad posterior tiene la forma normal/inversa chi-cuadrada quecumple:

La probabilidad posterior de µ condicional en σ2 esta distribuida comoN(y, σ/

√n).

La probabilidad posterior de σ esta distribuida como Sχ2n−1, donde χ−2

nu

es la distribucin chi-cuadrada inversa con ν grados de libertad.

Con esto se pueden encontrar los intervalos de confianza de las distribui-ciones obtenidas para las estimaciones de los parametros.

Para obtener el score de precision primero se reescalaron el intervalo deconfianza frecuentista y el intervalo de credibilidad bayesiano de cada variablecon respecto a rango de dicha variable, sean IF = IF

(max−min) el intervalo

frecuentista reescalado y analogamente IB = IB(max−min)

A continuacion se rankearon las variables de la base de datos con respectoal intervalo de confianza frecuentista RIF , al intervalo de credibilidad baye-siano RIB , a la proporcioon de vacios RPV

y se obtuvo finalmente el scorede precision restandole a 1 la normalizacion respecto al nmero de datos elpromedio de los rankings y multiplicarlo finalmente por 100, para obtener unporcentaje de precision en orden descendiente (mientras mayor sea el scoremayor es la confiabilidad). Para esto, se us la siguiente formula.

ScorePre = 100×(

1− RIF +RIB

2

)(2)

Para obtener el score de completez, se rankeo la proporcion de vacıos PVde las distintas tablas para obtener RPV

normalizado respecto al numero dedatos, obteniendo la formula de score de completes:

2

ScoreV ac = 100× (1−RPV) (3)

Aparte del score de presicion se obtuvo otro score de proporcion de atıpi-cos, esto es; se encontaron valores atıpicos de las distintas variables de lastablas, usando como criterio: los valores que esten a mas de 3,5×MAD de lamediana (donde MAD es la desviacion absoluta de la mediana), que abarcael ∼98 % de la distribucion, se toman como valores atıpicos. Se calculo laporporcion de estos respecto al numero total de datos PA, y se rankearon lasporporciones obtenidas en las distintas variables de las tablas RPA

, finalmentese obtuvo un score de atipicidad con la siguiente formula:

ScoreAt = 100× (1−RPA) (4)

El score de calidad se obtuvo promediando los ultimos tres scores:

Score = (ScorePre + ScoreV ac + ScoreAt)/3 (5)

Aparte de este score se obtuvieron dos scores extras basados en criteriosdistintos: Un score de consitencia y un score de temporalidad. El score deconsistencia se obtuvo sumando por entidad (admin1) los valores correspon-dientes a la misma fecha y a la misma variable en los distintos municipios(admin2), en las tablas que estuvieran en niveles de agregacion admin1 yadmin2, y obteniendo la desviacion absoluta de esta suma con respecto alvalor obtenido en esa entidad (admin1), para cada variable se promediarondichas desviaciones absolutas normalizandolas con respecto al maximo de lasmismas.

Al valor obtenido de dichos promedios se le asocio un porcentaje (restandoa 1 el promedio normalizado y multiplicandolo por 100), obteniendo un scorede consistencia (Scoreconsis) por variable, que mientras mas cercano es 100tiene mayor consistencia la tabla.

Para obtener un score de temporalidad solo se obtuvo el tamao de losdistintos aos que hay en cada tabla (spantemp).

3

información sobre medidor de calidad de datasets de opi

Documents