preprocesamiento
TRANSCRIPT
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 1/51
Facultad de Ingeniería Escuela de Ingeniería de Sistemas y Computación
Preprocesamiento
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 2/51
Facultad de Ingeniería
Escuela de Ingeniería de Sistemas y Computación
Preprocesado de Datos
• ¿Por qué es necesario?• Limpieza
• Integración y Transformación• Reducción
• Discretización y Generalización
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 3/51
Facultad de Ingeniería
Escuela de Ingeniería de Sistemas y Computación
¿Por qué es necesario?• Los datos reales están “sucios” Incompletos: Se han perdido valores
de atributos, atributos de interés o losdatos están resumidos
Ruido: errores y “outliers” Inconsistentes: hay discrepancias en
los nombres y/o en los valores
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 4/51
Facultad de Ingeniería
Escuela de Ingeniería de Sistemas y Computación
¿Por qué es necesario?
• calidad de los datos calidad en losresultados de Data Mining.
• Las decisiones de calidad se basan endatos con calidad.
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 5/51
Facultad de Ingeniería
Escuela de Ingeniería de Sistemas y Computación
Principales tareas
de preprocesado
Limpieza de los datos
Completar valores nulos, identificar y/oeliminar los outliers, resolver
inconsistencias, tratar valores conruido
Integración de datos
Integración de distintas bases dedatos, archivos, …
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 6/51
Facultad de Ingeniería
Escuela de Ingeniería de Sistemas y Computación
Principales tareas
de preprocesado
Transformación de los datosNormalización y agregación
Reducción de los datosSe obtiene representación reducidaproduce los mismos ( o similares)
resultados después de su análisis
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 7/51
Facultad de Ingeniería
Escuela de Ingeniería de Sistemas y Computación
Principales tareas de
preprocesado
Discretización de los datos
Es un caso especial de la reduccióncon especial importancia cuando se
tratan atributos numéricos
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 8/51
Facultad de Ingeniería
Escuela de Ingeniería de Sistemas y Computación
Limpieza de los datos
Tareas de la limpieza
Completar valores nulos
Identificar outliers y suavizar el ruido
Corregir los datos inconsistentes
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 9/51
Facultad de Ingeniería
Escuela de Ingeniería de Sistemas y Computación
Valores nulosLos datos no siempre están disponibles
Ej. muchas tuplas no tienen el valor delingreso del cliente en la base de datosde ventas
Es posible que se tenga que inferir un
valor
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 10/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Valores nulosLos valores nulos se pueden deber a:
Mal funcionamiento del equipoInconsistencias con otros datos
almacenadosNo se insertan por no enteder elsignificado
No se consideraron importantes en elmomento de la captura
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 11/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
¿Como tratar los nulos?
Ignorar la tupla— no es muy efectivo si
el porcentaje de valores nulos poratributo varia considerablemente
Completar valor manualmente: tedioso yde dudosa fiabilidad
Usar una constante para completar el
valor e.g., “desconocido”
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 12/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
¿Como tratar los nulos?
Utilizar la media para completar todos
los valoresUtilizar la media dentro de la clase: mas
eficaz??Utilizar el valor más probable: medianteun árbol de decisión, Bayes, …
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 13/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Datos con ruidoRuido: error aleatorio en una variable
Los valores incorrectos se pueden deberError en la captura
Problemas en la transformaciónLimitación de la tecnologíaInconsistencia en el nombrado de los
valores
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 14/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Datos con ruido
Otros problemas que requieren limpiezaRegistros duplicados
Datos inconsistentes
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 15/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
¿Como tratar el ruido?
Método de los cubos (binning):Ordenar los datos y dividirlos en cubos
de igul longitudDespués se suaviza cada cubo por lamedia, la mediana, la varianza, los
límites del cubo, etc.
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 16/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
¿Como tratar el ruido?
Clustering: detecta y elimina los outliersCombinar tratamiento automático con
métodos manualesRegresión: suaviza el ruido mediante lafunción obtenida
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 17/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Método de los cubos (I)Particionamiento de igual ancho (distancia)
Divide el rango en N intervalos de igualtamaño
Si A y B son los valores mínimo ymáximo del atributo, el ancho de losintervalos es
W = (B-A)/N
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 18/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Método de los cubos (I)
Es el método más directoHace que los outliers dominen
No es aconsejable con distribucionesmuy heterogéneas
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 19/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Método de los cubos (II)Particionamiento de igual profundidad
(frecuencia) :Divide el rango en N intervalos, cada
uno conteniendo aproximadamente elmismo número de ejemplos
El tratamiento de los datos categóricos
es complejo con este método
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 20/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Ejemplo del método
de los intervalos
Datos ordenados de precio:
4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
Intervalos de igual número de elementos:Bin 1: 4, 8, 9, 15Bin 2: 21, 21, 24, 25
Bin 3: 26, 28, 29, 34
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 21/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Ejemplo del método
de los intervalos
Partición por la media:Bin 1: 9, 9, 9, 9
Bin 2: 23, 23, 23, 23Bin 3: 29, 29, 29, 29
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 22/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Ejemplo de
discretización (II)Datos:
4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34Intervalos basados en los límites
Bin 1: 4, 4, 4, 15Bin 2: 21, 21, 25, 25
Bin 3: 26, 26, 26, 34
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 23/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Análisis mediante cluster
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 24/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Regresión
x
y
y = x + 1
X1
Y1
Y1’
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 25/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Integración de DatosIntegración de datos:
Combina datos de fuentes diversas
Integración de esquemasIntegra metadatos de distintas fuentes
Problema de identificación deentidades: A. códigocli B. cliente#
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 26/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Integración de Datos
Detección y resolución de los conflictosPara la misma entidad los valores de
diferentes fuentes son diferentesRazones: distintas representaciones,métricas, escalas, ….
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 27/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Datos redundantesLa redundancia se da cuando se integran
múltiples bases de datosEl mismo atributo tiene distintosnombres
Un atributo es un atributo derivado enotra tabla e.g., beneficio anual
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 28/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Datos redundantes
Se pueden detectar por medio deanálisis de correlaciónLa integración cuidadosa puede ayudara prevenir/reducir las redundancias einconsistencias mejorando losresultados.
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 29/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Transformación
Eliminar el ruidoAgregados: construcción de cubos dedatosGeneralizaciónConstrucción de nuevos atributos
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 30/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Transformación
Normalización: escalar los valores paraque caigan en un rango específico
min-maxz-scoreNormalización basada en
escalamiento decimal
T f ió d d
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 31/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Transformación de datos:
Normalizaciónmin-max
z-score
Normalización decimal
A A A
A A
A
minnewminnewmaxnewminmax
minvv _)__(' +−
−
−=
A
A
devstand
meanvv_
'−
=
j
vv
10' = Where j is the smallest integer such that Max(| |)<1'v
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 32/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Reducción de datos
Reducción de datosObtiene una representación reducidadel conjunto de datos que es muchomás pequeña en volumen peroproduce los mismos (o casi losmismo ) resultados
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 33/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Reducción de datos
Estrategias de reducción de datosAgregados
Reducción de dimensionesDiscretización y generación de jerarquias de conceptos
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 34/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Reducción de atributosSelección de caracteríticas:
Métodos heurísticosSelección hacia delante
Selección hacia atrásCombinación de estrategiasÁrboles de decisión
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 35/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Compresión de datosCompresión de cadenas
Existen numerosos algoritmosGeneralmente sin pérdidas
Compresión de Audio/video
Generalmente se pierde informaciónSe puede reconstruir parte de la señal
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 36/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Compresión de datos
Datos originales DatosComprimidos
Sin pérdida
Original Data
Approximated
C o n p
é r d i d a
Análisis de las
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 37/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Análisis de las
componentes principalesDados N vectores de k-dimensiones, encontrar
c≤≤≤≤
K vectores ortogonales que se puedenutilizar para representar los datosEl conjunto original de datos se reduce auno de N vectores sobre c componentesprincipalesCada vector es una combinación lineal delos c vectores de componentes principales
(dimensiones resucidas)Solo se puede usar con datos numéricos
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 38/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
X1
X2Y1
Y2
Análisis de componentes principales
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 39/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
HistogramasTécnica
popular dereducciónDivide los
datos encubos yalmacena la
media (suma)de cada cubo 0
5
10
15
20
25
30
35
40
10000 30000 50000 70000 90000
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 40/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Muestreo
Elegir un subconjunto representativo delos datos
El muestreo aleatorio puede serpeligroso dependiendo de ladistribución de los datos
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 41/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
MuestreoDesarrollar un métodos de muestreo
adaptativosMuestreo estratificado
Que exista el mismo (o aproximado)porcentaje de cada cada clase (osubpoblación de interés) que en la
base de datos total
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 42/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
m u e s t r e o
s i n
r e e m p l a z a
m i e n t o
C o n
r e e m p l a z a m i e n t o Datos
Muestreo
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 43/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
MuestreoDatos originales Muestra estratificada
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 44/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
DiscretizaciónTres tipos de atributos
Nominal — valores en un conjunto noordenado
Ordinal — valores en un conjuntoordenado
Continuo — números reales
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 45/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
DiscretizaciónDiscretización
Divide el rango en de un atributo enintervalos
Algunos algoritmos de clasificaciónsólo aceptan atributos categóricos
Se reduce el tamaño del conjunto de
datos
Discretización y jerarquias
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 46/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Discretización y jerarquias
de conceptosDiscretización
Reduce el número de valores de unatributo continuo dividiendo el rangodel atributo en intervalos. Las etiquetasde los intervalos se pueden usar parareemplazar los valores reales
Discretización y jerarquias
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 47/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Discretización y jerarquias
de conceptos
Jerarquías de ConceptosReduce los datos mediante la
sustitución de los valores particularespor conceptos mas generales.
Discretización para datos
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 48/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Discretización para datos
numéricosIntervalos (“cubos”)
Análisis de histogramasAnálisis de cluster
Discretización basada en la entropíaSegmentación por particionamiento
natural
Discretización basada en la
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 49/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Discretización basada en la
entropiaDado un conjunto de ejemplos S, si S se
divide en dos intervalos S1 y S2 demanera que se minimize la entropía
El proceso se aplica de manera recursivahasta que se encuentre un criterio de
finalización
E S T
S
Ent
S
Ent S
SS
S( , )| |
| |
( )| |
| |
( )= +1
12
2
Jerarquías para datos
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 50/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
Jerarquías para datos
categóricosSe pueden generar automáticamente
basándose en el número de valores distintosde cada atributo. El atributo con más valoresse sitúa como hoja del árbol
pais
ciudad
calle
15 valores
3500 valores
674.339 valores
5/13/2018 Preprocesamiento - slidepdf.com
http://slidepdf.com/reader/full/preprocesamiento 51/51
Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación
ResumenLa preparación de los datos en
importantísima en cualquier proceso deanálisis de datos
Incluye
Limpieza e integración
Reducción
Discretización