mineria de datos
DESCRIPTION
Mineria de datosTRANSCRIPT
-
Inteligencia en Redes de Comunicaciones
1
Inteligencia en Redes de Comunicaciones
Raquel M. Crespo Garca
Julio Villena Romn{rcrespo, jvillena}@it.uc3m.es
Minera de Datos
ndice
Definicin y conceptos
Tcnicas y modelos
IRC - JVR, RCG - 1
-
Inteligencia en Redes de Comunicaciones
2
Tipos de conocimiento
Conocimiento profundo
Conocimiento oculto
Conocimiento evidente
Conocimiento multi-dimensional
IRC - JVR, RCG - 2
Fuente: Data Mining, P. Adriaans, D. Zantinge, Addison-Wesley, 1996.
Tipos de conocimiento
(segn su nivel de abstraccin)
Conocimiento evidenteFcilmente recuperable SQL
Conocimiento multi-dimensionalConsidera los datos con una cierta estructura OLAP
Conocimiento oculto Informacin no evidente, desconocida a priori y
potencialmente til MD
Conocimiento profundo Informacin que est almacenada en la base de datos,
pero que resulta imposible de recuperar a menos que se disponga de alguna clave que oriente la bsqueda
IRC - JVR, RCG - 3
-
Inteligencia en Redes de Comunicaciones
3
Aprender
Objetivo:
Construir un sistema computacional que sea capaz de
encontrar y modelar el conocimiento oculto que a los
seres humanos nos resulta difcil ver
Cmo?
Dotando a ese sistema de algoritmos o tcnicas que
imiten la cualidad humana del aprendizaje, esto es, ser
capaz de extraer nuevos conocimientos a partir de las
experiencias (ejemplos)
IRC - JVR, RCG - 4
KD
Knowledge Discovery is the nontrivial extraction of
implicit, previously unknown and potentially
useful information from data
W. J. Frawley,
G.Piatetsky-Shapiro,
C. J. Matheus
IRC - JVR, RCG - 5
-
Inteligencia en Redes de Comunicaciones
4
KDD
Knowledge Discovery in Databases: nombre tcnico con que se denomina al proceso global de
extraccin de conocimiento de bases de datos
IRC - JVR, RCG - 6
Data Mining
La minera de datos comprende una serie de
tcnicas, algoritmos y mtodos cuyo fin es la
explotacin de grandes volmenes de datos con
vistas al descubrimiento de informacin
previamente desconocida y que pueda servir de
ayuda en el proceso de toma de decisiones,
formando parte del conjunto de tecnologas de la
Inteligencia de Negocio
IRC - JVR, RCG - 7
-
Inteligencia en Redes de Comunicaciones
5
Business Intelligence
Realizacin eficiente de todas las actividades
relacionadas con la generacin, extraccin,
organizacin, anlisis, comparticin y distribucin
del conocimiento de una organizacin
IRC - JVR, RCG - 8
Datos, Informacin y Conocimiento
Conocimiento: capacidad de convertir datos e informacin en acciones efectivas
IRC - JVR, RCG - 9
-
Inteligencia en Redes de Comunicaciones
6
Objetivo
Poner al alcance
de cada individuo
lo que necesita
en el momento
preciso
para que su actividad
sea efectiva
IRC - JVR, RCG - 10
Arquitectura tecnolgica
Motor de minera de
datos
Segmentacin Asociaciones Prediccin
Pedidos
Catlogo
Clientes
Base de datos operacional
Integracin y carga de datos
DataWarehouse
Modelo de datos multidimensional
Informes de negocio
Anlisis OLAP
Query &Reporting
Reservas
Facturas
Inventario
Base de datos operacional
Fuentes de datos externas
Toma de decisiones
IRC - JVR, RCG - 11
-
Inteligencia en Redes de Comunicaciones
7
Verificacin vs. descubrimiento
Las tcnicas de minera de datos son herramientas que facilitan el descubrimiento de la informacin
Verificacin
1. Elaborar una hiptesis sobre la existencia de una informacin de inters
2. Convertir la hiptesis en una consulta
3. Ejecutar la consulta contra un sistema de informacin
4. Interpretar los resultados5. Refinar la hiptesis y repetir la
ejecucin
Descubrimiento
1. Identificar un objetivo o problema de negocio
2. Habilitar un acceso a los datos de inters y acondicionarlos
3. Seleccionar una tcnica de explotacin de los datos adecuada para el problema
4. Ejecutar la tcnica contra los datos5. Interpretar los resultados
IRC - JVR, RCG - 12
Proceso de minera de datos
ModeloConocimiento
Datos
Conocimiento
Base de datos
Preprocesado
Seleccin de caractersticas
Extraccin de conocimiento
InterpretacinEvaluacin
Seleccin
IRC - JVR, RCG - 13
-
Inteligencia en Redes de Comunicaciones
8
Metodologa CRISP-DM
CRoss Industry Standard Process for Data Mining
Datos
Comprensinmbito
aplicacin
ComprensinDatos
Aplicacin
PreprocesadoDatos
Modelado
Evaluacin
IRC - JVR, RCG - 14Fuente: CRoss Industry Standard Process for Data Mining: Process Model
http://www.crisp-dm.org/Process/index.htm
Herramientas
Comerciales
Intelligent Miner / DB2 Data Warehouse Edition (IBM)
Clementine (SPSS)
Enterprise Miner (SAS)
DataEngine
De cdigo libre
Weka
IRC - JVR, RCG - 15
http://www.crisp-dm.org/Process/index.htmhttp://www.crisp-dm.org/Process/index.htmhttp://www.crisp-dm.org/Process/index.htmhttp://www.crisp-dm.org/Process/index.htm
-
Inteligencia en Redes de Comunicaciones
9
IBM DB2 Data Warehouse Edition (1)
IRC - JVR, RCG - 16
IBM DB2 Data Warehouse Edition (2)
IRC - JVR, RCG - 17
-
Inteligencia en Redes de Comunicaciones
10
SPSS Clementine
IRC - JVR, RCG - 18
SPSS Clementine (2)
IRC - JVR, RCG - 19
-
Inteligencia en Redes de Comunicaciones
11
SAS Enterprise Miner
IRC - JVR, RCG - 20
SAS Enterprise Miner (2)
IRC - JVR, RCG - 21
-
Inteligencia en Redes de Comunicaciones
12
MIT DataEngine
IRC - JVR, RCG - 22
MIT DataEngine (2)
IRC - JVR, RCG - 23
-
Inteligencia en Redes de Comunicaciones
13
Weka
http://www.cs.waikato.ac.nz/~ml/sounds/weka-long.auIRC - JVR, RCG - 24
Weka (2)
IRC - JVR, RCG - 25
http://www.cs.waikato.ac.nz/~ml/sounds/weka-long.auhttp://www.cs.waikato.ac.nz/~ml/sounds/weka-long.auhttp://www.cs.waikato.ac.nz/~ml/sounds/weka-long.au
-
Inteligencia en Redes de Comunicaciones
14
Enfoque multidisciplinar
Enfoque
integrador
multidisciplinar
Diferentes
tcnicas segn el
tipo de
informacin a
extraer
EstadsticaAprendizaje
Bases de datos Enfoques grficos
Mtodos analticos
Minerade datos
IRC - JVR, RCG - 26
Tcnicas de minera de datos
Tcnicas descriptivas
Orientadas a describir un conjunto de datos
Tcnicas predictivas
Orientadas a estimar valores de salida
Tcnicas de modelado
Orientadas a la comprensin del sistema: obtener una representacin del sistema que permita imitar su comportamiento
Emplea cualquier tcnica que no funcione como caja negra
Agrupamiento
rboles de decisin
Anlisis de secuencias/asociaciones
IRC - JVR, RCG - 27
http://well-formed.eigenfactor.org/index.html
-
Inteligencia en Redes de Comunicaciones
15
Tcnicas de extraccin de conocimiento
Tcnicas descriptivas
Segmentacin de datos
Agrupacin no supervisada de
clientes
Categorizacin automtica de
sucursales
Clasificacin
Asignacin de nuevos clientes a
segmentos predefinidos
Identificacin de alarmas
Anlisis de asociaciones
Anlisis de venta cruzada de
productos
Correlacin de hbitos de consumo
en base a su ocurrencia
Tcnicas predictivas
Anlisis de patrones secuenciales
Deteccin de secuencias de
compra en el tiempo
Anlisis de similitud en series
temporales
Identificacin de pautas de compra
en el tiempo
Prediccin
Asignacin de probabilidades de
fraude con tarjetas
Estimacin de la demanda y el
rendimiento por cliente
IRC - JVR, RCG - 28
Segmentacin
Para la agrupacin automtica de registros que comparten rasgos similares
(no supervisados), existen diversas tcnicas:
Segmentacin o clustering
El n de segmentos se determina durante la ejecucin del algoritmo.
Procesa tanto variables cuantitativas como cualitativas.
Maximiza la similitud entre los miembros de un mismo segmento y las diferencias
entre los miembros de segmentos diferentes, en base a mtricas de similitud, no de
distancia.
Es eficiente para la deteccin de nichos de registros.
Segmentacin neuronal (mapas autoorganizativos de Kohonen)
Es necesario predefinir el n de segmentos que se desean obtener y su distribucin
bidimensional.
Procesa tanto variables cualitativas como cuantitativas, aunque funciona mejor
cuando dominan estas ltimas.
Es eficiente cuando se desea particionar una poblacin imponiendo cierta relacin
entre los segmentos obtenidos.
IRC - JVR, RCG - 29
-
Inteligencia en Redes de Comunicaciones
16
Clasificacin
Como mtodos de clasificacin supervisada (prediccin de variables
cualitativas), algunas tcnicas son:
Clasificacin basada en rboles de decisin
Modelo de clasificacin en forma de rbol de decisin
Procesando tanto variables cuantitativas como cualitativas
Tcnicas de podado, que proporciona rboles de menor tamao.
Son escalables, pudiendo procesar conjuntos con independencia del nmero de
clases, atributos y registros.
Clasificacin neuronal
Basada en redes neuronales de propagacin hacia atrs.
Detecta de forma automtica la topologa ms adecuada para cada problema,
aunque permite especificar una concreta.
Realiza un anlisis de sensibilidad para detectar las variables ms significativas para
cada topologa.
IRC - JVR, RCG - 30
Prediccin
Para la estimacin de variables cuantitativas, los mtodos ms empleados son:
Funciones de base radial
Pueden procesar variables cuantitativas y cualitativas a la vez.
Detecta el nmero de centroides ptimo, predefiniendo el nmero mximo de stos
y el nmero mnimo de registros asignados a cada centro.
Funciona especialmente bien cuando la estructura de los datos tiende a agruparse
en conjuntos, ya que implementa cierto tipo de segmentacin.
Prediccin neuronal
Basada en redes neuronales de propagacin hacia atrs.
Detecta de forma automtica la topologa ms adecuada para cada problema,
aunque permite especificar una concreta.
Permite predecir datos en forma de series temporales.
Permite implementar regresin logstica.
IRC - JVR, RCG - 31
-
Inteligencia en Redes de Comunicaciones
17
Anlisis de asociaciones
Los anlisis de asociaciones y patrones secuenciales permiten extraer
informacin desconocida de los hbitos de compra:
Anlisis de asociaciones
Detecta elementos en una transaccin que implican la presencia de otros elementos
en sta misma.
Expresa las afinidades entre elementos en forma de reglas de asociacin X Y,
facilitando una serie de mtricas como el soporte y confianza.
Patrones secuenciales
Detectan patrones entre transacciones, lo que permite optimizar las ventas a lo largo
del tiempo
Anlisis de similitud en series temporales
Detecta todas las ocurrencias de secuencias similares en una coleccin de series
temporales.
IRC - JVR, RCG - 32
Equipo de trabajo
Para lograr un resultado ptimo en un proyecto de minera de datos,
el equipo de trabajo debe incluir:
expertos en manipulacin de datos
expertos en inteligencia artificial y en algoritmos de extraccin de
conocimiento
conocedores del dominio de aplicacin o con habilidades para
comunicarse con los expertos
analistas de negocio
Analista de negocio
Herramienta de decisinMinera de datosQuery & reporting
Bases de datos
Datawarehouse
Usuario de negocio
Ingeniera de datos
Administrador de BD
IRC - JVR, RCG - 33
-
Inteligencia en Redes de Comunicaciones
18
Esfuerzo requerido
IRC - JVR, RCG - 34
Submodelos
En la mayora de las ocasiones, un nico modelo no
sirve para representar el sistema completo de manera
fiable
Lo habitual es aplicar la tcnica de divide y vencers y
construir submodelos que cubren aspectos parciales del
sistema
Estos submodelos en conjunto resultan ms precisos o, al
menos, acotan de forma ms precisa el error en los aspectos
que cubren
Para realizar la divisin en submodelos, se suele aplicar
segmentacin (clustering) y luego se construye un modelo de
prediccin para cada uno de los grupos encontrados
IRC - JVR, RCG - 35
-
Inteligencia en Redes de Comunicaciones
19
Segmentacin + Prediccin
Matriz de datos
ID Hogar V. Hogar
ID Hogar N Miembros Provincia CodPostal Zona Buzoneo
12345677
9912341234
Matrices de Minera
ID HOGAR V. Hogar V. Pedido V. Tienda V. Objetivo
ID Hogar Antigedad VP012001 VDZ1990 VDJ2000 VDX012001Abandona Telepizza
12345677 1
9912341234 1
0
0
0
Conjunto Entrenamiento
Toda la Poblacin
Modelo de
segmentacin
Modelo de
segmentacin Conjunto Test/PruebaID HOGAR V. Hogar V. Pedido V. Tienda V. Objetivo
ID Hogar Antigedad VP012001 VDZ1990 VDJ2000 VDX012001Abandona Telepizza
12345677 1
9912341234 1
0
0
0
ID HOGAR V. Hogar V. Pedido V. Tienda V. Objetivo
ID Hogar Antigedad VP012001 VDZ1990 VDJ2000 VDX012001Abandona Telepizza
12345677 1
9912341234 1
0
0
0
Conjunto Entrenamiento
Para cada
grupo Modelo prediccin
grupo N
(m7,r1)
(m3,r2)good
badaverage
IRC - JVR, RCG - 36