![Page 1: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/1.jpg)
1
Julio Iglesias12 Junio 2014
Cuando Nemo encontró a (su) patrón
Minería de datos
![Page 2: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/2.jpg)
Minería de datos
Definición y características
Algoritmos
Metodología
• Demos
Objetivos y agenda
Cuando Nemo encontró a su patrón
![Page 3: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/3.jpg)
Evolución
37
Informes
barras verdes
Herramientas
primarias
1970s
Documentar
el negocio
E-comm
Merchandising
analítico
2000
OLAP
Reporting
Basado en
Web
Data Mining
1990s1980s
Primeros DWs
Data Marts
Hojas de cálculo
Informes
DSS
2010+
Big Data
Data Streaming
Comprender
el negocioMejorar
el negocioPredecir
el negocio
Qué pasa
con el negocio
¿?
![Page 4: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/4.jpg)
TECNOLOGIAS QUE PERMITEN “ABSTRAER” LA INFORMACION EN CONOCIMIENTO
Tecnologías de BI
![Page 5: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/5.jpg)
¿Qué buscamos?
![Page 6: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/6.jpg)
6
Análisis Predictivo
Predictive Analysis
Presentation Exploration Discovery
Passive
Interactive
Proactive
Role of Software
Business
Insight
Canned reporting
Ad-hoc reporting
OLAP
Data mining
Self-service Analysis
![Page 7: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/7.jpg)
7
WH?
QUE
(What)
QUIEN
(Who)
DONDE
(Where)
CUANDO
(When)
CUAL
(Which)
POR QUE?
(Why)
Otras tecnologías de BI no dan respuesta…
WH?
![Page 8: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/8.jpg)
Minería de datos
![Page 9: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/9.jpg)
Extracción y análisis de información oculta y predecible de grandes bases
de datos mediante identificación de modelos, patrones y relaciones.
Definición
También conocida por (KDD- Knowledge Discovery in Databases)
![Page 11: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/11.jpg)
11
Mediante el Data Mining seremos capaces de realizar acciones
específicas y personalizadas:
• Descubrir patrones de comportamiento
• Fidelizar a los “mejores” clientes
• Motivos de éxito o fracaso de un nuevo producto/medicamento
• Distinguir los clientes/pacientes potencialmente más compradores o usuarios
de un servicio/producto
• Predecir automáticamente los comportamientos y futuras compras de un
cliente comparando con clientes del mismo perfil
• Detección de fraude
• Conocer las características de los clientes desvinculados y sus motivos de
abandono
• Qué productos tienden a venderse con otros
• ¿A qué grupos de clientes debo lanzar una campaña específica?
• …
Posibles utilidades
![Page 12: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/12.jpg)
Minería de datos
![Page 13: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/13.jpg)
Componentes
![Page 14: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/14.jpg)
Componentes
Algoritmos(estadística)
Datos Modelo
![Page 15: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/15.jpg)
Datos
Datos
Datos, necesito datos….
![Page 16: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/16.jpg)
16
Tarjetas perforadas5 ¼
3 ½ 20 Mb
100 Mb
600 Mb
1 Gb4 Gb
4,7 Gb
9 Gb
16 Gb
1 Tb
<20 años 1 millón
Evolución capacidad
![Page 17: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/17.jpg)
Datos, necesito datos…
![Page 18: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/18.jpg)
Datos, muchos datos…
![Page 19: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/19.jpg)
Algoritmos
Algoritmos(estadística)
Conjunto de herramientas y
técnicas para buscar
patrones.
Componente estadística
Algunos pueden producir
más de un resultado
Utilizar diferentes
algoritmos para diferentes
tareas
Combinar algoritmos para
solucionar un problema
particular
![Page 20: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/20.jpg)
Decision Trees
Naïve Bayesian
Clustering
Sequence Clustering
Association Rules
Neural Network
Time Series
….
Algoritmos de minería
![Page 21: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/21.jpg)
Qué clientes comprarán un determinado producto con una
probabilidad X?
Clasificación (Predicción)
Probabilidad de que un cliente tenga un determinado perfil?
Segmentación
Recomendar un producto a un cliente que realiza una determianda
compra
Asociación
Probabilidad de que un cliente compre un producto en el futuro
Predicción de secuencias
Predecir la venta de los próximos 5 meses y su error
Forecasting
Escenarios
![Page 22: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/22.jpg)
√ √ √ √ √ √
√ √ √ √ √
√ √ √
√ √ √ √ √ √
√ √ √
√
√
Classification
Regression
Segmentaion
Assoc. Analysis
Anomaly Detect.
Seq. Analysis
Time series
√ - second choice√ - first choice
¿Cuál escoger?
![Page 23: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/23.jpg)
Algorithm Description
Decision Trees Finds the odds of an outcome based on values in a training set
Association Rules
Identifies relationships between cases
Clustering Classifies cases into distinctive groups based on any attribute sets
Naïve Bayes Clearly shows the differences in a particular variable for various data elements
Sequence Clustering
Groups or clusters data based on a sequence of previous events
Time Series Analyzes and forecasts time-based data combining the powerof ARTXP (developed by Microsoft Research) for short-term predictionswith ARIMA (in SQL 2008) for long-term accuracy.
Neural Nets Seeks to uncover non-intuitive relationships in data
Linear Regression
Determines the relationship between columns in order to predict an outcome
Logistic Regression
Determines the relationship between columns in order to evaluate the probability that a column will contain a specific state
Algoritmos/Técnicas
![Page 24: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/24.jpg)
Veamos algunos ejemplos…
![Page 25: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/25.jpg)
Arboles de decisión
![Page 26: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/26.jpg)
Arboles de decisión
262626
Arboles de Decisión (modelos predictivos)
Son útiles para predecir el valor de ciertos valores
a partir de otros datos
Se realiza una clasificación, empezando por los atributos más
significativos hasta terminar por los menos significativos.
De esta manera es posible establecer una serie de reglas
sobre qué factores (atributos) afectan a cada caso del modelo
y tener una base a partir de la cual estimar como responderán
otros casos en el futuro (predicción)
Riesgo
Crediticio
CasadosBajo : 55%Alto : 45%
SolterosBajo : 45%Alto : 55%
AsalariadosBajo : 65%Alto : 35%
CasadosBajo : 45%Alto : 55%
SolterosBajo : 40%Alto : 60%
AutónomosBajo : 50%Alto : 50%
Deudas BajasBajo : 80%Alto : 20%
Deudas Altas100%
Todos100%
![Page 27: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/27.jpg)
Componentes
Arboles de decisión
![Page 28: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/28.jpg)
Asociación
![Page 29: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/29.jpg)
Amazon y Netflix
Amazon: 35% de las ventas del producto
provienen de recomendaciones
Netflix: 75% del streaming de vídeo
viene de recomendaciones
![Page 30: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/30.jpg)
Asociación
Cesta compra
Navegación Web
![Page 31: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/31.jpg)
Componentes
Asociación
![Page 32: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/32.jpg)
Series temporales
![Page 33: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/33.jpg)
33
Análisis de Series Temporales
Se utilizan para hallar predecir el comprotamiento de variables que
dependen del tiempo.
Se necesita una base de datos histórica.
Se utiliza para la pevisión de demanda o stocks en un almacén o
para la previsión del número de periódicos a enviar a un quiosco, etc.
tiempo
Ene Feb Mar Abr May Jun Jul Aug Sep Oct Nov Dic Ene
PresentePasado Futuro
?
Series temporales
![Page 34: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/34.jpg)
Componentes
Previsión
![Page 35: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/35.jpg)
Clústering
![Page 36: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/36.jpg)
36
Clustering
Utilizado para realizar agrupaciones de registros de acuerdo a
características comunes, obteniendo grupos de registros con
comportamiento o características parecidas entre entre ellos y
diferenciadas con los otros grupos..
El clustering es útil especialmente para realizar tareas de Marketing
tales como segmentación de clientes.
Clase1
Clase2Clase3
Ingresos anuales
Edad
Clase1
Clase2Clase3
Ingresos anuales
Edad
Clase1
Clase2Clase3
Ingresos anuales
Edad
Clustering
Casos
Clústering
![Page 37: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/37.jpg)
Componentes
Clustering
![Page 38: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/38.jpg)
38
No todo es comercial….
![Page 39: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/39.jpg)
Componentes
Breast Cancer
![Page 40: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/40.jpg)
Modelo
Modelo
![Page 41: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/41.jpg)
41
¿ Como se realiza el proceso de DM ?
Modelo
MotorDM
Datosa tratar
MotorDM
Datos tratados
Datos deentrenamiento
Modelo
Modelo
Creación de un modelo
![Page 42: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/42.jpg)
42
Uno de los pasos más importantes en un estudio es obtener la
base de datos para el estudio.
Las bases de datos o muestras de estudio no sólo se elaboran con
información interna de la empresa, sino que muchas veces se
necesita de información externa.
Si no se dispone de la información correcta o de la información
necesaria, el estudio o análisis puede resultar un fracaso o inducir a
conclusiones equivocadas. Importante dedicar un extenso tiempo en
obtener la información y también en validarla.
A tener en cuenta
![Page 43: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/43.jpg)
43
El siguiente paso a realizar para obtener la base preparada para el
estudio es realizar unos procesos de calidad de los datos y de la
muestra.
• Comprobar que la muestra sea representativa (que represente a la población
que queremos analizar)
• Conocer cómo se han obtenido los datos, si han sido tratados o
manipulados con anterioridad, etc.
• Que no haya valores o registros erróneos
• Que no haya valores perdidos o missing
• …
Todos aquellos registros erróneos no se deben tener en cuenta en el
estudio.
Calidad de los datos
![Page 44: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/44.jpg)
Estandarización Puntos de Tiempo
• Examinar los últimos meses antes de abandono
• Abandono de diferentes clientes ocurren en diferentes momentos
44
![Page 45: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/45.jpg)
45
Interpretar los resultados
![Page 46: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/46.jpg)
Resumen
![Page 47: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/47.jpg)
47
Interpretar los resultados
“…no disponer de la información correcta / necesaria,
puede ser peor…”
Cuando Nemo encontró a (su) patrón
“…no disponer de la información es malo…”
![Page 48: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/48.jpg)
Correlación vs Causalidad
La causalidad es una relación entre un evento (causa) y un segundo
evento (efecto), en la cual el segundo evento se entiende como
consecuencia del primero
Causalidad
Se considera que dos variables cuantitativas están correlacionadas cuando
los valores de una de ellas varían sistemáticamente con respecto a los
valores homónimos de las otras.
Correlación
![Page 50: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/50.jpg)
He visto la luz… ¿?
![Page 51: Minería de Datos: Qué significa realmente y ejemplos de utilización](https://reader034.vdocumento.com/reader034/viewer/2022052411/556f2eefd8b42a414f8b4f69/html5/thumbnails/51.jpg)
51
Conclusiones
• No es ciencia ficción, pero hay que trabajarlo
• VOLUMEN: Grandes volúmenes de datos.
• Minería no es necesariamente Big Data
• ALGORITMO:
• Cada algoritmo pudiera necesitar la información de entrada de una forma
determinada.
• Respuesta = ¿+? De un algoritmo
• INTERPRETACION: Se deben hacer preguntas concretas y saber interpretar las
respuestas.
• MODELO: Importante contar con alguien experto en el tema para validarlo
• MADUREZ en la empresa en proyectos de BI