minerÍa de datos y sus tendencias actuales dr. rafael bello pérez departamento de ciencias de la...

84
MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email: [email protected] Tomando de conferencias de Dr. Francisco

Upload: andres-acuna-garcia

Post on 02-Feb-2016

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES

Dr. Rafael Bello PérezDepartamento de Ciencias de la ComputaciónUniversidad Central de Las Villas, CubaEmail: [email protected]

Tomando de conferencias de Dr. Francisco Herrera, Universidad de Granada, España.

Page 2: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Construcción de sistemas inteligentes: Extracción de conocimiento

• Sistemas Expertos convencionales:

(algunos) Sistemas Expertos de segunda generación:

Experiencia ReglasIngeniero de conocimiento

Experiencia ReglasAlgoritmo deaprendizage

Page 3: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Gracias!!Gracias!!!!

3

http://elpais.com/elpais/2013/12/02/vinetas/1386011115_645213.html

El RotoViñeta de El Roto 3 de diciembre de 2013

Comentarios Finales

Page 4: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Minería de Datos

Somos Ricos en Datos, pero Pobres en información

Data mining- buscar conocimiento (patrones interesantes) en los datos.

Que hacer con los Datos

Page 5: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

La Minería de Datos es una forma de aprender del pasado para tomar mejores decisiones en

el futuro

Minería de Datos

Page 6: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Nuevas necesidades de análisis datos

¿Para qué se utiliza el ‘conocimiento’ obtenido?

• hacer predicciones sobre nuevos datos• explicar los datos existentes• resumir una base de datos masiva para facilitar la toma de

decisiones• visualizar datos altamente dimensionales, extrayendo

estructura local simplificada, …

¿Qué es la Minería de Datos?

Page 7: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Minería de Datos. Áreas de aplicación• Aplicaciones empresariales / industrialesToma de decisiones en banca, seguros, finanzas,

marketing, control de calidad, retención de clientes, predicción, políticas de acción (sanidad, etc.), …

• Aplicaciones en investigación científicaMedicina, astronomía, geografía, genética, bioquímica,

meteorología, etc.

• Aplicaciones en Internet/Redes SocialesMinería de textos y de datos en la web

Page 8: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Sistemas inteligentes para la toma de decisiones.Los Sistemas de ayuda a la decisión (Decision Support Systems, DSS) son sistemas usados para analizar los datos y crear reportes.

Ellos apoyan la toma de decisiones mediante medios para obtener la información precisa cuando se necesita.

Un DSS exitoso tiene que brindar al usuario acceso flexible a los datos y herramientas para manipular y presentar los datos en cualquier clase de reporte.

Page 9: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Evolución de los DSS.

DBMS Métodos Estadísticos

Investigación de Operaciones

Datos Modelos

Sistema de ayuda a la decisión.

Page 10: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Evolución de los DSS. Continuación.

DBMS Métodos Estadísticos

Investigación de

Operaciones

Inteligencia Artificial

Datos y Modelos Conocimiento

Sistema inteligente de ayuda a la decisión.

Page 11: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Evolución de los DSS. Continuación.

DBMS Métodos Estadísticos

Investigación de

Operaciones

Inteligencia Artificial

Datos y Modelos Conocimiento

Minería de datos

Sistema inteligente de ayuda a la decisión con aprendizaje.

Page 12: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

DEFINICIONES PARA EL TERMINO

El descubrimiento de conocimiento es la extracción no trivial de información implícita, desconocida previamente y potencialmente útil a partir de los datos.

La minería de datos es el proceso de escudriñar a través de enormes cantidades de datos, y mediante incansables e implacables búsquedas poder encontrar pequeñas pepitas de oro en una montaña de escoria.

La minería de datos ayuda a examinar vastas cantidades de información buscando patrones valiosos en los datos.

La minería de datos es el proceso de descubrir patrones insospechados.

Page 13: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Etapas en un proceso de KDD

Problema de KDD

Datos Fuente

Datos Preprocesados

Modelos

Conocimiento e Implantación

Comprensión del Problema y de los Datos

Preprocesamiento de Datos

Minería de Datos

Interpretación y Evaluación

Informalmente se asocia Minería de Datos con KDD

¿Qué es la Minería de Datos?

Page 14: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Descubrimiento de conocimiento

Problema/Datos Brutos

Datospara Análisis

DatosPreprocesados

Patrones/Modelos

Conocimiento

Selección

Preprocesamiento

Minería de Datos

InterpretaciónEvaluación

Procesamiento de datos: Disponer de datos de calidad previos al uso de algoritmos de extracción de conocimiento.

Page 15: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Preprocesamiento de Datos

preprocesamiento

Preprocesamiento de Datos

Granulación de la información

Nuevo!

Page 16: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Descubrimiento de conocimiento

Problema/Datos Brutos

Datospara Análisis

DatosPreprocesados

Patrones/Modelos

Conocimiento

Selección

Preprocesamiento

Minería de Datos

InterpretaciónEvaluación

Procesamiento de datos: Disponer de datos de calidad previos al uso de algoritmos de extracción de conocimiento.

Page 17: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

TIPO DE CONOCIMIENTO A DESCUBRIR

• Clasificación.• Creación de conceptos.• Asociación.• Relaciones funcionales.• Dependencias funcionales.• Relaciones causales.

Page 18: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

CLASIFICACION

Reglas que particionan los datos en grupos disjuntos. Clientes con edad entre 24 y 45 años y con ingreso superior a los 40000 USD anuales Deben responder afirmativamente a esta oferta. Si (24 Edad 45) and (Salario40000) entonces Respuesta=Si.

Page 19: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

APRENDIZAJE DE CONCEPTOS• Un concepto es una descripción de algún subconjunto de objetos o eventos definidos en un conjunto mayor.

• Buscar a través de un espacio predefinido de hipótesis potenciales aquellas que mejor encaja al conjunto de entrenamiento.

Page 20: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

REGLAS DE ASOCIACION

La esencia es buscar patrones donde la presencia de alguna cosa implique la presencia de otra.Una regla de asociación es una implicación de la forma X Ij, (c)Por ejemplo, el 90 por ciento de las operaciones de compra de pan y mantequilla también incluye leche. Pan y Mantequilla Leche : 90.

Page 21: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

RELACIONES FUNCIONALES

Una relación funcional describe el valor de uno o más atributos como función de otros atributos.

Por ejemplo, y2x+3z.

Page 22: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

DEPENDENCIAS FUNCIONALES

Dados dos conjuntos de atributos X e Y en una base de datos, una dependencia funcional (denotada por X Y) enuncia que cualquier par de tuplos t1 y t2, si t1(X)t2(X) entonces t1(Y)t2(Y). Ejemplo: Código del curso nombre del curso.

Page 23: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

SECUENCIAS TEMPORALES

Reglas cuyos antecedentes y consecuentes contienen literales que son relacionadas a través de componentes temporales.

Ejemplos:Ejemplos:•Cuando las acciones de la compañía A crecen dos días Cuando las acciones de la compañía A crecen dos días consecutivos y los de la compañía B no caen durante ese consecutivos y los de la compañía B no caen durante ese período, entonces las acciones de la compañía C período, entonces las acciones de la compañía C crecerán el siguiente día.crecerán el siguiente día.•La compra de ropa va seguida por la compra de La compra de ropa va seguida por la compra de zapatos.zapatos.

Page 24: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

• Métodos predictivos• Se utilizan algunas variables para predecir valores desconocidos

de otras variables

• Métodos descriptivos• Encuentran patrones interpretables que describen los datos

Métodos de Minería de Datos

Page 25: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Aprendizaje Supervisado vs No Supervisado

Aprendizaje supervisado: Aprende, a partir de un conjunto de instancias pre-etiquetadas un método para predecir (Ejemplo, clasificación: la clase a que pertenece una nueva instancia)

Page 26: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

APRENDIZAJE A PARTIR DE EJEMPLOS

• Conjunto de objetos (instancias): ejemplos de problemas resueltos.

• Objetos: descritos mediante un conjunto de rasgos.

• CO = Conjunto de entrenamiento + Conjunto de control.

• Capacidad de generalización: resolver problema no vistos antes.

Page 27: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Sistema de Información Definición: (Sistema de Información)Sea un conjunto de atributos A=A1, A2,...,An y un conjunto U no vacío llamado universo de ejemplos (objetos, entidades, situaciones o estados, etc.) descritos usando los atributos Ai. Al par (U,A) se le denomina Sistema de información.

Definición: (Sistema de decisión)Si a cada elemento de U se le agrega un nuevo atributo d llamado decisión indicando la decisión tomada en ese estado o situación entonces se obtiene un Sistema de decisión (U, A{d}, donde dA).

Page 28: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

APRENDIZAJE INDUCTIVO.Genera conocimiento formulado en forma de descripciones

intencionales a partir de ejemplos.

CE((x, f(x))) función h que aproxima f.⇒

Page 29: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

APRENDIZAJE INDUCTIVO: formas de la función h.CE((x, f(x))) función h que aproxima f.⇒

• Expresión matemática (relación funcional).• Conjunto de reglas.• Árbol de decisión • Red neuronal artificial.

Page 30: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Clasificación

• Clasificación

El problema fundamental de la clasificación está directamente relacionado con la separabilidad de las clases.

Page 31: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Regresión

El problema fundamental de la predicción está en modelar la relación entre las variables de estado para obtener el valor de la variable de control.

Page 32: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

METODOS de Clasificación

Se pueden construir distintos tipos de clasificadores:

Modelos Interpretables:• Árboles de decisión• Reglas (p.ej. listas de decisión)

Modelos no interpretables:• Clasificadores basados en casos (k-NN)• Redes neuronales• Redes bayesianas• SVMs (Support Vector Machines)• …

Page 33: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

EJEMPLO DE CONJUNTO DE ENTRENAMIENTO

COLOR TAMANO PELAMBRE PELIGROSO

Negro Grande largo +

Carmelita Grande corto +

Carmelita Medio largo -

Negro Pequeño largo -

Carmelita Medio corto +

Negro Grande corto +

Carmelita Pequeño largo +

Carmelita Pequeño corto -

Carmelita Grande largo +

Negro Medio largo -

Negro Medio corto -

Negro Pequeño corto -

Page 34: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

EJEMPLOS DE REGLAS INDUCIDAS POR ID3

If Tamaño es Grande then Peligroso.If Tamaño es Medio y Color es Negro then NO Peligroso.If Tamaño es Pequeño y Color es Negro then NO

Peligroso.If Tamaño es Medio y Color es Carmelita y Pelambre es

Corto then Peligroso.If Tamaño es Medio y Color es Carmelita y Pelambre es

Largo then NO Peligroso.If Tamaño es Pequeño y Color es Carmelita y Pelambre es

Corto then NO Peligroso.If Tamaño es Pequeño y Color es Carmelita y Pelambre es

Largo then Peligroso.

Page 35: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Un árbol de Decisión

Country

Colouryes

yes no

Germany Japan

red blue

nonobluebluedieseldiesel3-63-6JapanJapan3.3.yesyesredreddieseldiesel6-106-10JapanJapan2.2.yesyeswhitewhitedieseldiesel3-63-6GermanyGermany1.1.

Easy to sellEasy to sellColourColourEngineEngineAgeAgeCountryCountry Se quiere predecir la propiedad de Easy to sell para nuevos ejemplos basado en los rasgos’ Country, Age, Engine and Colour.

Page 36: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

MEJORMEJOR: : cada camino del AD una reglacada camino del AD una regla

Usando los AD• Cada fila de la matriz una regla

AuthorAuthor ThreaThreadd

LengLengthth

ReadReadss

11 knownknown newnew shortshort truetrue

22 unknounknownwn

newnew longlong truetrue

……

IF (Author = known) and (Thread = new) and (Length = short)THEN (Reads = true)

IF (Author = unknown) and (Thread = new) and (Length = long)THEN (Reads = true)

IF (Author = known)THEN (Reads = true)

IF (Author = unknown) and (Thread = new) THEN (Reads = true)

IF (Author = unknown) and (Thread = old) THEN (Reads = false)

Page 37: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Esencia del aprendizaje perezoso• Un nuevo problema se puede resolver

• Recuperando problemas similares• adaptando las soluciones recuperadas

• Problemas similares tienen soluciones similares

© The Robert Gordon University, Aberdeen 37

?

SSS

SS S

SS S

PP

PPPP

P

PP

X

Page 38: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Ejemplo de Clasificador: k-NN

k = 3

Page 39: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Solución de problemas usando prototipos

P1: Calcular la similaridad entre el nuevo problema y cada objeto.

P2: Encontrar el conjunto de objetos más similares al problema.

P3: Calcular el valor de salida utilizando los valores del rasgo objetivo de los objetos recuperados.

Page 40: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Construcción de prototipos

Procedimiento para construir prototipos (se puede clasificar como de

remplazo, reducción, y no-determinístico)

¿Cómo construir clases de similaridad?

Clasede

Similaridad

Relaciones de

Similaridadprototipos

Page 41: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Nuevos modelos de aprendizaje: según rasgo objetivo

•Clasificación multi-etiqueta.•Clasificación jerárquica.•Clasificación ordinal.

Page 42: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Nuevos modelos de aprendizaje: según rasgos predictores

• Dominios discretos.• Datos mezclados.

Nuevos enfoques:

• Multi-way.• Datos desbalanceados.• Multi-instances learning.• Texto.

Page 43: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Aprendizaje no supervisado:

No hay conocimiento a priori sobre el problema, no hay instancias etiquetadas, no hay supervisión sobre el procedimiento.

(Ejemplo, clustering: Encuentra un agrupamiento de instancias “natural” dado un conjunto de instancias no etiquetadas)

Aprendizaje Supervisado vs No Supervisado

Page 44: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Agrupamiento

Hay problemas en los que deseamos agrupar las instancias creando clusters de similares características

Ej. Segmentación de clientes de una empresa

Page 45: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Agrupamiento

ObjetivoEncontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos [clusters].

Page 46: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Agrupamiento. Niveles

k = 2

k = 6 k = 4

La decisión del número de clusters es uno de los retos en agrupamiento

Page 47: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Descubrimiento de Asociaciones

• Descubrimiento de reglas de asociación:

• Búsqueda de patrones frecuentes, asociaciones, correlaciones, o estructuras causales entre conjuntos de artículos u objetos (datos) a partir de bases de datos transaccionales, relacionales y otros conjuntos de datos

• Búsqueda de secuencias o patrones temporales

• Aplicaciones: • análisis de cestas de la compra (Market Basket analysis)• diseño de catálogos,…

• ¿Qué hay en la cesta? Libros de Jazz• ¿Qué podría haber en la cesta? El último CD de Jazz• ¿Cómo motivar al cliente a comprar los artículos que es probable que le

gusten?

Page 48: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

TID Items

1 Bread, Coke, Milk

2 Beer, Bread

3 Beer, Coke, Diaper, Milk

4 Beer, Bread, Diaper, Milk

5 Coke, Diaper, Milk

Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}

Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}

Descubrimiento de asociaciones

Market Basket Analysis

Page 49: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Sumarización lingüística de datos (Linguistic Data Summaries, LDS )

LDS: propuesta por Yager y desarrollada por Kacprzyk-Yager.

Esencia de LDS: Datos numéricos (salarios, costos, edad,…) pueden ser resumidos lingüísticamente con respecto a un conjunto de atributos seleccionados mediante proposiciones.

Ejemplo:

La mayoría de los jóvenes y altamente calificados empleados son bien pagados.

Yager, R.R.: A new approach to the summarization of data. Information Sciences28, 69–86 1982.

R.R. Yager R.R.: On linguistic summaries of data. InW. Frawley and G. Piatetsky-Shapiro (Eds.): Knowledge Discovery in Databases. AAAI/MIT Press, pp. 347 -363, 1991.

J. Kacprzyk and R.R. Yager. Linguistic summaries of data using fuzzy logic. International

Journal of General Systems, 30, 33 - 154, 2001.

49

Page 50: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Sumarización lingüística de datos EJEMPLO 1Datos sobre la gestión de una empresa.

50

empresa CP VI VP PH empresa CP VI VP PH 1 120 10 101,1 60 10 123 45,6 231,2 11.23 2 39,75 35 98,12 12.20 11 78,60 66,1 89,78 14.50 3 45,60 43 112,1 9.9 12 111,9 55,33 107,9 88.76 4 89 34,67 78,8 67.90 13 67 13,56 98,34 98.9 5 134 45 56,78 7.8 14 98 37,9 76,12 7.69 6 27,45 39,98 89,9 9.78 15 33,9 23,24 123,1 9.88 7 231 12,6 201,1 89 16 105 17 231,3 79.89 8 234 13,4 134,7 101 17 67,8 34,56 89,3 18.16 9 45,90 39,99 134 8.9 18 189,78 9,89 103,56 93.9

CP: Costo de producción (en miles de pesos).VI: Volumen de inventarios (en miles de pesos)VP: Valor de la producción (en millones de pesos)PH: Productividad por hombre (pesos por hombre/día)

El director: Que hacer para mejorar la productividad de la empresa?

Page 51: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Sumarización lingüística de datos EJEMPLO 1. Continuación.

Datos sobre la gestión de una empresa:

51

empresa CP VI VP PH empresa CP VI VP PH 1 120 10 101,1 60 10 123 45,6 231,2 11.23 2 39,75 35 98,12 12.20 11 78,60 66,1 89,78 14.50 3 45,60 43 112,1 9.9 12 111,9 55,33 107,9 88.76 4 89 34,67 78,8 67.90 13 67 13,56 98,34 98.9 5 134 45 56,78 7.8 14 98 37,9 76,12 7.69 6 27,45 39,98 89,9 9.78 15 33,9 23,24 123,1 9.88 7 231 12,6 201,1 89 16 105 17 231,3 79.89 8 234 13,4 134,7 101 17 67,8 34,56 89,3 18.16 9 45,90 39,99 134 8.9 18 189,78 9,89 103,56 93.9 CP: Costo de producción; VI: Volumen de inventarios; VP: 3: Valor de la producción;PH: Productividad por hombre.

Sumarización lingüística:

La mayoría de las empresas con un alto inventario tienen una baja productividad.

Page 52: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

https://www.knime.org/

KNIME (o Konstanz Information Miner) es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. KNIME está desarrollado sobre la plataforma Eclipse y programado, esencialmente, en java.

Fue desarrollado originalmente en el departamento de bioinformática y minería de datos de la Universidad de Constanza, Alemania, bajo la supervisión del profesor Michael Berthold. En la actualidad, la empresa KNIME.com GmbH, radicada en Zúrich, Suiza, continúa su desarrollo además de prestar servicios de formación y consultoría.

Herramientas, Lenguajes, Kaggle

Page 53: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Weka

• The University of Waikato, New Zealand

• Machine learning software in Java implementation

http://www.cs.waikato.ac.nz/ml/weka/

Herramientas, Lenguajes, Kaggle

Page 54: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

KEEL

• University of Granada• Machine learning

software in Java implementation

http://www.keel.es/

Herramientas, Lenguajes, Kaggle

Page 55: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

55

Muchas y nuevas fuentes de datos

datos estructurados y datos no estructurados, imágenes, vídeos …

Page 56: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

56

Datos Economía del conocimiento

Datos son el centro de la

futura sociedad de la

economía del conocimiento

Page 57: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Data Mining: nueva tendencia Big Data

Explorar grandes volúmenes de datos para extraer información útil para dar respuestas rápidas en tiempo real.

Big Data parte grandes volúmenes de datos, heterogéneos (tipos y dimensiones diversas), de fuentes autónomas con control distribuido y descentralizado, y trata de explorar relaciones complejas y dinámicas entre los datos.

Data Mining with Big Data. Xindong Wu, Xingquan Zhu. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 26, NO. 1, JANUARY 2014

Page 58: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Data Mining y Big Data: un ejemploRepresentación de una persona en Salud.Genero,

Edad,

Historia medica familiar,

Rayos X (imágenes),

Tag (videos),

Código genético (imágenes y secuencias de Microarray DNA),

+

Cada centro de salud tiene su propio esquema de representación.Como agregar la información heterogénea desde diferentes fuentes?

Data Mining with Big Data. Xindong Wu, Xingquan Zhu. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 26, NO. 1, JANUARY 2014

Page 59: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Big Data: su inicio

Adaptaciones de las técnicas de descubrimiento de conocimiento a los requerimientos de BD.

On the use of MapReduce for imbalanced big data using Random Forest. Sara del Río, Victoria López, José Manuel Benítez, Francisco Herrera. Information Sciences 285 (2014) 112–137

Page 60: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

¿Qué es Big Data?

No hay una definición estándar

Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento de datos tradicionales

60

“Big Data” son datos cuyo volumen,

diversidad y complejidad requieren

nueva arquitectura, técnicas,

algoritmos y análisis para gestionar

y extraer valor y conocimiento

oculto en ellos ...

Page 61: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

BD

Data-intensive applications, challenges, techniques and technologies: A survey on Big DataC.L. Philip Chen, Chun-Yang Zhang, Information Sciences 275 (2014) 314–347

Richard T. Kouzes, Gordon A. Anderson, Stephen T. Elbert, Ian Gorton, Deborah K. Gracio, The changing paradigm of data-intensive computing, Computer 42 (1) (2009) 26–34.

BD obliga a:

Trabajar con mucha informacion privada y romper con los enfoques clasicos de seguridad de los datos.

Manipular enormes cantidades de datos no estructurados.

Mucho intercambio y cooperacion internacional.

Romper con el enfoque relacional de las bases de datos.

Buscar nuevas alternativas para el procesamiento paralelo.

Page 62: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

62

¿Qué es Big Data?

Las 3 V’s de Big Data

Page 63: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

63

El volumen de datoscrece exponencialmente• Crecimiento x 44 de 2009 a 2020• De 0.8 zettabytes a 35ZB

Crecimiento exponencial en los datos generados/almacenados

1ª:Volumen

¿Qué es Big Data? 3 V’s de Big Data

Page 64: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

64

• Los DATOS se generan muy rápido y necesitan ser procesados rápidamente

• Online Data Analytics• Decisiones tardías oportunidades perdidasA diferencia del clásico data warehouses que generalmente “almacena” data,

big data es más dinámico, las decisiones tomadas usando BD pueden

afectar los próximos datos.

Ejemplos:

• E-Promociones: Basadas en la posición actual e historial de compra envío

de promociones en el momento de comercios cercanos a la posición

• Monitorización/vigilancia sanitaria: Monitorización sensorial de las

actividades del cuerpo cualquier medida anormal requiere una reacción

inmediata

2ª:Velocidad

¿Qué es Big Data? 3 V’s de Big Data

Page 65: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

65

• Varios formatos y estructuras:

Texto, numéricos, imágenes, audio, video, secuencias, series temporales …

• Una sola aplicación puede generar muchos tipos de datos

Extracción de conocimiento Todos estos tipos de datos necesitan ser analizados

conjuntamente

Extracción de conocimiento Todos estos tipos de datos necesitan ser analizados

conjuntamente

3ª:Variedad

¿Qué es Big Data? 3 V’s de Big Data

Page 66: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

66

4ªV

¿Qué es Big Data?

Veracidad

Veracidad4ª V

Page 67: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

67

¿Qué es Big Data?

5ªV = Valor

Aproximaciones

y tecnologías

innovativas

5 V’s --> Valor

Page 68: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

68

Big Data. Aplicaciones

Astronomía Telefonía

Procesamiento deinformación WEB

Tráfico en Internet

Transacciones de tarjetas de crédito

Genómica

Page 69: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Aplicaciones: BBVA Bank

Page 70: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

70

Tratamiento computacional

MapReduce: Paradigma de Programación para Big Data (Google)

Plataforma Hadoop (Open access)

Librería Mahout para Big Data. Otras librerías

Page 71: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

71

• Escalabilidad de grandes cantidades de datos • Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días• Exploración en un clúster de 1000 nodos = 33 minutos

Solución Divide-Y-Vencerás

MapReduce– Modelo de programación de datos paralela

– Concepto simple, elegante, extensible para múltiples aplicaciones

• Creado por Google (2004)– Procesa 20 PB de datos por día (2004)

• Popularizado por el proyecto de codigo abierto Hadoop– Usado por Yahoo!, Facebook, Amazon, …

MapReduce

Page 72: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

72

Características

• Paralelización automática:• Dependiendo del tamaño de ENTRADA DE DATOS se crean

mutiples tareas MAP• Dependiendo del número de intermedio <clave, valor>

particiones se crean tareas REDUCE

• Escalabilidad: • Funciona sobre cualquier cluster de nodos/procesadores• Puede trabajar desde 2 a 10,000 máquinas

• Transparencia programación • Manejo de los fallos de la máquina• Gestión de comunicación entre máquina

MapReduce

Page 73: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

MapReduce• MapReduce es el entorno más popular

para Big Data• Basado en la estructura Valor-llave. • Dos operaciones:

1. Función Map : Procesa bloques de información

2. Función Reduce function: Fusiona los resultados previos de acuerdo a su llave.

• + Una etapa intermedia de agrupamiento por llave

J. Dean, S. Ghemawat, MapReduce: Simplified data processing on large clusters, Communications of the ACM 51 (1) (2008) 107-113.

mapmap map map

Shuffling: group values by keys

reduce

reduce

reduce

map (k, v) → list (k’, v’)reduce (k’, list(v’)) → v’’

(k , v)(k , v)(k , v) (k , v)

(k’, v’)(k’, v’)(k’, v’)(k’, v’)

k’, list(v’)k’, list(v’)k’, list(v’)

v’’v’’v’’

Page 74: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

74

Hadoop

http://hadoop.apache.org/

Page 75: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

75

Map ReduceLayer

HDFSLayer

Task tracker

Jobtracker

Task tracker

Namenode

Data node

Data node

http://hadoop.apache.org/

Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop

Creado por Doug Cutting (chairman of board of directors of the Apache Software Foundation, 2010)

Hadoop

Page 76: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

76

Mahout

Cuatro grandes áreas de aplicación

Agrupamiento

Sistemas de Recomendaciones

Clasificación

Asociación

Page 77: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

77

Mahout ¿Qué algoritmos puedo encontrar para Hadoop?

Analizamos 10 algoritmos muy conocidos

Hadoop

Palit, I., Reddy, C.K., 2012. Scalable and parallel boosting with mapReduce. IEEE TKDE 24 (10), pp. 1904-1916.

(Amazon EC2 cloud, CGL-MapReduce: (modelos iterativos de MapReduce)

Decision trees (C4.5, Cart)(MReC4.5)K-MeansSVMApriorikNNNaïve BayesEM (Expectation Maximization)PageRankAdaboost

No disponibles

MapReduce

Page 78: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Generation 1st Generation

2nd Generation 3nd Generation

Examples SAS, R, Weka, SPSS, KEEL

Mahout, Pentaho, Cascading

Spark, Haloop, GraphLab, Pregel, Giraph, ML over Storm

Scalability Vertical Horizontal (over Hadoop) Horizontal (Beyond Hadoop)

Algorithms Available

Huge collection of algorithms

Small subset: sequential logistic regression, linear SVMs, Stochastic Gradient Descendent, k-means clustering, Random forest, etc.

Much wider: CGD, ALS, collaborative filtering, kernel SVM, matrix factorization, Gibbs sampling, etc.

Algorithms Not Available

Practically nothing

Vast no.: Kernel SVMs, Multivariate Logistic Regression, Conjugate Gradient Descendent, ALS, etc.

Multivariate logistic regression in general form, k-means clustering, etc. – Work in progress to expand the set of available algorithms

Fault-Tolerance

Single point of failure

Most tools are FT, as they are built on top of Hadoop

FT: HaLoop, SparkNot FT: Pregel, GraphLab, Giraph

Page 79: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Ciencia de Datos

Data Science o la Ciencia de Datos incorpora diferentes elementos y se basa en las técnicas y teorías de muchos campos, incluyendo las matemáticas, estadística, ingeniería de datos, reconocimiento de patrones y aprendizaje, computación avanzada, visualización, modelado de la incertidumbre, almacenamiento de datos y la informática de alto rendimiento con el objetivo de extraer el significado de datos y la creación de productos de datos.

Page 80: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Ciencia de Datos

¿Qué es un Científico de Datos?

Un científico de datos es un profesional que debe dominar las ciencias matemáticas y  la estadística, acabados conocimientos de programación (y sus múltiples lenguajes), ciencias de la computación y analítica.

Page 81: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

Oportunidad profesional: En 2015, Gartner predice que 4,4 millones de empleos serán creados en torno a big data. (Gartner, 2013)

81

Científico de Datos

CIENTIFICO DE DATOS

Fuente: http://www.gartner.com/technology/topics/big-data.jsp

Surge como profesión el “Científico de Datos”

Page 82: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

82

http://www.revistacloudcomputing.com/2013/10/espana-necesitara-60-000-profesionales-de-big-data-hasta-2015/?goback=.gde_4377072_member_5811011886832984067#!

“Existe una demanda mundial para formar a 4,4 millones de profesionales de la gestión Big Data desde ingenieros, gestores y científicos de datos”, comenta Antón. Sin embargo, “las empresas todavía no ven en el Big Data un modelo de negocio”, lamenta. “Solo se extrae un 1% de los datos disponibles en la red”, añade. “Hace falta formación y concienciación.

Oportunidades en Big Data (en España)

Demanda de profesionales Una demanda creciente de profesionales en “Big Data” y “Ciencia de Datos”

Page 83: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

83

Big Data 3.0: Intelligent Una combinación de datos, con enormes bases de conocimiento y algoritmos de recopilación de información muy grandes, capaces de alcanzar el nivel de una verdadera inteligencia.

Se pueden ver ejemplos pioneros de esto ya: Google Now, Watson, …

Big Data 3.0: Intelligent

Big data 3.0

Page 84: MINERÍA DE DATOS Y SUS TENDENCIAS ACTUALES Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Email:

84

Comentarios Finales

Big Data es un área emergente y en expansión. Las posibilidades de desarrollo de algoritmos para nuevos datos, aplicaciones reales … es un nicho de investigación y desarrollo en los próximos años.

Oportunidades en Big Data