data mining - introducción

32
Data Mining Introducción (Basado en el texto “Introduction to Data Mining” de Tan, Steinbach, Kumar)

Upload: jose-a-gonzalez-alonso

Post on 29-Sep-2015

224 views

Category:

Documents


1 download

DESCRIPTION

Presentación en Power Point de una introducción a Data MIning basado en el texto “Introduction to Data Mining” deTan, Steinbach, Kumar

TRANSCRIPT

Diapositiva 1

1Data Mining

Introduccin

(Basado en el texto Introduction to Data Mining deTan, Steinbach, Kumar)20Por qu Data Mining?Desde el punto comercialSe estn recogiendo y almacenando una gran cantidad de datosDatos Web, e-commerceCompras en supermercados Transacciones de bancos y tarjetas de crdito Las computadoras son cada vez ms baratas y ms econmicasLa presin de la competencia es cada vez ms fuerte Proporcionar mejores servicios personalizados (por ejemplo, en Customer Relationship Management)Business IntelligenceCompanies require business intelligence to direct business process improvement and monitor time, cost, quality, and control. DefinitionHoward Dressner, analyst with the Gartner Group, defines business intelligence as a process of turning data into information and through iterative discoveries turning that information into business intelligence. The key is that business intelligence is a processcross functional, in line with current management thinking, and not presented in IT terms.From an information systems standpoint, BI provides users with online analytical processing or data analysis capabilities to predict trends, evaluate business questions, and so on.From a business analyst viewpoint, it is the process of gathering high-quality, meaningful information about a subject, which enables the analyst to draw conclusions.Data warehousing creates the infrastructure for providing successful enterprise-level business intelligence.20Por qu Data Mining?Desde el punto cientficoLos datos son recogidos y almacenados a gran velocidad (GB / hora)sensores remotos en un satlite telescopios que exploran el cielo microarrays de datos genticossimulaciones cientficas generando terabytes de datos Las tcnicas tradicionales son inviables para datos en brutoLa minera de datos puede ayudar a los cientficos en:la clasificacin y segmentacin de datosla formacin de hiptesisBusiness IntelligenceCompanies require business intelligence to direct business process improvement and monitor time, cost, quality, and control. DefinitionHoward Dressner, analyst with the Gartner Group, defines business intelligence as a process of turning data into information and through iterative discoveries turning that information into business intelligence. The key is that business intelligence is a processcross functional, in line with current management thinking, and not presented in IT terms.From an information systems standpoint, BI provides users with online analytical processing or data analysis capabilities to predict trends, evaluate business questions, and so on.From a business analyst viewpoint, it is the process of gathering high-quality, meaningful information about a subject, which enables the analyst to draw conclusions.Data warehousing creates the infrastructure for providing successful enterprise-level business intelligence.20Por qu Data Mining?A menudo hay informacin "oculta" en los datos que no es fcilmente evidente A los analistas les pueden llevar semanas descubrir informacin til Gran parte de los datos nunca se analiza por completoBusiness IntelligenceCompanies require business intelligence to direct business process improvement and monitor time, cost, quality, and control. DefinitionHoward Dressner, analyst with the Gartner Group, defines business intelligence as a process of turning data into information and through iterative discoveries turning that information into business intelligence. The key is that business intelligence is a processcross functional, in line with current management thinking, and not presented in IT terms.From an information systems standpoint, BI provides users with online analytical processing or data analysis capabilities to predict trends, evaluate business questions, and so on.From a business analyst viewpoint, it is the process of gathering high-quality, meaningful information about a subject, which enables the analyst to draw conclusions.Data warehousing creates the infrastructure for providing successful enterprise-level business intelligence.20Qu es Data Mining?Muchas Definiciones Es la extraccin no trivial de informacin implcita, previamente desconocida y potencialmente til, a partir de los datos Exploracin y anlisis, a travs de medios semi-automticos o automticos, de grandes cantidades de datos para descubrir patrones significativosBusiness IntelligenceCompanies require business intelligence to direct business process improvement and monitor time, cost, quality, and control. DefinitionHoward Dressner, analyst with the Gartner Group, defines business intelligence as a process of turning data into information and through iterative discoveries turning that information into business intelligence. The key is that business intelligence is a processcross functional, in line with current management thinking, and not presented in IT terms.From an information systems standpoint, BI provides users with online analytical processing or data analysis capabilities to predict trends, evaluate business questions, and so on.From a business analyst viewpoint, it is the process of gathering high-quality, meaningful information about a subject, which enables the analyst to draw conclusions.Data warehousing creates the infrastructure for providing successful enterprise-level business intelligence.Qu es Data Mining?6

20Qu NO es Data Mining?Qu NO es DM?Buscar un nmero de telfono en la gua

Consultar a travs de un motor de bsqueda de la WEB informacin de AmazonQu es DM?Algunos nombres son ms comunes en ciertas regiones (Juan, Pedro, etc)Un grupo de documentos similares devuelto por el motor de bsqueda de la WEB, de acuerdo al contexto (selva amaznica, Amazon.com, etc)Business IntelligenceCompanies require business intelligence to direct business process improvement and monitor time, cost, quality, and control. DefinitionHoward Dressner, analyst with the Gartner Group, defines business intelligence as a process of turning data into information and through iterative discoveries turning that information into business intelligence. The key is that business intelligence is a processcross functional, in line with current management thinking, and not presented in IT terms.From an information systems standpoint, BI provides users with online analytical processing or data analysis capabilities to predict trends, evaluate business questions, and so on.From a business analyst viewpoint, it is the process of gathering high-quality, meaningful information about a subject, which enables the analyst to draw conclusions.Data warehousing creates the infrastructure for providing successful enterprise-level business intelligence.Ideas provenientes desde aprendizaje automtico / AI, reconocimiento de patrones, estadsticas, y sistemas de Bases de DatosLas tcnicas tradicionalesno se adecuan a: Enormidad de datosAlta dimensionalidadNaturaleza heterognea y distribuida de los datosOrigen del Data MiningAprendizaje automtico / Reconocimiento de patronesEstadsticas / Intelig ArtificialData MiningSistemas de Bases de DatosTareas de Data MiningModelos PredictivosClasificacinRegresinDeteccin de anomalasModelos DescriptivosClustering o AgrupamientoReglas de asociacinPatrn secuencialTareas de Data Mining10

Tan-Steinbach-Kumar Introduction to Data MIningClasificacin: DefinicinDada una coleccin de registros (training set )Cada registro contienen un conjunto de atributos, uno de los atributos es la clase.Buscar un modelo para el atributo clase como una funcin de los valores de otros atributos.Objetivo: los registros inditos deben ser asignados a una clase con la mayor precisin posible.Se utiliza un conjunto de prueba (test set) para determinar la precisin del modelo. Por lo general, se divide el conjunto de datos obtenidos en training set y test set. El training set se utiliza para construir el modelo y test set se utiliza para validarlo.Ejemplo de Clasificacin

categoricalcategoricalcontinuousclass

TestSetTraining SetModeloClasificador

Clasificacin: Aplicacin 1Marketing DirectoObjetivo: Reducir el costo de envo para focalizar en un conjunto de compradores de nuevos telfonos celulares.Enfoque:Introduzca los datos para un producto similar introducido antes. Sabemos cules clientes deciden comprar y cules no. Esta decisin: {compra, no compra} forma el atributo clase.Recopilar informacin demogrfica, estilos de vida y toda la informacin relacionada acerca de la interaccin de esos clientes con la compaaTipo de negocio, donde viven, cunto ganan, etc.Utilice esta informacin como atributos de entrada para aprender un modelo clasificador. .From [Berry & Linoff] Data Mining Techniques, 1997Clasificacin: Aplicacin 2Deteccin de fraudeObjetivo: Predecir casos fraudulentos en transacciones de tarjetas de crdito.Enfoque:Utilizar las transacciones de tarjeta de crdito y la informacin de su titularCundo compra, qu compra, con qu frecuencia paga a tiempo, etc Etiquetar transacciones pasadas, como fraude o transacciones OK. Esto forma el atributo de clase. Aprender un modelo para la clase de las transacciones.Utilizar el modelo para detectar fraude en las transacciones de tarjeta de crdito de una cuenta en particularClasificacin: Aplicacin 3Desercin de clientes:Objetivo: Predecir cuando un cliente se pierde en manos de un competidor.Enfoque:Use registros detallados de las transacciones con cada uno de los clientes pasados y presentes, para encontrar atributos.Con qu frecuencia llama, dnde llama, a qu hora del da llama, su situacin financiera, estado civil, etcEtiquete los clientes como fieles o infieles.Encuentre un modelo de fidelidad.From [Berry & Linoff] Data Mining Techniques, 1997Clasificacin: Aplicacin 4Catlogo de objetos del cieloObjetivo: Predecir clases (estrellas o galaxias) de objetos del cielo, especialmente de visualizacin dbil, basado en las imgenes telescpicas de Palomar Observatory.3000 imgenes con 23.040 x 23.040 pixels por imagen.Enfoque:Segmentar las imgenes. Medir los atributos de las imgenes (caractersticas) - 40 por objeto.Modelar la clase basada en esas caractersticas.Historia de xito: se han podido encontrar 16 nuevos quasars, unos de los objetos ms lejanos que son difciles de encontrar! Fayyad, Advances in Knowledge Discovery and Data Mining, 1996Clasificacin de Galaxias

PrecozIntermedioTardoTamao de los Datos: 72 millones de estrellas, 20 millones de galaxiasCatlogo de objeto: 9 GBBase de Datos de imgenes: 150 GB Clase: Estado de formacinAtributos:Caractersticas de la imagenCaractersticas de las ondas de luz recibidaClustering: DefinicinDado un conjunto de puntos de datos, cada uno con un conjunto de atributos, y una medida de similitud entre ellos, encontrar grupos de tal manera que:Los puntos de datos en un clster sean ms similares entre s que los puntos de datos de otros clustersMedidas de similitud:Distancia euclideana si los atributos son continuos.Otros problemas: medidas especficas.Ejemplo de ClusteringDistancia euclidiana en un espacio de 3 dimensiones Inter-cluster las distancias se maximizanIntra-cluster las distancias se minimizanClustering: Aplicacin 1Segmentacin del mercado:Objetivo: subdividir un mercado en distintos sub-conjuntos de clientes, donde cualquier sub-conjunto pueda ser concebido como un mercado objetivo que pueda ser alcanzado con un mix de marketing diferentes.Enfoque: Recoger diferentes atributos de los clientes en funcin de su informacin geogrfica y estilo de vidaEncontrar clusters de clientes similares.Medir la calidad del clustering mediante la observacin de los patrones de compra de los clientes de un mismo clster frente a aquellos de diferentes clusters.Clustering: Aplicacin 2Clustering de documentos:Objetivo: Para encontrar grupos de documentos que son similares entre s basados en palabras importantes que aparecen en ellos. Enfoque: Identificar palabras que aparecen con frecuencia en cada documento. Formar una medida de similitud basada en las frecuencias de las diferentes palabras. Usarlo como clster. Beneficios: la recuperacin de la informacin puede utilizar el cluster para relacionar un nuevo documento o buscar palabras en los documentos del clusterClustering de documentosPuntos del Clustering: 3204 artculos de Los Angeles Times.Medida de similitud: Cuntas palabras tienen en comn (despus de filtrar algunas).

Clustering de los movimientos de acciones de S&P 500

Observar los movimientos diarios de las accionesPuntos del Clustering: Acciones {UP/DOWN}Medida de similitud: Dos puntos son ms similares si los eventos descritos por ellos frecuentemente ocurren juntos en el mismo da.Utilizamos las reglas de asociacin para cuantificar una medida de similitud Regla de Asociacin: DefinicinDado un conjunto de registros los cuales contienen un nmero de elementos de una coleccin determinada;Producir reglas de dependencia para predecir la ocurrencia de un elemento basado en las ocurrencias de otros elementos

Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}Regla de Asociacin: Aplicacin 1Marketing y promocin de ventas:Suponga que la regla descubierta sea: {Cerveza, } --> {Papas fritas}Papas fritas como consecuencia => Se puede utilizar para determinar qu se debe hacer para aumentar sus ventas. Cerveza en el antecedente => Se puede utilizar para ver qu productos se veran afectados si la tienda suspende la venta de cervezaCerveza en el antecedente y papas fritas como consecuencia => se puede utilizar para ver qu productos se deberan vender con cerveza para promover la venta de papas fritas!Regla de Asociacin: Aplicacin 2Manejo de las gndolas del supermercado.Objetivo: Identificar los artculos que se compran juntos por bastantes clientes.Enfoque: Procesar los datos de los puntos de venta recogidos con escneres de cdigo de barras, para encontrar dependencias entre elementos.Una regla clsicaSi un cliente compra paales y leche, entonces es muy probable que compre cerveza. Por lo tanto, no se sorprenda si encuentra packs de latas de cerveza apilados junto a los paales!Regla de Asociacin: Aplicacin 3Manejo de inventario:Objetivo: Una empresa de reparacin de electrodomsticos quiere anticipar la naturaleza de las reparaciones de los productos de consumo y mantener equipados a los vehculos de servicio a domicilio con las piezas adecuadas, para reducir la cantidad de visitas a los hogares de los consumidoresEnfoque: Procesar los datos sobre las herramientas y piezas necesarias en reparaciones previas, en diferentes lugares de consumo y descubrir los patrones de ocurrencia.Patrones Secuenciales: DefinicinDado un conjunto de objetos, cada objeto asociado con su propia lnea de tiempo de los eventos, encontrar reglas que predigan fuertes dependencias secuenciales entre los diferentes eventos.

Las reglas se forman, primero descubriendo patrones. La ocurrencia de eventos en los patrones se rigen por limitaciones de tiempo.(A B) (C) (D E)