proceso kdd msc. carlos alberto cobos lozada [email protected] ccobos grupo de i+d en...

16
Proceso KDD MSc. Carlos Alberto Cobos Lozada [email protected] http://www.unicauca.edu.co/~ccobos Grupo de I+D en Tecnologías de la Información Departamento de Sistemas Facultad de Ingeniería Electrónica y Telecomunicaciones Universidad del Cauca

Upload: xiomara-oquendo

Post on 23-Jan-2016

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Proceso KDD

MSc. Carlos Alberto Cobos Lozada

[email protected]

http://www.unicauca.edu.co/~ccobos

Grupo de I+D en Tecnologías de la Información

Departamento de Sistemas

Facultad de Ingeniería Electrónica y Telecomunicaciones

Universidad del Cauca

Page 2: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Resumen Previo

¿Qué es minería de datos? ¿Por qué la minería de datos? ¿La minería de datos es totalmente automática? ¿Cómo se desarrolla un proyecto de minería de datos? Falacias de la minería de datos Tareas de la minería de datos

Descripción Clasificación – Estimación – Predicción Agrupamiento por similitud (Clustering) Reglas de Asociación

Aplicaciones

Page 3: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Proceso de Minería de Datos

Los algoritmos son sólo una parte de un proceso llamado Descubrimiento de Conocimiento por los Científicos de la Computación, y Minería de Datos por los estadísticos

El proceso comienza con el reconocimiento de un problema y termina con el control de una solución implementada

Todo el proceso debe ser soportado por una metodología exitosa

Page 4: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Metodologías para la Minería de Datos Fayyad et al. (Ciencias de la Computación)

WEKA SEMMA (SAS) (Estadísticos)

SAS Enterprise Miner CRISP-DM (SPSS, OHRA, …) (Negocios)

SPSS Clementine

http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm

Abril de 2004

Page 5: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Metodología de Fayyad

Datos

Datos Objetivo

Datos Procesados

Datos Transformados

Patrones

Conocimiento

Selección

Pre procesamiento y limpieza

Transformación y selección de características

Minería de datos

Interpretación y evaluación

Page 6: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Metodología SEMMA

Soportado por SAS Enterprise Mining

SAMPLE

Datos de entrada, Muestreo, Partición de datos

EXPLORE

Explorar distribuciones, Visualizar, Entender,Asociar,

Selección de variables

MODEL

Regresiones,Árboles de Decisión,Redes Neuronales,Inducción de reglas

MODIFY

Transformación de variables, Filtrar valores extremos (anómalos),

Agrupación, SOM / Kohonen

ASSESS

Evaluación,Puntuación,

Reporte

Page 7: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Metodología CRISP-DM

CRoss-Industry Standard Process for Data Mining Desarrollada por compañías de minería de datos (SPSS,

NCR, OHRA, ChryslerDaimler) y fundada por la Comisión Europea

Independiente de herramientas Independiente de la industria Modelo de proceso jerárquico

Fases Tareas genéricas Tareas específicas Instancias del proceso

Modelo de proceso CRISP Mapeo Proceso CRISP

Page 8: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Metodología CRISP-DM

Mapeo de modelos generales a especializados El Dominio de aplicación- área específica en la que se

desarrolla el proyecto El Tipo de Problema de minería de datos Aspectos Técnicos de cada proyecto (valores faltantes,

anómalos, otros) Las Herramientas y técnicas de minería de datos del

proyecto Existen dos tipos de mapeos:

Mapeando para el presente: Para un solo Proyecto, denominado sencillo

Mapeando para el Futuro: Para un contexto predefinido teniendo como base experiencias pasadas. Sirve para orientar proyectos de contextos similares

Page 9: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Metodología CRISP-DM

Comprensión del negocio

Análisis de los datos

Preparación de los datos

ModelamientoEvaluación

Despliegue Datos

Determinar objetivos del negocioBackgroundObjetivos del negocioCriterios de éxito del negocio

Evaluar la situaciónInventario de recursosRequerimientos, supuestos y restriccionesRiesgos y contingenciasTerminologíaCostos y beneficio

Determinar objetivos de la minería de datosObjetivos de la minería de datosCriterios de éxito de la minería de datos

Construir plan del proyectoPlan del proyecto Evaluación inicial de herramientas y técnicas.

Page 10: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Metodología CRISP-DM

Comprensión del negocio

Análisis de los datos

Preparación de los datos

ModelamientoEvaluación

Despliegue Datos

Recolección inicial de datosReporte de la recolección Inicial de datos.

Descripción de datosReporte de descripción de datos

Exploración de datosReporte de exploración de datos

Verificar la calidad de los datosReporte de calidad de los datos

Page 11: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Metodología CRISP-DM

Comprensión del negocio

Análisis de los datos

Preparación de los datos

ModelamientoEvaluación

Despliegue Datos

Selección de datosRazón para inclusión/exclusión

Limpieza de datosReporte de limpieza de datos

Construcción de datosAtributos derivadosRegistros generados

Integración de datosIntegración de datos

Formato de datosReformateo de datos

Page 12: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Metodología CRISP-DM

Comprensión del negocio

Análisis de los datos

Preparación de los datos

ModelamientoEvaluación

Despliegue Datos

Seleccionar la técnica de modeladoTécnica de modeladoSupuestos del modelado

Generar el diseño de testDiseño del test

Construir el modeloConfiguración de parámetrosModeloDescripción del modelo.

Evaluación del modeloEvaluación del modeloRevisión de la configuración de parámetros

Page 13: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Metodología CRISP-DM

Comprensión del negocio

Análisis de los datos

Preparación de los datos

ModelamientoEvaluación

Despliegue Datos

Evaluar los resultadosEvaluar los resultados de minería de datos Vs. los criterios de éxito del negocio.Aprobar modelos

Revisar el procesoRevisión del proceso

Determinar el siguiente pasoLista de posibles accionesDecisión

Page 14: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Metodología CRISP-DM

Comprensión del negocio

Análisis de los datos

Preparación de los datos

ModelamientoEvaluación

Despliegue Datos

Plan de desplieguePlan de despliegue

Plan de monitoreo y mantenimientoPlan de monitoreo y mantenimiento

Producir los reportes finalesReportes finalesPresentación final

Revisión del proyectoDocumentación de experiencias

Page 15: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Breve Comparación de Metodologías

Datos

Datos Objetivo

Datos Procesados

Datos Transformados

Patrones

Conocimiento

Selección

Pre procesamiento y limpieza

Transformación y selección de características

Minería de datos

Interpretación y evaluación

Comprensión del negocio

Análisis de los datos

Preparación de los datos

ModelamientoEvaluación

Despliegue Datos

SAMPLE

Datos de entrada, Muestreo, Partición de datos

EXPLORE

Explorar distribuciones, Visualizar, Entender,Asociar,

Selección de variables

MODEL

Regresiones,Árboles de Decisión,Redes Neuronales,Inducción de reglas

MODIFY

Transformación de variables, Filtrar valores extremos (anómalos),

Agrupación, SOM / Kohonen

ASSESS

Evaluación,Puntuación,

Reporte

Page 16: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento

Referencias

1. Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2

2. Pete Chapman, Julian Clinton, Randy Kerber and other. CRISP-DM 1.0. Step-by-step data mining guide, 1999-2000. SPSS Inc.

3. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia. http://www.dsic.upv.es/~jorallo/cursoDWDM.

4. Wang, John (Editor). Data Mining: Opportunities and Challenges. Hershey, PA, USA: Idea Group Inc., 2003.