análisis y extracción de conocimiento en sistemas de información: datawarehouse y datamining

14
Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining José Hernández Orallo [email protected] Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia Chihuahua, 9-11 de octubre de 2003

Upload: burt

Post on 26-Jan-2016

48 views

Category:

Documents


8 download

DESCRIPTION

Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Chihuahua, 9-11 de octubre de 2003. José Hernández Orallo [email protected]. Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia. Objetivos Generales. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

Análisis y Extracción de Conocimiento en Sistemas de Información:

Datawarehouse y Datamining

José Hernández [email protected]

Departamento de Sistemas Informáticos y ComputaciónUniversidad Politécnica de Valencia

Chihuahua, 9-11 de octubre de 2003

Page 2: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

2

Objetivos Generales

El objetivo fundamental de este curso es:

conocer el potencial, la problemática y la tecnología (DW+DM) de análisis y extracción de conocimiento

sobre sistemas de información

saber aplicar las técnicas de minería de datos apropiadas para problemas concretos de

extracción de conocimiento.

Se instancia en dos subobjetivos principales:

conocer las técnicas de almacenes de datos y OLAP para facilitar el procesamiento analítico de

apoyo a la toma de decisiones estratégicas.DW

DM

Page 3: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

3

Objetivos Específicos (1/4)

Reconocer el potencial y la problemática del análisis de sistemas de información para la toma de decisiones.

Conocer las ventajas y casos donde es aconsejable recopilar información interna y externa en un Almacén de Datos.

Conocer el modelo multidimensional de datos de los almacenes de datos y los operadores de refinamiento asociados: drill, roll, slice & dice, pivot.

Conocer la arquitectura y diferentes implementaciones (ROLAP, MOLAP) de Almacenes de Datos.

Reconocer pautas para el diseño y mantenimiento de ADs.

Page 4: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

4

Objetivos Específicos (2/4)

Reconocer los beneficios de su uso sistemático de técnicas de extracción de conocimiento para la obtención de modelos y patrones predictivos o descriptivos.

Conocer las fases del Descubrimiento de Conocimiento de Bases de Datos y la importancia de las mismas en el éxito del proceso (en especial las de limpieza y selección de datos).

Conocer las distintas técnicas de aprendizaje automático y estadísticas utilizadas en minería de datos, su potencial, su coste computacional y sus limitaciones de representación y de inteligibilidad.

Page 5: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

5

Objetivos Específicos (3/4)

Elegir, para un problema concreto, qué técnicas de minería de datos son más apropiadas.

Generar los modelos y patrones elegidos utilizando una herramienta o paquete de minería de datos.

Evaluar la calidad de un modelo, utilizando técnicas sencillas de evaluación (validación cruzada).

Utilizar métodos de combinación de técnicas (p.ej. voting) y de reiteración (p.ej. boosting).

Conocer la problemática especial de la minería sobre la web (documentos textuales e hipertextuales) y las técnicas más usuales.

Page 6: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

6

Objetivos Específicos (4/4)

Además, y especialmente dirigido a los asistentes del mundo académico:

Conocer los problemas abiertos en la investigación de almacenes de datos y minería de datos.

Conocer los congresos y foros más importantes, así como las redes, recursos, etc., relacionados con ambas disciplinas.

Page 7: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

7

Temario (1 de 4)

PARTE I: INTRODUCCIÓN (tiempo estimado: 1 hora)

PARTE II: ALMACENES DE DATOS (tiempo estimado: 4 horas)

PARTE III: MINERÍA DE DATOS (tiempo estimado: 7 horas)

PRÁCTICAS SOBRE PARTE III: 8 horas.

Page 8: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

8

Temario (2 de 4)

1.1. Finalidades y Evolución de los Sistemas de Información.

1.2. Herramientas para la Toma de Decisiones: diferencias e interrelación.

1.3. Almacenes de Datos, OLAP y Minería de Datos: definición e interrelación.

Parte I: Introducción

Page 9: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

9

Temario (3 de 4)

2.1. Introducción a los almacenes de datos: motivación definición y características.

2.2. Arquitectura de un sistema de almacén de datos.

2.3. Explotación de un almacén de datos: herramientas OLAP.

2.4. Sistemas ROLAP y MOLAP.

2.5. Carga y Mantenimiento de un Almacén de Datos.

2.6. Diseño de un almacén de datos.

2.7. Líneas de investigación abiertas.

Parte II: Almacenes de Datos

Page 10: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

10

Temario (4 de 4)

3.1. Introducción a la Minería de Datos (DM)3.1.1. Motivación3.1.2. Problemas tipo y aplicaciones3.1.3. Relación de DM con otras disciplinas

3.2. El proceso de KDD3.2.1. Las Fases del KDD3.2.2. Tipología de Técnicas de Minería de Datos3.2.3. Sistemas Comerciales3.2.4. Visualización

3.3. Técnicas de Minería de Datos3.3.1. El Problema de la Extracción Automática de Conocimiento.3.3.2. Evaluación de Hipótesis3.3.3. Técnicas no supervisadas y descriptivas.3.3.4. Técnicas supervisadas y predictivas.

3.4. Web Mining3.4.1. Los Problemas de la Información No Estructurada.3.4.2. Extracción de Conocimiento a partir de Documentos HTML y texto.3.4.3. Extracción de Información semi-estructurada (XML).

3.5. Líneas de Investigación Abiertas

Parte III: Minería

de Datos

Page 11: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

11

Material y Organización

Material:• Transparencias y boletines.• Software:

SPSS Clementine 6.0• Otra Documentación:

http://www.dsic.upv.es/~jorallo/cursoDWDM

Sesiones de 4 horas:• 2 exposición• 2 prácticas con Clementine

Page 12: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

12

Bibliografía (1/3). Almacenes de Datos

• Inmon, W.H. "Building the Data Warehouse", John Wiley, 1992• Inmon, W.H. et al. "Managing the Data Warehouse", John Wiley,

1997• Inmon, W.H. et al. "Data Warehouse Performance", John Wiley,

1999• Kimball, R. "The Data Warehouse Toolkit", John Wiley, 1996• Kimball, R et al. "The Data Warehouse Lifecycle Toolkit", John

Wiley, 1998• Giovinazzo, W. "Object-Oriented Data Warehouse Design",

Prentice-Hall, 2000.• Jarke, M. et al. "Fundamentals of Data Warehouses", Springer,

2000.

Page 13: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

13

Bibliografía (2/3). Minería de Datos

• Berry M.J.A.; Linoff, G.S. “Mastering Data Mining” Wiley 2000.• Berthold, M.; Hand, D.J. (ed) “Intelligent Data Analysis. An

Introduction” Springer 1999. (Nueva edición a aparecer en 2002).• Dunham, M.H. “Data Mining. Introductory and Advanced Topics”

Prentice Hall, 2003.• Dzeroski, S.; Lavrac, N. “Relational Data Mining” Springer 2001.• Etzioni, O. “The World- Wide Web. Quagmire or Gold Mine”

Communications of the ACM, November 1996, Vol. 39, nº 11, 1996.• Fayyad, U.M.; Piatetskiy-Shapiro, G.; Smith, P.; Ramasasmy, U.

“Advances in Knowledge Discovery and Data Mining”, AAAI Press / MIT Press, 1996.

• Fayyad, U.M.; Grinstein, G.; Wierse, A. “Information Visualization in Data Mining and Knowledge Discovery” Morgan Kaufmann, Harcourt Intl., 2001.

• Han, J.; Kamber, M. “Data Mining: Concepts and Techniques” Morgan Kaufmann, 2001.

Page 14: Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

14

Bibliografía (3/3). Minería de Datos

• Hand, D.J.; Mannila, H. and Smyth, P. “Principles of Data Mining”, The MIT Press, 2000.

• Hernández, J.; Ramírez, MJ.; Ferri, C. “Introducción a la Minería de Datos” Pearson Prentice Hall, a aparecer 2004.

• Kosala, R.; Blockeel, H. “Web Mining Research: A Survey” ACM SIGKDD Explorations, Newsletter of the ACM SIG on Knowledge Discovery and Data Mining, June 2000, Vol. 2, nº1, pp. 1-15.

• Mena, Jesus “Data Mining Your Website”, Digital Press, July 1999.• Mitchell, T.M. “Machine Learning” McGraw-Hill 1997.• Pyle, D. “Data Preparation for Data Mining” Morgan Kaufmann,

Harcourt Intl., 1999.• Thuraisingham, B. “Data Mining. Technologies, Techniques, Tools, and

Trends”, CRC Press, 1999.• Witten, I.H.; Frank, E. “Tools for Data Mining”, Morgan Kaufmann, 1999. • Wong, P. C. “Visual Data Mining”, Special Issue of IEEE Computer Graphics

and Applications, Sep/ Oct 1999, pp. 20- 46.