brochure curso avanzado de análisis predictivo desarrollo de modelos empresariales (dm061)

7

Click here to load reader

Upload: kasperu-sac

Post on 10-Aug-2015

179 views

Category:

Documents


0 download

DESCRIPTION

El curso se orienta a plantear un método para la construcción de nuevos modelos predictivos desde datos transaccionales disponibles en bases de datos empresariales, se pretende impartir la experiencia adquirida por KASPeru en la conceptualización, desarrollo, optimización e implementación de modelos predictivos. El desarrollo del curso es netamente práctico, se recomienda que el participante tenga experiencia práctica en el desarrollo de modelos predictivos o que haya cursado estudios en análisis predictivo. Los modelos predictivos se plantean mediante una arquitectura genérica de 5 módulos: adquisición de datos, preparación de datos, aprendizaje de patrones, optimización del modelo y consulta de la predicción. Cada módulo dispone de técnicas y herramientas propias que se plantean durante el desarrollo del curso. El curso tiene como propósito sistematizar el proceso de desarrollo de modelos predictivos acorde a las mejores prácticas aprendidas por KASPeru en múltiples proyectos. La sistematización del proceso permite gestionar los alcances del proyecto, preparar el plan de proyecto, estimar los recursos necesarios, estimar los tiempos de cada actividad, gestionar los riesgos, así como definir los objetivos del modelo, adquirir los datos, preparar los datos, desarrollar los modelos, diseñar los experimentos, medir el rendimiento de cada modelo y desplegar el modelo.

TRANSCRIPT

Page 1: Brochure Curso Avanzado de Análisis Predictivo Desarrollo de Modelos Empresariales (DM061)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

1

Curso Avanzado de Análisis Predictivo

Desarrollo de Modelos Empresariales (DM061)

SUMILLA

El curso se orienta a plantear un método para la construcción de nuevos modelos predictivos desde datos transaccionales disponibles en bases de datos empresariales, se pretende impartir

la experiencia adquirida por KASPeru en la conceptualización, desarrollo, optimización e

implementación de modelos predictivos. El desarrollo del curso es netamente práctico, se

recomienda que el participante tenga experiencia práctica en el desarrollo de modelos predictivos o que haya cursado estudios en análisis predictivo.

Los modelos predictivos se plantean mediante una arquitectura genérica de 5 módulos:

adquisición de datos, preparación de datos, aprendizaje de patrones, optimización del modelo y consulta de la predicción. Cada módulo dispone de técnicas y herramientas propias que se

plantean durante el desarrollo del curso.

El curso tiene como propósito sistematizar el proceso de desarrollo de modelos predictivos

acorde a las mejores prácticas aprendidas por KASPeru en múltiples proyectos. La sistematización del proceso permite gestionar los alcances del proyecto, preparar el plan de

proyecto, estimar los recursos necesarios, estimar los tiempos de cada actividad, gestionar los

riesgos, así como definir los objetivos del modelo, adquirir los datos, preparar los datos,

desarrollar los modelos, diseñar los experimentos, medir el rendimiento de cada modelo y desplegar el modelo.

El curso se desarrolla en 18 horas (6 sesiones de 3 horas c/u), para grupos de no más de

6 estudiantes.

Las clases se desarrollan haciendo uso del SQL Server Data Base Engine como motor de base

de datos; del RapidMiner y del SQL Server Analysis Services como motores de minería de datos

y del KASOptimizer como herramienta de optimización.

CONTENIDO El curso está conformado por los siguientes temas.

Gestión del Proyecto

Entendimiento del Negocio

Entendimiento de los Datos

Preparación de Datos

Modelado y Evaluación

Optimización

Despliegue

Los temas se encadenan en una secuencia lógica de desarrollo pedagógico, basado en la

metodología CRISP-DM.

Page 2: Brochure Curso Avanzado de Análisis Predictivo Desarrollo de Modelos Empresariales (DM061)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

2

OBJETIVOS

Al final del curso los participantes estarán en capacidad de:

Identificar los alcances del proyecto. Plantear el plan del proyecto para el desarrollo del

modelo. Estimar los tiempos para cada etapa del proyecto y los recursos humanos necesarios. Identificar los potenciales riesgos del proyecto.

Identificar problemas que pueden ser resueltos mediante la implementación de modelos

predictivos. Definir las herramientas de software que se usará en cada etapa del proyecto.

Definir los objetivos del proyecto. Plantear, en coordinación con el usuario final, potenciales atributos que explican la variable

a predecir (la clase). Preparar procedimientos almacenados para la preparación de atributos

puntuales y de atributos seriados en el tiempo (curvas de comportamiento). Preparar

procedimientos almacenados para calcular el estado de la clase que corresponde a cada instancia de datos. Comprender y usar técnicas para el muestreo, la descripción, limpieza y

transformación de datos mediante la identificación y eliminación de datos extremos, valores

nulos y datos mal clasificados, la selección de características y el balanceo de datos. Evaluar

la calidad predictiva de cada uno de los atributos identificados, individualmente y en

conjunto. Entender y aplicar algoritmos de árboles de decisión, modelo naive bayes, regresión

logística y redes neuronales. Decidir qué algoritmo usar para abordar el problema y asignar

los parámetros necesarios para su operación. Evaluar el rendimiento de los modelos

creados, usando los indicadores %VP y %VPP. Diseñar experimentos necesarios para la optimización del modelo, en función a los

parámetros de los atributos, parámetros de la etapa de preparación de datos y parámetros

de los algoritmos implementados. Usar el procedimiento de Voting y la regla de Pareto para

seleccionar el subconjunto de atributos que proporcionan el mejor rendimiento. Diseñar procedimientos para la consulta del modelo predictivo.

Adquisición de

Datos

Base de Datos

Aprendizaje

de Patrones

Preparación

de Datos

DataSet

Modelo

Optimización

del Modelo

Diseño

Experimental

Consulta al

Modelo Probabilidad

Arquitectura genérica de un modelo predictivo

Page 3: Brochure Curso Avanzado de Análisis Predictivo Desarrollo de Modelos Empresariales (DM061)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

3

METODOLOGÍA

Planteamiento de un problema predictivo real.

Desarrollo de casos (integrados a la solución del problema).

Desarrollo de tareas domiciliarias. Aplicación de herramientas de software según las necesidades de cada etapa.

Evaluación por casos.

Uso de medios audiovisuales (proyectores)

Materiales de clase impresos y en CD.

DOMINIOS DE APLICACIÓN

Riesgos Financieros Riesgos de Fraudes

Riesgos de Accidentes de Trabajo

Deserción de clientes

Detección de fraudes Segmentación de Clientes

Ventas Cruzadas

Patrones Secuenciales

Análisis de opiniones subjetivas Similaridad de documentos

Búsqueda e indexación de documentos

Análisis de mensajes en redes sociales

Análisis de encuestas abiertas. Análisis de post en blogs.

Análisis de correos electrónicos (spam).

Estructuración de base de datos.

REQUISITOS

Es deseable que los alumnos tengan conocimientos o experiencia en:

Base de datos (MS SQL, Oracle, Sybase, etc.). Desarrollo de procedimientos almacenados (Transact-SQL).

Estadística y probabilidades.

Hoja de cálculo.

Análisis predictivo.

QUIENES PUEDEN ASISTIR

Profesionales encargados del desarrollo de modelos predictivos. Profesionales encargados de la preparación y limpieza de datos.

Profesionales encargados de la optimización de los modelos predictivos.

MATERIALES

El alumno recibe como parte de su capacitación

Un CD conteniendo: el material del curso, la base de datos con data fuente, la base de

datos con el modelo corriendo, software libre y documentos relacionados. Material impreso explicando cada uno de los casos.

CERTIFICADO

Para recibir el certificado de aprobación del curso, los alumnos deben asistir al 100% de las

sesiones y desarrollar los casos proporcionados tal que demuestran su aprendizaje.

Los alumnos que asistan al 100% de las sesiones y no entregan la tareas reciben una

constancia de asistencia por 15 horas.

Page 4: Brochure Curso Avanzado de Análisis Predictivo Desarrollo de Modelos Empresariales (DM061)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

4

HERRAMIENTAS

Para el desarrollo del curso se hace uso de los siguientes programas de software, que el

estudiante debe tener instalado en su computador.

Herramientas estadísticas para el análisis de datos

1. @RISK (ANÁLISIS UNIVARIADO) (no indispensable)

2. MICROSOFT EXCEL

Herramienta para el desarrollo el modelado

1. WEKA EXPLORER

2. ADD-IN PARA ANALYSIS SERVICES

3. RAPIDMINER 4. SQL Server Analysis Services + SQL Server Database Engine

Herramienta para el diseño de experimentos

1. MICROSOFT EXCEL 2. EXPERIMENTER DEL WEKA

3. KASOptimizer (experimentador desarrollado por KASPeru)

Herramienta para la consulta del modelo 1. SQL Server Analysis Services + SQL Server Database Engine

Todos los programas de software que se usan en el desarrollo del curso, pueden ser

descargados de internet y usados en su versión de prueba, excepto el KASOptimizer que es proporcionado como parte del curso.

INSTRUCTOR

Ing. Samuel Oporto Díaz. Especialista en el desarrollo de modelos

predictivos. Magíster en Inteligencia Artificial – ITESM-México.

Ingeniero de Sistemas – UNI-Perú. Estudios de Especialización en robótica aplicada-CNAD-México DF. Docente del curso de

Inteligencia Artificial en la UNI, UPAO, USMP y UPC. Docente del

Curso de Minería de Datos en el IIFIIS, CTIC-UNI y la UPC. Jefe del

Proyectos en el CTIC-UNI. Investigador Principal del Instituto de

Investigación de la FIIS (IIFIIS). Especialista en Visión Artificial, Reconocimiento de Patrones y Redes Neuronales. Investigador en

Ciencias de Computación con publicaciones en: IJCNN2007,

ICAIPR2007, ICIAR2005, LNCS2005, CLEI2004, CLEI2006. Consultor

en Sistemas Inteligentes y Sistemas Autónomos. Consultor del programa de Modernización del Estado Peruano. Consultor de la

Secretaría de Planificación Estratégica del Ministerio de Educación

del Perú. Gerente de KASPERU.

Page 5: Brochure Curso Avanzado de Análisis Predictivo Desarrollo de Modelos Empresariales (DM061)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

5

TEMARIO

SESION 1.

GESTION DEL PROYECTO (1 hora) El proceso de desarrollo de modelos predictivos. Definir los alcances del proyecto. Elaborar

el plan del proyecto. Estimar los tiempos. Identificar los recursos humanos necesarios para

desarrollar el proyecto. Identificar los riesgos del proyecto. Identificar los hitos del proyecto

y puntos de control. Definir las herramientas metodológicas y de software para cada etapa.

ENTENDIMIENTO DEL NEGOCIO (2 horas)

Qué problemas pueden ser resueltos mediante un modelo predictivo. Planteamiento del

problema predictivo. Exposición de los objetivos del proyecto. Identificación del objeto de estudio (unidad de análisis). Planteamiento de potenciales atributos explicatorios. Definición

de los criterios para establecer la clase (objetivo del modelo). Planteamiento de las medidas

de rendimiento esperadas.

SESION 2.

ENTENDIMIENTO DE LOS DATOS (3 horas)

Revisión de los datos proporcionados. Validación preliminar de los datos (datos completos, tamaño de la muestra). Descripción de los datos originales. Revisión de la lista de atributos

explicatorios puntuales. Cálculo de la pre-clase. Identificación de problemas de calidad de

datos. Preparación de la lista de tareas de limpieza de datos.

Tarea 1. Procedimiento para preparar los atributos puntuales y la clase.

SESION 3.

PREPARACIÓN DE LOS DATOS (3 horas)

Diseño del procedimiento de solución. Procedimiento para la importación y actualización

incremental den datos. Procedimiento para la limpieza de los datos. Procedimiento para

preparar los atributos explicatorios puntuales. Procedimiento para preparar la clase. Descripción de los atributos extraídos. Identificación de problemas de calidad de datos en

los atributos. Verificación de datos completos, verificación de autocorrelación.

Tarea 2. Procedimiento para preparar atributos seriados en el tiempo.

SESION 4.

MODELADO Y EVALUACIÓN DEL MODELO (3 horas)

Caracterización de los algoritmos de árboles de decisión, naive bayes, regresión logística y

redes neuronales. Generación de los datos de entrenamiento y los datos de prueba.

Balanceo de datos. Cálculo del peso de los atributos y selección de características. Transformaciones aplicables: normalización y discretización. Uso de los algoritmos naive

bayes, árbol de decisión, regresión logística y redes neuronales para la construcción del

modelo predictivo. Entrenamiento del modelo. Cálculo de la matriz de confusión (%VP,

%VN, %VPP).

Tarea 3. Generación del ranking de atributos puntuales.

Generación de la lista de atributos puntuales con mayor contribución.

Generación del ranking por algoritmo.

Page 6: Brochure Curso Avanzado de Análisis Predictivo Desarrollo de Modelos Empresariales (DM061)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

6

SESION 5.

OPTIMIZACIÓN DEL MODELO (3 horas)

Descripción del KASOptimizer (tablas, procedimientos y parámetros). Identificación de los parámetros de optimización (de atributos, de preparación de datos y de algoritmos). Definir

el criterio de optimización (%VP, %FP o %VPP). Creación del diseño experimental. Corrida

del optimizador. Cálculo de la combinación óptima de atributos (Voting, Pareto).

Tarea 4. Cálculo de la combinación óptima de atributos.

SESION 6.

DESPLIEGUE DEL MODELO (3 horas)

Depuración de la base de datos del modelo (dejar solo los atributos y parámetros

encontrados durante la optimización). Creación de conexión al servidor del modelo. Desarrollo de consultas transaccionales al modelo. Desarrollo de consultas desde

procedimientos almacenados. Actualización incremental de la base de datos fuente.

Tarea 5. Creación del caso de uso para el despliegue del modelo.

Page 7: Brochure Curso Avanzado de Análisis Predictivo Desarrollo de Modelos Empresariales (DM061)

Av. José Pardo 138, Oficina 1402 [email protected]

Miraflores– Lima - Perú www.kasperu.com

Telf. (51-1) 697–8227 / 725-7209

7

KASPeru

Av. José Pardo 138, Oficina 1402

Miraflores

Lima – Perú

(51-1) 697-8227 (51-1) 725-7209

www.kasperu.com [email protected]

Todos los derechos reservados.

Todos los nombres de empresas y/o productos mencionados tienen propósitos de identificación

únicamente, ellos son registrados por sus respectivos dueños.