grupo de investigación en sistemas de información universidad nacional de lanús

85
Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús INGENIERIA DE EXPLOTACION DE INFORMACION Seminario en la Universidad de Medellín Prof. Dr. Ramón Garcia-Martinez

Upload: tallys

Post on 12-Feb-2016

33 views

Category:

Documents


0 download

DESCRIPTION

Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús. INGENIERIA DE EXPLOTACION DE INFORMACION Seminario en la Universidad de Medellín Prof. Dr. Ramón Garcia-Martinez. INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez. INTRODUCCION. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Grupo de Investigación en Sistemas de Información

Universidad Nacional de Lanús

INGENIERIADE

EXPLOTACION DE INFORMACIONSeminario en la Universidad de Medellín

Prof. Dr. Ramón Garcia-Martinez

Page 2: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

INTRODUCCION

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 3: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

La explotación de información basada en tecnologias de sistemas inteligentes se refiere a la aplicación de métodos de sistemas inteligentes, para descubrir y enumerar patrones de conocimiento presentes en la información.

La inteligencia de negocio propone un abordaje interdisciplinario que tomando:

La explotación de Información es la sub-disciplina Informática que aporta a la Inteligencia de Negocio las herramientas (procesos y tecnologías) para la transformación de información en conocimiento

CONTEXTO

todos los recursos de información disponibles

se centra en generar a partir de estos, conocimiento que contribuya con la toma de decisiones de gestión y generación de planes estratégicos en las organizaciones.

el uso de herramientas analíticas y de síntesis con capacidad de transformar la información en conocimiento

*

*

*

++

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 4: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

¿QUÉ ES UN PATRON DE CONOCIMIENTO?

INFORMACION

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 5: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

¿QUÉ ES UN PATRON DE CONOCIMIENTO? ESTADISTICA: Marco Conceptual

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 6: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

¿QUÉ ES UN PATRON DE CONOCIMIENTO? ESTADISTICA: Patrón a priori 1

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 7: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

¿QUÉ ES UN PATRON DE CONOCIMIENTO? ESTADISTICA: Patrón a priori 2

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 8: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

¿QUÉ ES UN PATRON DE CONOCIMIENTO? EXPLOTACION DE INFORMACION

(sin patrón a priori)

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 9: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez

INFORMACION

EXPLOTACION DE INFORMACION VS ESTADISTICAVisión Complementaria

ESTADISTICA

PATRONES

CONFIRMA / REFUTA /AJUSTA PATRONES

SUPUESTOS

EXPLOTACIONDE INFORMACION

PROCESOS

PATRONES

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 10: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

TECNOLOGIAS Y PROCESOSDE

EXPLOTACIÓN DE INFORMACIÓN

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 11: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

VACANCIA CONCEPTUALEN EXPLOTACION DE INFORMACION

INTELIGENCIADE NEGOCIO

PROBLEMA

EXPLOTACIONDE INFORMACION

TECNOLOGIAS

PROCESOS DE EXPLOTACION DE INFORMACION

¿COMO LAS SE USAN PARA RESOLVER EL ?

(Curtis et al., 1992; Chen et al., 1996; Cody et al., 2002; Chung et al., 2003; 2005; Musen et al., 2000; Musen, 2002; Abraham, 2003; Coley, 2003; Fuld et al.,

2003; Chau et al.,2007; Golfarelli et al., 2004;Kosala y Blockeel, 2000; Reiterer et al., 2000; Marshall et al., 2004;

Shiefer et al., 2004; Nguyen et al., 2005.)

Hay CONSENSO en la comunidad académica sobre la necesidad de:

CONSENSO

Definir procesos que permitan obtener conocimiento a partir de las grandes masas de información disponible.

*

Identificar las tecnologías involucradas en dichos procesos.*

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 12: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

TECNOLOGÍAS DE EXPLOTACIÓN DE INFORMACIÓN

• Basadas en Análisis Estadístico:– Análisis de varianza– Regresión– Prueba Chi-cuadrado– Análisis de agrupamientos– Análisis de determinantes– Series de tiempo

• Basadas en Sistemas Inteligentes:– Algoritmos TDIDT– Redes Neuronales SOM– Redes Bayesianas– ¿Redes Neuronales BP?

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 13: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez

Atributo 1

Atributo 3

Atributo 4Atributo2

Atributo 2Clase2

Clase3

Clase1

Clase1

Clase2

Clase4

Clase1

Valor a Valor c

Valor xValor y

Valor m Valor n

Valor z Valor kValor l

Clase1

Valor xValor y

Valor z

La familia TDIDT (Top Down Induction Trees) pertenece a los métodos inductivos del Aprendizaje Automático que aprenden a partir de ejemplos preclasificados.

Dado un conjunto que contiene ejemplos pertenecientes a distintas clases, se realiza una prueba sobre los distintos atributos y se realiza una partición según el “mejor” atributo. Para encontrar el “mejor” atributo, se utiliza la teoría de la información, determinando que atributo aporta mayor ganacia (o menor perdida de informacion) al tomar un determinado valor.

ALGORITMOS TDIDTFundamentos

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 14: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Dolor de pecho de angor

Irradiación del angor

Angor en relación

Duración del angor

Antigüedad del angor

Respuesta vasodilatadora

Infarto agudo de miocardio

Típico Si Con esfuerzo Menos de 30’ Reciente Positivo Si

Atípico No En reposo Más de 30’ Más de 1 mes Negativo No

Ausente No En reposo Menos de 30’ Más de 1 mes Negativo No

Atípico No En reposo Menos de 30’ Reciente Positivo Si

Típico No En reposo Menos de 30’ Más de 1 mes Negativo No

Típico No Con esfuerzo Más de 30’ Reciente Positivo No

Atípico Si En reposo Más de 30’ Reciente Negativo No

Típico No Con esfuerzo Menos de 30’ Reciente Negativo Si

Atípico No Con esfuerzo Menos de 30’ Reciente Negativo Si

Típico No En reposo Más de 30’ Más de 1 mes Positivo No

Ausente Si En reposo Menos de 30’ Más de 1 mes Negativo No

Típico No En reposo Menos de 30’ Reciente Negativo No

Ausente Si Con esfuerzo Más de 30’ Reciente Positivo Si

Típico Si En reposo Más de 30’ Más de 1 mes Positivo No

Típico No En reposo Menos de 30’ Reciente Negativo No

….. ….. ….. ….. ….. ….. …..

Típico No Con esfuerzo Menos de 30’ Más de 1 mes Negativo Si

Dolor de pecho de angor

Duración del angor

No (Infarto de miocardio)

Más de 30’ Menos de 30’

Típico Ausente Atípico

No (Infarto de miocardio)

Si (Infarto de miocardio)

Respuesta vasodilatadora

Negativo Positivo

Si (Infarto de miocardio)

Irradiación del angor

Si No

No (Infarto de miocardio)

Si (Infarto de miocardio)

Angor en relación

Antigüedad del angor

Irradiación del angor

Duración del angor

Respuesta vasodilatadora

Dolor de pecho de angor

Infarto agudo de miocardio

Infarto agudo de miocardio

Infarto agudo de miocardio

Infarto agudo de miocardio

Infarto agudo de miocardio

Infarto agudo de miocardio

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez

ALGORITMOS TDIDTPresentación intuitiva del proceso de inducción

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 15: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

SiCantidad de calorías = AltaY estoy a dieta = Sí

EntoncesNo comerlo

SiCantidad de calorías = AltaY estoy a dieta = NoY estoy yendo al gimnasio = No

EntoncesComerlo la mitad

SiCantidad de calorías = AltaY estoy a dieta = NoY estoy yendo al gimnasio = Sí

EntoncesComerlo

SiCantidad de calorías = Baja

EntoncesComerlo

Reglas

Cantidad de calorías

¿Estoy a dieta?

¿Estoy yendo al gimnasio?

Acción

Alta Sí Sí No comerlo

Alta Sí No No comerlo

Alta No Sí Comerlo

Alta No No Comer la mitad

Baja Sí Sí Comerlo

Baja Sí No Comerlo

Baja No Sí Comerlo

Baja No No Comerlo

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez

ALGORITMOS TDIDTConstrucción de reglas

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 16: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez

Neurona biológica

Neurona artificial

REVISION REDES NEURONALESINGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN

Dr. Ramón García-Martínez

Page 17: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

REDES NEURONALESArquitectura Básica

NEURONAS DE ENTRADA

NEURONAS DE SALIDA

NEURONAS OCULTAS

CONEXIONES ENTRENEURONAS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 18: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

REDES SOMFundamentos

• Este modelo trata de establecer una correspondencia entre los datos de entrada y un espacio bidimensional, creando mapas topológicos, de manera que datos similares activen neuronas en zonas próximas.

• Produce una partición (clasificación) de un conjunto de registros ingresados (partición desconocida “apriori”) en subconjuntos de registros con caracteristicas similares (clusters).

• Cada vez que se presenta una registro de entrada, las neuronas “compiten” y una se define como la ganadora (Best Matching Unit).

• Los pesos de la BMU se actualizan y también los de las neuronas vecinas de manera más atenuada a través de una función de “vecindario” o “Kernel”.

• Los registros deben tener un grado de redundancia elevado para que la SOM pueda realizar su clasificación.

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 19: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

• Cada una de las N neuronas de entrada se conecta a las M de salida a través de conexiones hacia adelante (feedfoward).

• Entre las neuronas de la capa de salida, existen conexiones laterales de inhibición (peso negativo) implícitas

• Aunque no estén conectadas cada una de las neuronas va a tener cierta influencia sobre sus vecinas.

• El valor que se asigne a los pesos de las conexiones hacia adelante entre las capas de entrada y salida durante el proceso de aprendizaje de la red va a depender precisamente de esta interacción lateral.

REDES SOMArquitectura Básica

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 20: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Presentación intuitiva del proceso de agrupamiento

SOM

REDES SOMPresentación intuitiva del proceso de agrupamiento

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 21: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Una red bayesiana es:– Grafo acíclico dirigido– Nodos representan variables– Arcos representan dependencias probabilísticas

• Causa – Efecto• Probabilidad condicional

LadrónSi No

30% 70%Ladrón

Terremoto

AlarmaTerremoto

Si No10% 90%

Ladrón Terremoto

Alarma

Si No

Si Si 99% 1%

Si No 91% 9%

No Si 76% 24%

No No 15% 85%

REDES BAYESIANASFundamentos

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 22: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Aprendizaje estructural– Relaciones de dependencia e independencia

Aprendizaje paramétrico– Probabilidad a priori y condicionales

Proceso de inferencia– Predicciones a partir de observaciones

REDES BAYESIANASGeneración

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 23: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Visitó Asia

Radiografías

Disnea

Fumador Tuberculosis

Cáncer de pulmónBronquitis

Tuberculosis o Cáncer

Visitó Asia

Radiografías Disnea

Fumador

Tuberculosis Cáncer de pulmón Bronquitis

Tuberculosis o Cáncer

REDES BAYESIANASAprendizaje estructural

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 24: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Visitó Asia

Radiografías Disnea

Fumador

Tuberculosis Cáncer de pulmón Bronquitis

Tuberculosis o Cáncer

Tuberculosis o Cáncer Bronquitis

Disnea

Presente Ausente

Verdadero Presente 90% 10%

Verdadero Ausente 70% 30%Falso Presente 80% 20%

Falso Ausente 10% 90%

REDES BAYESIANASAprendizaje paramétrico

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 25: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

REDES BAYESIANASProceso de inferencia

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Visitó Asia

Radiografías Disnea

Fumador

Tuberculosis Cáncer de pulmón Bronquitis

Tuberculosis o Cáncer

Visitó Asia

Radiografías Disnea

Fumador

Tuberculosis Cáncer de pulmón Bronquitis

Tuberculosis o Cáncer

Visitó Asia

Visitó 1,0%

No visitó 99,0%

Fumador

Fumador 50,0%

No fumador 50,0%

Tuberculosis

Presente 1,0%

Ausente 99,0%

Cáncer de pulmón

Presente 5,5%

Ausente 94,5%

Bronquitis

Presente 45,0%

Ausente 55,0%

Tuberculosis o Cáncer de pulmón

Verdadero 6,5%

Falso 93,5%

Radiografías

Anormal 11,0%

Normal 89,0%

Disnea

Presente 43,5%

Ausente 56,5%

Page 26: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

REDES BAYESIANASProceso de inferencia

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Visitó Asia

Radiografías Disnea

Fumador

Tuberculosis Cáncer de pulmón Bronquitis

Tuberculosis o Cáncer

Visitó Asia

Visitó 1,0%

No visitó 99,0%

Fumador

Fumador 50,0%

No fumador 50,0%

Tuberculosis

Presente 1,0%

Ausente 99,0%

Cáncer de pulmón

Presente 5,5%

Ausente 94,5%

Bronquitis

Presente 45,0%

Ausente 55,0%

Tuberculosis o Cáncer de pulmón

Verdadero 6,5%

Falso 93,5%

Radiografías

Anormal 11,0%

Normal 89,0%

Disnea

Presente 43,5%

Ausente 56,5%

Visitó Asia

Visitó 100%

No visitó 0%

Tuberculosis

Presente 5,0%

Ausente 95,0%

Tuberculosis o Cáncer de pulmón

Verdadero 10,2%

Falso 89,8%

Radiografías

Anormal 14,5%

Normal 85,5%

Disnea

Presente 45,0%

Ausente 55,0%

Page 27: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

REDES BAYESIANASProceso de inferencia

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Visitó Asia

Visitó 100%

No visitó 0%

Fumador

Fumador 50,0%

No fumador 50,0%

Tuberculosis

Presente 5,0%

Ausente 95,0%

Cáncer de pulmón

Presente 5,5%

Ausente 94,5%

Bronquitis

Presente 45,0%

Ausente 55,0%

Tuberculosis o Cáncer de pulmón

Verdadero 10,2%

Falso 89,8%

Radiografías

Anormal 14,5%

Normal 85,5%

Disnea

Presente 45,0%

Ausente 55,0%

Fumador

Fumador 100%

No fumador 0%

Cáncer de pulmón

Presente 10,0%

Ausente 90,0%

Bronquitis

Presente 60,0%

Ausente 40,0%

Tuberculosis o Cáncer de pulmón

Verdadero 14,5%

Falso 85,5%

Radiografías

Anormal 18,5%

Normal 81,5%

Disnea

Presente 56,4%

Ausente 43,6%

Page 28: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

REDES BAYESIANASProceso de inferencia

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Visitó Asia

Visitó 100%

No visitó 0%

Fumador

Fumador 100%

No fumador 0%

Tuberculosis

Presente 5,0%

Ausente 95,0%

Cáncer de pulmón

Presente 10,0%

Ausente 90,0%

Bronquitis

Presente 60,0%

Ausente 40,0%

Tuberculosis o Cáncer de pulmón

Verdadero 14,5%

Falso 85,5%

Radiografías

Anormal 18,5%

Normal 81,5%

Disnea

Presente 56,4%

Ausente 43,6%

Tuberculosis

Presente 0,1%

Ausente 99,9%

Cáncer de pulmón

Presente 0,2%

Ausente 99,8%

Tuberculosis o Cáncer de pulmón

Verdadero 0,4%

Falso 99,6%

Radiografías

Anormal 0%

Normal 100%

Disnea

Presente 52,1%

Ausente 47,9%

Page 29: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

REDES BAYESIANASProceso de inferencia

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Visitó Asia

Visitó 100%

No visitó 0%

Fumador

Fumador 100%

No fumador 0%

Tuberculosis

Presente 0,1%

Ausente 99,9%

Cáncer de pulmón

Presente 0,2%

Ausente 99,8%

Bronquitis

Presente 60,0%

Ausente 40,0%

Tuberculosis o Cáncer de pulmón

Verdadero 0,4%

Falso 99,6%

Radiografías

Anormal 0%

Normal 100%

Disnea

Presente 52,1%

Ausente 47,9%

Bronquitis

Presente 92,2%

Ausente 7,8%

Disnea

Presente 100%

Ausente 0%

Tuberculosis o Cáncer de pulmón

Verdadero 0,6%

Falso 99,4%

Tuberculosis

Presente 0,2%

Ausente 99,8%

Cáncer de pulmón

Presente 0,4%

Ausente 99,6%

Page 30: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

REDES BPPresentación intuitiva del proceso de entrenamiento

Patrones de Entrenamiento

0 0 0 1 1 1 10 1 0 1 1 1 0

Patrones de Salida

0 1 1 0 0.86 0.11

0

1

0

1

1

1

0

0

0

0

1

1

1

1

0

0

0

1

1

Patrones de Consulta Entrada

1 1 0 1 1

1

1

0

1

1

0.86

0.

11

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 31: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

REDES BPPresentación intuitiva del proceso de entrenamiento

fSuponemos que existe una función entre X e Y

f Sabemos que (patrones de entrenamiento): f(X1,...,Xn) = (Y1,...,Ym)

f(X1,...,Xn) = (Y1,...,Ym)

Con la BP entrenada podremos saber (para patrones de entrada desconocidos): f(X1,...,Xn) = (Y1,...,Ym) f(X1,...,Xn) =

(Y1,...,Ym)

relación conocida

relación desconocida

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 32: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

PROCESOSDE EXPLOTACION DE INFORMACION IDENTIFICADOS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

• Descubrimiento de reglas de comportamiento

• Descubrimiento de grupos

• Descubrimiento de atributos significativos

• Descubrimiento de reglas de pertenencia a grupos

• Ponderación de atributos relevantes en reglas de comportamiento o de pertenencia a grupos

Page 33: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

¿QUÉ TECNOLOGÍAS PARA QUE PROCESOS?

Redes SOM

Redes Bayesianas

Algoritmos TDIDT

SOM + TDIDT

TDIDT + R. BayesianasSOM + TDIDT + R. Bayesianas

TECNOLOGIAS PROCESO EXPLOTACION DE INFORMACIÓN

Descubrimiento de reglas de comportamiento

Descubrimiento de grupos

Ponderación de interdependencia de atributos

Descubrimiento de reglas de pertenencia a grupos

Ponderación de atributo relevante en reglas de comportamientoPonderación de atributo relevante en reglas de pertenencia a grupos

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 34: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Aplica cuando se requiere identificar una partición en la masa de información disponible sobre el dominio de problema.

Identificación de segmentos de clientes para bancos y financieras

PROCESO:DESCUBRIMENTO DE GRUPOS

Ejemplos de problemas que requieren este proceso:

identificación de tipos de llamadas de clientes para empresas de telecomunicaciónidentificación de grupos sociales con las mismas característicasidentificación de grupos de estudiantes con características homogéneas

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 35: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

SOM

Generación de archivos de grupos

PROCESO:DESCUBRIMENTO DE GRUPOS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 36: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

PROCESO: DESCUBRIMENTO DE GRUPOS

• Britos, P., Grosser, H., Rodríguez, D., Garcia-Martinez, R. (2008). Detecting Unusual Changes of Users Consumption. IFIP Series, 276: 297-306.

CASO:

REFERENCIAS:

Se desea descubrir los patrones de llamadas de un usuario dado para llamadas locales, llamadas nacionales o y llamadas internacionales en orden a detectar desvios en dichos patrones.

El perfil de usuario se estará representando con la distribución de frecuencia en la cuál un determinado usuario realiza un tipo de llamada determinada, mostrando esta estructura dedatos el patrón de consumo del mismo.

Las redes SOM) pueden tomar esta información y construir estos patrones de manera no supervisada por criterios de semejanza, sin saber nada a priori de los datos.

Para evitar ruidos en los datos, se utilizan 3 redes SOM que generen patrones para representar a las llamadas LOC, NAT e INT respectivamente.

El perfil de usuario se construye utilizando todos los patrones generados por las 3 redes.

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 37: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

PROCESO: DESCUBRIMENTO DE GRUPOSPatrones generados llamadas locales

05

101520253035

0 5 10 15 20 25

Hora

Dura

ción

Distribución de frecuencias CUP

0

0,005

0,01

0,015

1 17 33 49 65 81 97 113 129 145 161 177 193 209 225 241

PATRONES(1-144: LOC, 145-208: NAT, 209-244: INT)

Frec

uenc

ia

Distribución de frecuencias UPH

0

0.002

0.004

0.006

0.008

0.01

1 16 31 46 61 76 91 106

121

136

151

166

181

196

211

226

241

PATRONES(1-144: LOC, 145-208: NAT, 209-244: INT)

Frec

uenc

ia

PATRONES DE CONSUMO DE LA POBLACION DE USUARIOS

PATRONES DE CONSUMO DE UN USUARIO DADO EN EL TIEMPO T

PATRONES DE CONSUMO DE UN USUARIO DADO EN EL TIEMPO T+P

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 38: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Aplica cuando se requiere identificar cuales son las condiciones para obtener determinado resultado en el dominio del problema.

Identificación de características del local mas visitado por los clientes

Ejemplos de problemas que requieren este proceso:

Identificación de factores que inciden en el alza las ventas de un producto dadoEstablecimiento de características o rasgos de los clientes con alto grado de fidelidad a la marcaEstablecimiento de atributos demográficos y psicográficos que distinguen a los visitantes de un website

PROCESO:DESCUBRIMENTO DE REGLAS DE COMPORTAMIENTO

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 39: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Identificaciónde atributoClase

Reglas de Comportamiento

Aplicaciónde TDIDT

PROCESO:DESCUBRIMENTO DE REGLAS DE COMPORTAMIENTO

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 40: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

PROCESO: DESCUBRIMENTO DE REGLAS DE COMPORTAMIENTO

• Britos, P. Abasolo, M., García-Martínez, R. y Perales, F. 2005. Identification of MPEG-4 Patterns in Human Faces Using Data Mining Techniques. Proceedings 13 th International Conference in Central Europe on Computer Graphics, Visualization and Computer Vision: 9-10.

CASO:

REFERENCIAS:

A partir de una base de datos con medidas antropométricas del rostro humano (MPEG4 FDP Face Definition Parameters) desarrolladas por la Universidad de las Islas Baleares se busca ver si existen reglas que permitan caracterizar diferencias en los rostros segun el sexo.

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 41: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

PROCESO: DESCUBRIMENTO DE REGLAS DE COMPORTAMIENTO

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 42: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Aplica cuando se requiere identificar cuales son los factores con mayor incidencia (o frecuencia de ocurrencia) sobre un determinado resultado del problema.

Factores con incidencia sobre las ventasEjemplos de problemas que requieren este proceso:

Rasgos distintivos de clientes con alto grado de fidelidad a la marcaAtributos claves que convierten en vendible a un determinado productoCaracterísticas sobresalientes que tienen los visitantes de un website

PROCESO:PONDERACION DE INTERDEPENDENCIA DE ATRIBUTOS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 43: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Aplicación de Redes Bayesianas

Identificaciónde atributo

Clase

PROCESO:PONDERACION DE INTERDEPENDENCIA DE ATRIBUTOS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 44: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Aplica cuando se requiere identificar cuales son las condiciones de pertenencia a cada una de las clases en una partición desconocida “a priori”, pero presente en la masa de información disponible sobre el dominio de problema.

Tipología de perfiles de clientes y caracterización de cada tipología

Ejemplos de problemas que requieren este proceso:

Distribución y estructura de los datos de mi websiteSegmentación etaria de mis estudiantes y comportamiento de cada segmentoClases de llamadas telefónicas en una región y caracterización de cada clase

PROCESO:DESCUBRIMIENTO DE REGLAS DE PERTENENCIA A GRUPOS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 45: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

SOM

Generación de archivos de grupos

Identificación de atributo

clase

Aplicación TDIDT

Reglas de Comportamiento

de cada Grupo

PROCESO:DESCUBRIMIENTO DE REGLAS DE PERTENENCIA A GRUPOS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 46: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

PROCESO: DESCUBRIMIENTO DE REGLAS DE PERTENENCIA A GRUPOS

• Cogliati, M., Britos, P., García-Martínez, R. 2006. Patterns in Temporal Series of Meteorological Variables Using SOM & TDIDT. IFIP Series, 217: 305-314.

CASO:

REFERENCIAS:

En un grupo de series cronológicas de variables meteorológicas (temperatura, presión, intensidad dirección de viento) en Allen, en el Alto Valle del Río Negro se busca encontrar correlaciones entre características de la dirección e intensidad del viento, y el comportamiento de la temperatura del aire y la presiónatmosférica.

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 47: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

PROCESO: DESCUBRIMIENTO DE REGLAS DE PERTENENCIA A GRUPOS

Conjunto de registros de fenómenos meteorológicos

Clusters de registros de fenómenos meteorológicos

SOM

TDIDT TDIDT

TDI DT

TDIDT

TDIDTTDIDT

TDIDT

TDIDT

HELADASRADIATIVAS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 48: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Aplica cuando se requiere identificar cuales son las condiciones con mayor incidencia (o frecuencia de ocurrencia) en la determinación de una clase

Rasgo con mayor presencia en los clientes con alto grado de fidelidad a la marca

Ejemplos de problemas que requieren este proceso:

Frecuencia de ocurrencia de cada perfil de de clientes

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

PONDERACIÓN DE ATRIBUTOS RELEVAN-TES EN REGLAS DE COMPORTAMIENTO

PROCESO:

Page 49: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Identificación del atributo

clase

Identificación del atributos antecedentes y consecuentes clase

Base con atributos

relevantes y y clase

asociada

PONDERACIÓN DE ATRIBUTOS RELEVAN-TES EN REGLAS DE COMPORTAMIENTO

PROCESO:

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 50: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez

PROCESO:PONDERACIÓN DE ATRIBUTOS RELEVANTES EN REGLAS DE COMPORTAMIENTO

• Jiménez Rey, E., Rodríguez, D., Britos, P., García-Martínez, R. (2008). Identificación de Problemas de Aprendizaje de Programación con Explotación de Información. Proceedings del XIV Congreso Argentino de Ciencias de la Computación, Workshop de Tecnología Informática Aplicada en Educación, Artículo 1881. ISBN 978-987-24611-0-2.

• Britos, P., Jiménez Rey, E., García-Martínez, E. (2008). Work in Progress: Programming Misunderstandings Discovering Process Based On Intelligent Data Mining Tools. Proceedings 38th ASEE/IEEE Frontiers in Education Conference. Session F4H: Assessing and Understanding Student Learning. ISBN 978-1-4244-1970-8.

CASO:

REFERENCIAS:

El Profesor de un curso de programación básica desea explorar qué conceptos mal aprendidos están relacionados con el hecho de que los estudiantes no logren descubrir el algoritmo correcto asociado al problema propuesto y cuales de aquellos tienen mayor incidencia

Page 51: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

VARIABLE DE CLASE ¿Logra Descubrir el Algoritmo?

¿Descubre la Naturaleza del Problema? ¿Comprende el Objetivo del Problema? ¿Consigue Generalizar la Solución? ¿Aplica Método de Refinamientos Sucesivos? ¿Logra Funcionamiento del Programa? ¿Obtiene una Solución Lógica? ¿Controla Condición Fin de Ciclo Repetitivo? ¿Usa Conectores Lógicos en forma correcta?

VARIABLES PREDICTORAS

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez

PROCESO:PONDERACIÓN DE ATRIBUTOS RELEVANTES EN REGLAS DE COMPORTAMIENTO(TDIDT)

Page 52: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez

PROCESO:PONDERACIÓN DE ATRIBUTOS RELEVANTES EN REGLAS DE COMPORTAMIENTO(Redes Bayesianas)

Se aplican redes bayesianas a las variables que aparecen en las distintas reglas identificadas

VARIABLES El estudiante obtiene una solución lógica

Muy Buena

Buena Regular Mala

El estudiante aplica método de refinamientos sucesivos = síEl estudiante aplica método de refinamientos sucesivos = incompletoEl estudiante aplica método de refinamientos sucesivos = no

71%14%14%

50%38%12%

33%67%

-

14%69%17%

El estudiante programó alguna vez = noEl estudiante programó alguna vez = sí, en lenguaje Pascal El estudiante programó alguna vez = sí, en otro lenguaje

86%-

14%

58%17%25%

60%20%20%

86%5%

10%

El estudiante controla finalización ciclo repetitivo = síEl estudiante controla finalización ciclo repetitivo = noEl estudiante controla finalización ciclo repetitivo = no siempre

86%14%

-

67%8%25%

67%13%20%

43%43%

-

El estudiante usa conectores lógicos correctamente = sí El estudiante usa conectores lógicos correctamente = noEl estudiante usa conectores lógicos correctamente = no evaluado

100%--

79%17%4%

67%20%13%

67%14%19%

El estudiante descubre la naturaleza del problema = síEl estudiante descubre la naturaleza del problema = no

86%14%

100%-

87%13%

24%76%

El estudiante comprende el objetivo del problema = síEl estudiante comprende el objetivo del problema = no

86%14%

100%-

93%7%

79%21%

El estudiante generaliza la solución = síEl estudiante generaliza la solución = no

86%14%

100%-

47%53%

-100%

El estudiante logra funcionamiento del programa = síEl estudiante logra funcionamiento del programa = noEl estudiante logra funcionamiento del programa = sí, con algún error

57%29%14%

25%62%12%

7%87%7%

-100%

-

El estudiante descubre el algoritmo = síEl estudiante descubre el algoritmo = no

86%14%

96%4%

20%80%

-100%

Page 53: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Aplica cuando se requiere identificar cuales son las condiciones con mayor incidencia (o frecuencia de ocurrencia) en los atributos descriptores de un grupo.

Identificación del factor dominante que incide en el alza las ventas de un producto dado

Ejemplos de problemas que requieren este proceso:

Identificación del tipo de llamada mas frecuente en una región

PONDERACIÓN DE ATRIBUTOS RELEVANTES EN REGLAS DE PERTENENECIA A GRUPOS

PROCESO:

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 54: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

Aplicaciónde SOM

Identificación del atributos y grupo asociado

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

PONDERACIÓN DE ATRIBUTOS RELEVANTES EN REGLAS DE PERTENENECIA A GRUPOS

PROCESO:

Page 55: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

VALIDACIÓN: DOMINIOS DE VALIDACIÓNDOMINIO FUENTEBASE DE DATOS

ALIANZASPOLITICAS

Registros de votación del congreso de EEUU

UCI Machine Learning Repository de la Universidad de California (Irvine)

DIAGNOSTICOMEDICO

Registros de diagnós-tico de linfomas a partir de linfografías

UCI Machine Learning Repository de la Universidad de California (Irvine)

ANALISISDE RIESGO

Registros con descrip-tores a considerar para el otorgamiento de créditos personales

UCI Machine Learning Repository de la Universidad de California (Irvine)

COMPORTAMIENTODE USUARIOS

Registros con descrip-tores del comporta-miento de usuarios del servicio de internet

Informe del área de inteligencia de negocio de una compañía de telefonía argentina.

METEOROLOGÍA Registros con descrip-tores de l comporta-miento de usuarios del servicio de internet

Informe de proyecto de investigación conjunto desarrollado por el Depto de Geografía, UNComahue, CAPIS del ITBA y el Laboratorio de Sistemas Inteligentes de la FI- UBA.

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 56: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

ALIANZASPOLITICAS

DIAGNOS-TICO

MEDICO

ANALISISDE RIESGO

COMPORTA-MIENTO DEUSUARIOS

METEORO-LOGÍA

Descubrimiento de reglas de comportamiento

Descubrimiento de grupos

Ponderación de interdependencia de atributos

Descubrimiento de reglas de pertenencia a grupos Ponderación de atri-butos relevantes en reglas de comporta-miento o reglas de pertenencia a grupos

Reglas deotorgamientode créditos

Subgruposde créditosotorgados

Caracterizaciónde distintos ti-pos de clientes

con crédito

Atributo domi-nante en el

otorgamientode crédito

Reglas deorientacióndel viento

Subgruposde datos

climatológicos

Identificaciónde reglas quecaracterizan

heladas freáticas

Atributo domi-nante en deter-minada orien-

tación del viento

Caracterizaciónde votación decada partido

Coincidenciasde votación

entre partidos

Identificaciónde leyes con

mayor consensoen cada partido

Reglas dediagnósticode cada tipode linfoma

Atributo deter-minante encada tipo

de linfoma

Característicascomunes a

distintos tiposde linfomas

Reglascausales dealta o baja

en el servicio

Identificaciónde causal con

mayor incidenciaen el alta o baja

en el servicio

CASOPROCESO

VALIDACIÓN: PROCESOS VALIDADOSINGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN

Dr. Ramón García-Martínez

Page 57: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

METODOLOGÍASPARA

EXPLOTACIÓN DE INFORMACIÓN

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 58: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

CARACTERÍSTICAS CRISP-DM

• Niveles de abstracción

• Ciclo de vida

Tareas generales

Tareas específicas

Instancias del proceso

Fases MODELO GENÉRICO

MODELO ESPECÍFICO

PROYECCIÓN

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 59: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

CARACTERÍSTICAS SEMMA

Dinámica metodológicaMuestreo

Si/No

Visualización de datos

Clustering, factores de correspondencia

Selección y creación de variables

Transformación de datos

Modelos logísticos Otros modelos estadísticos

Modelos basados en árbolesRedes neuronales

Modelo de evaluación

Sample

Explore

Modify

Model

Asses

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 60: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

CARACTERÍSTICAS P3TQ

FasesDato Oportunidad Prospectiva Definido Estratégico

Recursos humanos Descubrimiento de datosIntrevistas Definición desarrollo

P3TQ Mapeo conceptualCasos de negocio Modelado sistémico

Perfil de presentación Niveles de gestiónMarco de situación Flujos primarios

Dato requerido

Requerimieto real

Preparación de datos

Selección de herramientas y modelado inicial

Ejecución

Evaluación de resultados

Comunicación de resultados

Modelado de Negocio (MII)

Modelado de Explotación de

Información (MIII)

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 61: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

METODOLOGÍACRISP-DM

Page 62: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

COMPRESIÓN DEL NEGOCIO

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 63: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

COMPRESIÓN DE LOS DATOS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 64: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

PREPARACIÓN DE LOS DATOS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 65: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

MODELADOINGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN

Dr. Ramón García-Martínez

Page 66: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

EVALUACIÓN

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 67: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

DESARROLLO

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 68: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

ESTIMACION EMPIRICADE TIEMPOS UTILIZADOS EN CADA FASE

Page 69: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

MODELO DE PROCESOSPARA

EXPLOTACIÓN DE INFORMACIÓN

Page 70: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

MODELOS DE PROCESO•Mejora de la calidad de producción y

producto software.•Previsibilidad en el proceso de desarrollo y

en el producto a lograr.•Modelos Genéricos vs Modelos para PyMES

(CMMi, Normas ISO 9000 vs Competisoft)•Desarrollo de software clásico vs desarrollo

de proyectos de explotación de información (Fases de desarrollo del producto).

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 71: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

DESARROLLO SOFTWAREvs EXPLOTACION DE

INFORMACIÓN•Metodologías de Procesos de Explotación de Información (CRISP, SEMMA, P3TQ)– Pros: Concebidas para proyectos de explotación de

información. Fases naturales para este tipo de proyectos.– Contras: Falta de definición en lo respectivo a procesos

no relacionados con el desarrollo: administración del proceso y administración del negocio.

•Modelo de Proceso de Software (COMPETISOFT)– Pros: Abarca todos los procesos, desde la gestión hasta

el desarrollo.– Contras: Pensado en el desarrollo de software clásico

(inicio, requerimientos, análisis y diseño, construcción, integración y pruebas y cierre).

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 72: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

APORTES DE CRISP-DM Y COMPETISOFT

•CRISP-DM:– Es independiente de las herramientas e incluye todas las tareas de

procesos definidas por las otras.– Incluye algunas tareas relacionadas con el proceso de administración

mezcladas con las de los procesos de desarrollo.– Aporta la definición de los procesos de desarrollo

•COMPETISOFT:– Aporta la definición de los procesos de gestión y administración de proyecto

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 73: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

CRISP-DM

COMPETISOFT

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 74: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

SUBP

ROCE

SOS

DE

GES

TIO

NC

RIS

P-D

M /

APO

RTA

CIO

NES

/ C

OM

PETI

SOFT

PRO

PUES

TA D

E M

OD

ELO

DE

PRO

CESO

DE

EXPL

OTA

CIO

N D

E IN

FORM

ACIO

NINGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN

Dr. Ramón García-Martínez

Page 75: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

SUBP

ROCE

SOS

DE

DES

ARRO

LLO

CR

ISP-

DM

/ A

POR

TAC

ION

ES /

CO

MPE

TISO

FT

PRO

PUES

TA D

E M

OD

ELO

DE

PRO

CESO

DE

EXPL

OTA

CIO

N D

E IN

FORM

ACIO

N

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 76: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

PROCESODE ELCITACION DE REQUERIMIENTOS

PARA EXPLOTACION DE INFORMACIÓN

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 77: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

RELA

CIÓ

N E

NTR

E LO

S PR

OBL

EMAS

IDEN

TIFI

CAD

OS

Y

LOS

CON

CEPT

OS

NEC

ESAR

IOS

A SE

R ED

UCI

DO

S

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 78: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

PROPUESTA DE PROCESODE ELICITACIÓN DE REQUERIMIENTOS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 79: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

REFERENCIAS CRUZADASDE CONCEPTOS EDUCIDOS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 80: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

RELACION ENTRE CONCEPTOS EDUCIDOS Y FASES DEL PROCESO

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 81: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

PLANTILLAS DISEÑADAS PARA CAPTURA Y RELACION DE LOS CONCEPTOS EDUCIDOS

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Page 82: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

REFERENCIASINGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN

Dr. Ramón García-Martínez

TECNOLOGIAS INTELIGENTES• García Martínez, R., Servente, M. y Pasquini, D. 2003. Sistemas

Inteligentes. Editorial Nueva Librería. ISBN 987-1104-05-7.PROCESOS DE EXPLOTACIÓN DE INFORMACIÓN• Britos, P. 2008. Procesos de Explotación de Información Basados en

Sistemas Inteligentes. Tesis Doctoral en Ciencias Informáticas. Facultad de Informática. Universidad Nacional de La Plata. http://www.iidia.com.ar/rgm/tesistas/td-pb-fi-unlp.pdf

CASOS DE ESTUDIO DE PROCESOS

• Britos, P. Abasolo, M., García-Martínez, R. y Perales, F. 2005. Identification of MPEG-4 Patterns in Human Faces Using Data Mining Techniques. Proceedings 13 th International Conference in Central Europe on Computer Graphics, Visualization and Computer Vision: 9-10.

http://www.iidia.com.ar/rgm/comunicaciones/WSCG2005-09-10.pdf.pdf

• Britos, P., Grosser, H., Rodríguez, D., Garcia-Martinez, R. 2008. Detecting Unusual Changes of Users Consumption. IFIP Series, 276: 297-306. http://www.iidia.com.ar/rgm/articulos/IFIP-AI-2008-297-308.pdf

Page 83: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

REFERENCIAS (continuación)INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN

Dr. Ramón García-MartínezCASOS DE ESTUDIO DE PROCESOS (continuación)

• Britos, P., Jiménez Rey, E., García-Martínez, E. 2008. Work in Progress: Programming Misunderstandings Discovering Process Based On Intelligent Data Mining Tools. Proceedings 38th ASEE/IEEE Frontiers in Education Conference. Session F4H: Assessing and Understanding Student Learning. ISBN 978-1-4244-1970-8. http://www.iidia.com.ar/rgm/comunicaciones/FIE-2008-1473.pdf

• Cogliati, M., Britos, P., García-Martínez, R. 2006. Patterns in Temporal Series of Meteorological Variables Using SOM & TDIDT. IFIP Series, 217: 305-314. http://www.iidia.com.ar/rgm/articulos/IFIP-217-305-314.pdf

• Jiménez Rey, E., Rodríguez, D., Britos, P., García-Martínez, R. 2008. Identificación de Problemas de Aprendizaje de Programación con Explotación de Información. Proceedings del XIV Congreso Argentino de Ciencias de la Computación, Workshop de Tecnología Informática Aplicada en Educación, Artículo 1881. ISBN 978-987-24611-0-2.http://iidia.com.ar/rgm/comunicaciones/CACIC-2008-1881.pdf

METODOLOGIAS

• Chapman, P., Clinton, J., Keber, R., Khabaza, T., Reinartz, T., Shearer, C., Wirth, R. 2000. CRISP-DM 1.0 Step by step BIguide. Edited by SPSS. http://www.iidia.com.ar/rgm/CD-TIpEI/TEI-2-CRISP-DM-GdP-material.pdf

Page 84: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

¡ G R A C I A S !

Page 85: Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús

INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez

Prof. Dr. Ramón García-MartínezGrupo de Investigación en Sistemas de Información (GISI)Departamento de Desarrollo Productivo y TecnológicoUniversidad Nacional de Lanúshttp://www.unla.edu.ar/

CONTACTO

E-mail Personal:

E-mail Institucional:

Pagina Web Personal:

Pagina Web GISI:

[email protected]

[email protected]

http://iidia.com.ar/cv-rgm.htm

http://iidia.com.ar/GISI.htm