grupo de investigación en sistemas de información universidad nacional de lanús
DESCRIPTION
Grupo de Investigación en Sistemas de Información Universidad Nacional de Lanús. INGENIERIA DE EXPLOTACION DE INFORMACION Seminario en la Universidad de Medellín Prof. Dr. Ramón Garcia-Martinez. INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez. INTRODUCCION. - PowerPoint PPT PresentationTRANSCRIPT
Grupo de Investigación en Sistemas de Información
Universidad Nacional de Lanús
INGENIERIADE
EXPLOTACION DE INFORMACIONSeminario en la Universidad de Medellín
Prof. Dr. Ramón Garcia-Martinez
INTRODUCCION
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
La explotación de información basada en tecnologias de sistemas inteligentes se refiere a la aplicación de métodos de sistemas inteligentes, para descubrir y enumerar patrones de conocimiento presentes en la información.
La inteligencia de negocio propone un abordaje interdisciplinario que tomando:
La explotación de Información es la sub-disciplina Informática que aporta a la Inteligencia de Negocio las herramientas (procesos y tecnologías) para la transformación de información en conocimiento
CONTEXTO
todos los recursos de información disponibles
se centra en generar a partir de estos, conocimiento que contribuya con la toma de decisiones de gestión y generación de planes estratégicos en las organizaciones.
el uso de herramientas analíticas y de síntesis con capacidad de transformar la información en conocimiento
*
*
*
++
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
¿QUÉ ES UN PATRON DE CONOCIMIENTO?
INFORMACION
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
¿QUÉ ES UN PATRON DE CONOCIMIENTO? ESTADISTICA: Marco Conceptual
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
¿QUÉ ES UN PATRON DE CONOCIMIENTO? ESTADISTICA: Patrón a priori 1
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
¿QUÉ ES UN PATRON DE CONOCIMIENTO? ESTADISTICA: Patrón a priori 2
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
¿QUÉ ES UN PATRON DE CONOCIMIENTO? EXPLOTACION DE INFORMACION
(sin patrón a priori)
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
INFORMACION
EXPLOTACION DE INFORMACION VS ESTADISTICAVisión Complementaria
ESTADISTICA
PATRONES
CONFIRMA / REFUTA /AJUSTA PATRONES
SUPUESTOS
EXPLOTACIONDE INFORMACION
PROCESOS
PATRONES
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
TECNOLOGIAS Y PROCESOSDE
EXPLOTACIÓN DE INFORMACIÓN
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
VACANCIA CONCEPTUALEN EXPLOTACION DE INFORMACION
INTELIGENCIADE NEGOCIO
PROBLEMA
EXPLOTACIONDE INFORMACION
TECNOLOGIAS
PROCESOS DE EXPLOTACION DE INFORMACION
¿COMO LAS SE USAN PARA RESOLVER EL ?
(Curtis et al., 1992; Chen et al., 1996; Cody et al., 2002; Chung et al., 2003; 2005; Musen et al., 2000; Musen, 2002; Abraham, 2003; Coley, 2003; Fuld et al.,
2003; Chau et al.,2007; Golfarelli et al., 2004;Kosala y Blockeel, 2000; Reiterer et al., 2000; Marshall et al., 2004;
Shiefer et al., 2004; Nguyen et al., 2005.)
Hay CONSENSO en la comunidad académica sobre la necesidad de:
CONSENSO
Definir procesos que permitan obtener conocimiento a partir de las grandes masas de información disponible.
*
Identificar las tecnologías involucradas en dichos procesos.*
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
TECNOLOGÍAS DE EXPLOTACIÓN DE INFORMACIÓN
• Basadas en Análisis Estadístico:– Análisis de varianza– Regresión– Prueba Chi-cuadrado– Análisis de agrupamientos– Análisis de determinantes– Series de tiempo
• Basadas en Sistemas Inteligentes:– Algoritmos TDIDT– Redes Neuronales SOM– Redes Bayesianas– ¿Redes Neuronales BP?
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
Atributo 1
Atributo 3
Atributo 4Atributo2
Atributo 2Clase2
Clase3
Clase1
Clase1
Clase2
Clase4
Clase1
Valor a Valor c
Valor xValor y
Valor m Valor n
Valor z Valor kValor l
Clase1
Valor xValor y
Valor z
La familia TDIDT (Top Down Induction Trees) pertenece a los métodos inductivos del Aprendizaje Automático que aprenden a partir de ejemplos preclasificados.
Dado un conjunto que contiene ejemplos pertenecientes a distintas clases, se realiza una prueba sobre los distintos atributos y se realiza una partición según el “mejor” atributo. Para encontrar el “mejor” atributo, se utiliza la teoría de la información, determinando que atributo aporta mayor ganacia (o menor perdida de informacion) al tomar un determinado valor.
ALGORITMOS TDIDTFundamentos
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Dolor de pecho de angor
Irradiación del angor
Angor en relación
Duración del angor
Antigüedad del angor
Respuesta vasodilatadora
Infarto agudo de miocardio
Típico Si Con esfuerzo Menos de 30’ Reciente Positivo Si
Atípico No En reposo Más de 30’ Más de 1 mes Negativo No
Ausente No En reposo Menos de 30’ Más de 1 mes Negativo No
Atípico No En reposo Menos de 30’ Reciente Positivo Si
Típico No En reposo Menos de 30’ Más de 1 mes Negativo No
Típico No Con esfuerzo Más de 30’ Reciente Positivo No
Atípico Si En reposo Más de 30’ Reciente Negativo No
Típico No Con esfuerzo Menos de 30’ Reciente Negativo Si
Atípico No Con esfuerzo Menos de 30’ Reciente Negativo Si
Típico No En reposo Más de 30’ Más de 1 mes Positivo No
Ausente Si En reposo Menos de 30’ Más de 1 mes Negativo No
Típico No En reposo Menos de 30’ Reciente Negativo No
Ausente Si Con esfuerzo Más de 30’ Reciente Positivo Si
Típico Si En reposo Más de 30’ Más de 1 mes Positivo No
Típico No En reposo Menos de 30’ Reciente Negativo No
….. ….. ….. ….. ….. ….. …..
Típico No Con esfuerzo Menos de 30’ Más de 1 mes Negativo Si
Dolor de pecho de angor
Duración del angor
No (Infarto de miocardio)
Más de 30’ Menos de 30’
Típico Ausente Atípico
No (Infarto de miocardio)
Si (Infarto de miocardio)
Respuesta vasodilatadora
Negativo Positivo
Si (Infarto de miocardio)
Irradiación del angor
Si No
No (Infarto de miocardio)
Si (Infarto de miocardio)
Angor en relación
Antigüedad del angor
Irradiación del angor
Duración del angor
Respuesta vasodilatadora
Dolor de pecho de angor
Infarto agudo de miocardio
Infarto agudo de miocardio
Infarto agudo de miocardio
Infarto agudo de miocardio
Infarto agudo de miocardio
Infarto agudo de miocardio
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
ALGORITMOS TDIDTPresentación intuitiva del proceso de inducción
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
SiCantidad de calorías = AltaY estoy a dieta = Sí
EntoncesNo comerlo
SiCantidad de calorías = AltaY estoy a dieta = NoY estoy yendo al gimnasio = No
EntoncesComerlo la mitad
SiCantidad de calorías = AltaY estoy a dieta = NoY estoy yendo al gimnasio = Sí
EntoncesComerlo
SiCantidad de calorías = Baja
EntoncesComerlo
Reglas
Cantidad de calorías
¿Estoy a dieta?
¿Estoy yendo al gimnasio?
Acción
Alta Sí Sí No comerlo
Alta Sí No No comerlo
Alta No Sí Comerlo
Alta No No Comer la mitad
Baja Sí Sí Comerlo
Baja Sí No Comerlo
Baja No Sí Comerlo
Baja No No Comerlo
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
ALGORITMOS TDIDTConstrucción de reglas
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
Neurona biológica
Neurona artificial
REVISION REDES NEURONALESINGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN
Dr. Ramón García-Martínez
REDES NEURONALESArquitectura Básica
NEURONAS DE ENTRADA
NEURONAS DE SALIDA
NEURONAS OCULTAS
CONEXIONES ENTRENEURONAS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
REDES SOMFundamentos
• Este modelo trata de establecer una correspondencia entre los datos de entrada y un espacio bidimensional, creando mapas topológicos, de manera que datos similares activen neuronas en zonas próximas.
• Produce una partición (clasificación) de un conjunto de registros ingresados (partición desconocida “apriori”) en subconjuntos de registros con caracteristicas similares (clusters).
• Cada vez que se presenta una registro de entrada, las neuronas “compiten” y una se define como la ganadora (Best Matching Unit).
• Los pesos de la BMU se actualizan y también los de las neuronas vecinas de manera más atenuada a través de una función de “vecindario” o “Kernel”.
• Los registros deben tener un grado de redundancia elevado para que la SOM pueda realizar su clasificación.
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
• Cada una de las N neuronas de entrada se conecta a las M de salida a través de conexiones hacia adelante (feedfoward).
• Entre las neuronas de la capa de salida, existen conexiones laterales de inhibición (peso negativo) implícitas
• Aunque no estén conectadas cada una de las neuronas va a tener cierta influencia sobre sus vecinas.
• El valor que se asigne a los pesos de las conexiones hacia adelante entre las capas de entrada y salida durante el proceso de aprendizaje de la red va a depender precisamente de esta interacción lateral.
REDES SOMArquitectura Básica
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Presentación intuitiva del proceso de agrupamiento
SOM
REDES SOMPresentación intuitiva del proceso de agrupamiento
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Una red bayesiana es:– Grafo acíclico dirigido– Nodos representan variables– Arcos representan dependencias probabilísticas
• Causa – Efecto• Probabilidad condicional
LadrónSi No
30% 70%Ladrón
Terremoto
AlarmaTerremoto
Si No10% 90%
Ladrón Terremoto
Alarma
Si No
Si Si 99% 1%
Si No 91% 9%
No Si 76% 24%
No No 15% 85%
REDES BAYESIANASFundamentos
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Aprendizaje estructural– Relaciones de dependencia e independencia
Aprendizaje paramétrico– Probabilidad a priori y condicionales
Proceso de inferencia– Predicciones a partir de observaciones
REDES BAYESIANASGeneración
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Visitó Asia
Radiografías
Disnea
Fumador Tuberculosis
Cáncer de pulmónBronquitis
Tuberculosis o Cáncer
Visitó Asia
Radiografías Disnea
Fumador
Tuberculosis Cáncer de pulmón Bronquitis
Tuberculosis o Cáncer
REDES BAYESIANASAprendizaje estructural
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Visitó Asia
Radiografías Disnea
Fumador
Tuberculosis Cáncer de pulmón Bronquitis
Tuberculosis o Cáncer
Tuberculosis o Cáncer Bronquitis
Disnea
Presente Ausente
Verdadero Presente 90% 10%
Verdadero Ausente 70% 30%Falso Presente 80% 20%
Falso Ausente 10% 90%
REDES BAYESIANASAprendizaje paramétrico
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
REDES BAYESIANASProceso de inferencia
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Visitó Asia
Radiografías Disnea
Fumador
Tuberculosis Cáncer de pulmón Bronquitis
Tuberculosis o Cáncer
Visitó Asia
Radiografías Disnea
Fumador
Tuberculosis Cáncer de pulmón Bronquitis
Tuberculosis o Cáncer
Visitó Asia
Visitó 1,0%
No visitó 99,0%
Fumador
Fumador 50,0%
No fumador 50,0%
Tuberculosis
Presente 1,0%
Ausente 99,0%
Cáncer de pulmón
Presente 5,5%
Ausente 94,5%
Bronquitis
Presente 45,0%
Ausente 55,0%
Tuberculosis o Cáncer de pulmón
Verdadero 6,5%
Falso 93,5%
Radiografías
Anormal 11,0%
Normal 89,0%
Disnea
Presente 43,5%
Ausente 56,5%
REDES BAYESIANASProceso de inferencia
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Visitó Asia
Radiografías Disnea
Fumador
Tuberculosis Cáncer de pulmón Bronquitis
Tuberculosis o Cáncer
Visitó Asia
Visitó 1,0%
No visitó 99,0%
Fumador
Fumador 50,0%
No fumador 50,0%
Tuberculosis
Presente 1,0%
Ausente 99,0%
Cáncer de pulmón
Presente 5,5%
Ausente 94,5%
Bronquitis
Presente 45,0%
Ausente 55,0%
Tuberculosis o Cáncer de pulmón
Verdadero 6,5%
Falso 93,5%
Radiografías
Anormal 11,0%
Normal 89,0%
Disnea
Presente 43,5%
Ausente 56,5%
Visitó Asia
Visitó 100%
No visitó 0%
Tuberculosis
Presente 5,0%
Ausente 95,0%
Tuberculosis o Cáncer de pulmón
Verdadero 10,2%
Falso 89,8%
Radiografías
Anormal 14,5%
Normal 85,5%
Disnea
Presente 45,0%
Ausente 55,0%
REDES BAYESIANASProceso de inferencia
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Visitó Asia
Visitó 100%
No visitó 0%
Fumador
Fumador 50,0%
No fumador 50,0%
Tuberculosis
Presente 5,0%
Ausente 95,0%
Cáncer de pulmón
Presente 5,5%
Ausente 94,5%
Bronquitis
Presente 45,0%
Ausente 55,0%
Tuberculosis o Cáncer de pulmón
Verdadero 10,2%
Falso 89,8%
Radiografías
Anormal 14,5%
Normal 85,5%
Disnea
Presente 45,0%
Ausente 55,0%
Fumador
Fumador 100%
No fumador 0%
Cáncer de pulmón
Presente 10,0%
Ausente 90,0%
Bronquitis
Presente 60,0%
Ausente 40,0%
Tuberculosis o Cáncer de pulmón
Verdadero 14,5%
Falso 85,5%
Radiografías
Anormal 18,5%
Normal 81,5%
Disnea
Presente 56,4%
Ausente 43,6%
REDES BAYESIANASProceso de inferencia
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Visitó Asia
Visitó 100%
No visitó 0%
Fumador
Fumador 100%
No fumador 0%
Tuberculosis
Presente 5,0%
Ausente 95,0%
Cáncer de pulmón
Presente 10,0%
Ausente 90,0%
Bronquitis
Presente 60,0%
Ausente 40,0%
Tuberculosis o Cáncer de pulmón
Verdadero 14,5%
Falso 85,5%
Radiografías
Anormal 18,5%
Normal 81,5%
Disnea
Presente 56,4%
Ausente 43,6%
Tuberculosis
Presente 0,1%
Ausente 99,9%
Cáncer de pulmón
Presente 0,2%
Ausente 99,8%
Tuberculosis o Cáncer de pulmón
Verdadero 0,4%
Falso 99,6%
Radiografías
Anormal 0%
Normal 100%
Disnea
Presente 52,1%
Ausente 47,9%
REDES BAYESIANASProceso de inferencia
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Visitó Asia
Visitó 100%
No visitó 0%
Fumador
Fumador 100%
No fumador 0%
Tuberculosis
Presente 0,1%
Ausente 99,9%
Cáncer de pulmón
Presente 0,2%
Ausente 99,8%
Bronquitis
Presente 60,0%
Ausente 40,0%
Tuberculosis o Cáncer de pulmón
Verdadero 0,4%
Falso 99,6%
Radiografías
Anormal 0%
Normal 100%
Disnea
Presente 52,1%
Ausente 47,9%
Bronquitis
Presente 92,2%
Ausente 7,8%
Disnea
Presente 100%
Ausente 0%
Tuberculosis o Cáncer de pulmón
Verdadero 0,6%
Falso 99,4%
Tuberculosis
Presente 0,2%
Ausente 99,8%
Cáncer de pulmón
Presente 0,4%
Ausente 99,6%
REDES BPPresentación intuitiva del proceso de entrenamiento
Patrones de Entrenamiento
0 0 0 1 1 1 10 1 0 1 1 1 0
Patrones de Salida
0 1 1 0 0.86 0.11
0
1
0
1
1
1
0
0
0
0
1
1
1
1
0
0
0
1
1
Patrones de Consulta Entrada
1 1 0 1 1
1
1
0
1
1
0.86
0.
11
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
REDES BPPresentación intuitiva del proceso de entrenamiento
fSuponemos que existe una función entre X e Y
f Sabemos que (patrones de entrenamiento): f(X1,...,Xn) = (Y1,...,Ym)
f(X1,...,Xn) = (Y1,...,Ym)
Con la BP entrenada podremos saber (para patrones de entrada desconocidos): f(X1,...,Xn) = (Y1,...,Ym) f(X1,...,Xn) =
(Y1,...,Ym)
relación conocida
relación desconocida
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PROCESOSDE EXPLOTACION DE INFORMACION IDENTIFICADOS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
• Descubrimiento de reglas de comportamiento
• Descubrimiento de grupos
• Descubrimiento de atributos significativos
• Descubrimiento de reglas de pertenencia a grupos
• Ponderación de atributos relevantes en reglas de comportamiento o de pertenencia a grupos
¿QUÉ TECNOLOGÍAS PARA QUE PROCESOS?
Redes SOM
Redes Bayesianas
Algoritmos TDIDT
SOM + TDIDT
TDIDT + R. BayesianasSOM + TDIDT + R. Bayesianas
TECNOLOGIAS PROCESO EXPLOTACION DE INFORMACIÓN
Descubrimiento de reglas de comportamiento
Descubrimiento de grupos
Ponderación de interdependencia de atributos
Descubrimiento de reglas de pertenencia a grupos
Ponderación de atributo relevante en reglas de comportamientoPonderación de atributo relevante en reglas de pertenencia a grupos
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Aplica cuando se requiere identificar una partición en la masa de información disponible sobre el dominio de problema.
Identificación de segmentos de clientes para bancos y financieras
PROCESO:DESCUBRIMENTO DE GRUPOS
Ejemplos de problemas que requieren este proceso:
identificación de tipos de llamadas de clientes para empresas de telecomunicaciónidentificación de grupos sociales con las mismas característicasidentificación de grupos de estudiantes con características homogéneas
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
SOM
Generación de archivos de grupos
PROCESO:DESCUBRIMENTO DE GRUPOS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PROCESO: DESCUBRIMENTO DE GRUPOS
• Britos, P., Grosser, H., Rodríguez, D., Garcia-Martinez, R. (2008). Detecting Unusual Changes of Users Consumption. IFIP Series, 276: 297-306.
CASO:
REFERENCIAS:
Se desea descubrir los patrones de llamadas de un usuario dado para llamadas locales, llamadas nacionales o y llamadas internacionales en orden a detectar desvios en dichos patrones.
El perfil de usuario se estará representando con la distribución de frecuencia en la cuál un determinado usuario realiza un tipo de llamada determinada, mostrando esta estructura dedatos el patrón de consumo del mismo.
Las redes SOM) pueden tomar esta información y construir estos patrones de manera no supervisada por criterios de semejanza, sin saber nada a priori de los datos.
Para evitar ruidos en los datos, se utilizan 3 redes SOM que generen patrones para representar a las llamadas LOC, NAT e INT respectivamente.
El perfil de usuario se construye utilizando todos los patrones generados por las 3 redes.
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PROCESO: DESCUBRIMENTO DE GRUPOSPatrones generados llamadas locales
05
101520253035
0 5 10 15 20 25
Hora
Dura
ción
Distribución de frecuencias CUP
0
0,005
0,01
0,015
1 17 33 49 65 81 97 113 129 145 161 177 193 209 225 241
PATRONES(1-144: LOC, 145-208: NAT, 209-244: INT)
Frec
uenc
ia
Distribución de frecuencias UPH
0
0.002
0.004
0.006
0.008
0.01
1 16 31 46 61 76 91 106
121
136
151
166
181
196
211
226
241
PATRONES(1-144: LOC, 145-208: NAT, 209-244: INT)
Frec
uenc
ia
PATRONES DE CONSUMO DE LA POBLACION DE USUARIOS
PATRONES DE CONSUMO DE UN USUARIO DADO EN EL TIEMPO T
PATRONES DE CONSUMO DE UN USUARIO DADO EN EL TIEMPO T+P
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Aplica cuando se requiere identificar cuales son las condiciones para obtener determinado resultado en el dominio del problema.
Identificación de características del local mas visitado por los clientes
Ejemplos de problemas que requieren este proceso:
Identificación de factores que inciden en el alza las ventas de un producto dadoEstablecimiento de características o rasgos de los clientes con alto grado de fidelidad a la marcaEstablecimiento de atributos demográficos y psicográficos que distinguen a los visitantes de un website
PROCESO:DESCUBRIMENTO DE REGLAS DE COMPORTAMIENTO
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Identificaciónde atributoClase
Reglas de Comportamiento
Aplicaciónde TDIDT
PROCESO:DESCUBRIMENTO DE REGLAS DE COMPORTAMIENTO
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PROCESO: DESCUBRIMENTO DE REGLAS DE COMPORTAMIENTO
• Britos, P. Abasolo, M., García-Martínez, R. y Perales, F. 2005. Identification of MPEG-4 Patterns in Human Faces Using Data Mining Techniques. Proceedings 13 th International Conference in Central Europe on Computer Graphics, Visualization and Computer Vision: 9-10.
CASO:
REFERENCIAS:
A partir de una base de datos con medidas antropométricas del rostro humano (MPEG4 FDP Face Definition Parameters) desarrolladas por la Universidad de las Islas Baleares se busca ver si existen reglas que permitan caracterizar diferencias en los rostros segun el sexo.
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PROCESO: DESCUBRIMENTO DE REGLAS DE COMPORTAMIENTO
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Aplica cuando se requiere identificar cuales son los factores con mayor incidencia (o frecuencia de ocurrencia) sobre un determinado resultado del problema.
Factores con incidencia sobre las ventasEjemplos de problemas que requieren este proceso:
Rasgos distintivos de clientes con alto grado de fidelidad a la marcaAtributos claves que convierten en vendible a un determinado productoCaracterísticas sobresalientes que tienen los visitantes de un website
PROCESO:PONDERACION DE INTERDEPENDENCIA DE ATRIBUTOS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Aplicación de Redes Bayesianas
Identificaciónde atributo
Clase
PROCESO:PONDERACION DE INTERDEPENDENCIA DE ATRIBUTOS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Aplica cuando se requiere identificar cuales son las condiciones de pertenencia a cada una de las clases en una partición desconocida “a priori”, pero presente en la masa de información disponible sobre el dominio de problema.
Tipología de perfiles de clientes y caracterización de cada tipología
Ejemplos de problemas que requieren este proceso:
Distribución y estructura de los datos de mi websiteSegmentación etaria de mis estudiantes y comportamiento de cada segmentoClases de llamadas telefónicas en una región y caracterización de cada clase
PROCESO:DESCUBRIMIENTO DE REGLAS DE PERTENENCIA A GRUPOS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
SOM
Generación de archivos de grupos
Identificación de atributo
clase
Aplicación TDIDT
Reglas de Comportamiento
de cada Grupo
PROCESO:DESCUBRIMIENTO DE REGLAS DE PERTENENCIA A GRUPOS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PROCESO: DESCUBRIMIENTO DE REGLAS DE PERTENENCIA A GRUPOS
• Cogliati, M., Britos, P., García-Martínez, R. 2006. Patterns in Temporal Series of Meteorological Variables Using SOM & TDIDT. IFIP Series, 217: 305-314.
CASO:
REFERENCIAS:
En un grupo de series cronológicas de variables meteorológicas (temperatura, presión, intensidad dirección de viento) en Allen, en el Alto Valle del Río Negro se busca encontrar correlaciones entre características de la dirección e intensidad del viento, y el comportamiento de la temperatura del aire y la presiónatmosférica.
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PROCESO: DESCUBRIMIENTO DE REGLAS DE PERTENENCIA A GRUPOS
Conjunto de registros de fenómenos meteorológicos
Clusters de registros de fenómenos meteorológicos
SOM
TDIDT TDIDT
TDI DT
TDIDT
TDIDTTDIDT
TDIDT
TDIDT
HELADASRADIATIVAS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Aplica cuando se requiere identificar cuales son las condiciones con mayor incidencia (o frecuencia de ocurrencia) en la determinación de una clase
Rasgo con mayor presencia en los clientes con alto grado de fidelidad a la marca
Ejemplos de problemas que requieren este proceso:
Frecuencia de ocurrencia de cada perfil de de clientes
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PONDERACIÓN DE ATRIBUTOS RELEVAN-TES EN REGLAS DE COMPORTAMIENTO
PROCESO:
Identificación del atributo
clase
Identificación del atributos antecedentes y consecuentes clase
Base con atributos
relevantes y y clase
asociada
PONDERACIÓN DE ATRIBUTOS RELEVAN-TES EN REGLAS DE COMPORTAMIENTO
PROCESO:
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
PROCESO:PONDERACIÓN DE ATRIBUTOS RELEVANTES EN REGLAS DE COMPORTAMIENTO
• Jiménez Rey, E., Rodríguez, D., Britos, P., García-Martínez, R. (2008). Identificación de Problemas de Aprendizaje de Programación con Explotación de Información. Proceedings del XIV Congreso Argentino de Ciencias de la Computación, Workshop de Tecnología Informática Aplicada en Educación, Artículo 1881. ISBN 978-987-24611-0-2.
• Britos, P., Jiménez Rey, E., García-Martínez, E. (2008). Work in Progress: Programming Misunderstandings Discovering Process Based On Intelligent Data Mining Tools. Proceedings 38th ASEE/IEEE Frontiers in Education Conference. Session F4H: Assessing and Understanding Student Learning. ISBN 978-1-4244-1970-8.
CASO:
REFERENCIAS:
El Profesor de un curso de programación básica desea explorar qué conceptos mal aprendidos están relacionados con el hecho de que los estudiantes no logren descubrir el algoritmo correcto asociado al problema propuesto y cuales de aquellos tienen mayor incidencia
VARIABLE DE CLASE ¿Logra Descubrir el Algoritmo?
¿Descubre la Naturaleza del Problema? ¿Comprende el Objetivo del Problema? ¿Consigue Generalizar la Solución? ¿Aplica Método de Refinamientos Sucesivos? ¿Logra Funcionamiento del Programa? ¿Obtiene una Solución Lógica? ¿Controla Condición Fin de Ciclo Repetitivo? ¿Usa Conectores Lógicos en forma correcta?
VARIABLES PREDICTORAS
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
PROCESO:PONDERACIÓN DE ATRIBUTOS RELEVANTES EN REGLAS DE COMPORTAMIENTO(TDIDT)
TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
PROCESO:PONDERACIÓN DE ATRIBUTOS RELEVANTES EN REGLAS DE COMPORTAMIENTO(Redes Bayesianas)
Se aplican redes bayesianas a las variables que aparecen en las distintas reglas identificadas
VARIABLES El estudiante obtiene una solución lógica
Muy Buena
Buena Regular Mala
El estudiante aplica método de refinamientos sucesivos = síEl estudiante aplica método de refinamientos sucesivos = incompletoEl estudiante aplica método de refinamientos sucesivos = no
71%14%14%
50%38%12%
33%67%
-
14%69%17%
El estudiante programó alguna vez = noEl estudiante programó alguna vez = sí, en lenguaje Pascal El estudiante programó alguna vez = sí, en otro lenguaje
86%-
14%
58%17%25%
60%20%20%
86%5%
10%
El estudiante controla finalización ciclo repetitivo = síEl estudiante controla finalización ciclo repetitivo = noEl estudiante controla finalización ciclo repetitivo = no siempre
86%14%
-
67%8%25%
67%13%20%
43%43%
-
El estudiante usa conectores lógicos correctamente = sí El estudiante usa conectores lógicos correctamente = noEl estudiante usa conectores lógicos correctamente = no evaluado
100%--
79%17%4%
67%20%13%
67%14%19%
El estudiante descubre la naturaleza del problema = síEl estudiante descubre la naturaleza del problema = no
86%14%
100%-
87%13%
24%76%
El estudiante comprende el objetivo del problema = síEl estudiante comprende el objetivo del problema = no
86%14%
100%-
93%7%
79%21%
El estudiante generaliza la solución = síEl estudiante generaliza la solución = no
86%14%
100%-
47%53%
-100%
El estudiante logra funcionamiento del programa = síEl estudiante logra funcionamiento del programa = noEl estudiante logra funcionamiento del programa = sí, con algún error
57%29%14%
25%62%12%
7%87%7%
-100%
-
El estudiante descubre el algoritmo = síEl estudiante descubre el algoritmo = no
86%14%
96%4%
20%80%
-100%
Aplica cuando se requiere identificar cuales son las condiciones con mayor incidencia (o frecuencia de ocurrencia) en los atributos descriptores de un grupo.
Identificación del factor dominante que incide en el alza las ventas de un producto dado
Ejemplos de problemas que requieren este proceso:
Identificación del tipo de llamada mas frecuente en una región
PONDERACIÓN DE ATRIBUTOS RELEVANTES EN REGLAS DE PERTENENECIA A GRUPOS
PROCESO:
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Aplicaciónde SOM
Identificación del atributos y grupo asociado
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PONDERACIÓN DE ATRIBUTOS RELEVANTES EN REGLAS DE PERTENENECIA A GRUPOS
PROCESO:
VALIDACIÓN: DOMINIOS DE VALIDACIÓNDOMINIO FUENTEBASE DE DATOS
ALIANZASPOLITICAS
Registros de votación del congreso de EEUU
UCI Machine Learning Repository de la Universidad de California (Irvine)
DIAGNOSTICOMEDICO
Registros de diagnós-tico de linfomas a partir de linfografías
UCI Machine Learning Repository de la Universidad de California (Irvine)
ANALISISDE RIESGO
Registros con descrip-tores a considerar para el otorgamiento de créditos personales
UCI Machine Learning Repository de la Universidad de California (Irvine)
COMPORTAMIENTODE USUARIOS
Registros con descrip-tores del comporta-miento de usuarios del servicio de internet
Informe del área de inteligencia de negocio de una compañía de telefonía argentina.
METEOROLOGÍA Registros con descrip-tores de l comporta-miento de usuarios del servicio de internet
Informe de proyecto de investigación conjunto desarrollado por el Depto de Geografía, UNComahue, CAPIS del ITBA y el Laboratorio de Sistemas Inteligentes de la FI- UBA.
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
ALIANZASPOLITICAS
DIAGNOS-TICO
MEDICO
ANALISISDE RIESGO
COMPORTA-MIENTO DEUSUARIOS
METEORO-LOGÍA
Descubrimiento de reglas de comportamiento
Descubrimiento de grupos
Ponderación de interdependencia de atributos
Descubrimiento de reglas de pertenencia a grupos Ponderación de atri-butos relevantes en reglas de comporta-miento o reglas de pertenencia a grupos
Reglas deotorgamientode créditos
Subgruposde créditosotorgados
Caracterizaciónde distintos ti-pos de clientes
con crédito
Atributo domi-nante en el
otorgamientode crédito
Reglas deorientacióndel viento
Subgruposde datos
climatológicos
Identificaciónde reglas quecaracterizan
heladas freáticas
Atributo domi-nante en deter-minada orien-
tación del viento
Caracterizaciónde votación decada partido
Coincidenciasde votación
entre partidos
Identificaciónde leyes con
mayor consensoen cada partido
Reglas dediagnósticode cada tipode linfoma
Atributo deter-minante encada tipo
de linfoma
Característicascomunes a
distintos tiposde linfomas
Reglascausales dealta o baja
en el servicio
Identificaciónde causal con
mayor incidenciaen el alta o baja
en el servicio
CASOPROCESO
VALIDACIÓN: PROCESOS VALIDADOSINGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN
Dr. Ramón García-Martínez
METODOLOGÍASPARA
EXPLOTACIÓN DE INFORMACIÓN
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
CARACTERÍSTICAS CRISP-DM
• Niveles de abstracción
• Ciclo de vida
Tareas generales
Tareas específicas
Instancias del proceso
Fases MODELO GENÉRICO
MODELO ESPECÍFICO
PROYECCIÓN
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
CARACTERÍSTICAS SEMMA
Dinámica metodológicaMuestreo
Si/No
Visualización de datos
Clustering, factores de correspondencia
Selección y creación de variables
Transformación de datos
Modelos logísticos Otros modelos estadísticos
Modelos basados en árbolesRedes neuronales
Modelo de evaluación
Sample
Explore
Modify
Model
Asses
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
CARACTERÍSTICAS P3TQ
FasesDato Oportunidad Prospectiva Definido Estratégico
Recursos humanos Descubrimiento de datosIntrevistas Definición desarrollo
P3TQ Mapeo conceptualCasos de negocio Modelado sistémico
Perfil de presentación Niveles de gestiónMarco de situación Flujos primarios
Dato requerido
Requerimieto real
Preparación de datos
Selección de herramientas y modelado inicial
Ejecución
Evaluación de resultados
Comunicación de resultados
Modelado de Negocio (MII)
Modelado de Explotación de
Información (MIII)
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
METODOLOGÍACRISP-DM
COMPRESIÓN DEL NEGOCIO
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
COMPRESIÓN DE LOS DATOS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PREPARACIÓN DE LOS DATOS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
MODELADOINGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN
Dr. Ramón García-Martínez
EVALUACIÓN
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
DESARROLLO
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
ESTIMACION EMPIRICADE TIEMPOS UTILIZADOS EN CADA FASE
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
MODELO DE PROCESOSPARA
EXPLOTACIÓN DE INFORMACIÓN
MODELOS DE PROCESO•Mejora de la calidad de producción y
producto software.•Previsibilidad en el proceso de desarrollo y
en el producto a lograr.•Modelos Genéricos vs Modelos para PyMES
(CMMi, Normas ISO 9000 vs Competisoft)•Desarrollo de software clásico vs desarrollo
de proyectos de explotación de información (Fases de desarrollo del producto).
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
DESARROLLO SOFTWAREvs EXPLOTACION DE
INFORMACIÓN•Metodologías de Procesos de Explotación de Información (CRISP, SEMMA, P3TQ)– Pros: Concebidas para proyectos de explotación de
información. Fases naturales para este tipo de proyectos.– Contras: Falta de definición en lo respectivo a procesos
no relacionados con el desarrollo: administración del proceso y administración del negocio.
•Modelo de Proceso de Software (COMPETISOFT)– Pros: Abarca todos los procesos, desde la gestión hasta
el desarrollo.– Contras: Pensado en el desarrollo de software clásico
(inicio, requerimientos, análisis y diseño, construcción, integración y pruebas y cierre).
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
APORTES DE CRISP-DM Y COMPETISOFT
•CRISP-DM:– Es independiente de las herramientas e incluye todas las tareas de
procesos definidas por las otras.– Incluye algunas tareas relacionadas con el proceso de administración
mezcladas con las de los procesos de desarrollo.– Aporta la definición de los procesos de desarrollo
•COMPETISOFT:– Aporta la definición de los procesos de gestión y administración de proyecto
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
CRISP-DM
COMPETISOFT
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
SUBP
ROCE
SOS
DE
GES
TIO
NC
RIS
P-D
M /
APO
RTA
CIO
NES
/ C
OM
PETI
SOFT
PRO
PUES
TA D
E M
OD
ELO
DE
PRO
CESO
DE
EXPL
OTA
CIO
N D
E IN
FORM
ACIO
NINGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN
Dr. Ramón García-Martínez
SUBP
ROCE
SOS
DE
DES
ARRO
LLO
CR
ISP-
DM
/ A
POR
TAC
ION
ES /
CO
MPE
TISO
FT
PRO
PUES
TA D
E M
OD
ELO
DE
PRO
CESO
DE
EXPL
OTA
CIO
N D
E IN
FORM
ACIO
N
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PROCESODE ELCITACION DE REQUERIMIENTOS
PARA EXPLOTACION DE INFORMACIÓN
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
RELA
CIÓ
N E
NTR
E LO
S PR
OBL
EMAS
IDEN
TIFI
CAD
OS
Y
LOS
CON
CEPT
OS
NEC
ESAR
IOS
A SE
R ED
UCI
DO
S
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PROPUESTA DE PROCESODE ELICITACIÓN DE REQUERIMIENTOS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
REFERENCIAS CRUZADASDE CONCEPTOS EDUCIDOS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
RELACION ENTRE CONCEPTOS EDUCIDOS Y FASES DEL PROCESO
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
PLANTILLAS DISEÑADAS PARA CAPTURA Y RELACION DE LOS CONCEPTOS EDUCIDOS
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
REFERENCIASINGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN
Dr. Ramón García-Martínez
TECNOLOGIAS INTELIGENTES• García Martínez, R., Servente, M. y Pasquini, D. 2003. Sistemas
Inteligentes. Editorial Nueva Librería. ISBN 987-1104-05-7.PROCESOS DE EXPLOTACIÓN DE INFORMACIÓN• Britos, P. 2008. Procesos de Explotación de Información Basados en
Sistemas Inteligentes. Tesis Doctoral en Ciencias Informáticas. Facultad de Informática. Universidad Nacional de La Plata. http://www.iidia.com.ar/rgm/tesistas/td-pb-fi-unlp.pdf
CASOS DE ESTUDIO DE PROCESOS
• Britos, P. Abasolo, M., García-Martínez, R. y Perales, F. 2005. Identification of MPEG-4 Patterns in Human Faces Using Data Mining Techniques. Proceedings 13 th International Conference in Central Europe on Computer Graphics, Visualization and Computer Vision: 9-10.
http://www.iidia.com.ar/rgm/comunicaciones/WSCG2005-09-10.pdf.pdf
• Britos, P., Grosser, H., Rodríguez, D., Garcia-Martinez, R. 2008. Detecting Unusual Changes of Users Consumption. IFIP Series, 276: 297-306. http://www.iidia.com.ar/rgm/articulos/IFIP-AI-2008-297-308.pdf
REFERENCIAS (continuación)INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓN
Dr. Ramón García-MartínezCASOS DE ESTUDIO DE PROCESOS (continuación)
• Britos, P., Jiménez Rey, E., García-Martínez, E. 2008. Work in Progress: Programming Misunderstandings Discovering Process Based On Intelligent Data Mining Tools. Proceedings 38th ASEE/IEEE Frontiers in Education Conference. Session F4H: Assessing and Understanding Student Learning. ISBN 978-1-4244-1970-8. http://www.iidia.com.ar/rgm/comunicaciones/FIE-2008-1473.pdf
• Cogliati, M., Britos, P., García-Martínez, R. 2006. Patterns in Temporal Series of Meteorological Variables Using SOM & TDIDT. IFIP Series, 217: 305-314. http://www.iidia.com.ar/rgm/articulos/IFIP-217-305-314.pdf
• Jiménez Rey, E., Rodríguez, D., Britos, P., García-Martínez, R. 2008. Identificación de Problemas de Aprendizaje de Programación con Explotación de Información. Proceedings del XIV Congreso Argentino de Ciencias de la Computación, Workshop de Tecnología Informática Aplicada en Educación, Artículo 1881. ISBN 978-987-24611-0-2.http://iidia.com.ar/rgm/comunicaciones/CACIC-2008-1881.pdf
METODOLOGIAS
• Chapman, P., Clinton, J., Keber, R., Khabaza, T., Reinartz, T., Shearer, C., Wirth, R. 2000. CRISP-DM 1.0 Step by step BIguide. Edited by SPSS. http://www.iidia.com.ar/rgm/CD-TIpEI/TEI-2-CRISP-DM-GdP-material.pdf
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
¡ G R A C I A S !
INGENIERIA DE EXPLOTACIÓN DE INFORMACIÓNDr. Ramón García-Martínez
Prof. Dr. Ramón García-MartínezGrupo de Investigación en Sistemas de Información (GISI)Departamento de Desarrollo Productivo y TecnológicoUniversidad Nacional de Lanúshttp://www.unla.edu.ar/
CONTACTO
E-mail Personal:
E-mail Institucional:
Pagina Web Personal:
Pagina Web GISI:
http://iidia.com.ar/cv-rgm.htm
http://iidia.com.ar/GISI.htm