gissic.files.wordpress.com · luis joyanesaguilar © universidad pontificia de salamanca campus...

246
UNIVERSIDAD PONTIFICIA DE SALAMANCA EN MADRID 1 Prof. Luis Joyanes Aguilar DOCTORADO EN INGENIERÍA INFORMÁTICA Inteligencia de Negocios Curso 2008/09 2º C

Upload: vannguyet

Post on 26-Sep-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSIDAD PONTIFICIA DE SALAMANCA EN MADRID

11

Prof. Luis Joyanes Aguilar

DOCTORADO EN INGENIERÍA INFORMÁTICA

Inteligencia de NegociosCurso 2008/09 – 2º C

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –2–Página –2–

PROGRAMA

1 Estrategia de las empresas para adopción de tecnologías y herramientas Web 2.0: La empresa 2.0

2. DE LAS BASES DE DATOS A LA INTELIGENCIA DE NEGOCIOS.

3. SISTEMAS DE APOYO A LA DECISIÓN (DSS)

4. INTRODUCCIÓN A LOS COMPONENTES DE UN SISTEMA DE INTELIGENCIA DE NEGOCIOS

5. FUNDAMENTOS DE INTELIGENCIA DE NEGOCIOS (BI)

6. DATAWAREHOUSE (Almacenes de datos)

7. ANALÍTICA DE LOS NEGOCIOS (OLAP,…)

8. MINERÍA DE DATOS (DM, TM, WM)

9. Groupware, Workflow y BPM 10. SOA (Seminario optativo y no evaluable)

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

PROGRAMA (Apéndices

APENDICES: Herramientas y provedores de BI (Código propietario y software libre)

TALLERES:

1. Posicionamiento de la empresa en Internet como paso previo a la implantación de un Sistema de Inteligencia de Negocio.

2. Análisis de herramientas de BI , código propietario y código abierto.

Página –3–

UNIVERSIDAD PONTIFICIA DE SALAMANCA EN MADRID

44

Prof. Luis Joyanes Aguilar

INGENIERÍA DE ORGANIZACIÓN INDUSTRIAL

Tema 2De las Bases de Datos a la INCurso 2007/08 – 2º C

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –5–

Recordatorio de Bases de Datos

Entidades y atributos Entidad Libro

Atributos: Título, Editorial, Autor, Páginas, Ciudad de edición,…

Una base de datos relacional organiza los datos en el formato de tablas de dos dimensiones

Tabla o entidad: LIBRO

Atributos: Campos (columnas) y Filas (registros o tuplas)

Base de datos relacionales: Relaciones entre entidades

Operaciones típicas en una Base de datos: Quering(consultas) y Reporting (emisión de informes)

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –6–

Uso de Bases de Datos para mejora de la productividad y la toma de decisiones en los

negocios y en las organizaciones

Las entidades, organizaciones, negocios necesitan las bases de datos para las tareas diarias y transacciones básicas, tales como pago de proveedores, proceso de pedidos, servicios a clientes, pagos a empleados, etc.

Pero se necesitan bases de datos más potentes para proporcionar información que ayude a la empresa a gestionar los negocios más eficientemente y ayude a los directivos y empleados a tomar mejores decisiones

Si una compañía desea conocer cual es el producto más popular o cual es el cliente más rentable, la respuesta reside en los datos y en como se convierten en conocimiento

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –7–

Sistema de Gestión de Bases de Datos

Es un tipo específico de software para creación, almacenamiento, organización y acceso a datos de una base de datos

Microsoft Access es un SGBD para sistemas de escritos

DB2, Oracle Database, Microsoft SQL Server,... Son SGBD para computadores grandes y medios.

MySQL es SGBD de open-source muy popular (comprada hace unos meses por Sun Microsystems)

Oracle Database Lite es un SGBD para dispositivos de computación de mano “handheld”

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –8–

Herramientas para la toma de decisiones

Data Warehouses

Data Marts

Inteligencia de negocios:

OLAP

Data mining

Text Mining (documentación y gestión de contenidos)

Data Mining en la Red: Web Mining

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –9–

Casos prácticos de BI Iberia

MySpace

IBM (herramientas de toma de decisiones Web 2.0)

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –10–

Uso de las BBDD en la mejora de las prestaciones de negocio y la toma de decisiones

Los negocios utilizan sus bases de datos para realizar sus transacciones básicas, tales como pago de proveedores, procesos de pedidos , servicio a clientes y pago de empleados

Pero también necesitan las bases de datos para proporcionar información que ayuden a la empresa a hacer los negocios más eficientes y ayudar a los directores y ejecutivos a tomar mejores decisiones. Si una empresa desea conocer qué producto es el más popular o quien es el cliente más rentable, la respuesta está en los datos.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –11–

De las bases de datos a los DW, datamart, BI,..

El análisis de datos de los cliente, p. e., de un gran almacén o de una cadena de restaurantes puede conducir a la conclusión de que para muchos clientes la calidad es más importante que los precios ... Si esto es así, las cadenas pueden introducir nuevas dietas, o nuevas promociones de ventas, etc.

En una gran empresa, con grandes bases de datos o grandes sistemas para funciones independientes, tales como fabricación, ventas, contabilidad,.. Se requieren características especiales y se requieren herramientas de análisis de grandes cantidades de datos procedentes de múltiples sistemas

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –12–

¿Qué es un almacén de datos?

Si se desea información fiable sobre operaciones actuales, tendencia y cambios radicales en la empresa, puede ser difícil conseguir esa información ya que los datos pueden estar en sistemas independientes tales como, ventas, fabricación, contabilidad, etc.

Algunos de los datos que se necesitan pueden encontrarse en los sistemas de ventas, y otros en el sistema de fabricación. Muchos de los sistemas pueden son sistemas antiguos (heredados) que utilizan tecnologías de gestión de datos desactualizados o sistemas de archivos cuya información es difícil de acceder por los usuarios, y otros problemas, tendencias, predicciones y son los DW ...

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –13–

¿Qué es un almacén de datos?

UN DW es una base datos que almacena datos históricos y actuales de interés potencial para los “tomadores” de decisiones en la empresa. Los datos se originan en muchos sistemas de transacciones operaciones, tales como sistemas de ventas, cuentas de clientes , fabricación e incluso datos de transacciones de sitios web.

Los DW consolidan y estandarizan la información de diferentes bases de datos operacionales de modo que la información se puede utilizar en la empresa para análisis de la gestión y toma de decisiones

Muchas empresas utilizan portales intranet para hacer que la información de los DW estén disponibles para la empresa.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –14–

Data mart

Es un subconjunto de un DW en el que una parte de los datos de una organización se sitúan en bases de datos independientes para una población específica de usuarios.

Un data mart normalmente se centra en una única área temática o línea de negocios, de modo que , normalmente, se puede construir más rápidamente y a un menor coste que un DW de una gran empresa

P.e. una compañía puede desarrollar data marts de marketing y de ventas,...

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –15–

BI, OLAP, Data Mining

Las consultas de las bases de datos tradicionales responden a preguntas tales como “Cuantas unidades del producto de código 345678 se vendieron en el mes de febrero de 2008? OLAP, soporta preguntas más complejas tales como “Compara las ventas del producto 345678 para planificar las ventas del trimestre y ventas por regiones para los próximos dos años

Con DW se consiguen datos corporativos que no se pueden localizar con BD ni con OLAP, tales como encontrar patrones ocultos y relaciones de grandes bases de datos

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –16–

Tipos de información obtenidas de MD

Asociaciones. Son ocurrencias enlazadas a un único evento, Por ejemplo, un estudio de patrones de compra en supermercados puede revelar que, las personas que compran patatas fritas también compran cerveza o coca cola, p.e. un 60%, y que cuando hay una promoción conjunta llegan las ventas al 85%. Esta información puede ayudar a tomar mejores decisiones para aumentar la rentabilidad de una promoción comercial.

En secuencias, los sucesos se enlazan en el tiempo. P. e. se puede deducir, que cuando se compra una casa , un nuevo refrigerador y una nueva lavadora se compraran dentro de las dos próximas semanas.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –17–

Tipos de información obtenidas de MD

Clasificación. Reconoce patrones que describen el grupo al cual pertenece un elemento examinando elementos existentes que han sido clasificados por inferencia de un conjunto de reglas.. P. e. negocios tales como tarjetas de crédito u operadoras de teléfonos que tratan de averiguar porque pierden clientes estables y/o antiguos en la compañía. La clasificación de los clientes puede ayudar a descubrir las características de los clientes , proporcionar modelos de clientes y poner en marcha campañas de clientes para retener a tales clientes.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –18–

Tipos de información obtenidas de MD

Clustering. Trabaja de modo similar a la clasificación cuando no se ha definido ningún grupo. Una herramienta de minería de datos puede descubrir diferentes agrupamientos en los datos, tales como encontrar grupos de afinidad de tarjetas de crédito o partición de una base de datos en grupos de clientes basados en propiedades demográficas y tipos de inversiones personales

Todas estas aplicaciones implican predicciones, las previsiones (forecasting) utilizan predicciones de diferentes modos. Utilizan una serie de valores existentes para planificar los futuros valores. Las previsiones pueden ayudar a encontrar patrones de datos para estimaciones futuras.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –19–

Bases de datos y Web

Los enlaces de bases de datos internas a la Web se realizan de la forma siguiente:

Cliente con navegador Web

Internet

Servidor Web

Servidor de aplicaciones

Servidor de bases de datos

Bases de datos

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –20–

Bases de datos y Web

Muchas bases de datos “back-end” no pueden interpretar ordenes escritas en HTML, el servidor pasará estas peticiones de datos al software que traduce ordenes HTML en SQL de modo que ellas pueden ser procesadas por el sistema SGBD con la base de datos. En un entorno Cliente/Servidor, el SGBD reside en un computador dedicado llamado servidor de base de datos. El sistema SGBD recibe las peticiones SQL y proporciona los datos requeridos.

La información se transfiere de la base de datos interna de la organización al servidor Web para entregar en forma de una página Web al usuario.

El acceso a BD corporativas a través de la Web está generando alta eficiencia y oportunidades de negocio, p. e. proporcionando directorios actualizados de información de cientos de miles de productos industriales, clientes, etc.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –21–

Gestión de los recursos de datos

Una vez configurada y puesta en marcha una base de datos, se necesita asegurarse de que los datos de los negocios permanecen precisos, fiables y fácilmente disponibles para todo lo que se necesite y ello obliga a : Políticas especiales y procedimientos para la gestión de los datos

Establecimiento de una política de información. Especifica las reglas de la organización para compartición, diseminación, adquisición, estandarización, clasificación e inventariado de la información...

P.e. una política de información debe especificar cuales miembros del equipo de nomina y del departamento de recursos humanos tienen autorización para cambios de datos sensibles de los empleados, tales como nº de la s.s, salario, etc.

El departamento de administración de datos es el responsable de las políticas específicas y los procedimientos de gestión de los datos.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –22–

Gestión de los recursos de datos

Aseguramiento de la calidad de los datos.

Una base de datos bien diseñada y una política de información debe asegurar a los responsables del negocio toda la información que se necesita.

Auditoría de la calidad de los datos

Limpieza de los datos

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –23–Página –23–

Situación real de las grandes multinacionales del software y posicionamiento actual y en la futura

Web 2.0

Sun MicroSystems / MySQL /… posible compra por IBM (anuncio la semana pasada)

Oracle

Oracle compró en Marzo Hyperion (por 3.300 millones de dólares), uno de los grandes proveedores de BI … pretende, según los analistas, mejor posicionamiento para introducirse en entornos SAP… Previamente habia comprado J.D. Edwards, PeopleSoft y Siebel.

BEA Systems ... Compra de BEA por Oracle

Cognos comprado por IBM

Business Object comprado por SAP

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –24–

FABRICANTES DE SOFWARE DE BI

SAP Business Information Warehouse (SAP BW) permite analizar los datos de las aplicaciones SAP operativas, además de otras aplicaciones empresariales y fuentes de datos externas (p.e. bases de datos, servicios online e Internet)

SAP NetWeaver Business Intelligence permite integrar datos a través de la empresa : soporta Data Warehousing, Business Intelligence, Planeación de negocios, Información clave de negocios,..

SAP Enterprise Portal

---

Página –24–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –25–

FABRICANTES DE SOFWARE DE BI

BEA Systems ha apostado por SOA y Web 2.0, y presentado a nivel mundial (en junio pasado) 3 herramientas para Web 2.0: AquaLogic Ensemble, AquaLogic Pagees y Aqua Locig Pathways…Herramientas pensadas para el desarrollo de portales

Europa lidera el mercado SOA, ya que sus empresas han apostado desde un principio por esta arquitectura, aunque el desarrollo va más rápido en Estados Unidos

Página –25–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –26–

Mejores prácticas en la gestión de TI

ITIL – adoptada inicialmente por el Reino Unido y Holanda se ha ido extendiendo a muchas naciones, con una gran aceptación… Busca conseguir criterios para medir la rentabilidad, eficacia y calidad del servicio ofrecido a toda la organización por los departamentos de TI

Se requiere cada vez más de mejores prácticas de las sociedades (IT Governance) e ITIL es una de las expresiones más importantes

En EEUU la aplicación de la Ley Sarbanes-Oxley y en España (y Europa) la Leyes Conthe, Buen Gobierno, … requieren control y asignación de responsabilidades en todo lo referente a información financiera

Página –26–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –27–

Mejores prácticas en la gestión de TI

Expansión de ITIL en el marco de auditoría informática, normas de calidad y de seguridad y en el contexto más amplio de explotación de sistemas

La ISO2000, creada en diciembre de 2005, y pendiente de publicación en el BOE como norma española localizada

El número de certificados ITIL en España se ha duplicado en 2005 y casi cuatriplicado en 2006 a 2008 frente al año 2004–

Página –27–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –28–

Mejores prácticas en la gestión de TI

IT Governance permite maximizar el valor de negocio de las inversiones en TI.

Hoy las TI constituyen un elemento crítico de casi cualquier empresa, se ha convertido en un proceso calve y deben ser uno de los focos principales en la generación de valor

El IT Governance permite gestionar las TI como un negocio en sí mismo y en consecuencia cualquier organización puede beneficiarse de su implementación …. (estas circunstancias aumentan la importancia de BI como aglutinador de BPM y arquitecturas SOA)

Página –28–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –29–

Mejores prácticas en la gestión de TI

Metodologías y certificaciones ISO 17799 para asegurar el desarrollo de los IT Governance de cada organización

Metodologías de implantación: COBIT (Control Objectives for Information and related Technology), ITIL (IT Infrastructure Library)

Forrester aconseja utilizar COBIT para el control y gobierno TI, ITIL para la entrega y soporte de servicio e ISO 17799 para la seguridad

Página –29–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –30–Página –30–

VOLUMEN DE INFORMACIÓN DIGITAL (IDC)

The Expanding Digital Universe elaborado por la consultora IDC y patrocinado por EMC (Marzo 2007).

www.emc.com/about/destination/digital_universe

www.pcwla.com/pcwla2.nsf/noticias_de_it/...

El número de usuarios de Internet en 1996 era de 48 millones y se ha multiplicado por veinticinco (1.100 millones en 2006 y ascenderán a 1.600 millones en 2010) y el volumen de información digital seguirá expandiéndose y en el año 2010 será seis veces el actual

En 2010 los usuarios individuales son y seguirán siendo los principales agentes que crean y mueven información. En 2010 generarán el 70% de datos en formato digital y por delante de empresas, gobiernos y organizaciones.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –31–Página –31–

VOLUMEN DE INFORMACIÓN DIGITAL (IDC)-2

Existen 900 millones de ordenadores (computadores)

550 millones de reproductores de música digital

600 millones de teléfonos móviles con cámara

400 millones de cámaras

--

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –32–Página –32–

VOLUMEN DE INFORMACIÓN DIGITAL (IDC)-3

En 2006 se generaron 161.000 millones de gigas deb información digital (161 exabytes). Equivalente a tres millones de veces la información contenida en todos los libros escritos hasta la fecha

Si la información digital se imprimiese en papel permitiría envolver a la Tierra cuatro veces

Los contenidos digitales seguirán creciendo y en el 2010 se habrán multiplicado por seis (988 exabytes).

Increíble crecimiento de la información y de los diferentes tipos de la misma que se generan desde sitios muy distintos

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –33–Página –33–

VOLUMEN DE INFORMACIÓN DIGITAL (IDC)-4

El estudio detecta el próximo aumento de información digital: las imágenes (fotos y vídeos) y el audio (música y telefonía a través de la red)

Aparatos digitales

Fotos digitales

Vídeo digital

Internet

E-mail

Banda ancha

Economias emergentes

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –34–Página –34–

VOLUMEN DE INFORMACIÓN DIGITAL (IDC)-5

A lo largo de 2007, la cantidad de información generada superará, por primera vez, la capacidad de almacenamiento disponible.

El estudio también constata que el 60% de los usuarios de Internet tienen acceso a banda ancha en casa, en el trabajo o en la escuela

El número de cuentas de correo-e creció desde 253 millones en 1998 hasta cerca de 1.600 millones en 2006. La previsión para 2010 es alcanzar los 2.000 millones

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –35–Página –35–

Gestión de la información en las empresas

El estudio concluye que los empleados de una organización gastan

14,5 horas a la semana leyendo y contestando correos electrónicos

13,3 horas creando documentos

9,6 horas buscando información

9.5 oras analizando información

Más de 1 ¼ de jornada laboral a gestiones en Internet

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –36–Página –36–

Gestión de la información en las empresas-2

Una empresa con 1.000 empleados pierde 4,3 millones de euros anualmente sólo en el tiempo que sus empleados necesitan para adaptar la información a las diferentes aplicaciones tecnológicas.

Por el contrario, no encontrar a tiempo la información tiene un coste adicional para la misma organización de 4 millones de euros al año.

También se augura que el número de transacciones de comercio-e entre las empresas y sus clientes se multiplicará por 100 en cinco años.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –37–Página –37–

Experimento de Gordon Bell - Microsoft

En 2000 comenzó el siguiente experimento: Se trataba de almacenar toda la información que generaba y

recibía (él mismo): los libros que leía y canciones que escuchaba, las conversaciones telefónicas que mantenía, los webs que visitaba,..

La idea idea de Bell era probar que un individuo podría conservar toda su vida en un terabyte (un reproductor digital de ese tamaño contendría unas 300.000 canciones, 1250 horas de vídeo o 312.000 fotografías)

Durante los 7 años del experimento ha acumulado unos 150 GB, el 15% de lo que tiene disponible para toda su vida

Sin embargo al intentar grabar todos los programas de TV que veía, almacenó más del doble de esa cantidad. Eso significa que un TB es suficiente para una vida repleta de texto, pero difícilmente será para una vida audiovisual

UNIVERSIDAD PONTIFICIA DE SALAMANCA EN MADRID

3838

Prof. Luis Joyanes Aguilar

Tema 3. DSS

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –39–Página –39–

SISTEMAS DE APOYO A LA DECISIÓN (DSS)

Estado de las organizaciones en un mundo globalizado y tecnológico

El entorno del negocio (Factores clave)

Mercados

Demandas de los consumidores

Tecnologías

Societal (regulaciones, desregulaciones, políticas, RSC,…)

Respuestas de las organizaciones

Reactiva, Anticipadora, Adaptable, Proactiva

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –40–Página –40–

TOMA DE DECISIONES EN LA GESTIÓN

La gestión (administración, dirección) es un proceso por el cual los objetivos organizacionales se consiguen utilizando recursos.

Los recursos son las entradas y la consecución de los objetivos se visualizan como la salida del proceso

El grado de éxito de la organización y de su gestión se suele medir por la ratio de salidas a entradas

La ratio es una indicación de la productividad de la organización, que es un reflejo de las prestaciones (rendimiento, desempeño) organizacional y gerencial

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –41–Página –41–

ROLES DE GESTIÓN (Mintzberg 1980)

Se clasifican en tres categorías:

Interpersonal

Informacional

De decisión

Para ejecutar los roles, los directivos necesitan información que se entrega en tiempo y modo a los PCs en las oficinas, a los computadores portátiles (móviles), a los PDAs (Asistentes personales digitales), a los teléfonos celulares inteligentes o no, a las redes sociales de las organizaciones, a los blogs, … Normalmente se entrega vía tecnologías Web, Telefonía IP, etc.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –42–Página –42–

EL PROCESO DE TOMA DE DECISIONES

Aprendizaje a través de la experiencia, tratamiento de pruebas ante errores, intuición, creatividad,…

La toma de decisiones suele seguir un proceso de cuatro pasos:

Definir el problema

Construir un modelo que describa el problema del mundo real

Identificar posibles soluciones al problema modelado y evaluar las soluciones

Comparar, elegir y recomendar una potencial solución al problema

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –43–Página –43–

Dificultades en los procesos de evaluación

Numerosas alternativas a elegir entre: Tecnologías, servicios de información, motores de búsqueda avanzada, servicios de blogs corporativos o personales, revistas en línea,…

Regulaciones de los gobiernos, inestabilidades políticas, cambios en la demanda de los consumidores… producen cada vez más incerctidumbres y dificultad en predecir el futuro

Necesidad de tomas decisiones rápidas ante cambio frecuentes e impredecibles

Los entornos de negocios se hacen más complejos día a día

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –44–Página –44–

SISTEMAS DE APOYO A LA DECISIÓN COMPUTERIZADOS (Informatizados)

Las aplicaciones informáticas se han desplazados de los sistemas de proceso tradicionales a procesos basados en tecnologías Web

Las herramientas de BI, tales como DW, DM, OLAP, dashboards, portales de la web, medios de comunicación electrónicos, etc. son el núcleo fundamental de la gestión moderna

Los directivos deben estar enlazados y conectados a sistemas en red (cableados o sin cable) para apoyo en su toma de decisiones importantes

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –45–Página –45–

¿Porqué utilizar DSS computerizados?

Computaciones rápidas

Comunicación y colaboración mejoradas

Incrementar la productividad de los miembros de los grupos

Mejorar la gestión de los datos

Mejorar los grandes almacenes de datos

Soporte a la calidad

Soporte a la agilidad y flexibilidad

Superación de los límites cognitivos en el proceso y almacenamiento de la información.

Uso de la Web

Soporte en cualquier parte, en cualquier lugar y con cualquier dispositivo

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –46–Página –46–

FASES DE UN PROCESO DE TOMA DE DECISIONES

Inteligencia Búsqueda de condiciones, informes, consultas,---

Diseño Invención, desarrollo, análisis de posibles soluciones

Elección Selección de una acción concreta entre las disponibles

Implementación Resolución del problema o explotación de la oportunidad

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –47–

Etapas de soporte a la decisión

Página –47–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –48–Página –48–

Soporte DSS

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –49–

Framework para la toma de decisión automatizada

Página –49–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –50–Página –50–

Concepto de DSS

“Sistemas interactivos basados en computadores, los cuales ayudan a la toma de decisiones utilizando datos y modelos para resolver problemas no estructurados” [Scott-Morton, 1971]

“Los DSS asocian los recursos intelectuales de los individuos con las capacidades de los computadores para mejorar la calidad de las decisiones. Es un sistema de soporte basado en computadores para los responsables de las tomas de decisiones y que tratan con problemas semiestructurados” [Keen-Scott Morton, 1978]

En general, es cualquier sistema computerizado que ayuda a la toma de decisiones en una organización

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –51–

Arquitectura de un DSS de alto nivel

Página –51–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –52–Página –52–

Vista esquemática de un DSS

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –53–Página –53–

REFERENCIAS

[TURBAN et al, 2007] Turban, E., Aronson J.E., Liang T-P. y Sharda, R. Decision Support and Business Intelligence Systems. Eigth Edition. New Jersey: Pearson/Prentice-Hall

Special Interest Group on Decision Support, Knowledge and Data Management Systems (SIGDSS)

www.sigs.aisnet.org/sigdss

DSS Resources dssresources.com

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –54–Página –54–

RECURSOS Y ENLACES

The Data Warehousing Institute dw-institute.com

DM Review dmreview.com

The Olap Report olapreport.com

Information Technology Toolbox businessintelligence.ittoolbox.com

Business Intelligence Network b-eye-networl.com

AIS World isworld.org

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –55–Página –55–

PROVEEDORES DE SOFTWARE MicroStrategy

Microsoft

Oracle

IBM

Hyperion

Cognos

Exsys

SAS

Business Object

Information Builders

SAP

Fair Isaac

Salesforce (SaAS)

..

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –56–Página –56–

Demos e Información

Lista de demos disponibles en sitio DmreviewDmreview.com/rg/resources/demos.cfm

Información sobre productos, arquitectura y softwaredsslab.com

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –57–Página –57–

Recursos académicos

The Teradata University Network (TUN) Connection

teradataybuniversitynetwork.com

Página web de Efraim Turban

prenhall.com/turban

Harvard Business School Case Collection

hbsp.harvard.edu/b01/en/academic/edu_home.jhtml

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –58–Página –58–

Revistas y periódicos

Decision Support Systems

CIO Insight (cioinsight.com)

Technology Evaluation (technologyevaluation.com)

Baseline Magazine (baselinemag.com)

Business Intelligence Journal (tdwi.org)

Advisor (advisor.com)

Oracle Magazine (oracle.com)

IBM Systems Journal (ibm.com)

Intelligence Enterprise (intelligenceenterprise.com)

Business 2.0 (business20.com)

UNIVERSIDAD PONTIFICIA DE SALAMANCA EN MADRID

59

SISTEMAS DE INFORMACIÓN

Prof. Luis Joyanes Aguilar

Tema 4

Introducción a los componentes de un Sistema de Inteligencia de Negocios: GESTIÓN DE LOS DATOS: BBDD, DW, OLAP, DM, WM, TM, Wf,…

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tema 4. Gestión de los datos: Datos, Bases de datos y Almacenes de Datos

(DataWarehousing) Gestión de datos: Factor crítico de éxito

Gestión de archivos

Gestión de Bases de Datos y Sistemas de Gestión de Bases de Datos (SGBD)

Creación de Bases de Datos; Bases de datos y marketing

Sistemas de Gestión de Bases de Datos basados en Web

Gestión de recursos de datos

Data Warehousing

Data Marts

OLAP

Minería de datos, Web Mining, Text Mining

Página –60–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º CChapter 3 61

Data Life Cycle Process

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º CChapter 3 62

Hierarchy of Data

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º CChapter 3 63

Hierarchy of Data (cont’d)

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

DATA WAREHOUSING

En los negocios con grandes bases de datos o grandes sistemas para gestión de funciones independientes tales como fabricación, ventas, contabilidad,… se requieren capacidades y herramientas para analizar las enormes cantidades de datos y para acceder a los datos desde múltiples sistemas. Estas capacidades (competencias) incluyen Data warehousing, data mining, OLAP y herramientas para accesos a bases de datos internas a través de la Web.

El problema actual es la cantidad ingente de DATOS NO ESTRUCTURADOS que manejan las empresas y corporaciones.

Página –64–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

DATA WAREHOUSING

Si en una gran empresa se necesita información fiable sobre operaciones actuales, tendencias y cambios en la empresa, se encuentran grandes dificultades. Normalmente los datos se mantienen en sistemas independientes, tales como ventas, fabricación o contabilidad. Algunos datos pueden estar en los sistemas de ventas y otros en los sistemas de fabricación. Muchos de estos sistemas son sistemas heredados que utilizan tecnologías de gestión de datos no actualizados o sistemas de archivos donde la información es dificil de acceder por los usuarios-

Página –65–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

DATA WAREHOUSING

Se puede requerir gran cantidad de tiempo para localizar y reunir los datos necesarios .

Si se desean información sobre tendencias, se pueden también encontrar con problemas para localizar datos de acontecimientos pasados o bien para tener datos disponibles actuales inmediatamente

Los sistemas de Data Warehousing son la solución a estos problemas

La empresas grandes y medianas utilizan DW para facilitar y hacer más rápidas, el proceso, análisis y consulta de datos

Página –66–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

¿Qué es un DW?

Un DW es un depósito de datos (BD) que almacena datos actuales e históricos de interés potencial para la toma de decisiones de una empresa y en las actividades de proceso analítico (tales como minería de datos, apoyo a la decisión, consulta y otras aplicaciones). Algunos ejemplos son: gestión de ingresos, CRM, detección de fraudes, aplicaciones de gestión de nóminas,…

La información se entrega más eficiente y eficazmente.

Página –67–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

¿Qué es un DW?

Las diferentes áreas de aplicación de un EDW (enterprise data warehouse) son:

Marketing y ventas

Socios y clientes

Precios y contratos

Previsiones de futuro

Rentabilidad y productividad de las ventas

Finanzas

Cadena de suministros

Sistemas de Información y Procesos

Mejoras al servicio de clientes y mejora de pedidos

Página –68–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

¿Cómo funciona un DW?

El DW extrae datos históricos y actuales, de múltiples sistemas operacionales dentro de la organización. Estos datos se combinan con datos de fuentes externas y se reorganizan en una base de datos central diseñada para gestión de análisis e informes. El directorio de información proporciona a los usuarios de información sobre los datos disponibles en el almacen de datos

Los componentes fundamentales son: Fuentes de datos internas y externas ; proceso ETL; DW y Directorio de Información; Análisis y Acceso a Datos (consultas e informes, OLAP, Minería de datos) [LAUDON 08]

Página –69–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

¿Cómo funciona un DW?

El proceso de construcción y uso de un DW se muestra en [TURBAN 08]:

Los datos de la organización se almacenan en sistemas operacionales (ERP, POS Ordering , Legacy, Inventario y Transporte, Documentos Web Externos)

Utilizando un software especial (ETL) los datos se procesan y almacenan en un DW (no todos los datos se transfieren necesariamente al DW; normalmente, sólo un resumen de los datos, se transfiere)

Los datos que son transferidos se organizan dentro del DW en un formato fácil para que los usuarios finales puedan accesar y localizar

Página –70–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

¿Cómo funciona un DW?

Los datos tambien se estandarizan

A continuación los datos se organizan por tema, tales como area funcional, vendedor o producto

Por el contrario, los datos operacionales se organizan de acuerdo al proceso de negocio, tal como transporte, compras, ventas, control de inventario y/o departamento funcional

Los DW proporcional el almacenamiento de los metadatos.

Los metadatos incluyen programas de software acerca de los datos, reglas para organización de datos, y resumenes de datos que son mas faciles de indexaar y buscar

Página –71–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º CChapter 3 72

The Data Warehouse & Data Management

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

CARACTERÍSTICAS DE UN DW

Organización

Consistencia

Variante con el tiempo

No volatil

Relacional

Cliente/Servidor

Basado en Web

Integración

Tiempo real

POSIBILIDAD DE MANEJO DE DATOS ESTRUCTURADOS Y NO ESTRUCTURADOS

Página –73–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º CChapter 3 74

Web-based Data Management Systems –

content and information

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Data Marts

El alto coste de un DW hace que estos sistemas se instalen en grandes empresas, pero una alternativa en muchas empresas es crear Data Marts

Un Data mart es un subconjunto de un data warehouse, y está diseñada para un departamento o una unidad de negocios estratégica

Las ventajas de un datamart, son: bajo coste; tiempo de implantación más reducido, control local en lugar de central, … contienen menos información que un DW y por consiguiente la respuesta es más rápida y más comprensible

Normalmente un datamart se central en un área temática o en una línea de negocio

Página –75–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de Data Marts

Data marts replicados (dependientes). A veces es más fácil trabajar con un pequeño subconjunto del DW. En tales casos se pueden replicar algunos subconjuntos del DW, en pequeños Data Marts cada uno de los cuales se dedica a una cierta área. En este caso el data mart es una adición al DW

Data marts independientes. Una compañía puede tener uno o más data marts independientes sin tener un DW. Los data marts típicos son para marketing, finanzas y aplicaciones de ingeniería

Página –76–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Almacenes de datos operacionales

Es una base de datos para sistemas de proceso de transacciones que utiliza conceptos de DW para proporcionar datos limpios (procesados)… Es una herramienta para datos entre una base de datos y un DW

Lleva los conceptos y beneficios del DW a las partes operacionales del negocio, a un coste menor

Se utiliza para toma de decisiones a corto plazo en lugar de decisiones a medio y largo plazo asociadas con los almacenes de datos .

Estas decisiones normalmente dependen, normalmente, de decisiones actuales (p. e. necesidad de un banco de conocer acerca

de todas las cuentas de un cliente dado que está llamando por teléfono)

Página –77–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Bases de datos multidimensionales

Las BBDD multidimensionales son almacenes de datos especializados que organizan hechos por dimensiones, tales como región geográfica, línea de productos, vendedores o periodos de tiempo.

Las BBDD multidimensionales, normalmente, se procesan y almacenan en lo que se llaman cubos de datos.

Cada celda del cubo representa algun atributo de una mezcla de divisiones específicas. Las dimensiones pueden tener una jerarquía. P.e. las ventas se pueden presentar por dia, mes o año.

Las bases de datos multidimensionales, pueden incorporarse a un DW, como núcleo fundamental.

Página –78–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

OLAP

OLAP (Online Analytical Processisng).

Una empresa trata de vender cuatro productos diferentes-tuercas, cerrojos, arandelas y tornillos- en regiones del Centro, Norte, Sur y Oeste.

Consulta 1. ¿Cuántos tornillos se vendieron el último trimestre? La respuesta se obtiene consultando las ventas en la base de datos correspondiente.

Consulta 2. Desea conocer cuantos tornillos se vendieron en cada una de las regiones de ventas y comparar los resultados con su previsión de ventas. Para obtener la respuesta necesita , al menos un OLAP

Página –79–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

OLAP (2)

OLAP, soporta analisis de datos multidimensional, facilita a los usuarios la visión de los datos en diferentes formas utilizando dimensiones múltiples.

Cada aspecto de la información – producto, precio, coste, región y periodo de tiempo- representa una dimensión diferente.

Un gerente puede utilizar una herramienta de análisis de datos multidimensional para conocer cuantos modelos BMW berlina 320 se pueden vender en el Oeste en Junio, comparar los datos con las ventas del mes anterior, el Junio anterior y con las previsiones de ventas del mes y del año

OLAP facilita las respuestas a estas cuestiones.

Página –80–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

OLAP – Cubo de datos

Un cubo de datos representa un modelo multidimensional: Productos (modelos de coches BMW, serie 2, serie 5, serie 7, Todo Terreno), regiones, ventas reales y ventas previstas.

Matriz de ventas reales, previstas,… se puede representar en un CUBO de seis caras. Si se presenta por una cara, se muestran Productos vs Regiones; Si se rota el cubo 90 grados, la cara mostrará productos vs ventas reales y previstas; si se rota de nuevo 90 grados, se verá , regiones versus ventas reales y previstas, y así sucesivamente.

Los cubos se pueden anidar con otros cubos para construir vistas de datos complejos.

Página –81–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Una introducción al BI

Una empresa puede utilizar bien una base de datos multidimensional especializada o una herramienta que crea vistas de datos multidimensional en una base de datos relacional.

Una vez que los datos han sido capturados y organizados en DW y en Data Marts, están disponibles para análisis futuros.

Las herramientas que facilitan a los usuarios analizar los datos, ver nuevos patrones, y propiedades de cualquier índole, son útiles para guiar la toma de decisiones

Las herramientas que consolidan, analizan y proporcionan acceso a grandes cantidades de datos para ayudar a los usuarios a tomar decisiones se denomina BI

Página –82–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Minería de Datos

Las bases de datos dan respuesta a preguntas concretas: ¿Cuántas unidades del producto número x se vendieron en marzo de 2008?

OLAP o el análisis multidimensional, dan respuesta a preguntas tales como “Comparar las ventas del producto X por cuatrimestre y región de ventas en los pasados dos años ”

La minería de datos se basa más en el descubrimiento. Proporciona posibilidades a los datos corporativos que no se pueden obtener con OLAP encontrando relaciones y patrones en grandes bases de datos e infiriendo reglase de ellas para predecir comportamientos futuros.

Página –83–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Minería de Datos

Los patrones y reglas se utilizan para guiar en la toma de decisiones y prever (pronosticar) el efecto de estas decisiones.

Los tipos de información obtenibles de la minería de datos incluyen asociaciones, secuencias, clasificaciones, agrupamiento (cluster) y previsiones o pronósticos.

Página –84–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Minería de Datos

Asociaciones. Ocurrencias enlazadas a un único suceso. P.e. un estudio de patrones de compra de un supermercado puede revelar que, cuando se compran patatas fritas, un 65% de las veces se compra una botella de cola/cerveza y si es una promoción la cola se compra un 85%. Esta información ayuda a los gerentes a tomar decisiones ya que han conocido la rentabilidad de una promocion

Secuencias. Los sucesos se enlazan en horas relacionadas, p.e si una casa se compra, una nueva nevera o lavadora se compra en las siguientes dos semanas en el 65% de las veces y una cocina en el 45% de las veces, dos meses después, etc.

Página –85–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Minería de Datos

Clasificación. Reconoce patrones que describen el grupo al cual pertenece un elemento examinando elementos existentes que han sido clasificados y por inferencia de un conjunto de reglas. p.e las operadoras de teléfonos y las empresas emisoras de tarjetas de crédito se preocupan mucho sobre la perdida continua de cliente. La clasificación ayuda a descubrir las características de los clientes para prever las razones del abandono y proporcionar un modelo para ayudar a los gerentes a diseñar campañas para retener a los clientes.

Página –86–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Minería de Datos

Clustering (agrupamiento). Similar a la clasificación, y se aplica cuando no se han definido grupos especiales. Una herramienta de minería de datos que puede descubrir diferentes agrupamientos con los datos,a tales como encontrar grupos de afinidad para tarjetas de bancos o particionado de una base de datos en grupos de clientes basados en datos demográficos y tipos de inversiones personales

Predicciones . Uso de predicciones de un modo diferente, mediante segmentación de clientes, patrones de comportamiento,….

Página –87–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Bases de datos y la Web

Las empresas utilizan la Web para hacer disponible toda o parte de su información de sus bases de datos internas a los clientes y socios del negocio

Catálogos de la empresa, pedidos, disponibilidad de inventarios,…

Estas acciones implican acceso u actualización de los datos corporativos a través de la Web

Los usuarios acceden a la base de datos interna de la organización a través de la Web usando sus PCs de escritorio, portátiles, PDAs, teléfonos inteligentes,…y el software de navegador Web correspondiente

Página –88–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Acceso a las bases de datos a través de la Web

Cliente con navegador

Internet, acceso con dispositivos múltiples

Servidor Web

Servidor de aplicaciones

Servidor de bases de datos

Base de datos

Página –89–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Referencias Web

Teradata.com

Datawarehouse.com

Bitpipe.com

Teradatauniversitynetwork.com

www.wiley.com/college/turban

www.teradatastudentnerwork.com

Teradata Magazine, Volume 6, number 2

DM Review

MIS Quaterly

Journal of Data Warehousing

IBM Systems Journal

Página –90–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Referencias Web

Cio.com

Topics … Tecnology

Infrastructures

Applications

Development

Architectures

Página –91–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Referencias Web

Applications

SaaS

Cloud Computing

ERP, CRM. SCM

BI

BPM

KM

RFID

Portales

Inventory Managemen

Página –92–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Referencias Web

Infrastructure

Network

Security

Client

Server

Mobile

Operating Systems

Data Center

Virtualization

Página –93–

UNIVERSIDAD PONTIFICIA DE SALAMANCA EN MADRID

9494

Prof. Luis Joyanes Aguilar

Tema 5. Fundamentos de Inteligencia de Negocios

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –95–Página –95–

Proceso de creación y uso de inteligencia

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –96–

Evolución de un BI

Página –96–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –97–Página –97–

Arquitectura de alto nivel de BI

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –98–

ESTRUCTURA Y COMPONENTES DE UN SISTEMA DE BI

El DataWarehouse (Almacen o Bodega de datos)

Flujo de datos desde los sistemas operacionales (p.e. CRM, ERP) a un DW que es una base de datos especial o depósito de datos que han sido preparados para aplicaciones de toma de decisiones

El DW se construye con metodologías, principalmente metadatos y ETL

Los data mars , son depósitos o repositorios de un tema específico o departamental (p.e. marketing o mercadotecnia)

Analítica de negocios (OLAP, online analytical processing). Herramientas de software que permiten a los

usuarios crear informes y consultas bajo demanda y gestionar análisis de datos

Página –98–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –99–

ESTRUCTURA Y COMPONENTES DE UN SISTEMA DE BI

OLAP

Los usuarios pueden analizar diferentes dimensiones de datos multidimensionales, tales como series de tiempo y vistas de análisis de tendencias

Los usuarios pueden identificartendencias de rendimientos o prestaciones

Para manejar un BA (Analítica de negocios) se necesita software de interactividad que se denomina middleware para acceder al DW. Es considerado infraestructura y es una interfaz del usuario del sistema

Página –99–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –100–

ESTRUCTURA Y COMPONENTES DE UN SISTEMA DE BI

MINERÍA DE DATOS (DATA MINIG) Es una clase de análisis de información de una base de datos que

examina patrones ocultos en un grupo de datos que se pueden utilizar para predecir comportamientos futuros

El término se utiliza principalmente para describir el software que presenta datos de nuevas maneras ya que no sólo cambia la presentación sino que realmente descubre relaciones desconocidas con anterioridad entre los datos- Este conocimiento se aplica a conseguir objetivos específicos del negocio

Estas herramientas se utilizan para reemplazar la inteligencia humana explorando (minando) en grandes masas de datoss para descubrir nuevas correlaciones , patrones y tendencias utilizando tecnologías de reconocimiento de patrones y estadística avanzada

Página –100–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –101–

ESTRUCTURA Y COMPONENTES DE UN SISTEMA DE BI BPM (Business Performance Management)

El componente se basa en la metodología de los cuadro de mando integrales (balanced scorecard) que es un marco de trabajo para definir, implementar y gestiona la estrategia de negocios de una empresa enlazando objetivos con medidas de hecho

Es un método para enlazar métricas de alto nivel, tales como información financiera creada por el CFO

El objetivo de BPM es optimizar el rendimiento o prestaciones (desempeño) global de una organización

El BPM incluye normalmente dashboards (tableros) que proporcionan una visión de las prestaciones corporativas con presentaciones gráficas, similares a los cuadros de mando de los automóviles

Página –101–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –102–Página –102–

Grandes componentes de Inteligencia de negocios

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –103–Página –103–

Beneficios de Inteligencia de negocios

UNIVERSIDAD PONTIFICIA DE SALAMANCA EN MADRID

Prof. Luis Joyanes Aguilar

104104

Tema 6 . DataWarehouse. DW

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

La naturaleza y las fuentes de datos (2)

Los Sistemas de Información de empresa utilizan:

CRM

Sistemas de informacion ejecutivos

Sistemas ERP, Planificación de recursos empresariales

Sistemas ERM, Gestión de recursos empresariales

Utilizan SGBD, almacenes de datos, OLAP y minería de datos como fundamentos teóricos y prácticos

Página –105–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Recordatoio de GC

Datos. Elementos acerca de cosas, eventos, actividades y transacciones se registran, clasifican y almacenan pero no están organizados para transmitir ningún significado especial. Los elementos de datos pueden ser numéricos, alfanuméricos, figuras, sonidos o imágenes.

Información. Los datos se han organizado de modo que tengan un significado en un determinado recipiente. Los datos confirman algo que el recipiente conoce o puede tener un valor que revela algo conocido

Conocimiento. Consta de elementos datos y/o información organizados y procesados para transmitir experiencia, aprendizaje acumulado aplicables a un problema o actividad actual o futura. El conocimiento es la aplicación de los datos e información a la toma de decisiones

Página –106–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Fuentes de datos principales

DATOS INTERNOS Se almacenan en uno o más lugares

Los datos son sobre personas, productos, servicios y procesos

P.e los datos de los empleados y sus salarios se almacenan normalmente en las bases de datos corporativas

Los datos sobre equipos y maquinaria se pueden almacenara en la base de datos del departamento de mantenimiento

Los datos de ventas se pueden almacenar en diferentes sitios: departamento de ventas, de contabilidad, presupuestos, ...

Están disponibles vía red interna o red intranet de la organización

Página –107–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Fuentes de datos principales (2)

DATOS EXTERNOS

Existen muchas fuentes externas de datos: Desde datos de bases de datos comerciales a datos recogidos por sensores y satélites

Datos disponibles en CDs y DVDs (DVDs Blu-Ray), memorias SD, miniSD, .., en Internet, en películas, en fotografía, música, discursos en vivo,...

Informes de los Gobiernos, de las empresas, ... son fuentes de datos externas disponibles hoy día en la Red.

Datos externos pueden estar, también, disponibles utilizando GIS, oficinas del censo, oficinas estadísticas. bancos, locales, instituciones de investigación, ...

Los datos pueden estar alrededor del mundo

La mayoría de los datos externos pueden ser irrelevantes a un sistemas específico de apoyo a la gestión (MSS)

Página –108–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Fuentes de datos principales (3)

DATOS PERSONALES Y CONOCIMIENTO

La mayoría de los usuarios de un MSS (Sistema de apoyo a la gestión) y empleados corporativos tienen experiencia y conocimiento que se pueden almacenar para un uso futuro.

Estos datos incluyen estimaciones objetivas de ventas, opiniones, interpretación de nuevos artículos,....

El conocimiento de las personas, y como capturarlo, gestionarlo y distribuirlo es el tema central de la Gestión del Conocimiento

Página –109–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

RECOGIDA DE DATOS, PROBLEMAS Y CALIDAD

La necesidad de extraer datos de muchas fuentes internas y externas complica la tarea de construcción de un MSS

A veces es necesario capturar datos en bruto

En otras ocasiones es recoger datos del cliente a partir de los datos de las empresas o encontrarlos en Internet...blogs de empresas, podcasting, redes sociales, portales de empresa, portales de conocimiento,...

Con independencia de cómo se recolecten , los datos deben ser filtrados y validados

Una expresión clásica en GIGO (garbage in garbage out)

La calidad de los datos es un tema importante

Página –110–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

RECOGIDA DE DATOS, PROBLEMAS Y CALIDAD (2)

Métodos para recolección de datos en bruto

Los datos pueden ser recogidos manualmente o por instrumentos y sensores

P.e. uso de cámaras de vídeo, uso de cuestionarios, entrevistas,...

Método de recogida de datos de las PDAs, envío por Internet, bluetooth, RFID, ---

Algunos métodos implican captura física de datos mediante tecnologías tales como código de barras o RFID

Dispositivos biométricos recogen datos del mundo real ... (DW y DM)

Página –111–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Problemas con los datos

Todos los sistemas informáticos dependen de los datos. La calidad e integridad de los datos son críticos para evitar que el sistema MMS evite el síndrome GIGO

Los datos deben estar disponibles en el sistema o el sistema debe incluir un subsistema de adquisición de datos

Los problemas de los datos DSS se resumen en la Tabla siguiente junto con algunas posibles soluciones

Si se anticipan problemas se pueden estimar soluciones de coste

Página –112–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Problemas con los datos

Algunos problemas importantes con posibles soluciones:

Datos no correctos Desarrollo de un método sistemático para introducir datos

Automatizar datos de entrada

Introducir controles de calidad en la generación de los datos

Establecer programas apropiados de seguridad

Los datos no están a tiempo (no son oportunos) Modificar el sistema de generación de daos

Utilizar la Web para obtener datos “frescos” (recientes, actualizados)

Los datos no se han medido o indexado adecuadamente Utilizar un data warehouse

Utilizar motores de búsqueda

Página –113–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Calidad de los datos

La calidad de los datos en un tema muy importante ya que la calidad determina la utilidad de los datos así como la calidad en la toma de decisiones basadas en ellos

Los datos de las bases de datos organizacionales son, con frecuencia, imprecisos, incompletos o ambiguos

Los daños económicos y sociales de pobre calidad suponen perdidas millonarias

El Data Warehousing Institute (TDWI, www.dw-institute.com) ofrece estadísticas y encuestas importantes

La mala calidad de los datos puede retrasar la implementación de un almacén de datos o un data mart en periodos de seis a doce meses

La CD es importante, especialmente, en CRM, ERP, ... y otros SSII

Página –114–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Integridad de los datos

Los sistemas de ficheros antiguos pueden carecer de integridad

Un cambio hecho en el fichero en un determinado sitio puede no haberse hecho tambien en otro lugar o departamento relacionado

El resultado, datos en conflicto

Muy importante en entornos colaborativos tales como Lotus Note, Google Hoja de cálculo, Groove de Microsoft

Página –115–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

ACCESO E INTEGRACIÓN DE DATPOS

La toma de decisiones requiere el acceso a múltiples fuentes de datos que deben estar integrados

Antes de los DW y BI , proveer el acceso a fuentes de datos era un proceso importante y laborioso... Incluso las modernas herramientas basadas en web para gestión de datos requieren de especialistas en bases de datos y en DW

Los recursos de datos de las empresas pueden adoptar diferentes formatos: Bases de datos relacionales, documentos XML; mensajes de Intercambio Electrónico de datos (EDI), registros COBOL, etc.

La integración de datos adecuadamente procedentes de fuentes dispares es difícil

Página –116–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Integración de datos vía XML

XML se ha convertido en el lenguaje estándar para integración de bases de datos y transferencias de datos

Un porcentaje muy alto, superior al 50-60% de todas las transacciones de e-commerce se producen sobre servidores XML

XML también es el lenguaje de datos y la base fundamental para AJAX y aplicaciones Web 2.0

Existe una gran oferta de software de integración de datos. Los desarrolladores de software de gestión y captura de datos están creciendo en el uso de XML para transportar datos de fuentes a destionos

Página –117–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Servicios de bases de datos comerciales y Web/Internet

La Internet/Web es una fuente importante de datos y es el proveedor más sobresaliente de datos externos en muchas situaciones de toma de decisiones

Los servicios de bases de datos online (comerciales ) venden acceso a bases datos especializadas. P.e. los datos GIS deben ser precisos y tener actualizaciones disponibles regularmente

La recolección de datos de múltiples fuentes de datos externos pueden ser complicada (procedencia diferentes IBM, Orcale, S_ybase, mySQL, ...)

Página –118–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Sistemas y bases de datos corporativas y de la Web

Los desarrollo en Sistemas de Gestión Documental (DMS) y sistemas de gestión de contenidos (CMS) incluyen el uso de navegadores por los empleados y clientes para accedes a información vital

Los temas críticos se han vuelto más críticos en los sistemas basados en Web

Sistemas de software cooperativos

Groove de Office

Tratamiento de texto y hojas de cálculo de Gmail

Lotus/Notes Domino de IBM

Computación colaborativa en la forma de groupware

Página –119–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

ORGANIZACIÓN Y ESTRUCTURAS DE BBDD

Bases de datos relacionales (DBMS) Bases de datos jerárquicas Bases de datos en Red Bases de datos orientadas a objetos Bases de datos multimedia Bases de datos documentales Bases de datos fotográficas y de imágenes en 3D Bases de datos inteligentes (basadas en agentes

inteligentes de la Web),,, Los agentes inteligentes pueden mejorar las búsquedas en bases de datos, especialmente en DW.. P.e. Preferencias del usuario (amazon) y mejora de las capacidades de búsqueda para anticipar necesidades futuras del usuario

Página –120–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

DATA WAREHOUSING

Un DW se puede utilizar para apoyar la toma de decisiones, analizar grandes cantidades de datos de diferentes fuentes para proporcionar resultados rápidos en el proceso crítico de toma de decisiones

Un DW comienza con la separación física de los entornos operacionales y de toma de decisiones. En el corazón de muchas cias reside un almacen de datos operacionales, derivados normalmente de sistemas OLTP (procesamiento de transacciones en línea), tales como aplicaciones de pedidos en puntos de entrada.

Muchas sistemas OLTP heredados se implementaron, principalmente en COBOL (especialmente la banca), operan todavia con sistemas CICS (customer information control systems)

Página –121–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Características de un Data Warehousing

Orientado a temas. Un DW difiere de una BD operacional en que la mayoría de las BD operacionales tienen una orientación al producto , mientras que un DW proporciona una visión más completa de la organización

Integrado. Los datos integrados resuelven significados inconsistentes y proporcionan terminología uniforme de la organización. También, los formatos de datos y tiempo varían alrededor del mundo

Variable con el tiempo. Los datos se mantienen grandes cantidades de tiempo, 5, 10 o más años y se utilizan para tendencias, previsiones y comparaciones. El tiempo es una dimensión importante que deben soportar todos los DW. Los datos para análisis de mútliples fuentes contienen puntos temporales: (p.e. vistas diarias, semanales, mensuales)

Página –122–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Características de un Data Warehousing (2)

Resúmenes. Los datos operacionales se agregan, cuando sean necesarios, en forma de resúmenes

No normalizados. Los datos en un DW no están normalizados generalmente y pueden ser altamente redundantews

Fuentes. Todos los datos están presentes; tanto internos como externos

No volátiles. Una vez introducidos en el DW, los datos son de sólo lectura, no se pueden modificar o actualizar. Los datos obsoletos se descartan y los cambios se registran como nuevos datos. Se necesitan grandes cantidades de espacio libre (para crecimiento de los datos) .

Fuentes. Todos los datos están presentes; tanto internos como externos

Metadatos. Se incluyen metadatos (definidos como datos about data)

Página –123–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Framework y vistas de un almacen de datos

Página –124–Página –124–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Arquitectura de un almacen de datos tricapa

Página –125–Página –125–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Arquitectura de un almacén de datos bicapa

Página –126–Página –126–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Arquitectura de un almacen de datos basada en Web

Página –127–Página –127–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

El proceso ETL

Página –128–Página –128–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –129–129

Tema 7. Analítica de los negocios (OLAP)

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

OLAP

El término online analytical processing se refiere a una variedad de actividades normalmente ejecutadas por usuarios finales en sistemas online

NO existe acuerdo universal en cuales actividades son consideradas OLAP

Normalmente OLAP incluye actividades tales como generación y respuestas de consultas, solicitud de informes y grafos ad hoc y ejecución de los mismos, análisis estadísticos modernos, y construcción de presentaciones visuales

También se puede considerar el análisis multidimensionales, ESS y datamining como OLAP

Página –130–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

OLAP

Esencialmente, los productos OLAP proporcionan modelado, análisis y características de visualización, para grandes conjuntos de datos, o bien sistemas de gestión de bases de datos, o más frecuentemente, almacenes de datos (data warehouses) y proporcional una visión conceptual de los datos

Página –131–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

OLAP versus OLTP

Durante muchos años, las TI se concentraron en la construcción de sistemas de misión crítica que soportaran principalmente procesos de transacciones corporativas.

Tales sistemas debían de ser virtualmente tolerantes a fallos y proporcionar ejecución eficiente y respuestas rápidas

Una solución efectiva se proporcionó con los OLTP (online transaction processing) que se centraron en actividades repetitivas y en rutinas, utilizando un entorno de bases de datos relaciones distribuidas.

Los desarrollos últimos en estas áreas utilizaban ERP, SCM y CRM, e integración con tecnologías basadas en Web e intranets.

Se crearon muchas herramientas –p.e. Informix Dynamixc Server- para desarrollar aplicaciones OLTP

Página –132–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

OLAP versus OLTP

OLTP se centra en procesamiento de transacciones repetitivas en grandes cantidades y realizando manipulaciones sencillas

OLAP implica exámenes de muchos datos (normalmente muchos millones o miles de millones de datos) en relaciones complejas

Además de respuestas a consultas de usuarios, OLAP puede analizar estas relaciones y buscar patrones, tendencias y excepciones

En otras palabras OLAP es un método directo de apoyo a la decisón

Página –133–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

OLAP versus OLTP

Una consulta típica OLAP puede acceder a bases de datos de ventas multigigabyte o terabyte de muchos años con el objeto de encontrar todos las ventas de productos en cada región para cada tipo de producto.

Después de revisar los resultados, un analista puede refinar a continuación la consulta para encontrar volúmenes de ventas para cada canal de ventas dentro de una región o dentro de ciertas clasificaciones de productos

Como última etapa, el analista puede realizar comparaciones anuales, cuatrimestrales,..para cada canal de ventas.

Página –134–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

OLAP versus OLTP

Una lista de herramientas OLAP puede consultar en baseline.com y en revistas

especializadas como PCWeek, DM Review, Intelligent Entrerprise y Software Review

Los principales vendedores de estas herramientas incluyen BusinessObjects, Computer Associates, Cognos, Hyperion, Information Builder, Microsoft, Microstrategy, Oracle, SAS Insititute, SPSS,

Página –135–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de OLAP

OLAP multidimensional (MOLAP). OLAP se implementa mediante una base de datos multidimensional (o almacenes de datos). Los datos se organizan en una estructura tipo cubo o cubo de datos que el usuario puede rotar. Es muy adecuado para resúmenes e informes financieros

OLAP relacional (ROLAP) OLAP relacional (ROLAP). Se implementa con una base de datos

relacional. Utilizando sentencias complejas de SQL frente a tablas relacionales, ROLAP puede crear también vistas multidimensionales pero no estructura cubo

Las herramientas OLAP relacional extraen datos de las bases de datos relacionales

OLAP HÍBRIDA. Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional

Página –136–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de OLAP (2)

Database OLAP y Web OLAP (DOLAP y WOLAP)

Database OLAP se refiere a un SGBDR que está diseñado para estructuras OLPA host y realizar cálculos OLAP. Web OLAP se refiere a los datos OLAP que son accesibles desde un navegador Web

Desktop OLAP. Las versiones Web se mueven de procesamiento de escritorio a un servidor intermedio, que aumenta la escalabilidad, sin embargo, pero permanece la funcionalidad, al menos, comparable a la de la versión de escritorio (webTop)

Página –137–

UNIVERSIDAD PONTIFICIA DE SALAMANCA EN MADRID

Prof. Luis Joyanes Aguilar

138138

Tema 8. Minería de datos (DM, TM, WM)

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

CONCEPTOS Y CARACTERÍSTICAS DM

El término se utilizó originalmente para describir el proceso a través del cual se identificaban patrones no descubiertos con anterioridad. Muchas de las técnicas utilizadas en minería de datos tienen sus raíces en el análisis estadístico tradicional y en inteligencia artificial

Disciplinas tales como astronomía, sistemas de información geográfica GIS; física nuclear , acumulan grandes cantidades de datos.

Los datos en Internet están creciendo en volumen y complejidad en todo el mundo

Los investigadores médicos utilizan técnicas de MD para descubrir nuevos medicamentos y diagnósticos de enfermedades

Página –139–Página –139–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

CONCEPTOS Y CARACTERÍSTICAS DM

DM se utiliza para describir descubrimiento de conocimiento en bases de datos (KDD)

La MD es un proceso que utiliza técnicas estadísticas, matemáticas, inteligencia artificial y aprendizaje electrónico para extraer e identificar información útil y conocimiento posterior de grandes bases de datos

MD es el proceso de encontrar patrones matemáticos a partir de grandes cantidades de datos. Estos patrones pueden ser reglas, afinidades, correlaciones, tendencias o modelos de predicción

Página –140–Página –140–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

¿cómo funciona la MD?

La MD descubre información dentro de almacenes de datos que consultas e informes no pueden revelar eficientemente

Los métodos más utilizar para identificar patrones en datos

Modelos simples (p.e consultas basadas en SQL, mySQL, OLAP, juicio humano)

Modelos intermedios (p.e. regresiones, árboles de decisión, clustering)

Modelos complejos (p.e. redes neuronales, otras reglas de inducción)

Página –141–Página –141–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Minería de Datos (Data Mining)

Recordatorio de BI: Los sistemas de BI se clasificaron en dos tipos diferentes en cuanto al objetivo que consiguen pero que no eran incompatibles:

Sistemas multidimensionales basados en la verificación (consultas de base de datos, métodos gráficos estadísticos o los multidimensionales)

Sistemas basados en el Descubrimiento (Minería de Datos…) Un Sistema de MD es un sistema capaz de encontrar información y conocimiento: Oculto y no obvio En grandes volúmenes de datos De una forma automatizada ….

Página –142–Página –142–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Conceptos de Minería de Datos

Proceso automatizado de descubrir información desconocida, en una forma que se pueda comprender, a partir de grandes volúmenes de datos y que sean de utilidad para la toma de decisiones críticas.

Conjunto de diferentes técnicas analíticas que examinan o buscan patrones en los datos de una base de datos o de un almacén de datos, o buscan modelar el comportamiento de los clientes… Los sitios Web de los clientes pueden ser “minados” para desarrollar perfiles de clientes o de visitantes

Página –143–Página –143–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Conceptos de Minería de Datos (2)

Los puntos críticos para definir un sistema de MD

Ser capaz de descubrir información oculta

Esta información debe ser de gran utilidad para tomar decisiones importantes.

La información se obtiene de grandes volúmenes de datos, donde hay mucha información.

Este conocimiento debe presentarse en una forma que se pueda entender sin excesivo esfuerzo.

Algoritmos Matemáticos, Redes Neuronales

Árboles de decisión ….

Página –144–Página –144–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Conceptos de Minería de Datos (3)

El Objetivo principal de la MD es la extracción de conocimiento de las bases de datos

Este conocimiento se expresa en forma de patrones y reglas de comportamiento, aplicables a las ocurrencias de entidad que componen una base de datos, así como a los atributos que caracterizan a estos registros.

A partir de estas reglas, se pueden realizar predicciones que sirven de base para toma de decisiones empresariales (fundamentalmente en situaciones de incertidumbre)

Página –145–Página –145–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Ventajas de la Minería de Datos frente a los Métodos Estadísticos Tradicionales

La MD trabaja sobre la totalidad de los datos y no con una muestra

Con la MD se accede directamente a las bases de datos

Las técnicas usadas en la MD no usan variables aleatorias

El tiempo de cálculo es muy proporcional al número de datos que se analizan

En la práctica no existen límites en el volumen de datos que se analizan

Página –146–Página –146–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Ventajas de la Minería de Datos frente a los Métodos Estadísticos Tradicionales

Se necesita una formación básica para el análisis de los resultados

El grado de información y conocimiento que se consigue con la Minería de Datos es muy superior al que pueden ofrecer los métodos clásicos estadísticos…

El análisis estadístico nos muestra tendencias de la globalidad, perdiendo el detalle, normalmente. Con la MD encontramos relaciones entre la totalidad de las variables.

Página –147–Página –147–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Aplicaciones de MD

Entidades financieras… para predecir el riesgo existente en la concesión de créditos a clientes

Las Cias de Telecomunicaciones y de Tarjeta de Crédito… para detectar operaciones fraudulentas (a partir de operaciones fraudulentas detectadas y de todas sus características)

Detectar clientes cuyo perfil es más interesante de cara aconcentrar su esfuerzo en…

Realizar predicciones de sucesos naturales, catástrofes, meteorología, etc.

En Medicina, detección de tumores o a la clasificación de los ya detectados

En Turismo, realizar predicciones sobre grupos de interes

Página –148–Página –148–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Minería de datos en la Web

La Web desde la perspectiva de DM

¿Porqué la Web?

Fuentes de datos de la Web

¿Porqué la minería de datos Web?

Los datos de la Web se pueden mejorar de otras fuentes disponibles

¿Qué es Minería Web?

Sinónimo de “Knowledge Discovery in Database, KDD”

Página –149–Página –149–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Estrategias de minería

Trabajando con datos de la Web:

Identificación

Captura

Análisis sintáctico o gramatical (parsing)

Mejora (enhancing)

Análisis o analizador

Actuaciones

Página –150–Página –150–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

ALGORITMOS DE MD

Clasificación Árboles de decisión, redes neuronales, evaluación de

riesgos, reglas

Clustering Redes neuronales, estadísticas, optimización

Asociación Estadística, teoría de conjuntos

Descubrimiento de secuencias Estadística, teoría de conjuntos

También se utilizan otras herramientas de análisis de datos tales como análisis de regresión y series de tiempo

Página –151–Página –151–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

HERRAMIENTAS Y TÉCNICAS DE MD

Métodos estadísticos

Árboles de decisión

Razonamiento basado en casos

Computación neuronal

Agentes inteligentes

Algoritmos genéticos

Visualización de datos

Reglas de inducción

Página –152–Página –152–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

MINERÍA DE TEXTOS

Es la aplicación de la MD a archivos de textos no estructurados o poco estructurados

La MD aprovecha la ventaja de la infraestructura de datos almacenados para extraer información adicional útil

P.e un analista puede descubrir aplicando MD a una base de datos de clientes que todas las personas que compran el producto A también comprar B y C tres o seis meses más tarde, …

La minería de textos actúa con información poco estructurada

Los documentos, raramente, tiene una infraestructura interna fuerte y cuando sucede, se centra en el formato del documento más que en el contenido del documento.

Página –153–Página –153–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

MINERÍA DE TEXTOS (2)

La MT ayuda a las organizaciones a: Encontrar el contenido de documentos “oculto”, incluyendo

relaciones adicionales útiles

Relacionar documentos a través de estados anteriores imprevistos (p.e. descubrir que los clientes de dos divisiones diferentes de productos tienen las mismas características.

Agrupar documentos por temas comunes (p.e. todos los clientes de una aseguradora que tienen las mismas quejas y cancelan sus pólizas por estas razones)

La MT no es lo mismo que un motor de búsqueda en la Web. En la búsqueda se intenta encontrar lo que otros han preparado. Con MT se descubren nuevos patrones, “minas” de conocimiento, que pueden no ser evidentes o conocidos

Página –154–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

MINERÍA DE TEXTOS (3)

Las organizaciones, de esta década, reconocen que una fuente competitiva importante es el conocimiento no estructurado contenido en los almacenes de conocimiento de las organizaciones, almacenados en formatos de: Documentos Memos Correos-e, faxes, chat Políticas y procedimientos organizativos Patentes Propiedad intelectual Archivos de audio, MP3, vídeo, .. Reuniones Comisiones de trabajo,---

Toda esta información textual de modo que las herramientas de minería de datos predictivas pueden ayudar a la organización a generar valor real de su depósito necesita ser codificada y extraída (repository)

Página –155–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de Minería de Texto

Minería de texto, se utiliza, en algunos ambientes de negocios como un término genérico para implicar todo tipo de procesamiento de texto. Tres especialidades se pueden considerar han emergido en este campo

Recuperación de la Información (consulta de texto, encontrar texto y y presentación de información de texto)

Extracción de la información ...( Procesamiento de lenguaje natural y lingüística computacional se utilizan para analizar y procesar texto, ... Programas que proporcionan automáticamente resúmenes de documentos) www.newsinessence.com,

Resúmenes de información. Recupera o colecciona documentos de un número de nuevos sitios, crea cluster basados en temas y resume cada cluster.

UNA DE LAS APLICACIONES MÁS GRANDES DE MT ES LA

EXTRACCIÓN DE INFORMACIÓN EN CIENCIAS BIOLÓGICAS

Página –156–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

¿Cómo minar texto?

La extracción de términos es el formato más básico de MT

Se convierte “mapea” la información de datos no estructurados a formato estructurado.

Se utiliza un vector de características o listado ponderado de palabras. Se listan las palabras más importantes de un texto, junto con una medida de su importancia relativa

Eliminar palabras utilizadas frecuentemente (el, la, los,..)

Reemplazar palabras con sus semillas o raíces (eliminar plurales, diferentes conjugaciones,…)

Considerar sinónimos y frases (p.e. estudiante y pupilo, maestro y profesor, se pueden agrupar juntos)

Calcular los pesos de los términos restantes

Página –157–Página –157–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

¿Cómo minar texto? (2)

Calcular los pesos de los términos restantes. El método más común es calcular la frecuencia de aparición de la palabra. Existen dos medidas típicas: el término frecuencia, o factor tf, mide el número real de veces que una palabra aparece en un documento, y la frecuencia inversa del documento, factor fid, indica el número de veces que la palabra aparece en todos los documentos de un conjunto.

El razonamiento es que un factor tf grande aumenta el peso, mientas que un factor grande de fid lo disminuye ya que los términos que aparecen más frecuentemente en todos los documentos serán palabras comunes en la industria y no se consideraran importantes

Página –158–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Herramientas de minería de textos

Sistema para manipulación de documentos en formatos diferentes (texto completo, formatos de tratamiento de texto.. Word, Google;PDF; ) desde muchas fuentes diferentes (ficheros, Web, e-mails, fax,...)

Componentes utilizados para procesar estos documentos y crear archivos de datos que puedan ser minados ... “divisores de frases, analizadores de textos, ... “)

Herramientas de minería de datos tales como algoritmos de cluster, algoritmos clasificadores, algoritmos de búsqueda, ...

Página –159–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Herramientas de minería de textos (2)

“Frameworks open source” para las tareas anteriores

gate.ac.uk (University of Sheffield, UK)

UIMA, ... Research.ibm.com/UIMA

Herramientas populares de minería de textos:

SAS Text Miner (sas.com)

IBM Intelligent Miner for Text (ibm.com)

SPSSLexiquest (spss.com)

Insightful Miner for Text (insightful.com)

Megaputer Intelligence TextAnalyst (megaputer.com)

StatSoft Data Miner (statsoft.com)

Página –160–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Estructura de la Web

La WWW consta de páginas conectadas por enlaces (links)

Una página consta normalmente de múltiples elementos de contenido, tales como texto, imágenes, audio, enlaces a otras páginas

Un servidor Web proporciona acceso a cada uno de esos elementos

La representación utilizada para minería de estructura es un grafo (realmente un grafo dirigido ya que los enlaces van de una dirección de una página a otra)

El grafo ideal mapeará todos los enlaces que conectan a todos los documentos de la Web completa

Página –161–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Estructura de la Web (2)

En el lenguaje matemático, la WWW, es un grafo dirigido. Cada página es un nodo de este grafo y cada enlace es un arco. El grafo es dirigido porque un enlace de la página A a la página B no implica un enlace correspondiente de la página B a la página A.

P.e. un grafo que representa un sitio Demo puede tener

cada página que incluya un enlace de retorno a la página principal. La mayoría de los enlace permanecen dentro de la misma página , pero la página Demo3 , p.e, puede incluir enlaces a páginas de sitios (home) tales como Demo1 y Demo2.

Página –162–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Estructura de la Web (3)

Conteo de las citaciones En el mundo académico, no basta con la publicación de un

artículo o libro en una revista y que haya sido revisado entre pares , sino que es muy importante que éste sea referenciado

La principal evidencia de la utilidad de un artículo o libro es el número de veces que es referenciado o citado a su vez en la bibliografía de otros artículos o libros.

Autores específicos se convierten en autoridades en una materia en función del números de citaciones a dicho trabajo

La estructura global de la web funciona de igual manera, teniendo presente los enlaces que se realizan sobre la página web concreta

Sitios web de referencia : Alexa, ComScore, Nielsen NetRating, ...

Página –163–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Minería Web

Se puede definir como el descubrimiento y análisis de texto basados en información interesante y útil de la Web, acerca de la Web y normalmente con herramientas Web

La Web es quizás el depósito de datos/textos más grandes y la cantidad de información en la Web crece día a día

Información interesante en la “home page” que se enlaza con otras páginas, hiperenlaces, recorrido de las navegaciones, etc.

Se clasifica en :. Minería de contenidos, Minería de estructuras y Minería de uso

Página –164–Página –164–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Minería Web

Web Mining tiene el problema que trabaja con datos desestructurados, lo que no permite utilizar los algoritmos de Data Mining. Se trata de documentos de texto libre (correos-e, faxes, chat, boletines, ..., audio, vídeo) que pueden incluir ficheros de todo tipo.

Más aún, si se trata de páginas personales ( o blogs) que incluyen información temáticamente variada y lo que se pretende son análisis semánticos y textuales.

Página –165–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Minería Web

Definición de WM: “Extracción de información latente a través de la W3”... Abarca estudios de contextos, enlaces para la mejora de relevancia.

“Es el conjunto de técnicas para la recuperación de información en grandes espacios hipertextuales desestructurados y que se centran más en la información incluida y latente en los hiperenlaces y en la estructura del documento que en lo que actualmente se entiende como contenido textual de las páginas web”.

Página –166–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Minería Web

El término WM se utiliza de tres formas:

1. “Describir el proceso de descubrimiento de recursos informativos y/o documentales de todos los existentes en la W3”

2. El análisis de accesos a la W3 u otras formas de visualización y acceso de los usuarios a la información web.

3. El proceso de inferencia, detección y representación de estructuras informativas creadas por las relaciones que forman las propias fuentes web.

Página –167–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Minería Web

Estructura del WM:

Análisis de la topología de enlaces mediante técnicas cuantitativas

Análisis estadístico del texto o del contenido semántico (text mining) mediante análisis de concurrencia, reconocimiento de estructuras

Análisis de los informes sobre el número de enlaces por usuario, máquina (uso de la web mining)

Diseño de interfaz de usuario. Técnicas de visualización (árboles hiperbólicos, mapas auto-organizativos a través de redes neuronales, ...)

Página –168–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de minería en Web

Página –169–Página –169–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de minería Web (2)

Minería de contenido. Se refiere a la extracción de información útil de las páginas Web

Minería de estructura. Se refiere al desarrollo de información útil de los enlaces incluidos en los documentos Web

Minería de uso. Se refiere a la extracción útil de los datos que están siendo generados a través de las visitas a páginas web, transacciones, etc.

Página –170–Página –170–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de minería Web (3)

Minería de contenido. Es el proceso de extraer información útil del texto, imágenes y otras formas de contenido incluido en las páginas Web

¿qué páginas están escritas en alemán, en español,..? Los motores de búsqueda , agentes inteligentes, y motores de recomendación emplean minería de contenido para ayudar a los usuarios a encontrar necesidades reales en la Web?

Los documentos pueden ser extraídos en algún formato legible por la máquina de modo que las técnicas automatizadas puedan generar alguna información acerca de las páginas Web.

Página –171–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de minería Web (4)

Los crawlers (arañas, orugas) se utilizan para leer automáticamente en el contenido de un sitio web ... “Programas que visitan sitios Web y recogen información de acuerdo a alguno de los criterios generales”. Luego la información es indexada para posteriormente poder ser utilizada por varios usuarios

La información automatizada puede incluir características de documentos similares a los utilizadas en minería de texto, pero también pueden incluir conceptos adicionales tales como jerarquía de documentos.

La minería web de contenido se puede utilizar también para mejorar los resultados producidos por los motores de búsqueda

Página –172–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Caso práctico de Web mining

Un sistema de visualización puede tomar los resultados de una búsqueda y a partir de un motor de búsqueda tal como Google, lee los 100 documentos top, agrupa estos documentos mediante procesos con la herramienta Intelligent Text Miner, y a continuación presenta los resultados en un formato gráfico basado en vistas diferentes.

Página –173–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de minería Web (5)

Minería de estructuras. Es el proceso de extracción de información útil de la topología de la Web- los enlaces entre páginas. ¿Qué páginas son los destinos de enlaces desde mucha otras páginas? ¿páginas apuntas a muchas otras? ¿Qué colecciones de páginas forman islas?

Esta información ese útil para determinar, p. e. la popularidad de un documento en motores como Google, en el algoritmo page-rank (PR).

De igual forma que los enlaces que van a un documento pueden indicar la popularidad de los documentos, los enlaces dentro del documento pueden incluir la profundidad de la cobertura de un tema

Página –174–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de minería Web (6)

Mecanismos hubs y authorities (algoritmo de Kleinberg)

Hubs son páginas que apuntan a muchas autoridades en su campo.

Authorities pages, son aquellas que están enlazadas por muchos hubs

Se trata de diferenciar entre “autoridad” y mera popularidad

Una buena comprensión de la estructura de un sitio Web es útil para determinar cuales páginas deben ser añadidas a una colección de sitios Web.

Una duplicación significativas de enlaces Web en una página puede sugerir que no se necesita enlazar a dos sitios diferentes.

.

Página –175–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de minería Web (7)

Mineria de estructura proporciona información útil de los enlaces incluidos en los documentos Web.

Esta información puede ser útil para determinar la popularidad de un documento, elemento clave del algoritmo de page-rank de motores de búsqueda tales como Google.

Identifica mecanismos para encontrar “hubs” y “autoridades” a través del análisis de hiperenlaces. Hubsson páginas que apuntan a muchas autoridades del campo. Páginas autoridad son aquellas que están enlazadas por muchos hubs.

Página –176–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de minería Web (8)

Minería de uso, se refiere a extraer información útil de los datos que están siendo generados a través de visitas a la página web, transacciones, etc. Existen al menos tres tipos de datos que son generados a través de visitas a una página web:

Datos generados automáticamente y almacenados en el servidor a traves de logs de acceso, log referrer, log agent,y cookies del lado del cliente

Perfiles de usuario

Metadatos tales como atributos de páginas, atributos de contenidos, y datos de uso

Página –177–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de minería Web (9)

Minería de uso, es el proceso de extracción de información en cómo las personas que recorren esos enlaces con sus navegadores hacen uso de ellos. ¿Qué páginas visitan? ¿cuánto tiempo permanecen en cada página? ¿cuántos hacen clic en la siguiente? ¿qué caminos conducen a la salida? ¿Al contador de páginas?

Página –178–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de minería Web (10)

Clickstream analysis Análisis de la información recogida de los servidores Web ayuda

a comprender el comportamiento del usuario

Utilizando técnicas de minerías de datos, una compañía puede poder discernir patrones interesantes a partir del análisis de clics. P.e. puede aprender que 70% de los visitantes de Madrid que buscan “hoteles en Madrid” también buscan “el museo del Prado” o “comer en Casa Lucio”. Esta información puede ser útil para decidir donde colocar publicidad en línea

CA puede ser útil para conocer cuando los visitantes acceden a un sitio: p.e. si se conoce que el 70% e las descargas de software de su sitio ocurren entre las 8 y 12 pm hora española, puede planear tener mejor apoyo al cliente y mejores anchos de banda en esas horas, pensar que son clientes americanos, etc.

Página –179–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de minería Web (11)

Clickstream analysis Ejemplos de uso de de Web Mining:

Determinar el valor del tiempo de vida de los clientes

Diseñar estrategia de marketing cruzado de productos

Evaluar campañas promocionales

Comportamiento de grupos de usuarios basados en patrones de acceso

Predecir comportamiento de usuario basado en reglas aprendidas con anterioridad y perfiles de usuario

Presentar información dinámica a usuarios basada en sus intereses y perfiles

Página –180–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tipos de minería Web (Amazon) Amazon proporciona un magnífico ejemplo de cómo el uso de

la Web se puede potenciar dinámicamente

Un usuario registrado que vuelve a visitar amazon.com es saludado por su nombre

Es una tarea simple que implica reconocer al usuario leyendo un cookie (p.e. un pequeño archivo de texto escrito por un sitio web en el computador del visitante)

También presenta al usuario una elección de productos de un almacén personalizado, basado en compras anteriores y en un análisis de asociación de usuarios similares

“Godl Box” para ahorro de tiempo en visitas y compras

Otras recomendacione y software para análisis de páginas Web Kdnuggets.com/software/web-mining.html

Página –181–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Software de minería de uso

ClickTracks clicktracks.com

Se pueden mostrar patrones de visitantes en el sitio Web

LiveStats from DeepMetrix deepmetrix.com

Análisis de log en tiempo real, demos en vivo del sitio

Megaputer WebAnalystmegaputer.com/products/wm.php3

Capacidad de minería de datos y de texto

MicroStrategy Web Traffic Analysis Module

microstrategy.com/Solutions/Applications/WTAM

Detalles de tráfico, análisis de contenido informes de análisis de visitantes

Página –182–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Software de minería de uso (2)

SAS Web Analyticssas.com/solutions/webanalytics

Analiza tráfico de sitios Web

SPSS Web Mmining for Clementinespss.com/web_minig_for_clementine

Extracción de eventos Web

WebTrends

webtrends.com

Minería de datos de información de tráfico en la Web

Salfordsystems.comalfordsystems.com+

Página –183–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Ejemplo de personalización utilizando minería de uso en Web

Página –184–Página –184–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Referencias Web

Teradata University Teradatastudentnetwork.com

DM Review Dmreview.com

SAS Sas.com (buscar whitepaper of applications)

SPSS Spss.com (buscar whitepaper of applications)

Teradata Teradata.com (buscar whitepaper of applications)

Kdnuggests Kdnuggest.com (buscar información de softwrare y paquetes de

aplicación)

Página –185–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Bibliografía

LINOFF, Gordon y BERRY, Michael. (2002). Mining the Web. New York: Wiley

GARCIA SANTIAGO, Lola. (2003). Extraer y visualizar información en Internet: el Web Mining. Madrid: Ediciones Trea

CHAKARABARTI, Soumen. (2003). Mining the Web: Discovering Knowledge from Hypertext Data. Boston: Morgan Kaufmann.

[TURBAN, E., ARONSON J.E., LIANG, T.P. y SHARDA, R. (2007). Decision Support and Business Intelligence Systems. Eigth Edition. New Jersey: Pearson/Prentice-Hall

Página –186–

UNIVERSIDAD PONTIFICIA DE SALAMANCA EN MADRID

Prof. Luis Joyanes Aguilar

187187

Tema 9. Workflow, SOA y BPM

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –188–

Definiciones de Procesos, Procesos de negocio y Wf

Un proceso se puede definir como una serie de actividades , en las que varias entidades (personas, máquinas, etc.) colaboran para conseguir un objetivo concreto. P.e. un proceso típico en una empresa podría consistir en el conjunto de actividades necesarias para responder a una solicitud de compra por parte de un cliente (negociación de precios y fechas de envío, facuración, envío de loos bienes al cliente, etc).

El proceso puede ser visto también como una cadena de actividades coherentes que resulta en la creación de valor (ya sea material o inmaterial) para alguien. Esta cadena de actividades se conoce como cadena de valor.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –189–

Definiciones de Procesos, Procesos de negocio y Wf

Un proceso de negocio es un tipo especial de proceso que describe, desde un punto de vista orientado al mercado, las actividades de una organización. El principal objetivo de los procesos de negocios es satisfacer las necesidades de los clientes.

Wf se define como la automatización de un proceso de negocio, total o parcial, durante la cual se pasan documentos, información o tareas de un participante a otro para realizar una acción de acuerdo con un conjunto de reglas de procedimiento. Esta reglas se establecen en la definición del proceso

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –190–

Definiciones de términos BPM, WF, ... [WfMC]

Business Process (Proceso/s de negocio). Un conjunto de uno o más procedimientos enlazados o actividades que realizan colectivamente un objetivo de negocio, u objetivo de política organizacional, normalmente dentro del contexto de una estructura organizacional definiendo roles y relaciones funcionales.

Workflow. La automatización de un proceso de negocio, en todo o en parte, durante el cual, documentos, información o tareas se pasan de un participante a otro por acción, de acuerdo a un conjunto de reglas de procedimiento. Estas reglas se establecen en la definición del proceso ... (gestión electrónica de procesos de negocio)

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –191–

Definiciones de términos BPM, WF, ... [WfMC]

Definición de proceso. La representación de un proceso de negocio en un formato que soporta manipulación automatizada, tal como modelado, o representación en un sistema de gestión de flujo de trabajo. La definición de proceso consta de una red de actividades y sus relaciones, criterios para indicar el arranque y terminación del proceso e información acerca de las actividades individuales tales como participantes, aplicaciones de TI y datos asociados, etc.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –192–

Definiciones de términos [Wikipedia]

Un proceso de negocio es un conjunto de tareas relacionadas lógicamente llevadas a cabo para lograr un resultado de negocio definido. Cada proceso de negocio tiene sus entradas, funciones y salidas. Las entradas son requisitos que deben tenerse antes de que una función pueda ser aplicada. Cuando una función es aplicada a las entradas de un método, tendremos ciertas salidas resultantes.

Es una colección de actividades estructurales relacionadas que producen un valor para la organización, sus inversores o sus clientes. Es, por ejemplo, el proceso a través del que una organización ofrece sus servicios a sus clientes

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –193–

Definiciones de términos [Wikipedia]

Los procesos de negocio consisten en subprocesos, decisiones y actividades.

Un subproceso es parte un proceso de mayor nivel que tiene su propia meta, propietario, entradas y salidas.

Las actividades son partes de los procesos de negocio que no incluyen ninguna toma de decisión ni vale la pena descomponer (aunque ello sea posible). Por ejemplo, “Responde al teléfono”, “Haz una factura”

Un proceso de negocio es usualmente el resultado de una Reingeniería de Procesos. El modelado de procesos es usado para capturar, documentar y rediseñar procesos de negocio

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Figure 1.0 Relationships between basic terminology

Página –194–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Workflow

Definition

The automation of a business process, in whole or part, during which documents, information or tasks are passed from one participant to another for action, according to a set of procedural rules.

Usage

* The automation of a business process is defined within a Process Definition, which identifies the various process activities, procedural rules and associated control data used to manage the workflow during process enactment

*

Página –195–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Workflow

Many individual process instances may be operational during process enactment, each associated with a specific set of data relevant to that individual process instance (or workflow "Case")

* A loose distinction is sometimes drawn between production workflow, in which most of the procedural rules are defined in advance, and ad-hoc workflow, in which the procedural rules may be modified or created during the operation of the process.

Página –196–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Workflow Management System

Definition

A system that defines, creates and manages the execution of workflows through the use of software, running on one or more workflow engines, which is able to interpret the process definition, interact with workflow participants and, where required, invoke the use of IT tools and applications

Página –197–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Workflow Management System

Usage

[ A Workflow Management System consists of software components to store and interpret process definitions, create and manage workflow instances as they are executed, and control their interaction with workflow participants and applications.

* Such systems also typically provide administrative and supervisory functions, for example to allow work reassignment or escalation, plus audit and management information on the system overall or relating to individual process instances.

[ The WfMC have published an architectural Reference Model, describing the structure and interfaces of a Workflow Management System..

Página –198–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –199–

Definiciones de términos BPM, WF, ... [WfMC]

Business Process Management (no incluida definición en el Glosario de WfMC, pero si aceptada en discusiones internas en 2007]. La práctica de desarrollo, ejecución, medida de prestaciones (desempeño), y simulación de Procesos de Negocio para efectuar (llevar a cabo) la mejora continuada de esos procesos. Gestión de Procesos de Negocios está relacionada (concernida) con el ciclo de vida de la Definición de Proceso

Glosario de WfMC

"The WfMC glossary", Workflow handbook 1997, John Wiley & Sons, Inc., 1997, ISBN 0-471-96947-8

http://www.huihoo.org/jfox/jfoxflow/specification/03.Terminology_Glossary.pdf

http://portal.acm.org/citation.cfm?id=273004

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –200–

Referencias y recursos

WfMC (Workflow Management Coalition)

www.wfmc.org/

www.wfmc.org/standards/docs.htm

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –201–

Workflow

Artículo con direcciones de descargas de Windows Sharepoint

Introducción para desarrolladores a los flujos de trabajo para Windows SharePoint Services 3.0 y SharePoint Server 2007 http://www.microsoft.com/spanish/msdn/articulos/archivo/020407/voices/aa830816.mspx#EPB#EPB

Servicio de artículos técnicos de Microsoft en español http://www.microsoft.com/spanish/msdn/articulos/default.

mspx Servicio de descargas http://www.microsoft.com/spanish/msdn/descarga/default.

mspx Servicio de descargas de microsoft (en español) http://www.microsoft.com/downloads/Search.aspx?displayl

ang=es

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –202–

Definiciones de términos BPM, WF, ... [WfMC]

Business Process Management (no incluida definición en el Glosario de WfMC, pero si aceptada en discusiones internas en 2007]. La práctica de desarrollo, ejecución, medida de prestaciones (desempeño), y simulación de Procesos de Negocio para efectuar (llevar a cabo) la mejora continuada de esos procesos. Gestión de Procesos de Negocios está relacionada (concernida) con el ciclo de vida de la Definición de Proceso

Glosario de WfMC

"The WfMC glossary", Workflow handbook 1997, John Wiley & Sons, Inc., 1997, ISBN 0-471-96947-8

http://www.huihoo.org/jfox/jfoxflow/specification/03.Terminology_Glossary.pdf

http://portal.acm.org/citation.cfm?id=273004

http://www.aiai.ed.ac.uk/project/wfmc/ARCHIVE/DOCS/glossary/glossary.html

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –203–

Referencias y recursos

WfMC (Workflow Management Coalition)

www.wfmc.org/

www.wfmc.org/standards/docs.htm

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –204–

Workflow

Artículo con direcciones de descargas de Windows Sharepoint

Introducción para desarrolladores a los flujos de trabajo para Windows SharePoint Services 3.0 y SharePoint Server 2007 http://www.microsoft.com/spanish/msdn/articulos/archivo/020407/voices/aa830816.mspx#EPB#EPB

Servicio de artículos técnicos de Microsoft en español http://www.microsoft.com/spanish/msdn/articulos/default.

mspx Servicio de descargas http://www.microsoft.com/spanish/msdn/descarga/default.

mspx Servicio de descargas de microsoft (en español) http://www.microsoft.com/downloads/Search.aspx?displayl

ang=es

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

TECNOLOGÍAS EMERGENTES EN LA PRÓXIMA década … Gartner … Agosto 06

Las tecnologías Web 2.0 y los modelos de negocio dominan las tecnologías emergentes junto con la Web del Mundo real y la Arquitectura de aplicaciones:

Web 2.0

Web del mundo real

Arquitectura de aplicaciones

Página –205–Página –205–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tecnologías y modelos de negocio Web 2.0

Análisis de redes sociales (SNA, Social Network Analysis)

Uso de información y conocimiento de muchas personas y sus redes personales

Ajax

Inteligencia colectiva

Producción de contenido intelectual (código, documentos, indexación y decisiones)

Mashups Proporciona mejoras crecientes para procesos establecidos que

producen aumento de ingresos o ahorros de costes para la empresa

Página –206–Página –206–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Arquitecturas de aplicaciones

Arquitecturas controladas por eventos (EDA)

Arquitecturas controladas por modelos (MDA)

Web semántica corporativa

Arquitecturas orientadas a servicios (SOA)

Página –207–Página –207–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

APLICACIONES NOTABLES DE SOA

SOA mejorará la interoperabilidad del sector sanitario

SOA transformará el desarrollo de aplicaciones en las Administraciones Públicas

---

La mayoría de las grandes empresas europeas han iniciado alguna clase de iniciativa SOA

IDC prevé un gasto en este tipo de tecnologías (SOA) cercano a los 15.000 millones de dólares en 2009

El binomio BPM/SOA será clave en el desarrollo empresarial de los próximos años

Página –208–Página –208–

Luis Joyanes Aguilar ©UNIVERSIDAD PONTIFICIA DE SALAMANCA campus MADRID

Seminario Inteligencia de Negocios, Universidad de Caldas, Agosto de 2007 Página –209–Página –209–

• Social Networking

• Web Sevices / SOA

• AJAX

• SEGURIDAD

• BPM/ GESTIÓN DE DOCUMENTOS y ECM

• OFFICE 2.0

• Enterprise Web 2.0

• Enterprise 2.0

TECNOLOGÍAS QUE EXPLOTARÁN EN 2007

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

TECNOLOGÍAS PARA SOBREVIVIR EN LOS PRÓXIMOS CINCO AÑOS

Las compañías necesitarán comprender, abrazar e implementar tecnologías y soluciones de empresa web 2.0

Hoy los empleados, socios y clientes esperan más acceso a información y un formato fácil y personalizable (a medida)

Las empresas necesitan considerar lo que hacen hoy para cumplir las necesidades actuales y establecer los fundamentos del futuro

Página –210–Página –210–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

APLICACIONES DE EMPRESA Web 2.0

Aplicaciones persistentes

Determinadas aplicaciones no necesitan ser modificadas. p.e Outlook y Office de Microsoft, o sus equivalentes de Google, Sun

Aplicaciones Web continuas Pueden ser entregadas aisladamente en la

empresa.. Modelo SaaS (Software as a Service)

Aplicaciones sintetizadas SOA, EAI, ESB (Enterprise Service Bus), mash-ups

Página –211–Página –211–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

ENTERPRISE Web 2.0 (EW2.0)

Hoy, usuarios, clientes y empleados esperan obtener información en cualquier momento y trabajar en cualquier lugar del mundo

Esto implica aplicaciones y servicios deben estar disponibles en tantos lugares como sea posible

El apellido 2.0 significa como las organizaciones se comunicarán con los clientes y los socios en los negocios ahora y en el futuro

Para muchas empresas puede significar la incorporación de tecnologías 2.0 “estar o no estar en el negocio en cinco años”

Página –212–Página –212–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

ENTERPRISE Web 2.0 (EW2.0) (II)

Muchas empresas han comenzado a evolucionar e implementar SOA y BPM

Las tecnologías SOA/BPM se pueden considerar evolutivas

Las tecnologías Web 2.0 se podrían considerar “revolucionarias”

Página –213–Página –213–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

ENTERPRISE Web 2.0 (EW2.0) (II)

EW 2.0 es mucho más que entregar aplicar web y proporcionar portales de colaboración

Son tres áreas importantes:

Aplicaciones e integración de aplicaciones

Conectividad (Internet, wireless, netwok)

Tecnologías end-point tales como “portátiles” (laptops) y PDA,s

Página –214–Página –214–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

APLICACIONES E INTEGRACIÓN DE APLICACIONES EW2.0

EAI, SOA, BPM

Herramientas Backbase, Nexaweb, JaclBe, Adobe, Crosscheck Systems

Empresas Web 2.0 Wikis

Mash-ups

Search-Google

Yahoo

Ask.com

Gigablast

..

Página –215–Página –215–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Conectividad

Los usuarios actuales demandan acceso a información en cualquier momento y en cualquier lugar. Estas demandas se incrementarán en los próximos años

Se esperan soluciones y tecnologías “always-on”

Los departamentos de TI necesitarán conocer e implementar la conexión correctar y accesos a redes con éxito con EW2.0. Esto requiere tecnologías y temas de seguridad y soluciones

Página –216–Página –216–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Dispositivos de usuario-final

Los dispositivos de acceso deben proporcionar el vehículo para empleados, clientes y socios para acceder a información y aplicaciones en cualquier parte del mundo. El cómo utilicen y estandaricen las compañías estas tecnologías será crítico para su éxito

Las empresas deben decidir cuando construir aplicaciones y cuando comprar aplicaciones web externas

Las empresas necesitan un marco de trabajo para ayudar a definir objetivos organizativos pertenecientes a EW2.0

Con estos objetivos las empresas pueden listar y priorizar aplicaciones

Página –217–Página –217–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Algunos desarrollos BPMS-Web 2.0

Los editores de software de BPM y SOA y los blogs dedicados a BPM proliferan y crecen a gran velocidad

Implementación potenciada por AJAX del estándar Xforms desarrollado por W3C …

Tecnología Intalio/BPMS 4.0 creada por Orbeon y Open Source, una de las primeras soluciones BPM para adoptar un modelo Web 2.0 para interfaces de usuario de workflow

Sugerencias para usar BPM en integración múltiple de servicios Web 2.0 (Samdy Kemsley):

RSS Feeds

Weblogs y Wikis

Calendarios “Online

Hojas de Cálculo Online” (Zoho Sheet)

Página –218–Página –218–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Algunos desarrollos BPMS-Web 2.0

Una de las grandes aportaciones de Web 2.0 son las aplicaciones mashups. Por ejemplo:

Integrar en una interfaz de workflow de aplicaciones de gestión de dossiers de vistas aereas de edificios proporcionados por Google Maps; la vista de una carrertera o de un cruce de carreteras donde ha tenido lugar un accidente de circulación

Otra posibilidad, añadir una carta en la cual el lugar de residencia de los clientes o socios de una empresa a fin de localizar gupos de interes para lanzar campañas comerciales o de marketing especializado

Servicios de geolocalización, asignación de recursos locales en enlace con un motor de reglas (logística y soporte al cliente, gestión de lotas técnicas,..)

Interfaces nativos BPM más intuitivos de utilizar.. Las tecnologías Ajax permiten enriquecer estos interfaces nativos simplificando las tareas de los usuarios

Página –219–Página –219–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Aplicando conceptos Web 2.0 a BPM

Barreras pequeñas (low-barrier), disponible en cualquier parte, mashups de procesos de negocios basados en Web (Ajax y RIAs con estructuras granulares URL)

Permitir a los usuarios de negocios estructurar información y contenido de los negocios (folksonomías vs taxonomías)

Gestión y mantenimiento de procesos de negocios por los usuarios finales que utilizan los procesos de negocios como servicios web convirtiendo al proceso de negocio en una plataforma reutilizable

Página –220–Página –220–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Aplicando conceptos Web 2.0 a BPM

Servicios de procesos de negocios basados en estándares portables y reconocidos tanto como sea posible (OpenAjax, RSS, REST, SOAP, BPEL,…)

Colaboración estilo Web 2.0 (edición estilo wiki, publicaciones estilo blog, red social “social networking “)

Página –221–Página –221–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Unas propuestas de futuro en SOA

Recordemos que adoptar una inciativa SOA significa no sólo desarrollar Servicios Web sino también introducir elementos de explotación de los recursos como pueden ser herramientas de BPM, gobernabilidad, monitorización,etc.

La popularización de los conocidos Mashups como composición de aplicaciones utilizables a través de un navegador de Internet, ha dado lugar al concepto de WOA (Arquitecturas Orientadas a Web) y el uso de protocolos y tecnologías como HTTP, XML, REST o JSON

Además la Web 2.0 ofrece una forma de transformar aplicaciones en auténticas Plataformas de Red a través de Internet

Página –222–Página –222–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Unas propuestas de futuro en SOA

Desarrollar servicios consumibles a través del navegador de Internet (Explorer 8, Mozilla 3.0)

Considerar el desarrollo de servicios para sindicación (RSS y ATOM)

Desarrollar los servicios teniendo presente los links que los localizan

Utilizar AJAX como espina dorsal de SOA (casos de SAP, BEA Systems, …)

Habilitar a los usuarios de Internet como consumidores de los servicios

Considerar JSON(JavaScript Object Notation) como una opción a los servicios

Considerar un SOA Universal (Global SOA) debido la Web 2.0, sindicación de contenidos, mashups,…

Página –223–Página –223–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

TENDENCIAS TIC , IDC, COMPUTERwORLD, 1 DE FEBRERO 2007

En hardware aparecerá la Virtualización 2.0

El segmento del software estará marcado por el crecimiento del software como servicio (Saas)---Caso de Salesforce ----- respuestas de IBM, Oracle, HP, …

Los pioneros, Salesforce, junto con Google, marcan la pauta- Ha obligado a Microsoft a reconsiderar su estrategia de ventas.

“La sustitución del modelo tradicional de adquisición de software por licencias hacia el modelo de pago por uso seguirá acrecentándose”

Página –224–Página –224–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

TENDENCIAS TIC (2)

El software seguirá una senda de transformación de sus modelos de comercialización, convirtiéndose definitivamente en un servicio, como lo pueden ser la luz o el agua, y su precio bajará

El peso del Software libre (código abierto) será significativo, aunque tendrá matices a considerar

Las empresas tenderán hacia entornos mixtos, con aplicaciones propietarias y en código abierto.

Un factor clave será la interoperabilidad de los sistemas mediante la sincronización de los procesos de negocio y de los TI a través de múltiples plataformas

Página –225–Página –225–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

Tendencias TIC (3)

Cada vez tiene mas peso el usuario de negocio, la necesidad de control de gestión y el rendimiento, sin olvidar los índices relativos al ROI

El futuro vendrá marcado por una creciente demanda de soluciones de BI que facilitarán la integración de todos los datos de la organización convirtiéndolos en información almacenada y gestionable

2007 quedará registrado como el año de la consolidación de las Arquitecturas Orientadas a Servicios

Página –226–Página –226–

Luis Joyanes Aguilar ©UNIVERSIDAD PONTIFICIA DE SALAMANCA campus MADRID

Seminario Inteligencia de Negocios, Universidad de Caldas, Agosto de 2007 Página –227–Página –227–

Comentarios y preguntas

Luis Joyanes Aguilar

www.mhe.es/joyanes

(PORTAL DE CONOCIMIENTO Y TECNOLOGÍA de McGraw-Hill)

[email protected]

Tno: 34-91-5141700

Fax: 34 91 5535249

Facultad de Informática

Universidad Pontificia de Salamanca

campus Madrid

www.upsam.com

www.upsam.net/postgrado

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –228–

Bibliografía

[TURBAN et al, 2007] Turban, E., Aronson J.E., Liang T-P. y Sharda, R. (2007)Decision Support and Business Intelligence Systems. Eigth Edition. New Jersey: Pearson/Prentice-Hall. Pp. 433-477.

[GONZÁLEZ 2006]. González Lorca, Jesús (2006). Sistemas workflow. Funcionamiento y metodología de implantación. Gijón: Ediciones Trea

MORENO, J. J. y JOYANES, L. (2006) 2006 Workflow Handbook. (ed) Layna Fischer. Florida:Future Strategies

MORENO, J. J. y JOYANES, L. (2007) 2007 BPM and Workflow Handbook. (ed) Layna Fischer. Florida:Future Strategies

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –229–

BIBLIOGRAFÍA

Mendez del Río, Luis. Más allá del Businnes Intelligence. Barcelona: Gestión 2000, 2006

Judith Hurwitz . “Service Oriented Architecture for Dummies”, 2007

Juan José Moreno y Luis Joyanes. Handbook of BPM / Workflow, 2006. CRC Press : USA, 2006

Juan José Moreno y Luis Joyanes. Handbook of BPM / Workflow, 2007. CRC Press: USA, 2007

Joyanes, Luis. Web 2.0 y Redes Sociales. México DF: McGraw-Hill, 2009 (en preparación).

Joyanes, Moreno y Sánchez: BPM y SOA. México DF: McGraw-Hill, 2009 (en preparación).

Página –229–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C

BIBLIOGRAFÍA

VITT, E., LUCKEVICH, M. y MISNER, S. (2003). Business Intelligence. Técnicas de análisis para la toma de decisiones estratégicas. Madrid: McGraw-Hill,

MÉNDEZ DEL RÍO, Luis (2006)Más allá del Business Intelligence. 16 experiencias de éxito. Barcelona: Gestión 2000.

DAVIS, Jim, MILLER, Gloria y RUSSELL, Allan (2008). La Revolución de la Información. Barcelona: Bresca Profit

Página –230–

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –231–Página –231–

Referencias Web

What is Web 2.0 (en inglés, 30-09-2005)

www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html?page=1

What is Web 2.0 (en español) //sociedaddelainformacion.telefonica.es/jsp/articulos/detalle.jsp?elem=2146

Blog Web 2.0 de Dion Hincheliffe//web2.wsj2.com

SOAWebServices Journal

www.webservices.sys-con.com

Introducting Ajax and OpenAjax

www.openajax.org

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –232–Página –232–

Referencias Web

Web 2.0 and BPM Sandy Kemsley, Kemsley Design Ltd.

Process 2006, London

www.kemsleydesign.com

www.column2.com

http://www.ebizq.net/blogs/column2/

http://kemsleydesign.com/files/Web_2.0_and_BPM.20060920.pdf

Office 2.0 Podcast Jam Sandy Kemsley: Web 2.0 and Business Process

Management (www.office20podcast.com/2006/...)

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –233–Página –233–

Referencias Web

Club-BPMclub-bpm.com

Business Process Management Initiativewww.bpmi.org

Business Process Management Groupwww.bpmg.org

Workflow Management Coalitionwww.wfmc.org

The Business Process Management Supersitewww.bpm-today.com

BPM Bulletinwww.bpmbulletin.com

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –234–Página –234–

Referencias Web

OpenAjax Alliance

www.openajax.org

OpenAjax

www.openajax.net

BPMS

www.bpms.info

www.w3c.es

www.club-bpm.com

iitgroup.com/BPMS2007

BRMS (Business Reglas Management Systems)

www.ilog.com

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –235–Página –235–

Referencias Web

IT/Redux

//itredux.com/blog/2006/02/07/web-20-meets-bpm-20/

Dion Hinchcliffe:Blog Web 2.0, //web2.wsj2.com

Dion Hinchcliffe: Leveraging Web 2.0 for business growth //blogs.zdnet.com/Hinchcliffe/?p=42

Intelligent Enterprise

www.intelligententerprise.com

Business 2.0

www.business20.com

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –236–

CASOS PRÁCTICOSMás allá del Business Intelligence, Luis Mendez del Río, Gestión 2000, 2006

Iberia

Situación real en la primera década del 2000

Ranking de los mejores 100 clientes... Distintos en cada una de las áreas de contacto con el cliente

Herramienta de fidelización: Tarjeta Iberia Plus

Categorías: normal, plata, oro, platino

Acceso a servicios extra y a un trato preferencial

El cliente Iberia Plus era un auténtico VIP para la Cía.

El sistema no ofrecía el máximo de sus posibilidades. Iberia quería conocer mejor a sus clientes: Quería saber cuales eran los verdaderamente rentables

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –237–

Caso práctico: Iberia

Desconocía los que estaban a punto de dejar de volar en sus aviones

No se tenían registros si sus clientes eran particulares o viajaban por cuenta de su empresa

No constaba si al llegar a Barajas un viajero procedente de Buenos Aires era cliente VIP en Argentina o no

Iberia no sabía cómo hacer llegar esa información a los puntos calientes de la compañía, aquellos que están en contacto con los viajeros, para obtener las máximas ventajas competitivas.

Se necesitaba optimizar los ingresos de los clientes más fieles

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –238–

Caso práctico: Iberia

Se tomaron importantes decisiones comerciales... Duplicar los puntos a los titulares de Iberia Plus en el Puente Áereo No proporcionó rentabilidad a la Cia por su alto cose

La estrategia comercial de Iberia pasaba por el impacto directo, no sobre los clientes habituales, sino sobre los rentables

Había que identificar claramente a esos clientes rentables y establecer campañas eficientes para fidelizarlos al máximo y evitar su fuga a otras Cías (caso de Spanair, Air Europa, ... ) .... Grado de satisfacción de los servicios que recibían de la compañía, Atención postventa diversificada, a los clientes no se les contestaba con rapidez a las reclamaciones... Atención al Cliente en Iberia deficitaria

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –239–

Caso práctico: Iberia

Iberia necesitaba conocer todo sobre la generación de ingresos por parte de sus clientes. Quienes eran, dónde estaban los más rentables y si estaban satisfechos con la compañía

Se tomó la decisión de implantar una solución de CRM para conocer el valor de los clientes en cualquier momento de contacto, compra de billete, solicitud de información o servicio, etc.

En Febrero de 2002 se decide generar un sistema que genere inteligencia de negocio para la toma de decisiones.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –240–

Caso práctico: Iberia

La inteligencia se debe centrar en dar respuesta a tres preguntas esenciales

¿quiénes son los mejores clientes?

¿Cuáles de los servicios que se les puede ofrecer valoran más positivamente?

¿En qué momento del contacto con el cliente pueden ofrecerse?

La solución CRM y la experiencia de negocio de los directivos de Iberia junto con la recopilación y procesado de los clientes titulares de la Tarjeta Iberia Plus condujo a obtener... Nivel de gasto en vuelos de cada viajero, frecuencia de los viajes, destinos, información solicitada, reclamaciones, nivel de satisfacción, et...Se trataba de tener una imagen clara de cada cliente.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –241–

Caso práctico: Iberia

Segmentación activa .... El CRM trató de clasificar a los clientes de Iberia Plus agrupándoles en segmentos diferenciados, según sus pautas de consumo; coincidencia en las rutas, frecuencia de los viajes, forma de pago, si eran clientes de negocios o privados, si utilizaban Internet o presencial, si compraban directamente o a través de agencia, si se les había perdido alguna vez el equipaje, si reclamaban por impuntualidad u otras deficiencias, etc.

En 2004 y siguientes se organizan campañas de marketing para esos segmentos de viajeros previamente definidos... (18 en 2004)

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –242–

Caso práctico: Iberia

¿Cómo han sido las campañas?

¿Qué inteligencia estratégica se ha obtenido de la recopilación y análisis de los datos de negocio?

Localizar los clientes que perteneciendo a la categoría “plata” eran susceptibles de ser ascendidos a la categoría superior si adquirían vuelos en un plazo determinado

Campañas frecuentes con ofertas de puntos en vuelos nacionales e internacionales... Estímulos en forma de puntos

Identificar a los clientes que por haber disminuido su nivel de vuelos estaban a punto de perder la categoría

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –243–

Caso práctico: Iberia

¿Cómo estimular la fidelidad?

Mantener la fidelidad de todos sus clientes y en especial de los más rentables era vital para Iberia

Una vez identificados sus clientes más rentables, era el momento de centralizar en ellos una serie de acciones uy definidas para evitar tentaciones de fuga a otras compañías

A los clientes importantes se les ofreció participar en eventos relacionados directa o indirectamente con Iberia, invitaciones a pruebas deportivas, ferias, actuaciones musicales, etc.

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –244–

Caso práctico: Iberia

Si hay algo que produce evidente satisfacción en un cliente de líneas aéreas es ser trasladado, cuando hay plazas disponibles, a un asiento de clase superior por iniciativa directa de la persona que le atiende al facturar su equipaje... O ya dentro de la sala de embarque?

Pasar de turista a preferente o business class sin pedirlo expresamente produce un sentimiento de trato especial y diferencia en el viaje, afianzando la relación con la cia que le ofrece ese trato.

Hasta ese momento, la decisión de pasar a un cliente a una clase superior dependía de la discrecionalidad del empleado de facturación o un complicado proceso de autorización que eliminaba la inmediatez

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –245–

Caso práctico: Iberia

La inteligencia de negocio de Iberia permite que cuando un cliente con tarjeta Iberia Plus factura en el mostrador de facturación aparezcan en pantalla los datos clave del cliente, que informan al instante y a la persona que está atendiendo al pasajero sobre la conveniencia de realizar un cambio gratuito de clase y los mecanismos para una autorización automática.

Iberia decide en función de sus propias necesidades de fidelización de clientes, no de forma aleatoria y sin sentido, sino con un fin comercial muy determinado.

Potenciar nuevos procesos de negocio

Un sistema rentable

Luis Joyanes Aguilar ©UNIVERSIDAD Pontificia de Salamanca campus Madrid.

Doctorado en Ingeniería Informática. Curso 2008/2309. 2º C Página –246–

La Caixa

El poder de 6 terabytes de información de clientes

La Caixa cuenta con una base de clientes que supera los 9 millones de clientes. En sus 4.800 sucursales repartidas (datos de 2005) por toda España que se realizan 9 millones de operaciones de venta de nuevos productos en 6 millones de acta de venta diferentes

La Caixa tiene en su base de datos un volumen de información significativa sobre sus clientes de más de 6 terabytes, el activo más preciado

La comunicación se personaliza

Los abandonos se pueden detectar

Inteligencia rentable ... Tiene un plan de marketing para cada cliente