que es un datawarehouse

5
Mauricio Quintuña 6to C Ingeniería de Sistemas 1 Temario 1. Definición. 2. Objetivo 3. Qué es un Data WareHouse? 4. Importancia 5. Procesos de un Data Warehouse

Upload: guest10616d

Post on 30-Nov-2014

8.975 views

Category:

Education


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Que Es Un Datawarehouse

Mauricio Quintuña 6to C Ingeniería de Sistemas

1

Temario1. Definición.2. Objetivo3. Qué es un Data WareHouse?4. Importancia5. Procesos de un Data Warehouse

Page 2: Que Es Un Datawarehouse

Mauricio Quintuña 6to C Ingeniería de Sistemas

2

6. Desarrollo gradual7. Beneficios de un Data WareHouse8. Cómo justificar la inversión en un DataWarehouse?9. Ventajas y desventajas del DataWarehouse?10. Tipos de usuarios de un DataWarehouse11. Las razones básicas de porque una organización implementa Data Warehouse:12. Los procesos básicos del Data WareHouse (ETL)13. Los elementos básicos de un Data WareHouse:14. El Data Mining y su relación con el Data Warehouse.15. Características clave del Data Warehouse16. Arquitectura del Data Warehouse17. ESTRUCTURA DEL DATA WAREHOUSE

DataWareHouseDefinición“El Data Warehouse es una colección de datos orientados al tema, integrados, no volátiles e historiados,organizados para el apoyo de un proceso de ayuda a la decisión.

ObjetivoEl objetivo del DW se expresa en términos puramente de negocio como “mantener la fidelidad de laclientela”

¿Que es un Data Warehouse?Un Data Warehouse es un almacenamiento separado y homogéneo donde son cargados datostransformados provenientes de diferentes bases de datos.

Importancia Un sistema de Data Warehouse permite transformar datos o información bruta en información

con sentido y extremadamente útil. Uno de los valores más importantes de una organización es la información. Estos valores

normalmente son guardados por la empresa de dos formas: Los sistemas operacionales de registros (de donde el Data Warehouse obtiene los datos) y

nuestro almacén de datos.

Procesos de un Data Warehouse

a) Extracción: obtención de información de las distintas fuentes tanto internas como externas.b) Elaboración: filtrado, limpieza, depuración, homogeneización y agrupación de la información.c) Carga: organización y actualización de los datos y los metadatos en la base de datos.d) Explotación: extracción y análisis de la información en los distintos niveles de agrupación.

Desde el punto de vista del usuario, el único proceso visible es la explotación del almacén de datos,aunque el éxito del Data Warehouse radica en los tres procesos iniciales que alimentan la información delmismo y suponen el mayor porcentaje de esfuerzo (en torno a un 80%) a la hora de desarrollar el almacén.

Desarrollo gradual

1) Una de las claves del éxito en la construcción de un Data Warehouse es el desarrollo de formagradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente elalmacén de datos a los demás usuarios.

Page 3: Que Es Un Datawarehouse

Mauricio Quintuña 6to C Ingeniería de Sistemas

3

2) Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea undepartamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y sepuedan obtener y medir resultados a corto plazo.

Beneficios de un Data WareHouse

a) Proporciona una herramienta para la toma de decisiones en cualquier área funcional, basándoseen información integrada y global del negocio.

b) Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar relacionesocultas entre los datos del almacén; obteniendo un valor añadido para el negocio de dichainformación.

c) Proporciona la capacidad de aprender de los datos del pasado y depredecir situaciones futuras en diversos escenarios.

d) Simplifica dentro de la empresa la implantación de sistemas de gestiónintegral de la relación con el cliente.

e) Supone una optimización tecnológica y económica en entornos deCentro de Información, estadística o de generación de informes conretornos de la inversión espectaculares

¿Cómo justificar la inversión en un data warehouse?

- ¿Están las ventas de artículos deportivos sujetas a tendencias por temporada?¿Qué artículos se ven afectados y cuándo?

- ¿Cuántos autos se vendieron el mes pasado? ¿Cómo se compara esta cantidad con el mismo mes en losúltimos cinco años?

- ¿Quiénes son los diez primeros vendedores o clientes en Latinoamérica? ¿Qué porcentaje del ingresogeneran?

- ¿Cuáles son los diez artículos de menor rentabilidad en el catálogo de ventas?

Ventajas - Data Warehouse

a) Datos de toda la compañía, organizados para facilitar las consultas más analíticas quetransaccionales.

b) Los procesos de transformación han sido aplicados a los datos para permitir un tiempo derespuesta mínimo a las consultas.

c) Modelo de datos multidimensional para hacer más fácil la navegación y explotación de datos.d) La administración de la seguridad está centralizada para garantizar la necesidad de información

dependiendo del perfil de los usuarios.

Desventajas:a) No es muy útil para la toma de decisiones en tiempo real debido al largo tiempo de

procesamiento que puede requerir.b) Requiere de continua limpieza, transformación e integración de datos.c) En un proceso de implantación puede encontrarse dificultades ante los diferentes objetivos que

pretende una organización.d) Una vez implantado puede ser complicado añadir nuevas fuentes de datos.

Tipos de usuarios de un DW:

1) Turistas

Page 4: Que Es Un Datawarehouse

Mauricio Quintuña 6to C Ingeniería de Sistemas

4

2) Exploradores3) Labradores.

Las razones básicas de porque una organización implementa Data Warehouse:

a) Para realizar tareas en los servidores y discos, asociados a queries y reportes en servidores ydiscos que no son utilizados por sistemas de proceso de transacciones.

b) Para utilizar modelos de datos o tecnologías de servidores que agilizan los queries y reportes, y queno son apropiados para los procesos de transacciones.

c) Para proveer un ambiente donde relativamente una muy poca cantidad de conocimiento de losaspectos técnicos de tecnología de bases de datos es requerida para escribir y mantener queries yreportes.

d) Para proveer un almacén del sistema de proceso de transacciones limpio que puede ser reportado yque no necesariamente requiere que se arregle el sistema de proceso de transacciones.

e) Para hacer los queries y reportes de datos básicamente más fácil de los múltiples procesos detransacciones y de las fuentes externas y de los datos que deben ser almacenados solamente para elpropósito de hacer queries y reportes.

Los procesos básicos del Data WareHouse (ETL):

a) Extracción: este es el primer paso de obtener la información hacia el ambiente del DataWarehouse.

b) Transformación: una vez que la información es extraída hacia el área de trafico de datos, hayposibles paso de transformación como; limpieza de la información, tirar la basura que no nos sirve,seleccionar únicamente los campos necesarios para el Data Warehouse, combinar fuentes de datos,haciéndolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de unadimensión.c) Carga: al final del proceso de transformación, los datos están en forma para ser cargados.

Los elementos básicos de un Data WareHouse:

a) Sistema fuente: sistemas operacionales de registros donde sus funciones son capturar lastransacciones del negocio. A los sistemas fuentes también se le conoce como Legacy System.

b) Área de tráfico de datos: es un área de almacenamiento y grupo de procesos, que limpiantransforman, combinan, remover los duplicados, guardan, archivan y preparan los datos fuente paraser usados en el Data Warehouse.c) Servidor de presentación: la maquina física en donde los datos del Data Warehouse sonorganizados y almacenados para Queries directos por los usuarios finales, reportes y otrasaplicaciones.d) Modelo dimensional: una disciplina especifica para el modelado de datos que es una alternativapara los modelos de entidad – relación. e) Data Warehouse system.f) OLAP: actividad general de búsquedas para presentación de texto y números del Data WareHouse,también un estilo dimensional especifico de búsquedas y presentación de información.g) ROLAP: un grupo de interfaces de usuarios y aplicaciones que le dan a la base de datos relacionalun estilo dimensional.h) MOLAP: un grupo de interfaces de usuarios, aplicaciones y propietarios de tecnología de basesde datos que tienen un fuerte estilo dimensional.i) Aplicaciones para usuarios finales: una colección de herramientas que hacen los queries, analizany presentan la información objetivo para el soporte de las necesidades del negocio.

Page 5: Que Es Un Datawarehouse

Mauricio Quintuña 6to C Ingeniería de Sistemas

5

El Data Mining y su relación con el Data Warehouse.

Un sistema Data Mining es una tecnología de soporte para usuario final cuyo objetivo es extraerconocimiento útil y utilizable a partir de la información contenida en las bases de datos de lasempresas.Las herramientas de Data Mining sirven para predecir tendencias y comportamientos, de esta manerapermiten a las organizaciones tomar decisiones proactivas para adaptarse rápidamente a los cambiosdel mercado obteniendo así ventajas heterogéneas Bases de Datos relacionales, ficheros planos yregistros de transacciones en línea.El Data Warehouse dota a las organizaciones de memoria, y el Data Mining de inteligencia.

Cuatro características clave del Data Warehouse

1) Las evoluciones tecnológicas2) La vinculación implícita con la estrategia de la empresa3) Una lógica de mejora continua4) Un nivel de madurez diferente según las empresas

Arquitectura Data Warehouse

Base de datos operacional / Nivel de base de datos externo Nivel de acceso a la información Nivel de acceso a los datos Nivel de directorio de datos (Metadata) Nivel de gestión de proceso Nivel de mensaje de la aplicación Nivel de data warehouse Nivel de organización de datos

Estructura del data warehouse

a) Datos antiguos: La data antigua es aquella que se almacena sobre alguna forma dealmacenamiento masivo. No es frecuentemente accesada y se almacena a un nivel de detalle,consistente con los datos detallados actuales.

b) Datos Actuales: Refleja las ocurrencias más recientes, las cuales son de gran interés

c) Datos ligeramente resumidos: La data ligeramente resumida es aquella que proviene desdeun bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel de la data warehousecasi siempre se almacena en disco. Los puntos en los que se basa el diseñador paraconstruirlo son:

d) Datos completamente resumidos: El siguiente nivel de datos encontrado en el datawarehouse es el de los datos completamente resumidos. Estos datos son compactos yfácilmente accesibles.