Download - Introducción al Datawarehousing
Datos (*)Datos (*)Son colecciones de
símbolos que se tienen en una computadora.
Cualquier interpretación de los datos para fines humanos se llama información.
(*) Bertrand Meyer – Touch of Class
3
DatawarehouseDatawarehouse“Es un conjunto de datos
integrados y orientados a un objetivo específico, que varían con el tiempo (datos históricos) y que no son transitorios. Soportan el proceso de toma de decisiones de la administración y está orientada al manejo de grandes volúmenes de datos provenientes de diversas fuentes…”
(Imhoff, 2003)
4
BI es un conjunto de procesos Tecnológicos que transforman los datos en conocimiento
Conocimiento
Información
Datos
Datos + contexto
Información + Know How
5Davenport, T. H., & Prusak, L. (2000)
Solución completa de BISolución completa de BI
ETLETL
CalidCalidad de ad de
datosdatos
Tomador de decisión
Usuarios Usuarios InternosInternos
Usuarios Usuarios ExternosExternos
AplicacionesAplicaciones
Arquitectura de datos
(Integración)
Data MartData Mart
Deptal.Deptal.
RapidRapid
MartsMarts
Acceso
Web
FinanzasFinanzas
I +DI +D
MercadeoMercadeo
VentasVentas
ServiciosServicios
PlaneaciòPlaneaciònn
OtrosOtros
OperacionesOperaciones
Consultas Consultas Ad hocAd hoc
IndicadoreIndicadoress
Análisis Análisis (OLAP)(OLAP)
Analíticas Analíticas por procesopor proceso
Minería de Minería de DatosDatos
Aplicación
analítica
PlanningPlanning
PredictivaPredictivass
Consultas Consultas predefinidas predefinidas
InternasInternas
ERPERPCRMCRMOLSOLSSCMSCM
NegocioNegocioOtrosOtros
Fuentes de
datos
ExternasExternas
SociosSociosMercadosMercados
CompetenciaCompetenciaEconomíaEconomíaIndustriaIndustria
OtrosOtros
ERPERPCRMCRMOLSOLSSCMSCM
NegocioNegocioOtrosOtros
Área Área TempoTempo
ralral
Data Data WarehouWarehou
sese
MetadatosMetadatos
6
Modelos Entidad-Relación vs Modelos Entidad-Relación vs Modelos DimensionalesModelos Dimensionales
Los modelos relacionales se normalizan buscando eficiencia en términos de la operación y el almacenamiento.
Pueden incluir muchas tablas.
Eficiencia en actualización
Los modelos analíticos se orientan a COMPRENDER el negocio.
Eficiencia en consultas
7
Modelo Entidad – Relación Modelo Entidad – Relación Materia Cód.
Estudiante
Nombre Estudiante
Ge nero
Dirección Estudiante
Teléfono
Nota Final
Derecho Laboral
256490 Diana Torres
F Calle 12 # 7-20 7601395
4.0
Derecho Administrativo
256490 Diana Torres
F Calle 12 # 7-20 7601395
4.3
Derecho Laboral
256491 Camilo Fernandez
M Diag 19 # 163-14
2127984
3.7
Derecho Penal
256491 Camilo Fernandez
M Diag 19 # 163-14
2127984
3.9
8
Modelo Entidad – Relación Modelo Entidad – Relación (Normalización)(Normalización)
Cód. Estudiante
Nombre Estudiante
Genero Dirección Estudiante
Teléfono
256490 Diana Torres F Calle 12 # 7-20 7601395
256491 Camilo Fernández
M Diag 19 # 163-14 2127984
Cód.Materia
NombreMateria
11001 Derecho Laboral
11002 Derecho Administrativo
11003 Derecho Penal
Cód. Materia
Cód. Estudiante
Nota Final
11001 256490 4.0
11002 256490 4.3
11001 256491 3.7
11003 256491 3.9
Estudiantes
Materias
Notas
9
Terminología Terminología DimensionalDimensionalTabla de Hechos:
◦ Es la tabla principal en un datawarehouse.
◦ Almacena las medidas numéricas de rendimiento de los procesos operacionales en relación con diferentes perspectivas de análisis.
12
Terminología Terminología DimensionalDimensionalTabla de
Dimensiones:◦ Contienen los
descriptores textuales (atributos) del negocio.
◦ Permiten dar respuestas de tipo ¿Por qué?
13
Terminología Terminología DimensionalDimensionalModelo Dimensional:
◦ Estructura que permite relacionar las tablas de hechos y las tablas de dimensiones.
14
DatawarehouseDatawarehouseEnfoque
◦ Operaciones del negocio
◦ Gerencia del negocio◦ Inteligencia del
negocio
15
DatamartDatamartSe refiere a una área
sujeto del proceso de negocio
Bodegas de datos específicas de un departamento o dependencia de la empresa
Utilizados para almacenar particularidades de un sector o para optimizar las consultas
16
Enfoques del Enfoques del DatawarehouseDatawarehouse
Data MartData MartVentasVentas
Data MartData MartFinancieroFinanciero
Data MartData MartServicio alServicio al
ClienteCliente
DataDataWarehouseWarehouseFuente 2Fuente 2Fuente 2Fuente 2
Fuente 1Fuente 1Fuente 1Fuente 1
Fuente 3Fuente 3Fuente 3Fuente 3
Top Down (Inmon)
18
Ventajas Desventajas
• Visión general del negocio• No replica trabajo• Unificación de modelos
• Tiempo de implementación• Difícil distribución de
trabajo y esfuerzo
Enfoques del Enfoques del DatawarehouseDatawarehouse
DataData WarehouseWarehouse
Data MartData MartVentas
Data MartData MartFinancieroData MartData MartServicio al
Cliente
Fuente 2Fuente 2Fuente 2Fuente 2
Fuente 1Fuente 1Fuente 1Fuente 1
Fuente 3Fuente 3Fuente 3Fuente 3
Bottom-Up (Kimball)
19
Ventajas Desventajas
• Rápida implementación• Fácil distribución de trabajo y
esfuerzo• Implementación por fases y
áreas
• Posible replicación de trabajo
Metas del Metas del DatawarehouseDatawarehouseEl datawarehouse
provee acceso a los datos corporativos
Debe servir como la base para una toma de decisiones mas informada (con base en hechos).
Debe ser adaptativo y resiliente al cambio
20
Metas del Metas del DatawarehouseDatawarehouse
Los datos en un datawarehouse son consistentes
La comunidad del negocio debe aceptar al datawarehouse como la única verdad, si se piensa ser exitoso.
21
Metas del Metas del DatawarehouseDatawarehouseLos datos en un
datawarehouse pueden ser separados y combinados por cada posible medida del negocio (slice and dice)
Debe hacer que la información sea fácilmente accesible.
22
Metas del Metas del DatawarehouseDatawarehouseLa calidad de los
datos en el datawarehouse es un conductor de la reingeniería del negocio
Debe asegurar la protección de la información.
23
Metas del Metas del DatawarehouseDatawarehouseEl datawarehouse no
es solo datos, es un conjunto de herramientas para consultar, analizar y presentar información.
24
Componentes de un Componentes de un datawarehousedatawarehouse
Servicios:Limpieza,
Combinación,Estandarización,
Dimensiones comunes
Datos:
Archivos planosTablas
relacionales
Procesamiento:
OrdenamientoProcesamiento
secuencial
Data Mart #1
DimensionalNivel de detalle
Agregados
Basado en un soloproceso de negocio
Data Mart #2
Consultas“Ad Hoc”
Reporteadores
AplicacionesAnalíticas
Modelos:• Predicción
• Minería Datos
Extracción
Extracción
Extracción
SistemasOperacionalesFuente
Area de preparaciónde Datos (Staging)
Area de presentaciónde Datos
Cargue
Cargue
Acceso
Acceso
Herramientas deAcceso a los Datos
DW Bus:Dimensionescomunes y
Facts
25
Sistemas Operacionales Sistemas Operacionales FuenteFuenteSistemas que
capturan y almacenan las operaciones del negocio.
Sus prioridades son rendimiento y disponibilidad.
Son sistemas heterogéneos.
26
Área de preparación de Área de preparación de datos (Staging)datos (Staging)Es a la vez un área
de almacenamiento y un conjunto de procedimientos (ETL)
Esta fuera de los limites de los usuarios de negocio y no provee servicios de consulta ni de presentación.
27
Área de presentación de Área de presentación de datos datos Lugar donde los
datos son organizados, almacenados y disponibles para consulta directa por parte de los usuarios y otras aplicaciones.
Constituido por una serie de Data Marts que en conjunto constituyen la bodega de datos.
Usa modelos dimensionales.
28
Herramientas de Acceso a Herramientas de Acceso a Datos (Visualización)Datos (Visualización)El término
visualización, se refiere al conjunto de herramientas que se proveen a los usuarios para facilitar el proceso de análisis de información para la toma de decisiones.
29
Modelo de EstrellaModelo de EstrellaEs muy utilizado.Orientado a la
comprensión del negocio
Reduce la complejidad de entendimiento y uso
Eficiente para consultas.
31
Modelo de SnowflakeModelo de SnowflakeLas dimensiones han sido
normalizadas.Las dimensiones en las
cuales se conforman jerarquías se pueden descomponer en una estructura de copo de nieve en la cual cada relación muchos a uno se manejan en tablas separadas.
La razón que se expone para su uso es el ahorro de espacio de almacenamiento.
32
Modelo de SnowflakeModelo de Snowflake
Este modelo es una variante del modelo estrella.
Puede parecer más complejo para el usuario.
Recomendación: Tenga en cuenta el impacto de tener el modelo de “copo de nieve” en dimensiones grandes. Puede ser que comprometa rendimiento y navegabilidad.
33
Errores comunes para Errores comunes para prevenirprevenirError 10:
Permanecer “enamorado” de la tecnología y los datos mas que de los requerimientos y metas del negocio
Error 9: No hacer equipo con un gerente visionario, influyente, accesible y razonable que sea el patrocinador del datawarehouse (Sponsor)
34
Errores comunes para Errores comunes para prevenirprevenirError 8: Emprender
un proyecto “galáctico” y “milenario” antes que perseguir un proyecto mas manejable que vaya creciendo por iteraciones.
Error 7: Asignar energía para construir un modelo de datos normalizado, buscando ahorrar recursos físicos en vez de preferir la facilidad de uso para el usario final.
35
Errores comunes para Errores comunes para prevenirprevenirError 6: Poner más
atención en el rendimiento operacional y facilidad de desarrollo del “back-room” que en el rendimiento y facilidad de uso del “front-room”
Error 5: Los diseñadores de base de datos que prefieren la complejidad, posteriormente gastarán mucho tiempo dando soporte a los usuarios.
36
Errores comunes para Errores comunes para prevenirprevenirError 4: Crear
modelos dimensionales en forma aislada sin considerar una arquitectura de datos que conectada, utilizando dimensiones compartidas.
(No aplicar arquitectura de bus)
Error 3: Cargar únicamente datos sumarizados en el área de presentación
(Profundidad de análisis)
37
Errores comunes para Errores comunes para prevenirprevenirError 2: Presumir
que el negocio, sus requerimientos, analíticas, datos subyacentes y la tecnología que lo soportan, son estáticos
Error 1: No reconocer que el éxito del data warehouse está asociado directamente a la aceptación de los usuarios.
38