parte ii: almacenes de datos josé hernández orallo [email protected] departamento de sistemas...
TRANSCRIPT
![Page 1: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/1.jpg)
PARTE II: ALMACENES DE DATOS
José Hernández [email protected]
Departamento de Sistemas Informáticos y ComputaciónUniversidad Politécnica de Valencia
* Transparencias basadas parcialmente en el “tutorial DW” de Matilde Celma
![Page 2: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/2.jpg)
2
Temario
1. Introducción1.1. Finalidades y Evolución de los Sistemas de Información.1.2. Herramientas para la Toma de Decisiones: diferencias e interrelación.1.3. Almacenes de Datos, OLAP y Minería de Datos: definición e interrelación.
2. Almacenes de Datos2.1. Introducción a los Almacenes de Datos.2.2. Arquitectura de un Sistema de Almacén de Datos.2.3. Explotación de un Almacén de Datos: Herramientas OLAP.2.4. Sistemas ROLAP y MOLAP.2.5. Carga y Mantenimiento de un Almacén de Datos.2.6. Diseño de un almacén de Datos.2.7. Líneas de Investigación Abiertas.
3. Minería de Datos3.1. Introducción a la Minería de Datos (DM)3.2. El proceso de KDD3.3. Técnicas de Minería de Datos3.4. Web Mining3.5. Líneas de Investigación Abiertas
![Page 3: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/3.jpg)
3
Objetivos Parte II
Conocer las ventajas y casos donde es aconsejable recopilar información interna y externa en un Almacén de Datos.
Conocer el modelo multidimensional de los almacenes de datos y los operadores de refinamiento asociados: drill, roll, slice & dice, pivot.
Conocer la arquitectura y diferentes implementaciones (ROLAP, MOLAP) de Almacenes de Datos.
Reconocer pautas para el diseño y mantenimiento de ADs.
![Page 4: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/4.jpg)
4
Introducción a los Almacenes de Datos
Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas.
Muchas de estas fuentes son las que se utilizan para el trabajo diario (bases de datos operacionales).
OBJETIVO: Análisis de Datos para el Soporte en la Toma de Decisiones.
![Page 5: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/5.jpg)
5
Introducción a los Almacenes de Datos
• Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visión tradicional).
• Uso de la base de datos transaccional para varios cometidos:
• Se mantiene el trabajo transaccional diario de los sistemas de información originales (conocido como OLTP, On-Line Transactional Processing).
• Se hace análisis de los datos en tiempo real sobre la misma base de datos (conocido como OLAP, On-Line Analytical Processing).
![Page 6: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/6.jpg)
6
Introducción a los Almacenes de Datos
• Uso de la base de datos transaccional para varios cometidos:
• PROBLEMAS:
• perturba el trabajo transaccional diario de los sistemas de información originales (“killer queries”). Se debe hacer por la noche o en fines de semana.
• la base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos. Generalmente no puede ser en tiempo real (era AP pero
no OLAP).
![Page 7: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/7.jpg)
7
Introducción a los Almacenes de Datos
• Se desea operar eficientemente con esos datos...
• los costes de almacenamiento masivo y conectividad se han reducido drásticamente en los últimos años,
• parece razonable recoger los datos (información histórica) en un sistema separado y específico.
• Data warehouses (Almacenes o Bodegas de Datos)
NACE EL DATA-WAREHOUSING
![Page 8: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/8.jpg)
8
Introducción a los Almacenes de Datos
Almacenes de Datos (AD) (data warehouse)
disponer de Sistemas de Información de apoyo a la
toma de decisiones*
disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización
motivación
análisis de la organización
previsiones de evolución
diseño de estrategias
objetivos
* DSS: Decision Support Systems
![Page 9: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/9.jpg)
9
Introducción a los Almacenes de Datos
Almacenes de datos
Base de Datos diseñada con un objetivo de explotación distinto que el de las bases de
datos de los sistemas operacionales.
Sistema Operacional
(OLTP)
Sistema de Almacén de Datos
(DW)
BD orientada al proceso
BD orientada al análisis
![Page 10: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/10.jpg)
10
Introducción a los Almacenes de Datos
Almacenes de Datos
colección de datos diseñada para dar apoyo a los procesos
de toma de decisiones
orientada hacia la información* relevante de la organización
integrada variable en el tiempo
no volátil
características
* subject oriented, not process oriented
definición
![Page 11: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/11.jpg)
11
Introducción a los Almacenes de Datos
AD: Orientado hacia la información relevante de la organización
se diseña para consultar eficientemente información relativa a las actividades (ventas, compras, producción, ...) básicas de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, etc).
Información NecesariaPRODUCTO
...
GAMA...
VENTA...
PAÍS...
Base de Datos Transaccional
CURSO...
REUNION...
PROTOTIPO...
![Page 12: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/12.jpg)
12
Introducción a los Almacenes de Datos
Base de Datos Transaccional 1
Fuente de Datos 1
Fuentes Externas
Fuentes Internas
Fuente de Datos 2
Fuente de Datos 3
HTML
Almacén de Datos
texto
Base de Datos Transaccional 2
AD: Integradointegra datos recogidos de diferentes sistemas operacionales de la organización (y/o fuentes externas).
![Page 13: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/13.jpg)
13
Introducción a los Almacenes de Datos
Los datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo.
DatosTiempo
01/2003
02/2003
03/2003
Datos de Enero
Datos de Febrero
Datos de Marzo
AD: Variable en el tiempo
los datos son relativos a un periodo de tiempo y deben ser incrementados periódicamente.
![Page 14: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/14.jpg)
14
Introducción a los Almacenes de Datos
READ
Carga
INSERT READ
UPDATE
DELETE
Bases de datos operacionales Almacén de Datos
AD: No volátillos datos almacenados no son actualizados, sólo son incrementados.
El periodo de tiempo cubierto por un AD varía entre 2 y 10 años.
![Page 15: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/15.jpg)
15
Introducción a los Almacenes de Datos
Almacenes de Datosventajas para las organizaciones
rentabilidad de las inversiones
realizadas para su creación
aumento de la competitividad en el mercado
aumento de la productividad de los técnicos de
dirección
![Page 16: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/16.jpg)
16
Introducción a los Almacenes de Datos
Almacenes de Datos
problemas
infravaloración de los recursos necesarios
para la captura, carga y almacenamiento de
los datos
incremento continuo de los requisitos de los
usuarios
privacidad de los datos
infravaloración del esfuerzo necesario para
su diseño y creación
![Page 17: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/17.jpg)
17
Introducción a los Almacenes de Datos
Sistema Operacional (OLTP) Almacén de datos (DW)
- almacena datos actuales - almacena datos históricos
- almacena datos de detalle - almacena datos de detalle y datos agregados a distintos niveles
-bases de datos medianas - bases de datos grandes(100Mb-1Gb) (100Gb-1Tb)
- los datos son dinámicos (actualizables) - los datos son estáticos
- los procesos (transacciones) son repetitivos - los procesos no son previsibles
- el número de transacciones es elevado - el número de transacciones esbajo o medio
- tiempo de respuesta pequeño (segundos) - tiempo de respuesta variable (segundos-horas)
- dedicado al procesamiento de transacciones - dedicado al análisis de datos
- orientado a los procesos de la organización - orientado a la información relevante
- soporta decisiones diarias - soporta decisiones estratégicas
- sirve a muchos usuarios (administrativos) - sirve a técnicos de dirección
![Page 18: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/18.jpg)
18
Arquitectura de un Almacén de Datos
La Arquitectura de un AD viene determinada por su situación central como fuente de información para las herramientas de análisis.
Base de Datos Transaccional
Fuentes Internas
Fuentes Externas
Fuente de Datos
Fuente de Datos 3
HTML
Fuente de Datos 1
texto
Almacén de Datos
ETL Interfaz y Operadores
Herramientas de consultas e
informes
Herramientas EIS
Herramientas OLAP
Herramientas de Minería de
Datos
Copias de Seguridad
![Page 19: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/19.jpg)
19
Arquitectura de un Almacén de Datos
Componentes: Sistema ETL (Extraction, Transformation, Load): realiza las
funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del AD, realizando:
extracción de los datos. filtrado de los datos: limpieza, consolidación, etc. carga inicial del almacén: ordenación, agregaciones, etc. refresco del almacén: operación periódica que propaga los
cambios de las fuentes externas al almacén de datos
Repositorio Propio de Datos: información relevante, metadatos.
Interfaces y Gestores de Consulta: permiten acceder a los datos ys sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos).
Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad, ...
![Page 20: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/20.jpg)
20
Arquitectura de un Almacén de Datos
Organización (Externa) de Los Datos…
Las herramientas de explotación de los almacenes de datos han adoptado un modelo multidimensional de datos.
Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis.
![Page 21: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/21.jpg)
21
Arquitectura de un Almacén de Datos
EJEMPLO
Organización: Cadena de supermercados.
Actividad objeto de análisis: ventas de productos.
Información registrada sobre una venta: “del producto “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5 unidades por un importe de 103,19 euros.”
Para hacer el análisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.
![Page 22: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/22.jpg)
22
Arquitectura de un Almacén de Datos
Venta
simporte
unidades
Alm
acén
Almacén
Ciudad
Región
Tipo
Pro
duct
o
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Tie
mpo
Día
Mes
Semana
Año
Trimestre
![Page 23: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/23.jpg)
23
Arquitectura de un Almacén de Datos
Venta
simporte
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Semana
Almacén
Ciudad
Región
Tipo
Año
Descripción
Actividad que es objeto de análisis con los indicadores que interesa analizar
Dimensiones (puntos de vista) desde los que se puede analizar la actividad.
Pro
duct
o
Tie
mpo
Alm
acén
Trimestre
![Page 24: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/24.jpg)
24
Arquitectura de un Almacén de Datos
Modelo multidimensional: en un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones).
la información relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).
la información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión).
![Page 25: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/25.jpg)
25
Arquitectura de un Almacén de Datos
Venta
simporte
unidades
Alm
acén
Almacén
Ciudad
Región
Tipo
Pro
duct
o
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
hecho
medidasdimensión
atributos
Tie
mpo
Día
Mes
Semana
AñoTrimestre
![Page 26: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/26.jpg)
26
Arquitectura de un Almacén de Datos
Entre los atributos de una dimensión se definen jerarquías
departamento
almacén
ciudad región
tipo
día mes año
Producto
Almacén
Tiempo
nro. producto categoría
trimestre
semana
![Page 27: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/27.jpg)
27
Arquitectura de un Almacén de Datos
Este esquema multidimensional recibe varios nombres:
• estrella: si la jerarquía de dimensiones es lineal
• estrella jerárquica o copo de nieve: si la jerarquía no es lineal.
PERSONAL
VENTAS
tiempo
tiempo
producto
lugar
proyecto
equipo
![Page 28: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/28.jpg)
28
Arquitectura de un Almacén de Datos
Zumo Piña 1l.
Cola 33cl.
Leche Entera Cabra 1l
Tauritón 33cl
Cerveza Kiel 20 cl
Jabón Salitre
1 2 3 4 1 2
TIEMPO: trimestre
MadridBarcelona
Valencia
ZaragozaAlicante
Murcia
175793
512
Ventas en miles de
Euros
Jerarquía de dimensiones:
Categoría
Gama Prov.
\ /
Artículo
País
Ciudad
Supermercado
Año
/ \
Trimestre \
/ \
Mes Semana
\ /
Día
|
Hora
PRODUCTO:artículo
LUGAR:ciudad
PRODUCTO LUGAR TIEMPO
2004 2005
22
• Se pueden obtener hechos a diferentes niveles de agregación:
• obtención de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones
Un nivel de agregación para un conjunto de dimensiones se denomina cubo.
HECHO: “El primer trimestre de 2004 la empresa vendió en
Valencia por un importe de 22.000 euros del
producto tauritón 33 cl.”
![Page 29: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/29.jpg)
29
Arquitectura de un Almacén de Datos
¿Se puede recopilar toda la información necesaria en un único esquema estrella o copo de nieve?
NO : necesidad de varios esquemas.
Cada uno de estos esquemas se denomina datamart.
VENTAS
PERSONAL
PRODUCCIÓN
CAMPAÑA
tiempo
tiempo
tiempo
producto
producto
lugar
proyectoequipo
productoproveedor
lugar
lugar
tiempo
Almacén formado por 4 datamarts.
![Page 30: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/30.jpg)
30
Arquitectura de un Almacén de Datos
El almacén de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales.
Data mart
se definen para satisfacer las necesidades de un departamento o sección de la organización.
contiene menos información de detalle y más información agregada.
subconjunto de un almacén de datos, generalmente en forma de estrella o copo de nieve.
![Page 31: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/31.jpg)
31
Herramientas OLAP
Las herramientas de OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de análisis.
El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema físico) del almacén de datos.
La herramienta OLAP genera la correspondiente consulta y la envía al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).
![Page 32: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/32.jpg)
32
Herramientas OLAP
una consulta a un almacén de datos consiste generalmente en la obtención de medidas sobre los hechos parametrizadas
por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones
¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre y por categoría” ?.
Restricciones: productos del departamento Bebidas, ventas durante este año
medida hecho
Parámetros de la consulta: por categoría de producto y por trimestre
![Page 33: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/33.jpg)
33
Herramientas OLAP
“2002”
“Bebidas”
Pro
duct
o
Tie
mpo
Alm
acén
Venta
s
importe
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Día de la semana
Almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en este año, del departamento
de “Bebidas”, por categoría y trimestre”
Trimestre
![Page 34: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/34.jpg)
34
Herramientas OLAP
trimestretrimestre categoríacategoría importeimporte
INFORME
![Page 35: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/35.jpg)
35
Herramientas OLAP
Presentación tabular (relacional) de los datos seleccionados
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Se asumen dos categorías en el departamento de Bebidas: Refrescos y Zumos.
![Page 36: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/36.jpg)
36
Herramientas OLAP
T4T3T2T1
Zumos
Refrescos
categoría
trimestre Presentación matricial (multidimensional) de los datos seleccionados
Los parámetros de la consulta (“por trimestre” y “por categoría”) determinan los criterios de agrupación de los datos seleccionados (ventas de productos del departamento Bebidas durante este año). La agrupación se realiza sobre dos dimensiones (Producto, Tiempo).
2000000 1000000 3000000 2000000
1000000 1500000 8000000 2400000
![Page 37: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/37.jpg)
37
Herramientas OLAP
• Lo interesante no es poder realizar consultas que, en cierto modo, se pueden hacer con selecciones, proyecciones, concatenaciones y agrupamientos tradicionales.
• Lo realmente interesante de las herramientas OLAP son sus operadores de refinamiento o manipulación de consultas.
• DRILL
• ROLL
• SLICE & DICE
• PIVOT
![Page 38: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/38.jpg)
38
Herramientas OLAP
El carácter agregado de las consultas en el Análisis de Datos, aconseja la definición de nuevos operadores que faciliten la agregación (consolidación) y la disgregación (división) de los datos:
agregación (roll): permite eliminar un criterio de agrupación en el análisis, agregando los grupos actuales.
disgregación (drill): permite introducir un nuevo criterio de agrupación en el análisis, disgregando los grupos actuales.
![Page 39: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/39.jpg)
39
Herramientas OLAP
Si se desea introducir la dimensión Almacén en el análisis anterior e incluir un nuevo criterio de agrupación sobre la ciudad del almacén:
¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre, por categorías y por ciudad del almacén” ?.
Restricciones: productos del departamento Bebidas, ventas durante este año
Parámetros de la consulta: por categoría de producto, por trimestre y por ciudad del almacén.
![Page 40: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/40.jpg)
40
Herramientas OLAP
“2002”
“Bebidas”
Pro
duct
o
Tie
mpo
Alm
acén
Venta
s
importe
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Día de la semana
Almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en este año, del departamento de “Bebidas”, por categoría,
trimestre y ciudad”
Trimestre
el usuario no necesita
diseñar este nuevo inform
e
![Page 41: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/41.jpg)
41
Herramientas OLAP
trimestretrimestre categoríacategoría importeimporte
DRILL ACROSS
Almacén (Ciudad)
Informe mas detallado
¡ la operación de DRILL se realiza sobre el informe original !
![Page 42: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/42.jpg)
42
Herramientas OLAP
Categoría Trimestre VentasCiudad
T2
T1
400000
T2 700000
Refrescos T1
Valencia
dri
ll-a
cro
ss
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
León
Refrescos
Refrescos
Refrescos
Valencia
León
1000000
1000000
* Se asumen dos ciudades: Valencia y León.
Cada grupo (categoría-trimestre) de la consulta original se disgrega en dos nuevos grupos (categoría-trimestre-ciudad) para las ciudades de León y Valencia.
![Page 43: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/43.jpg)
43
Herramientas OLAP
T1 T2 T3 T4
Valencia
Zum
osR
e fr e
scos
León
1000000
300000
400000
500000
100000
200000
500000
2000000
Presentación matricial de los datos seleccionados.
![Page 44: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/44.jpg)
44
Herramientas OLAP
Si se desea eliminar el criterio de agrupación sobre la dimensión Tiempo en la consulta original:
¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por categorías” ?
![Page 45: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/45.jpg)
45
Herramientas OLAP
“2002”
“Bebidas”
Pro
duct
o
Tie
mpo
Alm
acén
Venta
s
importe
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Día de la semana
Almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en este año, del departamento
de “Bebidas”, por categorías”
Trimestre
el usuario no necesita
diseñar este nuevo inform
e
![Page 46: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/46.jpg)
46
Herramientas OLAP
ROLL ACROSS
Tiempo (Trimestre)
Informe mas agregado
trimestretrimestre categoríacategoría importeimporte
¡ la operación de ROLL se realiza sobre el informe original !
![Page 47: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/47.jpg)
47
Herramientas OLAP
Categoría Ventas
Refrescos 8000000
Zumos 12900000
roll-
acr
os
s
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
![Page 48: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/48.jpg)
48
Herramientas OLAP
Las operaciones de agregación (DRILL) y disgregación (ROLL) se pueden hacer sobre:
atributos de una dimensión sobre los que se ha definido una jerarquía: DRILL-DOWN, ROLL-UP
departamento – categoría - producto (Producto)
año - trimestre – mes - día (Tiempo)
sobre dimensiones independientes: DRILL-ACROSS, ROLL-ACROSS
Producto – Almacén -Tiempo
![Page 49: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/49.jpg)
49
Herramientas OLAP
trimestretrimestre categoríacategoría importeimporte
DRILL DOWN
Tiempo (mes)
¡ la operación de DRILL se realiza sobre el informe original !
“Importe
total d
e ventas e
n
este año, d
el departa
mento
de “Bebidas”,
por categoría
y
mes”
![Page 50: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/50.jpg)
50
Herramientas OLAP
Categoría Trimestre VentasMes
T1
T1
500000
Refrescos T1
Enero
dri
ll-d
ow
n
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Febrero
Refrescos
Refrescos Marzo
1000000
500000
Cada grupo (categoría-trimestre) de la consulta original se disgrega en dos nuevos grupos (categoría-trimestre-mes).
![Page 51: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/51.jpg)
51
Herramientas OLAP
Otras operaciones de OLAP:
SLICE & DICE: seleccionar y proyectar datos en el informe.
PIVOT: reorientación de las dimensiones en el informe.
![Page 52: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/52.jpg)
52
Herramientas OLAP
Ventas
ElectronicsToysClothingCosmetics
Q1
$5,2$1,9$2,3$1,1
ElectronicsToysClothingCosmetics
Q2
$8,9$0,75$4,6$1,5
Productos Store1 Store2
$5,6$1,4$2,6$1,1
$7,2$0,4$4,6$0,5
Ventas
ElectronicsToysClothingCosmetics
Stor
e 1 $5,2
$1,9$2,3$1,1
ElectronicsToysClothingCosmetics
Stor
e 2 $5,6
$1,4$2,6$1,1
Productos Q1 Q2
$8,9$0,75$4,6$1,5
$7,2$0,4$4,6$0,5
PIVOT
![Page 53: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/53.jpg)
53
Herramientas OLAP
Ventas
ElectronicsToysClothingCosmetics
Q1
$5,2$1,9$2,3$1,1
ElectronicsToysClothingCosmetics
Q2
$8,9$0,75$4,6$1,5
Productos Store1 Store2
$5,6$1,4$2,6$1,1
$7,2$0,4$4,6$0,5
Ventas
ElectronicsToysQ
1 $5,2$1,9
Productos Store1
ElectronicsToysQ
2 $8,9$0,75
SLICE & DICE
![Page 54: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/54.jpg)
54
Herramientas OLAP
Las herramientas de OLAP se caracterizan* por:
ofrecer una visión multidimensional de los datos (matricial).
no imponer restricciones sobre el número de dimensiones.
ofrecer simetría para las dimensiones.
permitir definir de forma flexible (sin limitaciones) sobre las dimensiones: restricciones, agregaciones y jerarquías entre ellas.
ofrecer operadores intuitivos de manipulación: drill-down, roll-up, slice-and-dice, pivot.
ser transparentes al tipo de tecnología que soporta el almacén de datos (ROLAP o MOLAP).
*Subconjunto de las 12 reglas propuestas por E.F. Codd para A.D.
![Page 55: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/55.jpg)
55
ROLAP y MOLAP
El Almacén de Datos y las herramientas OLAP se pueden basar físicamente en varias organizaciones:
Sistemas MOLAP
disponen de estructuras de almacenamiento específicas (arrays) y técnicas de compactación de datos que favorecen el rendimiento del almacén.
Sistemas ROLAP
se implementan sobre tecnología relacional, pero disponen de algunas facilidades para mejorar el rendimiento (índices de mapas de bits, índices de JOIN).
Sistemas HOLAP
sistemas híbridos entre ambos.
![Page 56: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/56.jpg)
56
ROLAP y MOLAP
Sistemas ROLAP:
El almacén de datos se construye sobre un SGBD Relacional.
Los fabricantes de SGBD relacionales ofrecen extensiones y herramientas para poder utilizar el SGBDR como un Sistema Gestor de Almacenes de Datos.
![Page 57: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/57.jpg)
57
ROLAP y MOLAP
Sistemas ROLAP:
Extensiones de los SGBD relacionales:
índices de mapa de bits
índices de JOIN
técnicas de particionamiento de los datos
optimizadores de consultas
extensiones del SQL (operador CUBE, roll-up)
![Page 58: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/58.jpg)
58
ROLAP y MOLAP
Sistemas MOLAP.
Sistema de propósito específico:
estructuras de datos (arrays)
técnicas de compactación.
El objetivo de los sistemas MOLAP es almacenar físicamente los datos en estructuras multidimensionales de forma que la representación externa y la representación interna coincidan.
![Page 59: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/59.jpg)
59
ROLAP y MOLAP
Warehouse
ServidorMOLAP
– El servidor MOLAP construye y almacena datos en estructuras multidimensionales.
– La herramienta de OLAP presenta estas estructuras multidimensionales.
Herramienta
OLAP
Estructuras multidimensionales
![Page 60: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/60.jpg)
60
ROLAP y MOLAP
MOLAP:– Datos
• Arrays
• Extraídos del almacén de datos
– almacenamiento y procesos eficientes
– la complejidad de la BD se oculta a los usuarios
– el análisis se hace sobre datos agregados y métricas o indicadores precalculados.
Warehouse
ServidorMOLAP
Herramienta
OLAP
Estructuras multidimensionales
![Page 61: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/61.jpg)
61
ROLAP y MOLAP
HerramientaOLAP
HerramientaOLAP
Servidor Relacional
Desktop
Servidor Multidimensional
Warehouse
MOLAPROLAP
Clie
nte
Ser
vido
r
![Page 62: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/62.jpg)
62
ROLAP y MOLAP
ROLAP/MOLAP: Ventajas e Inconvenientes:
ROLAP
pueden aprovechar la tecnología relacional.
pueden utilizarse sistemas relacionales genéricos (más baratos o incluso gratuitos).
el diseño lógico corresponde al físico si se utiliza el diseño de Kimball.
MOLAP:
generalmente más eficientes que los ROLAP.
el coste de los cambios en la visión de los datos.
la construcción de las estructuras multidimensionales.
![Page 63: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/63.jpg)
63
Carga y Mantenimiento de un A.D.
El sistema encargado del mantenimiento del almacén de datos es el Sistema E.T.T* (Extracción - Transformación -Transporte)
– La construcción del Sistema E.T.T es responsabilidad del equipo de desarrollo del almacén de datos.
– El Sistema E.T.T es construido específicamente para cada almacén de datos. Aproximadamente 50% del esfuerzo.
– En la construcción del E.T.T se pueden utilizar herramientas del mercado o programas diseñados específicamente.
Funciones del Sistema E.T.T:
– Carga inicial. (initial load)
– Mantenimiento o refresco periódico: inmediato, diario, semanal, mensual,... (refreshment)
* Conocido también por “E.T.L: Extracción – Transformación – Load (carga)”
![Page 64: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/64.jpg)
64
Carga y Mantenimiento de un A.D.
Correspondencia
Bases de datos operacionales
Almacenamiento intermedio
Almacén de datos
Transformación
Extracción Transporte
El Almacenamiento intermedio permite:– Realizar transformaciones sin paralizar las bases de
datos operacionales y el almacén de datos.– Almacenar metadatos. – Facilitar la integración de fuentes externas.
Fuentes Externas
E.T.T.
![Page 65: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/65.jpg)
65
Carga y Mantenimiento de un A.D.
E.T.T.Correspondencia
Transformación
Extracción Transporte
Identificación de los datos que han cambiado
Extracción (lectura) de datos.
Obtención de agregados
Mantenimiento de metadata
Limpieza y transformación de datos
Integración de datos (cálculo de datos derivados)
Creación de claves
Obtención de agregados
Mantenimiento de metadata
Carga
Indización
Obtención de datos agregados.
Realización de pruebas de calidad de la carga.
Gestión de errores.
Mantenimiento de metadata
![Page 66: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/66.jpg)
66
Carga y Mantenimiento de un A.D.
Definir una estrategia de calidad:– actuación sobre los sistemas operacionales: modificar
las reglas de integridad, los disparadores y las aplicaciones de los sistemas operacionales.
– documentación de las fuentes de datos.– definición de un proceso de transformación.– nombramiento de un responsable de calidad del sistema
(Data Quality Manager).
La “calidad de los datos” es la clave del éxito de un almacén de datos.
![Page 67: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/67.jpg)
67
Carga y Mantenimiento de un A.D.
Extracción.
– Programas diseñados para extraer los datos de las fuentes.– Herramientas: data migration tools, wrappers, ...
Correspondencia
Bases de datos operacionales
Almacenamiento intermedio
Almacén de datos
Extracción
![Page 68: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/68.jpg)
68
Carga y Mantenimiento de un A.D.
Ejecución de la extracción:
a) si los datos operacionales están mantenidos en un SGBDR, la extracción de datos se puede reducir a consultas en SQL o rutinas programadas.
b) si los datos operacionales están en un sistema propietario (no se conoce el formato de los datos) o en fuentes externas textuales, hipertextuales u hojas de cálculo, la extracción puede ser muy difícil y puede tener que realizarse a partir de informes o volcados de datos proporcionados por los propietarios que deberán ser procesados posteriormente.
Extracción: lectura de datos del sistema operacional.
a) durante la carga inicial .
b) mantenimiento del AD
![Page 69: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/69.jpg)
69
Carga y Mantenimiento de un A.D.
Identificación de Cambios.– Identificar los datos operacionales (relevantes) que han sufrido
una modificación desde la fecha del último mantenimiento.– Métodos
• Carga total: cada vez se empieza de cero.
• Comparación de instancias de la base de datos operacional.
• Uso de marcas de tiempo (time stamping) en los registros del sistema operacional.
• Uso de disparadores en el sistema operacional.
• Uso del fichero de log (gestión de transacciones) del sistema operacional.
• Uso de técnicas mixtas.
Extracción: en el mantenimiento/refresco del AD. Antes de realizar la extracción es preciso Identificar los Cambios.
![Page 70: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/70.jpg)
70
Carga y Mantenimiento de un A.D.
Transformación.
- Transformar los datos extraídos de las fuentes operacionales: limpieza, estandarización. (cleansing)
- Calcular los datos derivados: aplicar las leyes de derivación. (integration)
Correspondencia
Bases de datos operacionales
Almacenamiento intermedio
Almacén de datos
Transformación
![Page 71: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/71.jpg)
71
Carga y Mantenimiento de un A.D.
Transformación.
– En los datos operacionales existen anomalías: desarrollos independientes a lo largo del tiempo, fuentes heterogéneas, ..
– Eliminar anomalías: • Limpieza de datos: eliminar datos, corregir y completar datos,
eliminar duplicados, ...
• Estandarización: codificación, formatos, unidades de medida, ...
12M65431
12-m-65421
“12m65421”
“12m65421”
“ ”
12M65431
12M65431
12-m-65421
“12m65421”
“12m65421”
“ ”
12M65431
12
12
12
M
m
m
65431
65421
65421
12
12
M
M
65431
65421
![Page 72: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/72.jpg)
72
Carga y Mantenimiento de un A.D.
Transformación.
– Claves con estructura: descomponer en valores atómicos
código del país
zona de ventas
número de producto
código de vendedor
Código de producto = 12M65431345
![Page 73: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/73.jpg)
73
Carga y Mantenimiento de un A.D.
Transformación.
– Unificar codificaciones: existencia de codificaciones múltiples.
– Deben detectarse los valores erróneos.
v , h
1 , 0
varón, hembra
v, h
![Page 74: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/74.jpg)
74
Carga y Mantenimiento de un A.D.
Transformación.– Unificar estándares:unidades de medida, unidades de
tiempo,moneda,...
cm
inches
cm
DD/MM/YY
MM/DD/YY
DD-Mon-YY
1,000 GBP
FF 9,990
USD 600
![Page 75: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/75.jpg)
75
Carga y Mantenimiento de un A.D.
Transformación.
– Valores duplicados: deben ser eliminados.• SQL
• restricciones en el SGBDR
ACME Inc
ACME Inc
ACME Inc ACME Inc
![Page 76: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/76.jpg)
76
Carga y Mantenimiento de un A.D.
Transformación.
– Integridad referencial: debe reconstruirse.
Departamento10203040
Emp Nombre Departamento1099 Smith 101289 Jones 2012341234 DoeDoe 505067866786 HarrisHarris 6060
![Page 77: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/77.jpg)
77
Carga y Mantenimiento de un A.D.
Transformación. Creación de claves.
#1 Venta 1/2/98 12:00:01 Ham Pizza $10.00
#2 Venta 1/2/98 12:00:02 Cheese Pizza $15.00
#3 Venta 1/2/98 12:00:02 Anchovy Pizza $12.00
#5 Venta 1/2/98 12:00:04 Sausage Pizza $11.00
#4 Devolución 1/2/98 12:00:03 Anchovy Pizza - $12.00
#dw1 Venta 1/2/98 12:00:01 Ham Pizza $10.00
#dw2 Venta 1/2/98 12:00:02 Cheese Pizza $15.00
#dw3 Venta 1/2/98 12:00:04 Sausage Pizza $11.00
Claves sin significado
![Page 78: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/78.jpg)
78
Carga y Mantenimiento de un A.D.
Transporte. (carga)
– La fase de Transporte consiste en mover los datos desde las fuentes operacionales o el almacenamiento intermedio hasta el almacén de datos y cargar los datos en las correspondientes estructuras de datos.
– La carga puede consumir mucho tiempo.– En la carga inicial del AD se mueven grandes volúmenes de
datos.– En los mantenimientos periódicos del AD se mueven pequeños
volúmenes de datos.– La frecuencia del mantenimiento periódico está determinada
por el gránulo del AD y los requisitos de los usuarios.
![Page 79: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/79.jpg)
79
Carga y Mantenimiento de un A.D.
Transporte. Creación y mantenimiento de un AD.
– Crear el AD (base de datos)– En intervalos de tiempo fijos añadir cambios al AD. Se
deben determinar las “ventanas de carga” más convenientes para no saturar la base de datos operacional.
– Ocasionalmente archivar o eliminar datos obsoletos que ya no interesan para el análisis.
T1 T2 T3
Base de datos operacional
![Page 80: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/80.jpg)
80
Carga y Mantenimiento de un A.D.
Procesos posteriores a la carga: indización.
– Durante la carga: carga con el índice habilitado proceso tupla a tupla. (lento)
– Después de la carga: carga con el índice deshabilitado creación del índice (total o parcial). (rápido)
Index
Almacén de datos
Base de datos operacional
![Page 81: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/81.jpg)
81
Carga y Mantenimiento de un A.D.
Procesos posteriores a la carga: obtención de agregados.
– Durante la extracción. – Después de la carga (transporte).
Base de datos operacional
Almacenamiento intermedio
Almacén de datos
TransporteExtracción
![Page 82: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/82.jpg)
82
Diseño de un Almacén de Datos
Diseño físico
Diseño lógico específico
Implementación
Diseño conceptual
Recogida y análisis derequisitos
![Page 83: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/83.jpg)
83
Diseño de un Almacén de Datos
Diseño físico
Diseño lógico
Implementación
Diseño conceptual
Recogida y análisis derequisitos Análisis
Discernimiento de las fuentes necesarias del sistema de información de la organización (OLTP) y externas
Requisitos de usuario (consultas de análisis necesarias, nivel de agregación, …)
p.ej. Entidad-Relación
Diseño Conceptual
![Page 84: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/84.jpg)
84
Diseño de un Almacén de Datos
Diseño físico
Diseño lógico
Implementación
Diseño conceptual
Recogida y análisis derequisitos Diseño
Lógico
Modelado multidimensional (MR)
Esquemas
estrella
![Page 85: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/85.jpg)
85
Diseño de un Almacén de Datos
Diseño físico
Diseño lógico
Implementación
Diseño conceptual
Recogida y análisis derequisitos
Definición del esquema ROLAP o MOLAP
Diseño Físico
Diseño del ETL
![Page 86: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/86.jpg)
86
Diseño de un Almacén de Datos
Diseño físico
Diseño lógico
Implementación
Diseño conceptual
Recogida y análisis derequisitos
Implementación
Carga del AD (ETL)
Preparación de las vistas de usuario
(herramienta OLAP)
![Page 87: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/87.jpg)
87
Diseño de un Almacén de Datos
Detallemos más ahora el Diseño Lógico...
La visión multidimensional seguida por las herramientas de explotación de
almacenes de datos (OLAP) ha inspirado los modelos y metodologías de diseño de este tipo de sistemas.
En la literatura se habla de “Bases de Datos Multidimensionales” y de “Diseño Multidimensional”
Diseño físico
Diseño lógico
Implementación
Diseño conceptual
Recogida y análisis derequisitos
![Page 88: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/88.jpg)
88
Diseño de un Almacén de Datos
Modelado multidimensional:
en un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones).
la información relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).
la información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión).
![Page 89: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/89.jpg)
89
Diseño de un Almacén de Datos
Modelado multidimensional:
el modelado multidimensional se puede aplicar utilizando distintos modelos de datos (conceptuales o lógicos).
la representación gráfica del esquema multidimensional dependerá del modelo de datos utilizado (relacional, ER, UML, OO, ...).
![Page 90: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/90.jpg)
90
Diseño de un Almacén de Datos
El desarrollo de la tecnología de almacenes de datos se ha caracterizado por:
- un temprano desarrollo industrial provocado por las demandas de los usuarios.
- el uso de metodologías de diseño centradas principalmente en los niveles lógico e interno. (la atención se ha centrado en mejorar la eficiencia en la ejecución de consultas)
Metodología de diseño basada en el modelo relacional: Modelo multidimensional de Kimball
No es muy congruente usar modelos para diseño conceptual….
![Page 91: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/91.jpg)
91
Diseño de un Almacén de Datos
Pasos en el diseño del almacén de datos:
• Paso 1. Elegir un “proceso” de la organización para modelar.
• Paso 2. Decidir el gránulo (nivel de detalle) de representación del proceso.
• Paso 3. Identificar las dimensiones que caracterizan el proceso.
• Paso 4. Decidir la información a almacenar sobre el proceso.
![Page 92: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/92.jpg)
92
Diseño de un Almacén de Datos
Paso 1. Elegir un “proceso” de la organización para modelar.
Proceso: actividad de la organización soportada por un OLTP del cual se puede extraer información con el propósito de construir el almacén de datos.
Pedidos (de clientes)
Compras (a suministradores)
Facturación
Envíos
Ventas
Inventario
…
![Page 93: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/93.jpg)
93
Diseño de un Almacén de Datos
Ejemplo: Cadena de supermercados.
Cadena de supermercados con 300 almacenes en la que se expenden unos 30.000 productos distintos.
Actividad: Ventas.
La actividad a modelar son las ventas de productos en los almacenes de la cadena.
![Page 94: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/94.jpg)
94
Diseño de un Almacén de Datos
Paso 2. Decidir el gránulo (nivel de detalle) de representación.
Gránulo: es el nivel de detalle al que se desea almacenar información sobre la actividad a modelar.
El gránulo define el nivel atómico de datos en el almacén de datos.
El gránulo determina el significado de las tuplas de la tabla de hechos.
El gránulo determina las dimensiones básicas del esquema
• transacción en el OLTP
• información diaria
• información semanal
• información mensual. ....
![Page 95: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/95.jpg)
95
Diseño de un Almacén de Datos
id_dim1
id_dim2
id_dim3
...
id_dim n
....
(hechos)
Dim3
Dim2
Dim1
tabla de hechos
tabla Dimensión 3
tabla Dimensión 1
tabla Dimensión 2 tabla
Dimensión nDimn
![Page 96: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/96.jpg)
96
Diseño de un Almacén de Datos
Ejemplo: Cadena de supermercados.
Gránulo: “se desea almacenar información sobre las ventas diarias de cada producto en cada almacén de la cadena”.
Gránulo:
define el significado de las tuplas de la tabla de hechos.
determina las dimensiones básicas del esquema.
producto
día
almacén
ventas
tiempo
almacén
producto
![Page 97: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/97.jpg)
97
Diseño de un Almacén de Datos
• Gránulo inferior: no se almacena información a nivel de línea de ticket porque no se puede identificar siempre al cliente de la venta lo que permitiría hacer análisis del comportamiento (hábitos de compra) del cliente.
• Gránulo superior: no se almacena información a nivel semanal o mensual porque se perderían opciones de análisis interesantes: ventas en días previos a vacaciones, ventas en fin de semana, ventas en fin de mes, ....
En un almacén de datos se almacena información a un nivel de detalle (gránulo) fino no porque se
vaya a interrogar el almacén a ese nivel sino porque ello permite clasificar y estudiar (analizar)
la información desde muchos puntos de vista.
![Page 98: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/98.jpg)
98
Diseño de un Almacén de Datos
producto
día
almacén
ventas
tiempo
almacén
producto
id_producto
id_fecha
id_almacén
.....
.....
......
tabla de hechos
la clave primaria* está formada por los identificadores de las dimensiones básicas.
datos (medidas) sobre las ventas diarias de un producto en un almacén.
* pueden existir excepciones a esta regla general
![Page 99: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/99.jpg)
99
Diseño de un Almacén de Datos
Paso 3. Identificar las dimensiones que caracterizan el proceso.
Dimensiones: dimensiones que caracterizan la actividad al nivel de detalle (gránulo) que se ha elegido.
Tiempo (dimensión temporal: ¿cuándo se produce la actividad?)
Producto (dimensión ¿cuál es el objeto de la actividad?)
Almacén (dimensión geográfica: ¿dónde se produce la actividad?)
Cliente (dimensión ¿quién es el destinatario de la actividad?)
De cada dimensión se debe decidir los atributos (propiedades) relevantes para el análisis de la actividad.
Entre los atributos de una dimensión existen jerarquías naturales que deben ser identificadas (día-mes-año)
![Page 100: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/100.jpg)
100
Diseño de un Almacén de Datos
id_dim1
....
tabla Dimensión 1
(atri
buto
s)
![Page 101: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/101.jpg)
101
Diseño de un Almacén de Datos
Ejemplo: Cadena de supermercados.
definición de gránulo
dimensiones básicas
tiempo
producto
establecimiento
Nota: En las aplicaciones reales el número de dimensiones suele variar entre 3 y 15 dimensiones.
![Page 102: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/102.jpg)
102
Diseño de un Almacén de Datos
Dimensión Tiempo:
dimensión presente en todo AD porque el AD contiene información histórica sobre la organización.
aunque el lenguaje SQL ofrece funciones de tipo DATE, una dimensión Tiempo permite representar otros atributos temporales no calculables en SQL.
se puede calcular de antemano
atributos frecuentes:
– nro. de día, nro. de semana, nro. de año: valores absolutos del calendario juliano que permiten hacer ciertos cálculos aritméticos.
– día de la semana (lunes, martes, miércoles,...): permite hacer análisis sobre días de la semana concretos (ej. ventas en sábado, ventas en lunes,..).
![Page 103: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/103.jpg)
103
Diseño de un Almacén de Datos
Dimensión Tiempo:
atributos frecuentes:
día del mes (1..31): permite hacer comparaciones sobre el mismo día en meses distintos (ventas el 1º de mes).
marca de fin de mes, marca de fin de semana : permite hacer comparaciones sobre el último día del mes o días de fin de semana en distintos meses.
trimestre del año (1..4): permite hacer análisis sobre un trimestre concreto en distintos años.
marca de día festivo: permite hacer análisis sobre los días contiguos a un día festivo.
estación (primavera, verano..)
evento especial: permite marcar días de eventos especiales (final de futbol, elecciones...)
jerarquía natural:
día - mes - trimestre -año
![Page 104: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/104.jpg)
104
Diseño de un Almacén de Datos
Dimensión Producto:
la dimensión Producto se define a partir del fichero maestro de productos del sistema OLTP.
las actualizaciones del fichero maestro de productos deben reflejarse en la dimensión Producto (¿cómo?).
la dimensión Producto debe contener el mayor número posible de atributos descriptivos que permitan un análisis flexible. Un número frecuente es de 50 atributos.
atributos frecuentes: identificador (código estándar), descripción, tamaño del envase, marca, categoría, departamento, tipo de envase, producto dietético, peso, unidades de peso, unidades por envase, fórmula, ...
jerarquías: producto-categoría-departamento
![Page 105: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/105.jpg)
105
Diseño de un Almacén de Datos
Dimensión Establecimiento (store) :
la dimensión Almacén representa la información geográfica básica.
esta dimensión suele ser creada explícitamente recopilando información externa que sólo tiene sentido en el A.D y que no la tiene en un OLTP (número de habitantes de la ciudad del establecimiento, caracterización del tipo de población del distrito, ...)
atributos frecuentes: identificador (código interno), nombre, dirección, distrito, región, ciudad, país, director, teléfono, fax, tipo de almacén, superficie, fecha de apertura, fecha de la última remodelación, superficie para congelados, superficie para productos frescos, datos de la población del distrito, zona de ventas, ...
jerarquías:
– establecimiento - distrito - ciudad - región - país (jerarquía geográfica)
– establecimiento - zona_ventas - región_ventas (jerarquía de ventas)
![Page 106: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/106.jpg)
106
Diseño de un Almacén de Datos
id_establec
nro_establec
nombre
dirección
distrito
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
Establecimiento
id_fecha
día
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
id_producto
nro_producto
descripción
marca
subcategoría
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Producto
![Page 107: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/107.jpg)
107
Diseño de un Almacén de Datos
id_fecha
id_producto
id_establec
...
...
...
Ventas
id_establec
nro_establec
nombre
dirección
distrito
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
id_producto
nro_producto
descripción
marca
subcategoría
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Establecimiento
Producto
id_fecha
día
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
![Page 108: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/108.jpg)
108
Diseño de un Almacén de Datos
Paso 4. Decidir la información a almacenar sobre el proceso.
Hechos: información (sobre la actividad) que se desea almacenar en cada tupla de la tabla de hechos y que será el objeto del análisis.
Precio
Unidades
Importe
....
Nota: algunos datos que en el OLTP coincidirían con valores de atributos de dimensiones, en el almacén de datos pueden representar hechos. (Ejemplo: el precio de venta de un producto).
![Page 109: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/109.jpg)
109
Diseño de un Almacén de Datos
Ejemplo: Cadena de supermercados.
Gránulo: “se desea almacenar información sobre las ventas diarias de cada producto en cada establecimiento de la cadena”.
– importe total de las ventas del producto en el día
– número total de unidades vendidas del producto en el día
– número total de clientes distintos que han comprado el producto en el día.
![Page 110: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/110.jpg)
110
Diseño de un Almacén de Datos
id_fecha
id_producto
id_establec
importe
unidades
nro_clientes
Ventas
id_establec
nro_establec
nombre
dirección
distrito
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
id_producto
nro_producto
descripción
marca
subcategoría
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Establecimiento
Producto
id_fecha
día
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
![Page 111: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/111.jpg)
111
Diseño de un Almacén de Datos
Otras orientaciones de diseño:
usar claves sin significado:
evitar normalizar.
incluir la dimensión Tiempo.
dimensiones “que cambian”.
definición de agregados.
![Page 112: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/112.jpg)
112
Diseño de un Almacén de Datos
Otras orientaciones de diseño:
uso de claves sin significado.
– en un almacén de datos debe evitarse el uso de las claves del sistema operacional.
– las claves de las dimensiones deben ser generadas artificialmente: claves de tipo entero (4 bytes) son suficiente para dimensiones de cualquier tamaño (232 valores distintos).
– la dimensión TIEMPO debe tener también una clave artificial.
Inconvenientes del uso de las claves del sistema operacional:
en el OLTP se puede decidir reutilizar valores de la clave no utilizados actualmente.
en el OLTP se puede decidir cambiar la codificación de las claves.
![Page 113: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/113.jpg)
113
Diseño de un Almacén de Datos
Otras Orientaciones de diseño:
evitar normalizar.
Si se define una tabla de dimensión para cada dimensión identificada en el análisis, es frecuente que entre el conjunto de atributos de la tabla aparezcan dependencias funcionales que hacen que la tabla no esté en 3ª F.N.
Evitar normalizar:
el ahorro de espacio no es significativo
se multiplican los JOIN durante las consultas.
![Page 114: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/114.jpg)
114
Diseño de un Almacén de Datos
En un almacén de Datos muchas consultas son restringidas y parametrizadas por criterios relativos a
periodos de tiempo (último mes, este año, ...).
Otras Orientaciones de diseño:
siempre introducir la dimensión Tiempo.
![Page 115: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/115.jpg)
115
Diseño de un Almacén de Datos
Otras orientaciones de diseño:
dimensiones “que cambian”.
Ejemplo: En un A.D existe la dimensión CLIENTE. En la tabla correspondiente un registro representa la información sobre el cliente “María García” cuyo estado civil cambia el 15-01-1994 de soltera a casada. El estado civil del
cliente es utilizado con frecuencia en el análisis de la información.
Se considera relevante el caso en que, en el mundo real, para un valor de una dimensión, cambia el valor de un atributo que es significativo para el análisis sin cambiar el valor de su clave.
Existen tres estrategias para el tratamiento de los cambios en las dimensiones:
Tipo 1: Realizar la modificación.
Tipo 2: Crear un nuevo registro.
Tipo 3: Crear un nuevo atributo.
![Page 116: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/116.jpg)
116
Diseño de un Almacén de Datos
Otras orientaciones de diseño:
definición de agregados.
¡En un almacén de datos es usual consultar información agregada!
El almacenamiento de datos agregados por distintos criterios de agregación en la tabla de hechos mejora la eficiencia del AD.
Estrategias de almacenamiento de datos agregados:
Estrategia 1: definir nuevas tablas de hechos (resp. de dimensiones) para almacenar la información agregada (resp. la descripción de los niveles de agregación).
Estrategia 2: insertar en la tabla de hechos (resp. dimensiones) tuplas que representan la información agregada (resp. los niveles de agregación).
![Page 117: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/117.jpg)
117
Líneas de Investigación Abiertas
Resúmenes: Widom, J. Research problems in data warehousing
Actas de la International Conference on Information and Knowledge Management (CIKM95), ACM Press. 1995
Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology.
SIGMOD Records. 26(1), pp. 65-74, 1997.
Wu, Ch., Buchmann, P. Research issues in data warehousing
Datebanksysteme in Büro, Technik und Wissenchaft (BTW),
Informatik Aktuell, pp. 61-62. Springer, 1997
![Page 118: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/118.jpg)
118
Líneas de Investigación Abiertas
Resúmenes: Samtani, S., Kumar, V., Kambayashi, Y.
Recent advances and research problems in data warehousing.
Actas de la International Conference on Conceptual Modeling (ER)
LNCS 1507,Springer, 1998
Gardner, S.R.
Building the data warehouse.
Communications of the ACM 41(9), pp. 52-60, 1998.
Dinter, B., Sapia, C. Hölfing, G., Blaschka, M.
OLAP market and research: initiating the cooperation.
Journal of Computer Science and Information Management, 2(3), 1999
![Page 119: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/119.jpg)
119
Líneas de Investigación Abiertas
Conferencias especializadas en DW:
International Worshop on Data Warehousing and OLAP. (DOLAP)
International Workshop on Data Warehouse and Data Mining. (DWDM)
Interantional Workshop on Design and Management of Data
Warehouses. (DMDW)
International Conference on Data Warehousing and Knowledege
Discovery. (DaWaK)
![Page 120: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/120.jpg)
120
Líneas de Investigación Abiertas
Conferencias especializadas en BD:
International Conference of Very Large Databases. (VLDB)
International Conference on Data Engineering. (ICDE)
Interantional Conference on Conceptual Modeling. (ER)
International Conference on Extending Database Technology (EDBT).
International Conference on Database Theory (ICDT).
![Page 121: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/121.jpg)
121
Líneas de Investigación Abiertas
Direcciones de interés:
• http://www.cs.toronto.edu/~mendel/dwbib.html
• http://www.olapcouncil.org/research/
• http://www.ceur-ws.org/
• http://www.cis.drexel.edu/faculty/song/dolap.html
• http://www-db.stanford.edu/warehousing/
![Page 122: PARTE II: ALMACENES DE DATOS José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia](https://reader036.vdocumento.com/reader036/viewer/2022062309/5665b4261a28abb57c8f8a17/html5/thumbnails/122.jpg)
122
Líneas de Investigación Abiertas
Diseño de Almacenes de Datos: modelos conceptuales, metodogías de diseño.
Carga y ETL: recuperación de fallos durante la carga. Planificación de cargas y refrescos.
Limpieza y Transformación
Mantenimiento de Almacenes de Datos: mantenimiento de vistas materializadas.
Implementación de Almacenes de Datos.
Diseño Físico, optimizaciones para ROLAP, estructuras para MOLAP.
Repartición de tareas OLAP entre el cliente y el servidor.