bodega de datos

14
 DOCUMENTO UNIVERSIDAD NACIONAL DE COLOMBIA Conceptos básicos de Bodega de datos (DWH) Definición.  Un data warehouse es un conjunto de datos integrados orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administración. (W.H. Inmon, considerado como el padre del data warehouse) [Har96]. Data warehouse es un concepto relativamente nuevo, orientado al manejo de grandes volúmenes de datos, provenientes de diversas fuentes, de muy diversos tipos. Estos datos cubren largos períodos de tiempo, lo que trae consigo que se tengan diferentes esquemas de las bases de datos fuentes. La concentración de esta información esta orientada a su análisis para apoyar la toma de decisiones oportunas y fundamentadas. Su nombre, Data warehouse (bodega o almacén de datos) lo asocia con una colección de datos de gran volumen, provenientes de sistemas en operación y otras fuentes, después de aplicarles los procesos de análisis, selección y transferencia de datos seleccionados. Su misión consiste en, a partir de estos datos y apoyado en herramientas sofisticadas de análisis, obtener información útil para el soporte a la toma de decisiones. El Data warehousing o almacenamiento de datos es el proceso de reunir información histórica de una organización en una(s) base(s) de datos central(es). Los datos tendrán su fuente en los sistemas operacionales, de los cuales se seleccionara la información a transferir. Estos datos pueden estar almacenados en bases de datos relacionales, archivos jerárquicos, archivos planos, etc. Por lo anterior es necesario analizar y definir cuidadosamente que datos representan la esencia o filosofía del negocio que se pretenda manejar y cuales serán importantes para la meta que se le ha determinado a la bodega de datos. La información sobre los datos importados se almacena en metadatos, que son precisamente los que describen a los datos provenientes de los sistemas operacionales. Los metadatos guardan información sobre los formatos, significado y origen de los datos y facilitan, por lo tanto, el acceso, la navegación y la administración de los datos en la bodega. Son datos sobre los datos. Data warehouse es la combinación de tecnología y proceso orientada al apoyo a la toma de decisiones, donde interesa mas la historia que el detalle de lo actual. Fuente de Datos: Datos operativos actualizados por aplicaciones OLTP (On Line Processing Transaction. Procesamiento de transacciones en línea.). Están almacenados en las bases de datos operacionales. Administrador de duplicación de datos:  Encargado del copiado y distribución de los datos de acuerdo con el diseño. Se determinan los datos a copiar, desde donde y hacia donde, periodos para las actualizaciones. Se determina si se realiza una regeneración

Upload: diana-munoz

Post on 09-Jul-2015

1.216 views

Category:

Documents


0 download

TRANSCRIPT

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 1/14

DOCUMENTO UNIVERSIDAD NACIONAL DE COLOMBIA

Conceptos básicos de Bodega de datos (DWH)

Definición. Un data warehouse es un conjunto de datos integrados orientados a una

materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso

de toma de decisiones de la administración. (W.H. Inmon, considerado como el padre del

data warehouse) [Har96].

Data warehouse es un concepto relativamente nuevo, orientado al manejo de grandes

volúmenes de datos, provenientes de diversas fuentes, de muy diversos tipos. Estos

datos cubren largos períodos de tiempo, lo que trae consigo que se tengan diferentes

esquemas de las bases de datos fuentes. La concentración de esta información esta

orientada a su análisis para apoyar la toma de decisiones oportunas y fundamentadas.

Su nombre, Data warehouse (bodega o almacén de datos) lo asocia con una colección de

datos de gran volumen, provenientes de sistemas en operación y otras fuentes, después

de aplicarles los procesos de análisis, selección y transferencia de datos seleccionados.Su misión consiste en, a partir de estos datos y apoyado en herramientas sofisticadas de

análisis, obtener información útil para el soporte a la toma de decisiones.

El Data warehousing o almacenamiento de datos es el proceso de reunir información

histórica de una organización en una(s) base(s) de datos central(es).

Los datos tendrán su fuente en los sistemas operacionales, de los cuales se seleccionara

la información a transferir. Estos datos pueden estar almacenados en bases de datos

relacionales, archivos jerárquicos, archivos planos, etc. Por lo anterior es necesario

analizar y definir cuidadosamente que datos representan la esencia o filosofía del negocio

que se pretenda manejar y cuales serán importantes para la meta que se le hadeterminado a la bodega de datos.

La información sobre los datos importados se almacena en metadatos, que son

precisamente los que describen a los datos provenientes de los sistemas operacionales.

Los metadatos guardan información sobre los formatos, significado y origen de los datos y

facilitan, por lo tanto, el acceso, la navegación y la administración de los datos en la

bodega. Son datos sobre los datos.

Data warehouse es la combinación de tecnología y proceso orientada al apoyo a la toma

de decisiones, donde interesa mas la historia que el detalle de lo actual.

Fuente de Datos: Datos operativos actualizados por aplicaciones OLTP (On Line

Processing Transaction. Procesamiento de transacciones en línea.). Están almacenados

en las bases de datos operacionales.

Administrador de duplicación de datos: Encargado del copiado y distribución de los

datos de acuerdo con el diseño. Se determinan los datos a copiar, desde donde y hacia

donde, periodos para las actualizaciones. Se determina si se realiza una regeneración

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 2/14

(copia de la fuente de datos en su totalidad) o una actualización (solo se propagan los

cambios).

Bases de Datos Integrados: Organizados a través de intereses concretos. Información

histórica reflejando transacciones OLTP, acumulada por años o en general por periodos

largos. Esto lo diferencia de otras bases de datos. Generalmente son bases de datos

relacionales. Se puede decir que es el servidor de apoyo de decisiones que añade valor a

los datos procedentes de las fuentes en producción.

tienen información detallada y agregada. El tamaño de estas bases de datos es muy

grande, se suelen clasificar en:

Pequeñas: 0-100 GBytes

Medianas: 100-500 GBytes

Grandes: mas 500 GBytes

Incluye Metadatos. Los metadatos llevan registros de los datos almacenados, integrados

en la misma base de datos. Describen el contenido de la base de datos de información.

Describen las tablas, índices y el contenido de los datos. Los metadatos definen los

formatos, significado y origen de los datos y facilitan el acceso y administración a los

datos en la bodega.

Directorio de Información: Presenta al sistema qué datos están disponibles, en qué

formato y cómo acceder a ellos. Construye sus metadatos a partir de los metadatos de las

bases de datos que están en la red. Son vital ayuda para los Administradores de Bases

de Datos DBA.

Soporte de herramientas DSS. Proveen la interfaz humana con la bodega de datos. En el

procesamiento de la información se pasa de simples consultas SQL a OLAP y de esta a

Minería de Datos.

Los elementos tocados, dan a entender que un Data Warehouse difiere de las bases de

datos que soportan las transacciones diarias en los negocios. Veamos algunos aspectos:

En los sistemas operativos la información está organizada para que sea

recuperada y actualizada fácilmente. Se normaliza para estos fines. Dicha

organización esta orientada a la aplicación. Un data warehouse esta organizado y

orientado con vista al usuario final, buscando que el análisis a través de

requerimientos empresariales correcto sea posible.

Las bases de datos OLPT son accesadas continuamente a lo largo de una jornada

de trabajo, mientras que las bases de datos de apoyo de decisiones son

accesadas esporádicamente.

Los datos almacenados en la bodega de datos comprenden largos períodos de

tiempo. Durante este lapso en la empresa se han presentado cambios

tecnológicos y de implementación de las fuentes de datos, es usual que se

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 3/14

requiera condensar información desde diferentes productos de bases de datos y

dentro de estas, diferentes esquemas que se han dado en el tiempo.

Consistente con lo anterior es claro que los volúmenes de datos que se

administran en una bodega de datos son muy grandes. Por lo cual la

condensación y agregación es necesaria. En un Data Warehouse se encuentra

información con diferentes grados de granularidad.

1. Población

Adquisición.

Diseñar procedimientos para:

Cargue inicial. Primera extracción desde los sistemas en operación hacia la bodega de

datos.

Actualizaciones. Los datos deberán ser extraídos periódicamente, en un proceso cíclico.

Este periodo puede ser cada semana, mes, etc., de acuerdo a la situación concreta delnegocio. Actualizaciones muy constantes, normalmente no benefician el análisis de datos,

puesto que rara vez cambian las tendencias o comparaciones.

Algunos puntos a tener en cuenta.

Conviene hacer la extracción a un archivo, esto facilita:

Reiniciar en distintos puntos.

Se puede repetir el cargue

También facilita un preproceso antes de enviar por la red

Los cargues deben ser masivosAprovechar los utilitarios de las bases de datos.

No usar INSERT, por su ineficiencia

Generalmente es conveniente eliminar los índices y volverlos a crear.

Para los refrescos.

Detección y propagación de cambios.

Datos Cooperativos: Triggers y aplicaciones asincrónicas.

Manejo de bitácoras de cambios.

Comparaciones de versiones (Ej. diff en Unix), para detección.

2. Almacenamiento

Estrategias para lograr eficiencia.

Mantener agregados.

Especial cuidado con las actualizaciones de datos, deben generar la actualización

de los datos sumarios.

Indices : Bitmap, join index, etc.

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 4/14

 

3.Uso de herramientas OLAP o de Minería de Datos.

Se debe recordar que no es suficiente con almacenar datos, es necesario procesarlos

para convertirlos en información importante para la organización.

Los sistemas de apoyo a las decisiones (DSS), conectan a las personas con las bodegas

de datos. De la calidad de estas herramientas depende el grado de aprovechamiento de

estas. Pueden ser:

Herramientas de consultas/reportes, con interfaz gráfica, que facilitan, sin usar

sentencias SQL, realizar queries o peticiones complejas.

Herramientas OLAP (On-Line Analytical Processing). Permiten obtener información

generando consultas multidimensionales, con columnas y filas móviles y diversos

grados de agrupamiento, para diferentes parámetros.

Modelo Multidimensional: Modelo estilo hoja de cálculo.

a. Elementos:

Medidas: Valores de interés

Dimensiones: Atributos: Propiedades Visión de Cubos: Datos representados en

forma de arreglos multidimensionales.

b. Visión de Relaciones :

Tablas de hechos (Fact Table): Ej., ventas.Tablas de dimensiones: Ejemplo, tiempo, producto, geografía.

Usualmente se maneja el tiempo como una tabla. Esto permite colocar atributos a la

fecha. Es usual desnormalizar las tablas. La normalización genera un efecto denominado

copos de nieve, es preferible usar el método de la estrella, donde las relaciones son mas

claras. La actualización se hace por periodos, no en línea.

Tipos de servidores OLAP.

MOLAP: Multimensionales OLAP.

Arreglos multidimensionales.

No escalan a grandes volúmenes.

No hay estándar.

Muy eficiente.

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 5/14

Realmente guarda el cubo de decisión.

Interfaz estilo hoja de cálculo.

Principalmente operaciones de agregación de medidas diferentes.

Niveles jerárquicos de las dimensiones.

Subir o bajar en los niveles de agregación (Roll-up, Drill-Down).

Otras operaciones comunes: Filtrar y rotar. Slice and Dice.La herramienta RAD de Inprise, Delphi, permite la construcción de cubos de

decisión a partir de consultas SQL, con varios parámetros de agrupación y fácil

manipulación. Ver figura siguiente.

ROLAP: Relational OLAP.

Relaciones.

Consultas SQL

Escalan bien a grandes volúmenes

Son menos eficientes.

HOLAP: Híbrido OLAP.

Datos agregados. MOLAP

Datos detallados. ROLAP

En data mining las búsquedas se hacen sobre datos dispersos, con poca o ninguna

intervención del usuario. No se requiere formular un requerimiento estricto para que la

herramienta entregue algunas relaciones ocultas y patrones interesantes, conseguidos a

través de clasificación y predicción.

Algunas aplicaciones de estas técnicas están directamente relacionadas con el mercadeo

de producto, pudiendo predecir el comportamiento de los clientes ante una oferta o un

producto en particular, de acuerdo a su ubicación geográfica. También para conocer las

preferencias de los consumidores y tomar medidas que los acerquen a los productos que

se distribuyen.

Buscando Patrones

El proceso de buscar patrones significativos en los datos, que expliquen eventos pasados,

con el objetivo de usar dichos patrones para ayudar a predecir eventos futuros.

Puede ser:

Descriptiva. Información. Análisis dimensional.

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 6/14

Predictiva. Generar modelos. Esto realmente es minería de datos. Partir de un cúmulo de

datos y descubrir relaciones ocultas y complejas a partir de diversas operaciones.

Ejemplos de esto son:

El análisis de transacciones de tarjetas de crédito para encontrar patrones de

fraudes.

Búsqueda de tendencias de los compradores de acuerdo a sexo, edad, ubicación,

etc.

Tareas de minería de datos

Clustering. Agrupamiento-segmentación. Particionar un conjunto heterogéneo en

subconjuntos mas homogéneos. Internamente el sistema define estas características.

Clasificación. Asignar un registro a una o varias posibles clases predefinidas.

Agrupamiento por afinidad. Análisis de correlaciones. Identifica eventos o transaccionesque ocurran simultáneamente. Ejemplo de compra los días jueves en la noche de pañales

y cervezas en mercado.

Estimación /predicción. Asignar un valor a una variable dependiente que toma valores

numéricos continuos. Esto lo diferencia de la clasificación.

Ejemplo

Un ejemplo tradicional de minería de datos es el relacionado con una búsqueda en una

bodega de datos, de un negocio de cadena, de hechos comunes y relevantes: Luego del

proceso se dio como resultado la siguiente:

Esto sirvió para que empresa tomara medidas relacionada con la ubicación de ciertos

productos en sitios comunes.

Si edad < 35;

y sexo = masculino;

y dia = jueves

entonces compras incluyen

pañales;

y cerveza

Técnicas de Minería de Datos.

Redes Neuronales.

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 7/14

Clasificación

Estimación Clustering

Arboles de decisión

Técnicas de Algoritmos genéticos

Optimización de funciones, se usan con redes neuronales.

Análisis de Correlaciones

K-Vecinos.

Demos un vistazo a algunas de ellas

Redes Neuronales artificiales (RNA). Como su nombre lo indica simula el sistema

nervioso real en forma abstracta. Estas deben ser entrenadas para que den solución a los

problemas. Esta enseñanza se realiza repitiendo sistemáticamente entradas clásicas, con

sus respectivas salidas o respuestas. Son usadas para reconocimiento de patrones,

clasificaciones de voz e imagen, procesamiento de lenguaje natural, predicción y

optimización.

Reglas de Producción. Generalmente son transformaciones de árboles de decisión que

han crecido mucho, llevándolos al plano proposicional, lo cual facilita el entendimiento.

Todas estas técnicas pueden ser mezcladas para obtener los resultados esperados.

K-Vecinos. Usa razonamiento basado en memoria (MBR) para las predicciones. Identificalos vecinos más cercanos (valores similares para igual atributo) y observa como se

comporta la variable de salida. Parte de un conjunto de datos modelo, que representa el

mecanismo de clasificación, se determina la cantidad de vecinos que participan en la

clasificación (K). Es permitido ponderar atributos para expresar su importancia en la

técnica.

Arboles de decisión (AD). Representan reglas donde atributos independientes determinan

los valores finales. En estos árboles cada nodo representa una propiedad que puede

tomar diversos valores, cada uno de los cuales genera una rama. Los nodos hojas

representan las clasificaciones finales. Usadas donde se deben tomar decisiones a partir

de varias alternativas combinadas y con pesos diferentes. Son útiles en problemas de alta

dimensionalidad y pequeño numero de valores para cada atributo. Se usan, por enumerar

unos, en dominios médicos y en simulaciones de juegos de ajedrez.

Inconvenientes

En estas tareas de minería de datos, se encuentran inconvenientes inherentes a las

bodegas de datos:

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 8/14

Grandes volumen de información y altamente dimensionales, lo que dificulta el

hallazgo de patrones.

Valores inconsistentes o no existentes en algunos atributos importantes. Estas

situaciones deberían haberse corregido en la fase de población y actualización,

pero en caso de presentarse se debe tener una política para su manejo.

La representación de los resultados no siempre es comprensible para todos losusuarios.

Valor estadístico de los patrones hallados.

Productos para minería de datos

Hoy existen una buena cantidad de productos, de diversos fabricantes, para minería de

datos, varios de ellos impulsados por universidades reconocidas [Esc96]. Por enumerar

algunos, Intelligent Miner (IBM), KDD Project (GTE laboratories), Datamind (Datamind

Inc), Saxon (PMSI). Algunos se pueden conseguir en sitios Internet, para las diferentes

plataformas: Data Surveyor (www.ddi.nl), IDIS (http://datamine.inter.net/datamine), VisDB

(http://www.informatik.uni-halle.de/dbs/Research/VisDB).

Este último producto tiene una versión para sistema operativo Linux. El VisDB se ha

desarrollado para apoyar la exploración de bancos de datos grandes. Los instrumentos de

VisDB implementan severas técnicas visuales, permitiendo trabajar con bodegas de datos

de aproximadamente un millón de valores de datos. Las técnicas apoyadas por el sistema

son: Técnicas orientadas a pixel (espirales, Ejes y Técnicas de Agrupación), Coordenadas

Paralelas y figuras de madera.

Estos productos, en forma integrada o separada se basan en: Redes neuronales,

algoritmos genéticos, árboles de decisión, algoritmos estadísticos, funciones de

visualización gráfica, técnica de K-vecinos, reglas de producción.

Algunos pasos deben seguirse para lograr provechosos resultados

Qué se espera?.

Qué se quiere descubrir?

Conjuntos de datos que se analizaran.

Pre-procesamiento. Buscan desechar los valores con desviaciones muy altas,

generados por ausencia o datos incorrectos.

Limpieza. A partir de un previo conocimiento obtenido en los pasos anteriores se

determinan las variables y registros que realmente representaran importancia.

Elegir la función de la minería y sus algoritmos.

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 9/14

Tareas en la Implementación de Data Warehouse.

Enfrentar un proyecto de data warehouse implica apoyarse en diferentes técnicas

[Har96]:

Técnicas Administrativas. La información del data warehouse es propia para cada

empresa, esta estrechamente ligada con el negocio que se esta sistematizando, por lo

tanto el diseño e implementación deben apoyar la solución a las necesidades planteadas.

Se debe partir de los requerimientos funcionales de información, que generen una ventaja

competitiva para la empresa y faciliten la toma de decisiones por parte de la

administración. Como plantean Gill y Rao "Con frecuencia, el reto reside en transformar

los enunciados estratégicos generales de la empresa en indagaciones empresariales

precisas y después convertirlos en solicitudes y reportes del data warehouse".

Técnicas de almacenamiento y extracción de datos. Recordemos que varios son los

procesos asociados con esta tecnología: Población inicial y actualizaciones,

almacenamiento y análisis de datos. Como se explicó en el artículo anterior, en ocasiones

los datos que poblarán la bodega de datos provienen de diferentes orígenes. Se requiere

definir una estructura y esquema eficientes. Además, consolidar esos datos implica

conocer y manejar diferentes sistemas, diferentes motores de bases de datos y

eventualmente varios lenguajes de programación, que permitan la extracción desde las

fuentes. Las extracciones iniciales implicaran generalmente una conversión de tipo de

datos y el manejo de datos ausentes o inconsistentes, que garantice la integridad.

Las actualizaciones implican la extracción de datos desde sistemas en operación, que se

harán periódica y cíclicamente. Se requiere, de acuerdo al conocimiento de la situación en

particular, definir si se hará semanal, mensualmente o en otro período establecido.

Actualizaciones muy constantes normalmente no benefician el análisis de datos, puestoque rara vez cambian las tendencias y/o comparaciones. Se recomienda, en caso de

extracciones voluminosas, hacerlo hacia un archivo, esto facilita el reinicio desde distintos

puntos, repetir el cargue y preprocesar antes de enviar a la red.

Los cargues deben ser masivos, aprovechando los utilitarios de las bases de datos o las

rutinas desarrolladas para esto y no una simple instrucción insert, que generalmente es

ineficiente. Es usual y conveniente eliminar índices en este proceso y posteriormente

volverlos a crear. En el caso de los refrescos es preferible manejar la detección y

propagación de cambios. Eventualmente usar triggers (disparadores. Son acciones

especiales definidas por el usuario que son automáticamente ejecutadas por el servidor

de bases de datos a partir de eventos sucedidos: insert, update, delete) o aplicacionespropias. También es permitido la comparación de versiones, que algunos sistemas

operativos apoyan a través de breves comandos.

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 10/14

En el almacenamiento se debe usar estrategias para lograr eficiencia. En las bodegas de

datos es posible manejar diversos niveles de granularidad. A menor granularidad, mayor

cantidad de detalle. Para aumentar la granularidad, los datos operacionales deben

resumirse y acumularse. Entre mayor sea la granularidad mas procesamiento se tendrá

para convertir y resumir los datos desde las fuentes pero, al mismo tiempo, menor será el

volumen de almacenamiento y mayor la facilidad de las consultas. Como se nota algunosdatos se pueden almacenar como agregados, eso implica un especial cuidado al

momento de los refrescos, para que estos datos sumarios también sean actualizados.

Otro elemento importante son las dimensiones de categorización. Un especial interés al

momento del análisis es el tiempo, que permite determinar tendencias e información por

períodos. También estas son dimensiones que se usan: grupos de clientes, líneas de

productos, ubicación geográfica, grupo industrial, área en la organización, estrato social y

las específicas del negocio a modelar.

No obstante lo dicho hasta ahora, existen varios enfoques de la arquitectura del data

warehouse y en algún caso podría optarse por no generar copias de los datos de lasaplicaciones en producción sino utilizar los datos operacionales usando aplicaciones que

los consulten directamente.

Técnicas de administración del programa y análisis de datos. Como se dijo anteriormente,

no es suficiente con almacenar un volumen alto de datos. Data warehousing implica la

gestión de los mismos para convertirse en vital herramienta de soporte a las decisiones,

derivar conclusiones a partir de la historia. Esto incluye el descubrimiento de patrones y

tendencias, que puedan ser extrapoladas e intentar predecir comportamientos futuros.

Estas técnicas se basan en las matemáticas, estadísticas, en la psicología, algoritmos

genéticos, redes neuronales e incluso en la experiencia.

Partiendo de datos almacenados es posible obtener consultas sencillas, descriptivas, de

datos independientes. También se pueden obtener reportes que manejen varias

dimensiones y permitan crecer o bajar en la granularidad, dando una visión de los

diferentes valores combinados cuando se requiera. Pero, como se planteó en el párrafo

anterior podemos ser más exigentes y a partir de software especializado, optar por la

predicción.

Selección de Arquitectura de Data Warehouse

Otro elemento que reviste importancia al momento de implementar una bodega de datos,

es la selección de la arquitectura. La arquitectura enfoca el proyecto como componentes

(Fuente de datos, bodega de datos, datamart y el acceso y uso).

El diagrama siguiente explica como se organizan estos elementos. Este es un caso

particular propuesto por la firma Oracle.

Otros proveedores ofrecen diferentes modelos.

Enfoques

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 11/14

Varios enfoques son elegibles [ORF97]:

Consultas desde un esquema virtual hacia los datos operacionales. Normalmente

una bodega de datos se asocia con un almacén donde se hacen copias de datos

de aplicaciones en producción y de carácter histórico. En esta arquitectura se

elimina la copia y actualización y se usan los datos de las bases de datosoperacionales, a partir del metamodelo del data warehouse, los cuales se

accesarán al momento de la consulta.

Almacenamiento propio a partir de varias fuentes. Bodega de datos empresarial,

no necesariamente centralizada. Se apoya en la normal necesidad de preprocesar

los datos desde las fuentes en operación y aboga por realizar esta tarea una vez y

almacenarlos en bases propias, que serán actualizadas periódicamente. A partir

de estas se aplican las herramientas de análisis. Esta estrategia asegura la

consistencia, pero es complejo de crear.

Datamarts o mercado de datos únicamente. Plantea y reconoce las

particularidades de cada área o departamento de una organización y la

imposibilidad de ser satisfechos sus requerimientos por un solo data warehouse.El concepto de datamarts es una analogía a tiendas de vecindario que sirven a la

población del sector, en lugar de un gran supermercado que abastece toda la

ciudad. Los Datamarts son sub-bodegas, organizadas por temas a nivel de

departamentos. Esta arquitectura solo usa datamart.

Datawarehouse y mercado de datos. Es una combinación de las dos anteriores. El

data warehouse corporativo es un recopilador y distribuidor de la información sin

desconocer las particularidades especificas de cada área. Esta estrategia permite

posibles inconsistencias en los datos.

Cliente Servidor en dos capas. Solo existen servidores de datos y clientes que los

usan. En el servidor (o servidores) residen las fuentes de datos, el data warehousey los datamarts. En los clientes, se ejecutan las herramientas de acceso del

usuario fina; éstas pueden ser, y son generalmente, aplicaciones gráficas.

Cliente Servidor en tres capas

Las tareas se dividen en tres niveles.

Un servidor de datos, que contiene las fuentes de los datos.

Un servidor de aplicaciones, que contienen los datos de la bodega de datos

y manejan el software de data warehouse y datamarts.La porción cliente, que manejan las aplicaciones de consulta y reporte.

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 12/14

Construcción del Data Warehouse.

El ciclo del desarrollo del data warehouse no difiere en mucho de las fases de

perfeccionamiento de todos los desarrollos de software. Las fases y las secuencias son

las mismas, pero existen variantes únicas asociadas al data warehouse. Comprende:

Planeación

En esta fase se determina: El enfoque que se optará para la implementación: Top-Down

(De Arriba abajo), Bottom-up (De abajo a arriba) o una combinación de estos. La

metodología de desarrollo: Las más usuales son el método de análisis y diseño

estructurado y el método del desarrollo en espiral. El alcance inicial de proyecto.

Selección del enfoque arquitectónico. Programa y presupuesto. Definir las expectativas

del usuario final. Recopilación de metadatos.

Requerimientos

Especificación clara y precisa de las funciones que se esperan obtener del data

warehouse. Estos deben definirse desde varias perspectivas: propietario,

arquitecto/desarrollador del data warehouse y desde la visión del usuario. Se definen las

áreas tema que apoyará la bodega de datos, el nivel de detalle de la información

requerida (nivel de granularidad), las dimensiones de categorización (tiempo, geografía,

industria, grupo de clientes, línea de producto, etc.).

Análisis

Consiste en convertir todos los requerimientos conseguidos en la fase anterior en

especificaciones concretas que sirvan de base para el diseño. Se definen los modelos

lógicos de los datos para el data warehouse, los mercados de datos, definir los

procedimientos de conexión con las fuentes de datos y el data warehouse y las

herramientas de acceso del usuario final.

Diseño

Los modelos lógicos conseguidos en la anterior fase se convierten en modelos físicos. Se

generan los diseños para programas y procesos que se requieren según la arquitectura,

tanto a nivel de los datos como de aplicación. Construcción. Se conoce también como

diseño físico y consiste en plasmar en la práctica, los diseños lógicos de la fase anterior.

Incluye la construcción de programas que creen y modifiquen las bases de datos, que

extraigan datos de las fuentes, programas para transformación de datos tales como

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 13/14

integración, resumen y adición, programas para la actualización de los datos, programas

para búsquedas en bases de datos muy grandes.

Montaje

Relacionados con la instalación, puesta en marcha y uso del data warehouse. Un

elemento importante consiste en concientizar a los usuarios sobre la disponibilidad,

beneficios y presentación de data warehouse, esto se conoce como comercialización de

la información.

Retos en la Implementación

Como se aprecia, enfrentar un proyecto de data warehouse exige el conocimiento de la

empresa, capacidades administrativas y fortalezas técnicas. Estos proyectos deben ser

asumidos por equipos de trabajo multidisciplinarios, que logren que las ventajas

potenciales se lleven a la práctica. Estos son algunas de las tareas que deben sersorteadas por este equipo:

1. La integración de datos y metadatos de diferentes fuentes y épocas. Esto conlleva la

necesidad de generar datos a almacenar en forma consistente partiendo de datos símiles,

sin perder información importante.

2. Limpieza, filtrado y refinación de los datos. Para el proceso de análisis de los datos es

problemático la ausencia de valores de atributos y la existencia de valores ilógicos o

inconsistentes.

3. En los sistemas de procesamiento en línea (OLTP) el detalle de las operaciones son

muy importantes mientras que en data warehouse se busca almacenar datos en forma

condensada y agrupada.

4. Siendo la bodega de datos el resultado de la importación de datos de diferentes

fuentes, las cuales son dinámicas, cambian con el tiempo, se requiere generar

mecanismos que garanticen la sincronización y aseguren la actualización a partir de los

cambios en las fuentes.

5. Para una correcta operación de la bodega de datos es necesario tener correcta

información sobre los datos que se tienen almacenados, la administración de metadatos

toma importancia.

Conclusiones.

Se están convirtiendo en las bases de datos de la inteligencia de un negocio, generando y

apoyando elementos de competitividad. Se debe usar en organizaciones donde se tomen

5/10/2018 Bodega de Datos - slidepdf.com

http://slidepdf.com/reader/full/bodega-de-datos 14/14

decisiones basadas en la información. Data warehouse no es un producto, envuelve

muchas tecnologías y herramientas.

Se quiere dejar en el ambiente una reflexión: Las necesidades de información en las

diferentes actividades y en los diferentes niveles de dirección en la organización son

también diferentes. No siempre la información al instante, en tiempo real es la requerida.

No siempre el detalle es necesario. A pesar de que nos hemos referido a una tecnología

especial, con métodos de implementación y herramientas especializadas, la filosofía del

manejo de la información, en sistemas de menor escala puede dejar grandes enseñanzas

y rutas para integrar y procesar datos desde diferentes orígenes.