arquitectura de una bodega de datos - · pdf filetípica para un sistema de...

of 13 /13
FAVA - Formación en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje ARQUITECTURA DE UNA BODEGA DE DATOS Estructura de contenidos INTRODUCCIÓN ................................................................... 3 1. ARQUITECTURA DE UNA BODEGA DE DATOS ........................ 3 1.1 PROPIEDADES ................................................................ 3 1.2 ARQUITECTURA DE UNA CAPA .......................................... 4 1.3 ARQUITECTURA DE DOS CAPAS ........................................ 5 1.3.1 Capa Fuente ................................................................ 5 1.3.2 Extracción de Datos ...................................................... 6 1.3.3 Capa de Data Warehouse .............................................. 7 1.3.4 Análisis ....................................................................... 7 1.4 ARQUITECTURA DE TRES CAPAS ....................................... 8 1.5 Data Marts ..................................................................... 9 GLOSARIO ........................................................................... 11 BIBLIOGRAFÍA ..................................................................... 12 WEBGRAFÍA......................................................................... 12

Author: truongtram

Post on 06-Feb-2018

212 views

Category:

Documents


0 download

Embed Size (px)

TRANSCRIPT

  • FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

    ARQUITECTURA DE UNA BODEGA DE DATOS

    Estructura de contenidos

    INTRODUCCIN ................................................................... 3

    1. ARQUITECTURA DE UNA BODEGA DE DATOS ........................ 3

    1.1 PROPIEDADES ................................................................ 3

    1.2 ARQUITECTURA DE UNA CAPA .......................................... 4

    1.3 ARQUITECTURA DE DOS CAPAS ........................................ 5

    1.3.1 Capa Fuente ................................................................ 5

    1.3.2 Extraccin de Datos ...................................................... 6

    1.3.3 Capa de Data Warehouse .............................................. 7

    1.3.4 Anlisis ....................................................................... 7

    1.4 ARQUITECTURA DE TRES CAPAS ....................................... 8

    1.5 Data Marts ..................................................................... 9

    GLOSARIO ........................................................................... 11

    BIBLIOGRAFA ..................................................................... 12

    WEBGRAFA ......................................................................... 12

  • FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

    2

    Map

    a co

    nce

    ptu

    alA

    RQ

    UIT

    ECTU

    RA

    DE

    UN

    A B

    OD

    EGA

    DE

    DA

    TOS

  • FAVA - Formacin en Ambientes Virtuales de Aprendizaje

    Arquitectura de una Bodega de Datos

    SENA - Servicio Nacional de Aprendizaje

    3

    INTRODUCCIN

    El manejo de informacin inmerso en las dinmicas organizacionales actuales, exige la combinacin de estrategias que involucran por un lado el uso y mantenimiento de bases de datos relacionales con las que se realizan tareas transaccionales y operativas, al tiempo que se derivan otras tareas asociadas a la toma de decisiones producto de las actividades gerenciales que se enfocan en el anlisis de datos complejos y de gran volumen. Los datos de comportamiento variable y creciente representados en fuentes heterogneas deben ser depurados y presentados de una forma resumida y concreta para revisar tendencias y evaluar acciones especficas procurando generar ventaja comparativa y permitiendo a las organizaciones proyectarse en mercados cada vez ms competitivos. En estos escenarios aparecen las Bodegas de Datos (del ingls data warehouse) para brindar soluciones orientadas a poder almacenar y centralizar la informacin originada a partir de distintas fuentes y definidas como lo expresa el autor Ralph Kimball como: Una copia de las transacciones de datos especficamente estructurada para la consulta y el anlisis.

    Enfocados en esta tarea, nos ocuparemos de estudiar las diferentes opciones de arquitectura que se podran abordar al momento de definir la creacin de una bodega de datos.

    1. ARQUITECTURA DE UNA BODEGA DE DATOS

    1.1 PROPIEDADES

    Para poder definir la arquitectura de una bodega de datos, debemos analizar unas propiedades esenciales representadas en:

    Separacin: Los procesos de anlisis y transacciones deberan ser guardados en lo posible de forma independiente.

    Escalabilidad: Las arquitecturas de Hardware y Software deben ser fciles de mejorar conforme al volumen de los datos, definidas para fcil administracin y manejo de procesos, estimadas por el nmero de requerimientos de usuarios que determinan incrementos progresivamente.

  • FAVA - Formacin en Ambientes Virtuales de Aprendizaje

    Arquitectura de una Bodega de Datos

    SENA - Servicio Nacional de Aprendizaje

    4

    Extensibilidad: La arquitectura debe estar en capacidad de recibir nuevas aplicaciones y tecnologas sin redisear el sistema

    Seguridad: Monitorear los accesos es una tarea esencial previa al almacenamiento de los datos en un data warehouse.

    Administrable: La administracin de los datos en el la bodega de datos no debe ser compleja

    Dos clasificaciones son comnmente adoptadas para definir la arquitectura de una bodega de datos. La primera clasificacin, es una estructura que depende del nmero de capas usada por la arquitectura. La segunda clasificacin, depende de cmo las diferentes capas son empleadas para crear vistas del data warehouse orientada a necesidades especficas de una empresa o a departamentos especficos de la organizacin.

    1.2 ARQUITECTURA DE UNA CAPA

    Source layer

    Data warehouse

    Analysis

    Operational data

    Reportingtools

    OLAPtools

    Middleware

  • FAVA - Formacin en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje

    5

    Una arquitectura de una capa no es comnmente usada en la prctica. La meta en esta arquitectura es minimizar la cantidad de datos almacenados removiendo datos redundantes.

    Esto significa que un Data Warehouse es implementado como una vista multidimensional de datos operacionales creados por un middleware especfico, o el procesamiento con una capa intermedia.

    La debilidad de esta arquitectura radica en su incapacidad para cumplir con el requisito de la separacin entre el proceso de anlisis y transaccional. Las consultas de anlisis son enviadas a los datos operacionales una vez el middleware los interpreta. En este sentido, las consultas afectan la carga de trabajo de las transacciones regulares. Adicionalmente, aunque esta arquitectura puede reunir los requerimientos para integracin y exactitud de los datos, este no puede registrar ms datos que los provenientes de las fuentes bsicas. Por esta razn, un enfoque virtual para almacenamiento de datos slo puede tener xito si las necesidades de anlisis son particularmente restringidas y el volumen de datos a analizar es muy grande.

    1.3 ARQUITECTURA DE DOS CAPAS

    El concepto de separacin es la esencia en la definicin de la arquitectura tpica para un sistema de almacenamiento de datos pensado en dos capas tal cual como se aprecia en la figura 2. Se denomina arquitectura de dos capas a la separacin fsica entre las fuentes de datos disponibles y lo dispuesto en la bodega de datos, que consta de cuatro etapas posteriores de flujo de datos enunciadas a continuacin:

    1.3.1 Capa Fuente

    Un sistema de almacenamiento de datos utiliza fuentes heterogneas de datos. Esos datos se almacenan originalmente en la base de datos relacional o bases de datos legadas, o puede provenir de sistemas de informacin externos a la empresa.

  • FAVA - Formacin en Ambientes Virtuales de Aprendizaje

    Arquitectura de una Bodega de Datos

    SENA - Servicio Nacional de Aprendizaje

    6

    Operational data External data

    Meta-data

    ETL tools

    Data warehouse

    Data marts

    Reportingtools

    OLAPtools

    Data miningtools

    What-if analysistools

    Source layer

    Data staging

    Data warehouselayer

    Analysis

    1.3.2 Extraccin de Datos

    Los datos almacenados en las fuentes deben ser extrados y limpiados para remover inconsistencias y llenar espacios vacos, integrando fuentes de datos heterogneos a partir de esquemas comunes. Las llamadas herramientas ETL (Extraction, Transformation and Loading) pueden mezclar esquemas heterogneos, extraer, transformar, limpiar, validar, filtrar, y cargar fuentes de datos dentro de una bodega de datos. En s, esta etapa se ocupa de los problemas que son tpicos de los sistemas de informacin distribuidos, tales como la gestin de datos inconsistentes y estructuras de datos incompatibles.

  • FAVA - Formacin en Ambientes Virtuales de Aprendizaje

    Arquitectura de una Bodega de Datos

    SENA - Servicio Nacional de Aprendizaje

    7

    1.3.3 Capa de Data Warehouse

    La informacin es almacenada en un repositorio centralizado denominado data warehouse o bodega de datos. El data warehouse puede ser accedido directamente, pero este tambin puede ser usado como fuente para creacin de data marts, los cuales parcialmente replican contenidos de los data warehouse y son diseados por necesidades de dependencias especficas en una empresa. Los repositorios que contienen la meta data almacenan informacin como fuentes, procedimientos de acceso, extraccin de datos, usuarios, esquemas de data mart, etc.

    1.3.4 Anlisis

    En esta capa, la integracin de datos es eficiente y de acceso flexible para generar informes, analizar la informacin de forma dinmica y simular escenarios hipotticos de negocio. Esta capa debe funcionar con navegadores de datos agregados, optimizadores de consultas complejas, y con interfaces grficas de usuario de fcil manejo.

    Es necesario estudiar a fondo la diferencia arquitectnica entre los almacenes de datos y los data marts. Los componentes sealados como un data warehouse en la figura 2 son frecuentemente llamados data warehouse primario o data warehouse corporativo que actan como un sistema de almacenamiento centralizado para todos los datos que se resumen.

    Los Data marts pueden ser vistos como pequeos almacenes de datos replicando la parte de una almacn de datos principal requerido en el dominio de una aplicacin especfica.

    A continuacin se enuncian algunos beneficios de una arquitectura de dos capas:

    En sistemas de bodega de datos, la informacin de buena calidad est siempre disponible, incluso cuando el acceso a las fuentes se niega temporalmente por razones tcnicas o razones de la organizacin.

    El anlisis de consultas en la bodega de datos no afecta la administracin de las transacciones.

  • FAVA - Formacin en Ambientes Virtuales de Aprendizaje

    Arquitectura de una Bodega