academia bi unidad 3

Upload: mijiriam1502

Post on 08-Apr-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/7/2019 Academia BI Unidad 3

    1/25

    Unidad 3. Diseando una solucin OLAP

    Objetivos

    Comprender la formacin de la tabla de hechos

    Entender que son las medidas

    Conocer que son las dimensiones y como se organizan

    Distinguir la diferencia entre los esquemas estrella y copode nieve.

    Diferenciar las medidas naturales de las calculadas

    Contenido de la unidad

    3.1 Introduccin

    3.2 Construyendo el data mart

    3.3 Esquema Estrella

    3.3.1 Tabla de Hechos

    3.3.2 Dimensiones3.3.2.1 Relaciones y Estructura de una dimensin

    3.3.2.2 Esquema Estrella

    3.3.2.3 Esquema Copo de Nieve

    3.3.2.4 Padre Hijo (Parent- Child)

    3.3.2.5 Dimensiones Virtuales

    3.3.2.6 La dimensin Tiempo

    3.4 Medidas

    3.4.1 Medidas Naturales

    3.4.2 Medidas Calculadas

    Pgina 1 de 25

  • 8/7/2019 Academia BI Unidad 3

    2/25

  • 8/7/2019 Academia BI Unidad 3

    3/25

    Data Mart: son almacenes de datos con informacin de intersparticular para un determinado sector de la empresa

    Data Warehousing : es el conjunto de almacenes de datosparticulares (Data Mart) con informacin de inters para laempresa en general

    Cada uno de los siguientes son ejemplos Data Mart (DM)

    Ventas

    Recursos Humanos

    Produccin

    El Data Warehousing es el conjunto de esos data martDM de Ventas + DM de Recursos Humanos + DM deProduccin

    3.2. Construyendo el data mart Hasta ahora hemos analizado los requerimientos del usuario, y depuramos susdatos para la formacin del data warehousing, en esta unidad comenzaremos adisear el modelo del data mart. Este modelo, ser el paso previo al armado denuestra base de datos OLAP.

    En esta etapa vamos a modelar las tablas relacionales en una gran estructuradesnormalizada, compuesta por tabla de hechos , y tablas ms pequeas quedefinirn las n-dimensiones o aperturas de nuestro cubo, llamadas tablas dedimensiones.

    Para ello, primero debemos conocer algunos conceptos que tendremos en cuentaen la construccin del modelo.

    3.3. Esquema EstrellaPara facilitar el anlisis, el data mart organiza los datos en una estructura llamada

    esquema de estrella .Esta estructura esta compuesta por una tabla central - tabla de hechos - y unconjunto de tablas organizadas alrededor de sta - tablas de dimensiones .

    En las puntas de la estrella se encuentran las tablas de dimensin que contienenlos atributos de las aperturas que interesan al negocio que se pueden utilizar comocriterios de filtro y son relativamente pequeas. Cada tabla de dimensin sevincula con la tabla de hechos por un identificador.

    Pgina 3 de 25

  • 8/7/2019 Academia BI Unidad 3

    4/25

    Las caractersticas de un esquema de estrella son:

    El centro de la estrella es la tabla de hecho.

    Los puntos de la estrella son las tablas de dimensiones.

    Cada esquema esta compuesto por una sola tabla de hechos

    Generalmente es un esquema totalmente desnormalizado, pudiendo estar parcialmente normalizado en las tablas de dimensiones.

    En el ejemplo construimos un esquema estrella considerando quese necesita analizar como evoluciona la Admisin de Pacientes(Hecho) por servicio, pacientes y zona geogrfica a lo largo deltiempo.

    Pgina 4 de 25

  • 8/7/2019 Academia BI Unidad 3

    5/25

    3.3.1 Tabla de Hechos

    El modelo dimensional divide el mundo de los datos en dos grandes tipos: lasmedidas y las dimensiones de estas medidas.

    Las medidas, siempre son numricas, se almacenan en las tablas de hechos y lasdimensiones que son textuales se almacenan en las tablas de dimensiones.

    La tabla de hechos es la tabla primaria del modelo dimensional, y contiene losvalores del negocio que se desea analizar.

    Pgina 5 de 25

    Dimensin

    Servicio

    Dimensin

    Paciente

    DimensinTiempo

    Tabla de HechosAdmisin Pacientes

    DimensinZona

    Geogrfica

  • 8/7/2019 Academia BI Unidad 3

    6/25

    Cada tabla de hechos contiene las claves externas, que se relacionan con susrespectivas tablas de dimensiones, y las columnas con los valores que sernanalizados.

    Un hecho es un concepto de inters primario para el proceso detoma de decisiones, corresponde a eventos que ocurrendinmicamente en el negocio de la empresa.

    3.3.2 Dimensiones

    Disearemos y construiremos cada dimensin basados en los procesos denegocio definidos por el cliente.

    Las dimensiones organizan los datos en funcin de un rea de inters para losusuarios.

    Cada dimensin describe un aspecto del negocio y proporciona el acceso intuitivoy simple a datos.

    Una dimensin provee al usuario de un gran nmero de combinaciones eintersecciones para analizar datos.

    Las tablas de dimensiones son las compaeras de las tablas de hechos. Cadadimensin se define por su clave primaria que sirve para mantener la integridadreferencial en la tabla de hechos a la que se relaciona.

    Un cubo requiere que se defina al menos una dimensin en su esquema.

    3.3.2.1 Relaciones y Estructura de una dimensinCada nivel de una dimensin debe corresponderse con una columna en la tablade la dimensin. Los niveles se ordenan por grado de detalle y se organizan enuna estructura jerrquica . Cada nivel contiene miembros, los miembros son losvalores de la columna que define el nivel.

    Entre los miembros y entre los niveles de una dimensin existen relaciones , estasse pueden comprender como las relaciones que existen en un rbol genealgico

    Pgina 6 de 25

    Ejemplos de HechosEn un hospital: admisin de pacientes

    En un operador telefnico: Trfico telefnico

  • 8/7/2019 Academia BI Unidad 3

    7/25

    donde los trminos padre, hijo, hermano, primo, etc. indican una correspondenciaentre elementos del rbol; y los miembros de la dimensin se comportan comofamiliares dentro del rbol genealgico.

    Padre : Es el miembro del nivel inmediatamente superior que se relaciona

    con el miembro seleccionado. Cada elemento tiene un solo padre.Hijo : Son los elementos del siguiente nivel inferior que se relacionan con el

    miembro seleccionado. Pueden existir varios hijos para un mismo miembro.

    Hermano : Son los miembros que se encuentran en el mismo nivel que elmiembro seleccionado y poseen el mismo padre.

    Primo : Son los miembros que se encuentran en el mismo nivel que elmiembro seleccionado, pero que tienen diferentes padres. Los primos tienepadres que son hermanos.

    Descendientes : Son todos los miembros que se encuentran debajo delnivel del miembro seleccionado. independientemente de la cantidad de nivelesque los separen.

    Ancestros : Son todos los miembros que se encuentran por encima delnivel del miembro seleccionado.

    Un miembro es independiente de las relaciones. Cada integrante de la dimensines miembro de ella.

    Pgina 7 de 25

  • 8/7/2019 Academia BI Unidad 3

    8/25

    Ejemplos de dimensin

    Dimensin zona geogrfica

    * PAIS ARGENTINA BRASIL URUGUAY** PROVINCIA BUENOS AIRES CORDOBA SAN PABLO MONTEVIDEO

    *** CIUDADMARdel

    PLATA

    LAPLATA

    VILLAGRAL.

    BELGRANO.

    Ejemplos de relaciones

    En una dimensin zona geogrfica tendramos las siguientesrelaciones entres niveles y entre miembros:

    Padre:

    Argentina es padre de Buenos Aires y de Crdoba

    Hijo:Buenos Aires y Crdoba son hijos de Argentina

    Hermano:

    Buenos Aires y Crdoba son hermanos el uno al otro, tambin sonhermanos Argentina, Brasil y Uruguay.

    Primo:

    Mar del Plata es primo de Villa General Belgrano.

    Descendiente:

    Todos los miembros que estn por debajo de Argentina son susdescendientes, por ejemplo Buenos Aires, Mar del Plata y VillaGeneral Belgrano son alguno de sus descendientes.

    Ancestro:

    Mar del Plata tiene dos antepasados Buenos Aires y Argentina.

    Las dimensiones pueden ser:

    Locales

    Compartidas

    Las dimensiones locales son las que se definen y se utilizan dentro de un mismocubo.

    Las dimensiones compartidas son aquellas dimensiones que se definenindependientes de los cubos y pueden ser utilizadas por varios de ellos.

    Pgina 8 de 25

  • 8/7/2019 Academia BI Unidad 3

    9/25

    Ventajas de las dimensiones compartidas

    Evitamos duplicar dimensiones locales

    Aseguramos que los datos analizados estn organizados de la misma formaen todos los cubos, lo que implica un menor costo de mantenimiento.

    Desventajas de las dimensiones compartidas

    Deben emplearse del mismo modo en los cubos que las usen.

    Un cambio implica que la dimensin deber ser modificada en todos loscubos

    Ejemplos de Dimensin Compartida

    La dimensin Producto puede utilizarse para el Data Mart

    Ventas y para el Data Mart Produccin.As, la dimensin producto es una dimensin compartida por los dos Data Mart.

    Al definir una dimensin debemos prestar especial atencinen los requerimientos del cliente, ya que una mala definicinde la dimensin, o de sus niveles podra implicar que noobtengamos los resultados deseados.

    Si la definicin de las dimensiones no es la correcta, no sern

    correctos ni tiles las agrupaciones, las sumarizaciones o losfiltros. Probablemente se termine copiando datos a unaplanilla de calculo como sino existiera el DM.

    Riesgos de Dimensiones Compartidas

    Es importante que nos aseguremos que cualquier modificacin o cambio en una dimensin compartida seavlida para todos los cubos que la empleen

    3.3.2.2 Dimensiones: Esquema Estrella

    En el esquema estrella cada dimensin esta compuesta por una sola tabla, estatabla esta desnormalizada.

    El esquema se denomina as debido a que el diagrama se parece a una estrella.

    Debido a que las tablas de dimensin estn desnormalizadas lograremos en elmodelo del data mart, una menor cantidad de tablas.

    Pgina 9 de 25

  • 8/7/2019 Academia BI Unidad 3

    10/25

    Este es un esquema donde las dimensiones tienen un esquemaestrella.

    3.3.2.3 Dimensiones: Esquema Copo de NieveEl esquema copo de nieve es una variacin del esquema estrella donde algunapunta de la estrella se explota en ms tablas.

    El nombre del esquema se debe a que el diagrama se asemeja a un copo denieve.

    En este esquema, las tablas de dimensin copo de nieve se encuentrannormalizadas para eliminar redundancia de datos.

    Pgina 10 de 25

    DimensinServicio

    DimensinPaciente

    DimensinTiempo

    Tabla de HechosAdmisin Pacientes

    DimensinZona

    Geogrfica

  • 8/7/2019 Academia BI Unidad 3

    11/25

    A diferencia del esquema estrella, los datos de las dimensiones se reparten enmltiples tablas.

    Como ventaja del esquema destacamos el ahorro de espacio de almacenamientoen disco, pero en perjuicio de un aumento en la cantidad de tablas.

    Los siguientes son las caractersticas de un copo de nieve:

    La dimensin esta normalizada

    Los distintos niveles se encuentran almacenados en tablas separadas

    Se argumenta ahorro de espacio

    Pgina 11 de 25

  • 8/7/2019 Academia BI Unidad 3

    12/25

  • 8/7/2019 Academia BI Unidad 3

    13/25

    Pgina 13 de 25

    Normalizada

    Zona Geogrfica

    Id _ PasPasID_ProvinciaProvinciaID_CiudadCiudad

    Provincia

    ID_ ProvinciaProvinciaID_Pas

    Desnormalizada

    Pas

    ID_PasPas

    Ciudad

    ID_ CiudadCiudadID_Provincia

  • 8/7/2019 Academia BI Unidad 3

    14/25

    Estrella Copo de nieve

    Cantidad de tablas Menor Mayor

    Consultas

    Mejora la performance Aumenta la cantidad deuniones entre tablasprovocando baja en laperfomance

    Almacenamiento Aumenta el espacio Ahorra espacio

    3.3.2.4 Dimensiones: Padre Hijo (Parent Child)

    Una dimensin padre-hijo es una dimensin donde el dato del Padre se relacionacon el Hijo y ambos se encuentran en la misma tabla de dimensin, es decir, ladimensin se relacionan consigo misma.

    Ejemplos de Dimensin Padre - Hijo

    La dimensin Cuenta Contable donde una cuenta imputableforma parte de un Sub Rubro y el Sub Rubro a su vez formaparte de un Rubro. Estos datos se encuentran en un solo Plande Cuentas.

    La cuenta Activo, contiene los rubros Inversiones, Crditos yCaja, y el rubro Caja a su vez contiene Caja y Fondo Fijo.

    3.3.2.5 Dimensiones Virtuales

    Las dimensiones virtuales, no requieren un almacenamiento fsico en el cubo, seevalan en el momento de la consulta.

    Funcionan de manera similar a las dimensiones reales y son transparentes para elusuario.

    Pgina 14 de 25

  • 8/7/2019 Academia BI Unidad 3

    15/25

  • 8/7/2019 Academia BI Unidad 3

    16/25

    Semestre

    Mes

    Ejemplos de Dimensin Tiempo

    La definicin de la jerarqua la haremos teniendo en cuenta las necesidades quetiene la organizacin. Debemos contemplar los periodos de tiempo por los cualesla informacin necesita ser analizada y la regularidad con la que se cargaran losdatos en el cubo.

    Consideraciones para esta dimensin:

    Nombres de los miembros : Cuando construyamos la dimensin tiempo esconveniente que los nombres de los miembros sean nicos. As, si utilizamos unanomenclatura para la jerarqua MES que sea Mes Ao cuando busquemos unperiodo debemos identificarlo como Julio 2006. De esta manera nos ahorramosde utilizar dos niveles de la dimensin logrando una mayor calidad en los informes.

    Si en cambio, el nombre de la jerarqua MES se compone solo del nombre delmes, para identificar el periodo Julio del 2006 primero debemos seleccionar sobreel nivel Ao y luego sobre el nivel Mes.

    Puede existir mas de una: Cabe aclarar que no necesariamente esta dimensines nica dentro del cubo, podramos tener que armar ms de una dimensinTiempo . Si necesitramos analizar la informacin de la empresa en base al aocalendario y realizar otro anlisis basndonos en el ao fiscal, deberamosconstruir dos dimensiones de tiempo para el mismo data mart.

    3.4. Medidas

    Las medidas son los valores de datos que se analizan.Una medida es una columna cuantitativa, numrica, en la tabla de hechos. Lasmedidas representan los valores que son analizados, como cantidad de pacientesadmitidos o llamadas efectuadas.

    Las medidas son:

    Valores que permiten analizar los hechos

    Pgina 16 de 25

  • 8/7/2019 Academia BI Unidad 3

    17/25

    Valores numricos porque estos valores son las bases de las cuales elusuario puede realizar clculos.

    Si la medida fuera un valor no numrico debemos codificarla a un valor numricoen el proceso de obtencin de datos, y luego cuando tengamos que exponer sus

    valores decodificarla para mostrarla con el valor original.Las siguientes son algunas de las caractersticas de las medidas:

    Deben ser numricas.

    Cruzan todas las dimensiones en todos los niveles.

    Las medidas pueden clasificarse en:

    Naturales

    Calculadas

    Ejemplos de Medidas

    En un hospital, donde el hecho es Admisin dePacientes las medidas pueden ser:

    Pacientes Admitidos

    Pacientes Atendidos

    En un operador telefnico, donde el hecho es TraficoTelefnico, las medidas pueden ser:

    Llamadas Cantidad

    Llamadas Duracin

    Ejemplos de Medidas no numricas

    Supongamos el hecho Recursos Humanos, donde podemostener la medida Sexo que toma los valores F o M.

    Estos valores debemos codificarlos en valores numricosdurante el proceso de transformacin de datos (ETL). As, por ejemplo tendremos 0=F y 1=M.

    Cuando el usuario visualice esta medida, debemos volver los datos a sus valores originales (decodificarlos) paramostrar F o M.

    Pgina 17 de 25

  • 8/7/2019 Academia BI Unidad 3

    18/25

  • 8/7/2019 Academia BI Unidad 3

    19/25

    Calculo Matemtico

    En un sistema de RRHH, podemos querer medir el promediode horas extras por mes. Definimos la medida calculadaPromedio de Horas Extras que ser el resultado de hacer Horas Extras dividido Dotacin.

    Expresiones condicionales

    Para la medida calculada anterior, Promedio de Horas Extras,necesitaremos verificar la condicin de numerador diferente decero para evitar que la divisin nos arroje un error.

    Si Dotacin es distinto de cero entonces Promedio de HorasExtras ser igual a Horas Extras dividido Dotacin.

    Si Dotacin es igual a cero entonces Promedio de Horas Extrasse mostrara vaci.

    Alertas

    En un hospital, podemos definir la medida calculadaSobrecarga de Pacientes que tomara el valor 1 si los PacientesAdmitidos (medida natural) es mayor a 100, de lo contrariopermanecer vaca.

    Podemos construir una medida Cumplimiento de Ventas quesea una alerta del tipo semforo y nos indique

    Rojo: Si las unidades vendidas son menores a las unidades

    presupuestadas dividido 5, es decir, vendimos menos que el 20% de lo presupuestado.

    Amarillo: Si el valor de las unidades vendidas est entre

    unidades presupuestadas dividido 3 y unidadespresupuestadas dividido 5 (el valor vendido esta entre el 20 %y el 80 % de lo presupuestado).

    Verde: Si no se cumple ninguna de las condiciones

    anteriores, es decir, vendimos ms del 80 % de lopresupuestado.

    Pgina 19 de 25

  • 8/7/2019 Academia BI Unidad 3

    20/25

    Caso de Estudio

    Ilustraremos los conceptos que aprendimos en esta unidad con nuestro ejemplo deLa Distribuidora Latinoamericana de Alimentos (DLA).

    Construiremos el modelo del data mart de ventas en tres etapas:

    Etapa 1 Construccin de las Dimensiones

    Etapa 2 Armado de la Tabla de Hechos

    Etapa 3 Definicin de las Medidas

    Construccin de las Dimensiones

    Como primer paso definiremos las dimensiones porque estas nos darn lasaperturas del cubo.

    En base a definiciones surgidas de los reuniones de trabajo con los representantesde DLA, vimos que necesitan analizar sus datos segn el siguiente cuadro:

    Hecho a medir: Venta de Productos

    DimensionesMedidas Tiempo Sucursal Vendedor Cliente ProductoVentas_Importe X X X X XVentas_Costo X X X X XVentas_Unidades X X X X XVentas_ImporteTotal X X X X XVentas_Ganancia X X X X XVentas_Promedio X X X X X

    Si trabajamos en forma correcta, debera haber una exacta coincidencia entre ladefinicin de las dimensiones y los datos que estamos extrayendo de las fuentestransaccionales. Si esa coincidencia no ocurre, en alguna de las dos etapastenemos un error, o bien los datos de origen no estn correctos o bien definimosmal las dimensiones.

    Comenzaremos por la Dimensin Tiempo ya que, como aprendimos en estaunidad, es la ms importante dentro de cualquier data mart.

    Nuestro cliente necesita analizar sus datos diariamente, entonces definiremos losniveles:

    Pgina 20 de 25

  • 8/7/2019 Academia BI Unidad 3

    21/25

    Ao

    Semestre

    Trimestre

    Mes

    Da

    La tabla de dimensin quedara formada:

    Dimensin Sucursal, usaremos un esquema estrella y su estructura jerrquicaser:

    Dimensin Vendedor, al igual que sucursal, tendr un esquema estrella y quedardefinida por los niveles:

    Dimensin Cliente tendr todos los atributos de un cliente.

    Pgina 21 de 25

    Dimensin Tiempo

    * Ao** Semestre

    *** Trimestre**** Mes***** Da

    Dimensin Sucursal

    * Sucursal** Tipo Sucursal*** Pas**** Provincia***** Ciudad

    Dimensin Vendedor

    * Sucursal** Seccin*** Vendedor

  • 8/7/2019 Academia BI Unidad 3

    22/25

    Dimensin Producto, esta dimensin la construiremos segn un esquema copo denieve. En estos casos se mantiene la normalizacin propia de los sistemas OLTP.Cada tabla contiene los datos iniciales y su relacin con el resto.

    La dimensin nos quedar normalizada por lo que usaremos ms tablas paraconstruirla.

    Nuestro cliente puede clasificar sus productos segn la categora, el departamentoy la familia de producto a la que pertenece.

    Armado de la Tabla de Hechos

    Ahora que tenemos definidas las dimensiones y sus niveles, conformaremos latabla de Hechos.

    La tabla de hechos debe tener las columnas claves de las tablas de lasdimensiones y las columnas de las medidas.

    Primero colocaremos las columnas claves de la tabla cada una de las tablas dedimensiones.

    Pgina 22 de 25

    Dimensin Cliente

    * Pas** Provincia*** Ciudad

    **** Razn Social

  • 8/7/2019 Academia BI Unidad 3

    23/25

  • 8/7/2019 Academia BI Unidad 3

    24/25

    Realizadas estas tres etapas, podemos ver el diseo completo de nuestro datamart.

    Lecciones Aprendidas

    Un Data Mart adopta un esquema estrella paramaximizar la performance de las consultas.

    Las dimensiones son categoras descriptivas por las cuales las medidas se pueden separar para elanlisis.

    La dimensin Tiempo esta implcita en todo DataMart

    Las medidas son los datos numricos de intersprimario para el cliente

    Con las medidas calculadas se pueden construir alertas

    Pgina 24 de 25

  • 8/7/2019 Academia BI Unidad 3

    25/25

    Preguntas de ReflexinTenemos claramente definidos los requerimientos?Conocemos los hechos que se quieren analizar, los

    indicadores y las aperturas por las cuales se quiere hacer elanlisis?

    Concuerda esta definicin con las tablas auxiliares quecreamos y poblamos con datos de los sistemas OLTP?

    Sabemos si los usuarios utilizarn las dimensiones paranavegar o para filtrar?

    Cubren las dimensiones diseadas las necesidades de losusuarios intuitivamente y con facilidad de manejo?

    Se tienen todas las medidas naturales con las aperturas

    requeridas?Est definida la forma de agregacin, al salir de lagranularidad mnima, para todas las medidas naturales?

    Estn definidas las frmulas o criterios de todas las medidascalculadas?

    Estn correctamente documentadas todas las definiciones?