sistemas de ayuda a la toma de decisiones · muchas de las cuestiones que rodean a los sistemas de...

Postgrado – Área de Ingeniería

Maestría en Sistemas de Información Asignatura: Tópicos Avanzados de Bases de Datos

SISTEMAS DE AYUDA A LA TOMA DE DECISIONES

Integrantes:

Areiza, Elvis

Pérez, Dalila

Rivas, Juan

Caracas, Abril de 2016

I N T R O D U C C I Ó N

La gestión de datos son integrales para cada empresa que necesita almacenar, analizar y crear

informes de datos. En este trabajo se presentan varias herramientas que proporcionan robustez a

la hora de gestionar datos necesarios para la operatividad de la empresa, para el análisis de

soluciones y la toma de decisiones que incentiven la productividad de una empresa. En concreto

estas herramientas brindan una serie de ventajas a nivel competitivo y de estabilidad que hace

que los datos en la toma de decisiones de negocios tomen características más seguras, estables,

escalables, con mayor facilidad de uso y gestión.

Este trabajo ayudara ampliar los conocimientos sobre diferentes herramientas de gestión de datos

y sus fundamentos básicos, contiene conceptos básicos para personas que están comenzando a

gestionar cantidades considerables de datos y teorías más técnicas que contribuirán a profundizar

en los conocimientos que nos permitirán un uso eficiente de la información, aumentando la

productividad y convirtiendo esto en ventajas competitivas de negocios.

Dentro de este trabajo, encontrara información útil sobre la gestión de datos y como utilizarlos de

manera eficiente utilizando herramientas, técnicas y fases por las que pasa un dato en su

almacenamiento, se estudiaran varios casos de usos que nos permitan generar mayor

entendimiento de este importante punto, se estudiaran patrones y configuraciones que nos

permitan un mejor desempeño.

El almacenamiento de datos nos sirve de preámbulo y nos prepara para adentrarnos en el tema

de la gestión de base de datos, vemos las bases de datos multidimensionales que nos muestra

como los datos pueden ser almacenados y que la gestionarlos adquieren un valor diferente que va

a depender de la dimensión con la que se analice, en el presente se encuentra información del uso

de estas dimensiones, la forma como es posible mostrarlas y gestionarlas; el procesamiento

analítico de la información en línea(OLAP) que es una solución para agilizar la consulta de grandes

cantidades de datos, se analiza su estructura, arquitectura y principales características.

Información sobre Data Mart como base de datos departamental nos permitirá profundizar y

especializar el almacenamiento a un área de negocios específica, lo que nos permite una serie de

ventajas que se estudiaran a profundidad. La minería de datos como herramienta para hallar la

información necesaria mediante patrones útiles que utilizan algoritmos para la extracción de

información de una manera segura, rápida y confiable. La útil presentación de conocimientos

sobre los puntos referidos les prepara para una eficiente gestión de Informacion y les permitirá

aplicar diversas herramientas analizando la mejor opción en la toma de decisiones de negocios.

I. ALMACÉN DE DATOS (DATA WAREHOUSE)

El almacén de datos o data warehouse se define, a grandes rasgos, como el proceso de copiado de

datos provenientes de diferentes fuentes de información, que se encuentren dentro o fuera de

una empresa, hacia un ambiente optimizado para el procesamiento analítico e informacional. Los

profesionales vinculados a sectores de la industria tecnológica deben tener en mente que este

concepto implica que el copiado (duplicado) de los datos se hace de forma controlada y periódica.

[1]

El término de data warehouse fue acuñado por Bill Inmon a principio de los años noventa y de

acuerdo a éste, un almacén de datos es una colección de datos orientados al tema, integrados,

históricos (time-variant) y no volátiles, que organizados brindan apoyo a los procesos de toma de

decisiones. [2]

A continuación se amplía la información referente a las características antes mencionadas:

Principales Características del Almacén de Datos Orientado al tema La información se clasifica en función de los aspectos que son de interés

para la organización, en contraste con la orientación al proceso de los sistemas tradicionales. Es decir, se enfoca en el modelado y análisis de datos para la toma de decisiones y no en las operaciones en marcha.

Integrado La construcción del almacén se hace a partir de la integración de fuentes de datos heterogéneas en un único sistema de información. Esto abarca la comprensión de diferentes visiones de negocio, por lo tanto es necesaria la unificación de estructuras de datos, terminología y definiciones, para ello los datos deben pasar por un proceso de extracción, transformación y carga.

Histórico Los datos colectados en el almacén se identifican con periodo particular de tiempo. El contenido que hay dentro de un data warehouse proporciona información desde un punto de vista histórico, lo cual sirve para ver cómo evoluciona el negocio.

No volátil El data warehouse se crea para ser leído pero no modificado. Esto significa que los datos no son eliminados al añadir nuevas entradas y solo pueden ser consultados.

Principales Características del Almacén de Datos. [2,3]

¿Por qué se crea el Almacén de Datos?

Los almacenes de datos se crean principalmente en función de las metas de una organización.

Primero se debe determinar la misión y los objetivos de negocio a cumplir por el data warehouse;

segundo hay que estipular cuál es la funcionalidad que el data warehouse debe tener,

dependiendo del tipo de consultas a realizar; en tercer lugar se debe establecer el tipo de

contenido necesario para soportar la funcionalidad, es decir entender qué tipo de respuestas los

usuarios esperan; por último es necesario precisar basado en el volumen de contenido qué tan

grande debe ser el almacén. [1]

Como consecuencia de todo lo antes dicho, es justo pensar con qué otros tipos repositorios de

datos se cuenta y cómo se diferencian del data warehouse para dar con el porqué de la

implementación del mismo. En este caso la comparación se hace en relación a las bases de datos

operacionales.

Una base de datos operacional a diario sufre muchos cambios a cuenta de las transacciones que se

ejecutan en las mismas, por lo que éstas no están diseñadas para el análisis de datos como tal y si

se quisiera ejecutar un análisis el mismo sería muy lento. Por su parte el data warehouse requiere

de acceso rápido a un alto volumen de información para estudiar y analizar datos de un tema en

particular, por lo tanto el tipo de consultas típicas de un data warehouse obligarían a las bases de

datos operacionales a trabajar a una capacidad superior para lo cual no han sido diseñadas.

Asimismo, las bases de datos operacionales deben cumplir con el principio de concurrencia, que

implica el acceso de múltiples usuarios y garantía de múltiples transacciones, así que si se quisiera

emplear este tipo de estructuras de almacenamiento para hacer consultas de la magnitud de un

almacén de datos, se estaría violando el principio de concurrencia. [4]

Algunas de las diferencias que existen entrelos almacenes de datos y las bases de datos

operacionales pueden apreciarse en la siguiente tabla:

Criterio Almacén de Datos (Data Warehouse)

Bases de Datos Operacionales

Procesamiento Histórico Diario

Aplicación OLAP OLTP

Actividad Lectura Escritura

Orientación Análisis Gestión

Información De salida De entrada

Granularidad Datos consolidados Datos detallados

Vista Multidimensional Relacional

Cantidad de Usuarios Menos Más

Volumen de datos Mayor Menor

Alta Flexibilidad Desempeño Almacén de Datos vs Bases de Datos Operacionales. [2, 3]

Activos de Datos

Los activos de datos se pueden clasificar en dos categorías principales que son: datos maestros

(master data) y datos transaccionales. En términos simples, los primeros representan las personas,

lugares y cosas que le importan a una organización, mientras que los segundos representan

eventos en los cuales participan los datos maestros. Los datos maestros deberían ser consistentes,

a diferencia de los datos transaccionales que están en constante cambio y esa medida de cambio

se conoce como volatilidad, por lo tanto si unos datos son muy volátiles es probable que se trate

de datos transaccionales. [5]

Adicionalmente, un activo de datos es el resultado de tomar el material crudo de los datos de

gestión de una organización y a partir de éstos obtener productos de alta calidad de datos para

integrar y monitorear el negocio.

Dentro de esta perspectiva se pueden clasificar los datos dentro de una organización en tres

grupos:

Datos de gestión: producidos por aplicaciones corporativas, representan la materia prima

para el almacén de datos.

Datos de integración: creados para mejorar la calidad y la sincronización de dos o más

aplicaciones que no fueron diseñadas para trabajar juntas.

Datos de monitoreo: presentados en reportes a usuarios finales para el apoyo en la toma

decisiones. Tras un proceso de depuración. Este tipo de información le permite a los

usuarios entender mejor el progreso del negocio y evaluar relaciones de causa y efecto en

los datos. [1]

Metadatos

Los datos que se utilizan para representar a otros datos se conocen como metadatos. En términos

de data warehouse, la definición de metadatos se incorpora de la siguiente manera:

Son la hoja de ruta para el almacén.

Definen los objetos del almacén.

Actúan como un directorio y éste ayuda a los sistemas de toma de decisión a localizar el

contenido del almacén. [2]

Arquitectura

Generalmente un data warehouse adopta una arquitectura de tres niveles:

Nivel inferior: esta capa de la arquitectura corresponde a la base de datos a usar por el

servidor de data warehouse, es decir está compuesto por las bases de datos operacionales

del sistema. Se utilizan herramientas de back-end para alimentar este nivel, esas

herramientas realizan actividades de extracción, limpieza, carga y actualización de las

bases de datos.

Nivel intermedio:en esta capa, se tiene los servidores OLAP (On-Line AnalyticalProcessing)

utilizados principalmente para ejecutar análisis multidimensional de datos,

proporcionando capacidad para cálculos complejos, análisis de tendencias y modelado

sofisticado de datos.

Nivel superior: Esta capa es la de cliente o fron-end. Contiene las herramientas de

consulta, información, análisis y minería de datos. [2]

Arquitectura de Niveles del Almacén de Datos [2]

Otra forma de ver la arquitectura del almacén y algunos de sus procesos se aprecia a continuación:

Perspectiva General de la Estructura de un Almacén de Datos [4]

II. PREPARACIÓN DEL ALMACÉN DE DATOS

Con el propósito de minimizar los errores y aumentar la productividad en las organizaciones

surgen los Sistemas de ayuda a la toma de decisiones.

Estos sistemas de soporte permiten extraer y manipular la información de manera flexible ,

proporciona al usuario la posibilidad de definir interactivamente el tipo de información que

requiere visualizar, en él se integran la interfaz de usuario, modelo de decisiones , base de datos

dimensionales y análisis de escenarios, representan la solución más eficiente para visualizar la

situación actual de las empresas a través de informes dinámicos, así como el comportamiento

futuro de los servicios que ofrezcan. [6]

A la hora de construir un almacén de datos:

Los diseñadores deben tener una amplia perspectiva del uso que se espera del almacén.

No existe un modo de anticipar todas las consultas o análisis posibles durante la fase de

diseño.

Sin embargo, el diseño debería soportar específicamente las consultas ad hoc.

Ejemplos:

Si es una empresa que es encargada de gestionar colas, la aplicación va dirigida a la atención sobre

el nivel de los servicios ofrecidos, evaluar desempeño de los usuarios del sistema.

Si es una empresa encarga de recibir y entregar pedidos de acuerdo a con diferentes ruta de

destino, es necesario definir esquemas adecuados que permita facilitar la localización de los

productos a entregar, descontar del inventario productos ya extraídos del almacén

Muchas de las cuestiones que rodean a los sistemas de apoyo para la toma de decisiones, se

refieren en primer lugar a las tareas de obtener y preparar los datos.

Es por ello que debemos dirigirnos a la arquitectura de la Inteligencia de Negocios:

Figura 1 arquitectura de Inteligencia de Negocios

La figura 1 se divide en dos (02) entornos:

Entorno derecho denominado analítico: en el cual se extraen los datos del almacén de datos con

diferentes técnicas de análisis o de visualización de datos, ya sea minería de datos, cuadros de

comandos, de los cuales se obtiene información analizada.

Entorno Data Warehousing, a través del cual se extrae los datos de diferentes fuente de

información y cárgalos en el almacén de datos, para ello se requiere de la utilización de un proceso

conocido como ETL: (Extract, Transform, Load) [7]

Figura 2 Entorno Analítico [7]

Figura 3 entorno Data Warehousing [7]

Los datos deben ser extraídos de diversas fuentes, limpiados, transformados y consolidados en la

base de datos de apoyo para la toma de decisiones. Posteriormente, debe ser actualizado

periódicamente. Cada una de estas operaciones involucra sus propias consideraciones especiales.

[7]

Vista detallada del entorno datawarehousing

Figura 4 Vista detallada Entorno Data Warehousing [7]

Fase de extracción

Es el proceso de capturar datos de las bases dedatos operacionales y otras fuentes.

El proceso de extracción tiende a ser intensivo en entradas y salidas y por lo tanto, puede

interferir con las operaciones críticas. [8]

Existen diversos tipos de fuentes de extracción de datos: de producción, archivos planos, internas

o externas a la organización que da lugar al almacén de datos.

Figura 5 Fuentes de datos de Producción [8]

Figura 6 Archivo Planos de Datos [8]

Estas fuentes de datos de producción son los sistemas de base de datos de procesamiento de

transacciones (OLTP: online TransactionProcessing). Existen multitud de tecnologías que los

implementan en función del vendedor: IMS, DB2, Oracle, Sap, etc. [8]

Archivos Planos: archivos de texto plano o binarios que se encuentran dispersos en la

organización.

Fuentes internas o Externas: Una clasificación paralela de las fuentes de información es la que se

da respecto a su pertenencia dentro de una organización que da origen al almacén de datos. así

la interna son las que se encuentran controlada por la empresa (ventas, marketing, finanzas) ,

mientras que las externas se sitúa fuera del área (recurso accedido mediante protocolos de

internet)

Respecto a las Técnicas de Extracción encontramos las siguientes posibilidades: los programas en

C, Cobol, Pl/Sql (StructureQueryLanguage) para las fuentes de origen accesibles mediante

gestores de Base de datos, Gateways para el acceso transparente de estas bases de datos y

herramientas de diversas índole. Estas últimas debe elegirse cuidadosamente en función de coste

propiedad, ya que pueden ser altos. [8]

Pocas fuentes de datos controlan adecuadamente la calidad de los datos, los datos requieren

frecuentemente de una limpieza antes de que puedan ser introducidos.

Antes de seguir con la fase de transformación, es importante considerar la Limpieza de datos

Las operaciones de limpieza típicas incluyen:

El llenado de valores ausentes, la corrección de errores tipográficos y otros de captura de

datos.

El establecimiento de abreviaturas y formatos estándares.

El reemplazo de sinónimos por identificadores estándares, etcétera.

Los datos que son erróneos y que no pueden ser limpiados, serán reemplazados.

La información obtenida durante el proceso de limpieza puedeser usada para identificar la

causa de los errores en el origen ypor tanto, mejorar la calidad de los datos.

Fase de Transformación

En general, la forma requerida es un conjunto de archivos, unopor cada tabla identificada

en el esquema físico.

La transformación de los datos puede involucrar la división o la combinación de registros

fuente en ocasiones, los errores de datos que no fueron corregidos durante la limpieza son

encontrados durante el proceso de transformación.

Como antes, cualquier dato incorrecto es rechazado.

La transformación es particularmente importante cuandonecesitan mezclarse varias

fuentes de datos [8]

Los operadores o transformaciones comunes que se pueden emplear para diseñar un proceso d

Extracción, Transformación y de carga son los siguientes:

Wrapper: operador empleado para transformar fuentes de datos nativos en fuentes de datos

basadas en registros. Este Operador es útil para realizar la transformación de los datos de las

fuentes de datos del almacén.

Generador de Claves: Consiste en Generar una clave única a partir de una clave compuesta en la

fuente de datos.

Ejemplo la figura 6 presenta una clave compuesta de un producto donde se codifica en un único

campo desde el código del país hasta el del vendedor del producto.

Figura 7 Claves compuestas

Otro ejemplo de codificación múltiple pudiera ser el sexo de una persona, el cual se codifica con

una letra (m, f), con un bit (1,0) o con una etiqueta completa masculino o femenino.

Figura 8 Claves compuesta y generación de claves simples

Figura 9 Generación de Claves compuestas con errores

Todos ellos pueden ser unificados en otro formato distinto o convertido alguno de ellos como es el

caso de la figura.

Así mismo, cuando alguno de los datos de origen no se corresponde con el valor entre los

esperados. Para estos casos de deben diseña rutinas de gestión de error según corresponda.

Conversión: Uno de los operadores más útiles en los proceso ETL es de la conversión. Por

ejemplo: cuando es necesario aplicar conversiones de medidas, fechas y precios. Para cada tipo se

necesita, por un lado identificar el origen del dato, y por otro, diseñar la rutina de conversión

propiamente dicha, donde el dominio de origen se traduce al destino.

Figura 10 Operador de Conversión

Figura 11 Operador de Conversión 2

Figura 12 Operador de Unión

Filtrado: Un filtro es toda Operación que devuelve solo los datos que cumplen concierta

condición. Con los Filtros se pueden transformar valores nulos en el origen, ignorándolos

esperando a que el usuario decida qué hacer con ellos marcando las filas o extrayendo bajo

condiciones establecidas.

Unión:Operador que permite combinar filas provenientes de múltiples fuentes en una única fila

atendiendo a los valores de algunos de sus campo.

Combinación: El operador de combinación sirve para integrar múltiples campos en una única fila.

Ejemplo: con los siguientes datos: nombre, contacto y preferencias podría formarse una fila única

con el nombre Cliente. Ante esto, se debe asegurar el significado de cada elemento de manera que

este sea el correcto. Así se evitan malas interpretaciones.

Fusión (Merge): Toma varias fuentes de datos y la unifica en la salida.

Fase de Carga

La fase de carga es el proceso de levar los datos del staging al almacén de datos. Este proceso

puede llevar mucho tiempo dado a los grandes volúmenes de datos que se manejan. Por ello se

debe considerar la ventana de carga y planificar concienzudamente la carga para intentar

automatizar los procesos involucrados. [8]

Es posible que la primera cara que sea realizada implique mayor volumen de datos que las

posteriores, la primera carga de los datos corresponde a datos históricos, dado que es necesaria la

historia de los mismos. Se debe planear una carga masiva.

Las subsiguientes cargas o refrescos se aplicaran conforme al ciclo del negocio, es una tarea

simple más simple que la primera carga, debido a que habrá menos volumen de datos para cargar.

Las estrategias de refrescos será la siguiente: Considerar la ventana de carga, identificar el

volumen de datos, identificar los ciclos, conocer la infraestructura técnica, planificar una tarea

trastienda (Staging) y determinar cómo detectar cambios.

Los pasos que implicaría proceso de carga son:

Requisitos del usuario: se debe considerar requisitos multidimensionales de los usuarios ellos

definen también ciclos de refresco, se debe documentar todas las tareas y procesos.

Proceso de transporte:Se deberá especificar: Las técnicas y herramientas a utilizar, métodos de

transferencias de ficheros, la ventana de carga ventana de tiempo para otras tareas los volúmenes

de primera carga y refresco, la frecuencia del ciclo de refresco y el ancho de banda de la

conectividad.

Ventana de Carga: se debe evaluar el tiempo disponible para todo el proceso ETL esto se traduce

en planificar, comprobar monitorizar la carga de trabajo de las fuentes de origen. Los periodos de

menor actividad son de madrugada es en ese entonces el momento preciso para llevar a cargo un

proceso ETL.

Los fabricantes de Sistemas de Gestión de Base Datos (DBMS) han puesto considerable

importancia en la eficiencia de las operaciones de carga.

Las “operaciones de carga” incluyen:

El movimiento de los datos transformados y consolidados hacia la base de datos de apoyo

para la toma de decisiones.

La verificación de su consistencia (es decir, verificación de integridad).

La construcción de cualquier índice necesario.

Movimiento de datos.

Por lo general, los sistemas modernos proporcionanherramientas de carga en paralelo.

En ocasiones formatearán previamente los datos paradarles el formato físico interno

requerido por el DBMS de destino antes de la carga real.

Una técnica alternativa consiste en cargar los datos entablas de trabajo que se asemejan al

esquema de destino.

La verificación de la integridad necesaria puede serrealizada en esas tablas de trabajo.

Posteriormente, se puede usar los INSERTs de conjuntopara mover los datos desde las

tablas de trabajo hacialas tablas de destino. [8]

Verificación de integridad.

La mayor parte de la verificación de integridad de los datospuede ser realizada antes de la carga

real, sin hacerreferencia a los datos que ya están en la base de datos. [8]

Sin embargo, ciertas restricciones no pueden verificarse sinexaminar la base de datos existente.

Ejemplo: una restricción de unicidad tendrá que serverificada, por lo general, durante la carga

real.

Construcción de índices.

La presencia de índices puede hacer significativamente lento el proceso de carga.

La mayoría de los DBMS actualizan los índices conforme cada fila es insertada en la tabla

subyacente.

En ocasiones es buena idea eliminar los índices antes de la carga y luego volverlos a crear. Sin

embargo, este enfoque presenta problemas:

No vale la pena cuando el volumen de los nuevos datoses pequeño respecto a los ya

existentes.

La creación de un índice grande puede dar lugar aerrores de asignación irrecuperables.

La mayoría de los DBMS soportan la creación de índices en paralelo (agilizar los procesos de

carga y de construcción de índices). [9]

De acuerdo a las fases ya planteadas una no menos importante se le conoce como

Actualización: la cual es importante destacar debido a que:

La mayoría de las bases de datos de apoyo para la toma dedecisiones requieren una

actualización periódica de los datos.

La actualización involucra por lo general una carga parcial.

Algunas aplicaciones de apoyo para la toma de decisiones requieren la eliminación de la

base de datos y una recarga completa.

La actualización involucra todos los problemas que estánasociadas con la carga, pero

también es probable que deba realizarse mientras los usuarios están accediendo a la base

de datos.

La política de actualización surgirá probablemente como uncompromiso que tiene en

consideración las respuestas a lassiguientes cuestiones:

¿Qué grado de actualidad deben tener los datos?

¿Puede un almacén de datos quedarse fuera de línea (off-line) y durante cuánto tiempo?

¿Qué interdependencias tienen los datos?

¿Cuál es la disponibilidad de almacenamiento?

¿Cuáles son los requisitos de distribución (por ejemplo, parareplicación y partición)?

¿Cuál es el tiempo de carga (incluyendo la limpieza, formateo, copia, transmisión y costos

adicionales, como la reconstrucción de índices)? [8]

Es importante considerar en el contexto de la presente investigación el autor de almacenamiento

de datos Ralph kimball y el científico de la computación conocido como el padre del almacén de

datos Bill Inmon planten metodologías con diferentes enfoques:

Paradigma Bill Inmon.

Bill Inmon ve la necesidad de transferir la información de los diferentes OLTP (Sistemas

Transaccionales) de las organizaciones a un lugar centralizado donde los datos puedan ser

utilizados para el análisis (sería el CIF o Corporate Information Factory). Insiste además en que ha

de tener las siguientes características:

Orientado a temas: Los datos en la base de datos están organizados de manera que todos los

elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí.

Integrado: La base de datos contiene los datos de todos los sistemas operacionales de la

organización, y dichos datos deben ser consistentes.

No volátil: La información no se modifica ni se elimina, una vez almacenado un dato, éste se

convierte en información de sólo lectura, y se mantiene para futuras consultas.

Variante en el tiempo: Los cambios producidos en los datos a lo largo del tiempo quedan

registrados para que los informes que se puedan generar reflejen esas variaciones.

La información ha de estar a los máximos niveles de detalle. Los Dw departamentales o datamarts

son tratados como subconjuntos de este Dw corporativo, que son construidos para cubrir las

necesidades individuales de analisis de cada departamento, y siempre a partir de este Dw Central

(del que también se pueden construir los ODS ( Operational Data Stores ) o similares). [10]

Paradigma Ralph Kimball.

El Data Warehouse es un conglomerado de todos los Data Marts dentro de una empresa, siendo

una copia de los datos transaccionales estructurados de una forma especial para el análisis, de

acuerdo al Modelo Dimensional (no normalizado), que incluye, como ya vimos, las dimensiones de

análisis y sus atributos, su organización jerárquica, así como los diferentes hechos de negocio que

se quieren analizar. Por un lado tenemos tablas para las representar las dimensiones y por otro

lado tablas para los hechos (las facts tables). Los diferentes Data Marts están conectados entre si

por la llamada bus structure, que contiene los elementos anteriormente citados a través de las

dimensiones conformadas (que permiten que los usuarios puedan realizar queries conjuntos sobre

los diferentes data marts, pues este bus contiene los elementos en común que los comunican).

Una dimensión conformada puede ser, por ejemplo, la dimensión cliente, que incluye todos los

atributos o elementos de análisis referentes a los clientes y que puede ser compartida por

diferentes data marts (ventas, pedidos, gestión de cobros, etc). [10]

A continuación se plantea un ejemplo de un proceso ETL:

Caso práctico: Análisis de estadísticas web

Actualmente la mayoría de las organizaciones tienen aplicaciones web mediante las cuales

despliegan tanto soluciones de negocio como de soporte al mismo.

En este caso se explicará

Desarrollode un reporte con los datos de evaluación de desempeños de usuarios de la

herramienta QmaticOchestra empleada en la actualidad en instituciones financieras y

aseguradoras del País para la gestión de colas.

Las herramientas que se pueden utilizar para el desarrollo son:

• SqlServerpara data warehouse.

• PentahoReportDesignerpara la elaboración del diseño.

La herramienta ReportDesginer permite el desarrollo completo del reporte, sin embargo debido a

que la misma puede desarrollarse el query de las uniones, cálculos a través del Sistema Gestor de

Base de Datos SqlServer, posteriormente se debe realizar las adaptaciones en la herramienta y

conformar el diseño de reporte en pentaho.

Ejecutamos PenthahoReportDesigner

Establecemos conexión con la BD, en este Caso SqlServer

Ejemplo empleado JDBC.

Una vez configurado el origen de los datos a los que nos vamos a conectar empleando JDBC. A

continuación definiremos los queries que van a determinar los datos que serán reflejado en el

reporte.

Definición del query principal (query1): Contendrá una serie de selects anidados, que mostrarán

los siguientes campos en el reporte:

Datos del reporte

Código Usuario.

Nombre del usuario

Nombre de la oficina.

Nombre de los meses del año.

Fecha completa

Número de mes.

Año.

Tiempo total de sesión.

Tiempo usuario desocupado.

Atendidos.

No presentados

Arribados sobre el nivel de servicio

Total de nivel de atención

22

1

3

1. Queries. Puede agregar más query o eliminarlos.

2. Espacio de trabajo: permite trabajar a través enlaces directos entre las tablas,

recomendable trabajar cuando los reporte sean select y enlaces sencillos:

Uso de parámetros y funciones.

Para poder definir restricciones a los datos que devuelvan los reportes, PRD nos permite trabajar

con parámetros, que se nos pedirán en el momento de ejecución del informe y que se podrán

incluir en las condiciones de las querys definidas

Posteriormente; deberá configurar las características de cada uno de los parámetros. Una vez

configurado el parámetro deberá Seleccionar “Ok”

Ejemplo de un parámetros configurado para este reporte:

Una vez configurado los parámetros que se emplearan como filtros de búsqueda debe proceder a

realizar pruebas correspondientes:

Modelo del Reporte:

Importante destacar que para la realización del reporte se aplico la respectiva Conversión del

tiempo al formato HH:MM:SS

III. BASE DE DATOS MULTIDIMENSIONAL (MDB)

Una base de datos multidimensional (MDB) es un tipo de base de datos que almacena datos en

varias dimensiones, guardan datos que adquieren valor diferente dependiendo de la dimensión

que tengan con respecto a diversos atributos. Su elemento principal son las matrices de n

dimensiones y permite presentar la información de una manera estándar, sencilla e intuitiva, lo

que permite crear análisis de los datos para satisfacer necesidades. [11]

El uso de dimensiones es una forma de mostrar y almacenar datos muy útil en sistemas con

grandes cantidades de información. Las dimensiones son ejes de análisis o criterios de clasificación

de la información que ofrecen un índice a los datos mediante una lista de valores. Por ejemplo son

dimensiones <Tiempo>, <Geografía> y <Producto>.

Una base de datos multidimensional –o un sistema de gestión de base de datos multidimensional

(MDDBMS)– implica la capacidad de procesar rápidamente los datos en la base de datos a fin de

que las respuestas se pueden generar rápidamente.

Conceptualmente, una base de datos multidimensional utiliza la idea de un cubo de datos para

representar las dimensiones de los datos disponibles para un usuario. Por ejemplo, "ventas" puede

verse en las dimensiones del modelo del producto, la geografía, el tiempo o alguna dimensión

adicional. En este caso, "ventas" se conoce como el atributo de medida del cubo de datos y las

demás dimensiones son vistas como los atributos de entidades. Además, un creador de base de

datos puede definir jerarquías y niveles dentro de una dimensión (por ejemplo, niveles estatales y

municipales dentro de una jerarquía regional).

En las base de datos multidimensionales la información se representa como cubos y matrices, cada

uno de los cuadros se les llama matrices y es donde están almacenadas la información, cada uno

de estos cubos puede sumar y mostrar grandes cantidades de datos proporcionando de manera

sencilla y rápida poder extraer los datos de información mediante la búsqueda en el cubo que se

almacene.

http://searchdatacenter.techtarget.com/es/definicion/searchdatacenter.techtarget.com/es/definicion/Base-de-datos

A los ejes se les llama Dimensiones y al dato que se presenta en la matriz, se le llama Medida. A los

elementos del producto cartesiano de los ejes (dimensiones) se le llama Coordenadas. La matriz

definida, puede ser dispersa. (Es una función parcial).

Versatilidad de las bases de datos multidimensionales

Las BDMD se caracterizan por una mayor versatilidad que las bases de datos relacionales a la hora

de realizar consultas. De hecho, a menudo éstas se crean a partir de entradas de las bases de

datos relacionales, a diferencia del carácter declarativo en una base de datos relacional, las BDMD

facilita un tipo de análisis muy útil para el negocio, que permite extraer datos de forma selectiva y

realizar consultas de distinto tipo. Sin embargo, es importante subrayar que si bien son muy

ventajosos en cuanto a rapidez y procesamiento, no es posible modificar la estructura de estas

bases de datos, por lo que será necesario diseñarlos de nuevo.

Es habitual su utilización para conocer las ventas en un determinado contexto, -por ejemplo,

mostrar una hoja de cálculo con las ventas de un producto en tal lugar durante un determinado

periodo-, así como para hacer comparaciones entre distintas consultas y cuestiones similares con

el fin de resumir operaciones o descubrir tendencias de negocios.

Este tipo de análisis, inaccesible para las bases de datos relacionales, resulta factible almacenando

los datos en una base de datos multidimensional, donde cada atributo de los datos (zona

geográfica, producto y periodo de tiempo, pongamos por caso) se considera por separado y, a su

vez, puede dividirse en subatributos.

Características importantes de las bases de datos multidimensionales

Los datos son vistos como cubos los cuales consisten en categorías descriptivas

(dimensiones) y valores cuantitativos (medidas).

Simplifica a los usuarios realizar consultas complejas, arreglar datos de reportes o cambiar

de datos resumidos a detallados.

La información esta ordenada en jerarquías que permite llevar a cabo un análisis rápido de

los datos.

Ventajas de las bases de datos multidimensionales

Tiene accesos a grandes cantidades de información.

Analiza relaciones entre muchos tipos de elementos.

Presenta los datos en diferentes perspectivas.

Involucra cálculos complejos entre elementos de datos.

Aseguran un buen tiempo de respuesta a las necesidades del usuario.

Desventajas de las bases de datos multidimensionales

Debido a su funcionalidad y almacenamiento de la información, cuando los usuarios

requieren hacer modificaciones en la estructura de este tipo de base de datos deben

realizar el diseño nuevamente, sin posibilidad de poder utilizar la estructura en la que se

trabajó hasta el momento que se requiere la modificación.

Beneficios que trae a una organización la utilización de una BDMD

La organización tiene fácil acceso, fácil uso y de manera flexible toda la información.

Los datos están organizados en diferentes dimensiones lo que permite un mejor análisis.

Ahorro generado por productividad de personas altamente profesionales.

Permite encontrar con facilidad el historial de datos.

Genera ventajas competitivas.

IV. OLAP (PROCESO ANALÍTICO EN LÍNEA)

OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line AnalyticalProcessing).

Es una solución utilizada en el campo de la llamada inteligencia empresarial (o Business

Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza

estructuras multidimensionales (o cubos OLAP) que contienen datos resumidos de grandes bases

de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing,

informes de dirección, minería de datos y áreas similares.

El cubo OLAP es un proceso que consiste en obtener datos relevantes entre una gran cantidad de

información contenida en un sistema. Donde podemos agregar múltiples dimensiones para

realizar las cruces que permitieran extraer en forma rápida y eficiente la información que

necesitemos. Una ventaja interesante es que nos permite analizar multidimensional de un modo

más fácil, eficiente y aun menor costo, Aparte que nos agrupa los datos con el propósito de

facilitar su análisis, de forma que sean útiles para acceder y analizar la información.[11]

Algunos gestores de BD que podemos utilizar para la creación del cubo OLAP, podrían ser:

Postgresql, MySql, Firebird.

La funcionalidad de los sistemas OLAP se caracteriza por ser un análisis multidimensional de datos

corporativos, que soportan los análisis del usuario y unas posibilidades de navegación,

seleccionando la información a obtener.

OLAP no es más que una manera de acceder a tu información utilizando un “lenguaje natural”.A

partir de esta definición básica, básicamente realiza las siguientes acciones básicas sobre la

información:

Segmentar: Análisis de conjuntos y segmentación de datos. Los usuarios pueden

aprovechar los conjuntos de análisis que proporciona para realizar una segmentación

sencilla de los datos. Pueden manipular y combinar conjuntos de datos definidos por el

usuario para obtener un conjunto de datos depurado para su posterior análisis. El análisis

de conjuntos es una parte esencial de la plataforma de y se puede aplicar al almacén de

datos completo. Los conjuntos se pueden personalizar por usuario, compartir en un

departamento, combinar mediante operadores lógicos y reutilizar en múltiples informes.

Como cuando pides las ventas por producto y por trimestre.

Filtrar: Los usuarios pueden crear informes personalizados seleccionando objetos de datos

para mostrar y definir calificaciones como criterios de filtro del informe. Ofrece varios

enfoques guiados para crear informes nuevos - desde preguntas paso a paso al usuario

para seleccionar y calificar los atributos y métricas empresariales hasta asistentes que

incorporan plantillas y filtros existentes. Como cuando pides el informe de ventas de

España en 2011

Profundizar (Drill down): Proporciona el conjunto más amplio y exhaustivo de funciones

analíticas disponible en cualquier plataforma. Incluyen desde simples funciones

matemáticas, como totales actualizados, a cálculos estadísticos avanzados como los f-

tests. Los paquetes analíticos disponibles incluyen bibliotecas de funciones estadísticas,

financieras y matemáticas. Esto permite a la empresa obtener respuesta a todos sus

análisis utilizando una sola plataforma. Como cuando ves los datos de trimestre 2 y te

interesa el desglose de abril, mayo, junio.[12]

Sintetizar (Drill up): La plataforma ofrece análisis iterativo multi-paso, una técnica que

combina las funciones analíticas integradas con proceso de base de datos. Preguntas

complejas que son imposibles de resolver con otras soluciones obtienen respuesta de

forma rápida y fácil. Al combinar potentes funciones analíticas con el motor de generación

SQL líder en el sector, pone al alcance de todos los usuarios posibilidades inigualables de

análisis. Cuando deshaces desglose anterior y vuelves al desglose por trimestre.

Rotar (Drill anywhere): Cambiar dimensiones unas con otras. Ej.: salidas por ítems vs.

ítems por salida. Cuando en lugar de pasar de un desglose por trimestres a uno mensual,

te interesa un desglose por familia de producto, o por nacionalidad, es decir, por una

característica de una jerarquía distinta a la que lo estás viendo actualmente. Cuando en

lugar de pasar de un desglose por trimestres a uno mensual, te interesa un desglose por

familia de producto, o por nacionalidad, es decir, por una característica de una jerarquía

distinta a la que lo estás viendo actualmente.

Lo relevante es que el análisis OLAP te permite “navegar” fácilmente por la información,

solicitándola con el detalle preciso y con los filtros adecuados, y que puedes hacerlo de manera

dinámica, fácil, ad hoc, sobre la marcha, sin necesitar asistencia, rápido, y utilizando el lenguaje de

negocio.

Características:

Visión multidimensional.

Arquitectura cliente / servidor.

Multiusuario.

Permite navegar fácilmente por la información

Ofrece filtros adecuados, fáciles y dinámicos para el acceso a la información.

Capacidad de análisis.

Interfaces gráficas.

Diferencia entre valor vacío y valor cero.

Ventajas de OLAP:

Acceso a grandes cantidades de datos.

Analizan las relaciones entre muchos tipos de elementos empresariales.

Facilitan la toma de decisiones.

Involucran datos agregados.

Comparan datos agregados a través de periodos jerárquicos.

Respuesta rápida a las consultas de usuarios.

Presenta datos en diferentes dimensiones.

Guarda histórico de datos.

Desventajas de OLAP:

Es rigido en su estructura, dificultando los cambios o mejoras.

Pueden ser obsoletos muy pronto.

Altos costos de mantenimiento.

Requiere de un buen diseño de dimensiones.

Áreas de aplicación de OLAP:

Financiera.

Mercadeo.

Riesgo financiero.

Fijación de Precios.

Nuevos productos.

Salud.

Segmentación de mercados.

Análisis de créditos.

Ventas.

Existen arquitecturas diferentes para los sistemas OLAP: OLAP multidimensional (MOLAP), OLAP

relacionales (ROLAP), DOLAP y HOLAP.

Sistemas MOLAP

La arquitectura MOLAP usa unas bases de datos multidimensionales para proporcionar el análisis,

su principal premisa es que el OLAP está mejor implantado almacenando los datos

multidimensionalmente.

El sistema MOLAP utiliza una arquitectura de dos niveles: La bases de datos multidimensionales y

el motor analítico para ser visualizada multidimensionalmente.La base de datos multidimensional

es la encargada del manejo, acceso y obtención del dato.El nivel de aplicación es el responsable de

la ejecución de los requerimientos OLAP. El nivel de presentación se integra con el de aplicación y

proporciona un interfaz a través del cual los usuarios finales visualizan los análisis OLAP. [13]

Una arquitectura cliente/servidor permite a varios usuarios acceder a la misma base de datos

multidimensional. La información procedente de los sistemas operacionales, se carga en el sistema

MOLAP, mediante una serie de rutinas batch. Una vez cargado el dato elemental en la Base de

Datos multidimensional (MDDB), se realizan una serie de cálculos en batch, para calcular los datos

agregados, a través de las dimensiones de negocio, rellenando la estructura MDDB. Tras rellenar

esta estructura, se generan unos índices y algoritmos de tablas hash para mejorar los tiempos de

accesos a las consultas. Una vez que el proceso de compilación se ha acabado, la MDDB está lista

para su uso. Los usuarios solicitan informes a través del interface, y la lógica de aplicación de la

MDDB obtiene el dato.

La arquitectura MOLAP requiere unos cálculos intensivos de compilación. Lee de datos pre

compilados, y tiene capacidades limitadas de crear agregaciones dinámicamente o de hallar ratios

que no se hayan pre calculados y almacenados previamente.

Sistemas ROLAP

ROLAP es una implementación OLAP que almacena los datos en un motor relacional. Típicamente,

los datos son detallados, evitando las agregaciones y las tablas se encuentran normalizadas. Los

esquemas más comunes sobre los que se trabaja son estrella ó copo de nieve, aunque es posible

trabajar sobre cualquier base de datos relacional. La arquitectura está compuesta por un servidor

de banco de datos relacional y el motor OLAP se encuentra en un servidor dedicado. La principal

ventaja de esa arquitectura es que permite el análisis de una enorme cantidad de datos.[13]

La arquitectura ROLAP, accede a los datos almacenados en un Data Warehouse para proporcionar

los análisis OLAP. La premisa de los sistemas ROLAP es que las capacidades OLAP se soportan

mejor contra las bases de datos relacionales.

El sistema ROLAP utiliza una arquitectura de tres niveles. La base de datos relacional maneja los

requerimientos de almacenamiento de datos, y el motor ROLAP proporciona la funcionalidad

analítica.El nivel de base de datos usa bases de datos relacionales para el manejo, acceso y

obtención del dato.El nivel de aplicación es el motor que ejecuta las consultas multidimensionales

de los usuarios.El motor ROLAP se integra con niveles de presentación, a través de los cuales los

usuarios realizanlos análisis OLAP.[12]

Después de que el modelo de datos para el Data Warehouse se ha definido, los datos se cargan

desde el sistema operacional. Se ejecutan rutinas de bases de datos para agregar el dato, si así es

requerido por los modelos de datos.Se crean entonces los índices para optimizar los tiempos de

acceso a las consultas.

Los usuarios finales ejecutan sus análisis multidimensionales, a través del motor ROLAP. Se

ejecutan estas consultas en las bases de datos relacionales, y sus resultados se relacionan

mediante tablas cruzadas y conjuntos multidimensionales para devolver los resultados a los

usuarios.

La arquitectura ROLAP es capaz de usar datos precalculados si estos están disponibles, o de

generar dinámicamente los resultados desde los datos elementales si es preciso.

ROLAP vs. MOLAP (Comparativa)

Cuando se comparan las dos arquitecturas, se pueden realizar las siguientes observaciones:

El ROLAP delega la negociación entre tiempo de respuesta y el proceso batch al diseño del

sistema.Mientras, el MOLAP, suele requerir que sus bases de datos se precompilen para

conseguir un rendimiento aceptableen las consultas, incrementando, por tanto los

requerimientos batch.

Los sistemas con alta volatilidad de los datos (aquellos en los que cambian las reglas de

agregacióny consolidación), requieren una arquitectura que pueda realizar esta

consolidación ad-hoc. Los sistemasROLAP soportan bien esta consolidación dinámica,

mientras que los MOLAP están más orientadoshacia consolidaciones batch.

Los ROLAP pueden crecer hasta un gran número de dimensiones, mientras que los MOLAP

generalmente sonadecuados para diez o menos dimensiones.

Los ROLAP soportan análisis OLAP contra grandes volúmenes de datos elementales,

mientras quelos MOLAP se comportan razonablemente en volúmenes más reducidos

(menos de 5 Gb)

Si se utiliza Rolap se debe traducir la consulta multidimensionales a SQL, si se utiliza

MOLAP como los datos se almacenan en un formato parecido al cubo se puede procesar la

consulta directamente sin un proceso de traducción propio.

En los sistemas ROLAP la velocidad de respuesta mediante índices y distribución de datos

en particiones, en los sistemas MOLAP el diseño tiene consecuencias en los tiempos de

respuesta y almacenamiento.

ROLAP funciona bien en cubos dispersos y MOLAP tiene poca eficiencia en cubos

dispersos.

Por ello, y resumiendo, el ROLAP es una arquitectura flexible y general, que crece para dar soporte

a amplios requerimientos OLAP. El MOLAP es una solución particular, adecuada para soluciones

departamentales con unos volúmenes de información y número de dimensiones más modestos.

HOLAP (Hybrid OLAP) almacena algunos datos en un motor relacional y otros en una base de

datos multidimensional, es una combinación de varias técnicas de almacenamiento. Las

agregaciones se realizan en cache, pero el drill-down a través de la base de datos relacional.

Algunos fabricantes son: MicrodsoftAnalysisServises, SAS OLAP, Oracle HyperionEssbase

DOLAP es un OLAP orientado a equipos de escritorio (Desktop OLAP). Trae toda la información

que necesita analizar desde la base de datos relacional y la guarda en el escritorio. Desde ese

momento, todas las consultas y análisis son hechas contra los datos guardados en el escritorio.

DOLAP Genera una pequeña cache multidimensional cuando los usuarios ejecutan las consultas

contra la base de datos. Algunos fabricantes son: Business Object, Oracle HyperionInteractive.

V. MERCADO DE DATOS (DATA MART)

Un Data mart es una base de datos departamental, especializada en el almacenamiento de los

datos de un área de negocio específica. [14]

Se caracteriza por:

Disponer la estructura óptima de datos para analizar la información al detalle desde todas

las perspectivas que afecten a los procesos de dicho departamento.

Data mart es un almacén de datos históricos relativos a un departamento de una

organización, así que puede ser simplemente una copia de parte de un Data Warehouse,

para uso departamental

Por lo tanto para crear el data mart de un área funcional de la empresa es preciso

encontrar la estructura óptima para el análisis de su información [15]

Razones para crear un data mart

Fácil acceso a los datos que se necesitan frecuentemente.

Crea vista colectiva para grupo de usuarios.

Mejora el tiempo de respuesta del usuario final.

Facilidad de creación.

Costo inferior al de la aplicación de un completo almacén de datos.

Los usuarios potenciales son más claramente identificables que en un almacén de datos

completo.

Beneficios de un Data Mart

Pueden fácilmente extenderse a la toma de decisiones estratégicas, que pueden brindar

beneficios grandes y tangibles

Acelera las consultas reduciendo el volumen de datos a recorrer

Estructura los datos para su adecuado acceso por una herramienta

Los costos que implica la construcción de un Data Mart son muchos menores a un Data

Warehouse

Permite entender y administrar simultáneamente macro y micro perspectivas del área de

comercio exterior, lo que puede ahorrar incontables horas de trabajo y ayudar a evitar

errores que pueden ser el resultado de suposiciones que se hicieron con base en datos

incompletos o incorrectos. [14]

Desventajas de un Data Mart

No permite el manejo de grandes volúmenes de información por lo que muchas veces

debe recurrir a un conjunto de datamarts para cubrir las necesidades de información de la

empresa. [14]

Se invierte mucho tiempo para el desarrollo de un datamart.

Al crecer el datamart, el rendimiento decae y deja de ser óptimo.

Diferencias entre un Datamart y Datawarehouse. [16]

Aspectos Datawarehouse Datamart

Alcance Corporativo Línea de Negocio

Temas Múltiples Un único tema

Tamaño 100 GB+TB+ Menor 100 GB

Tiempo de Implementación

De meses a años Varios meses

Motivo de la Creación Satisfacer las necesidades de una corporación

Satisfacer las necesidades especificas de un departamento

Tipos de Datos Datos con un nivel de detalle amplio Datos agregados y resumidos

Rol de usuarios Exploradores Recolectores

Data Marts Dependientes, Independientes e Híbridos.

Los tres tipos básicos de mercados de datos son: dependiente, independiente e híbrido. La

clasificación se basa principalmente en la fuente de datos que alimenta el mercado de datos. Los

mercados de datos dependientes dibujan los datos de un almacén de datos central que ya ha sido

creado, los mercados de datos independientes, por el contrario, son sistemas independientes

construidas mediante la elaboración de datos directamente de fuentes operativas o externos de

datos o ambos y los mercados de datos híbridos pueden extraer datos de los sistemas operativos o

los almacenes de datos. [17]

Data Marts Dependientes

Un mercado de datos dependiente permite a unir datos de la organización en un almacén de

datos. Esto le da las ventajas habituales de la centralización.

Figura 13 Data Marts Dependiente [17]

Data Marts Independientes:

Un mercado de datos independientes se crea sin el uso de un almacén de datos central. Esto

podría ser deseable para grupos más pequeños dentro de una organización.

Figura 14 Data Marts Independiente [17]

Data Mart Híbrida

Un mercado de datos híbrido le permite combinar las aportaciones de otras fuentes distintas de

un almacén de datos. Esto podría ser útil para muchas situaciones, especialmente cuando se

necesita la integración ad hoc, como después se añade un nuevo grupo o producto a la

organización.

Figura 15 Data Mart Hibrida [17]

La primera aproximación a una arquitectura descentralizada de Data Mart, podría ser originada de

una situación como la descrita a continuación:

Figura 2 Arquitectura Descentralizada [18]

El departamento de Marketing, emprende el primer proyecto de Data Warehouse como una

solución departamental, creando el primer Data Mart de la empresa.

Visto el éxito del proyecto, otros departamentos, como el de Riesgos, o el Financiero se lanzan a

crear sus Data Marts. Marketing, comienza a usar otros datos que también usan los Data Marts de

Riesgos y Financiero, y estos hacen lo propio.

Esto parece ser una decisión normal, puesto que las necesidades de información de todos los Data

Marts crecen conforme el tiempo avanza. Cuando esta situación evoluciona, el esquema general

de integración entre los Data Marts pasa a ser, la del gráfico de la derecha.

En esta situación, es fácil observar cómo este esquema de integración de información de los Data

Marts, No obstante, lo que ha fallado no es la integración de Data Marts, sino su forma de

integración. [18]

Figura 3 Integración de Data Warehouse [18]

Extracción, Transformación y Transporte

La principal diferencia entre los mercados de datos independientes y dependientes es la forma de

rellenar el almacén de datos; es decir, cómo obtener los datos de las fuentes y en el mercado de

datos. Este paso, llamado el proceso de extracción-transformación-Transporte (ETT), consiste en

datos de los sistemas operativos en movimiento, filtrarla, y cargarlo en el mercado de datos.

Con los mercados de datos dependientes, este proceso es un tanto simplificado, que se resumen

los datos (limpio) y se han cargado en el depósito de datos central. El proceso de ETT para

mercados de datos dependientes es sobre todo un proceso de identificar el subconjunto adecuado

de los datos relacionados con el tema escogido mercado de datos y mover una copia del mismo,

tal vez en forma resumida.

Con los mercados de datos independientes, sin embargo, debe hacer frente a todos los aspectos

del proceso de ETT, tanto como lo hace con un almacén de datos central. El número de fuentes es

probable que sean menos y la cantidad de datos asociados con el mercado de datos es menor que

el almacén, dado su enfoque en un solo tema.

Las motivaciones detrás de la creación de estos dos tipos de mercados de datos también suelen

ser diferentes. Mercados de datos dependientes se construyen generalmente para lograr un mejor

rendimiento y disponibilidad, mejor control y reducir los costos de telecomunicaciones que

resulten del acceso local de los datos correspondientes a un departamento específico. La creación

de mercados de datos independientes a menudo es impulsada por la necesidad de tener una

solución dentro de un tiempo más corto. Mercados de datos híbridos simplemente se combinan

los temas de mercados de datos independientes e independientes. [16]

Herramientas de Base de datos que permiten trabajar con Data Marts:

Microsoft SQLServer

PostgreSql

Oracle

MySql

VI. MINERÍA DE DATOS (DATA MINING)

La minería de datos tiene que ver con el análisis de conjuntos de datos observacionales, para el

hallazgo de información oculta y relaciones inadvertidas entre datos que, permitan sintetizarlos de

una manera novedosa, comprensible y útil para las organizaciones propietarias de los mismos. Los

resultados obtenidos a través de la ejecución de minería de datos a menudo se relacionan con

modelos y patrones. [19]

La minería de datos corresponde a una actividad no trivial para encontrar información dentro de

bases de datos y ajustarlos a un modelo, donde la extracción de patrones interesantes comprende

un análisis exploratorio impulsado por los datos y también un aprendizaje deductivo. [20]

La minería de datos puede verse en términos de las fuentes de las cuales se aplica esta disciplina.

En la siguiente tabla pueden apreciarse, de forma general, algunos aspectos comparativos de la

minería de datos en relación a las bases de datos operacionales.

Aspecto Minería de datos Base de datos operacional

Query - Indefinido

- Lenguaje de consulta impreciso

- Bien Definido

- SQL

Datos - No operacionales - Operacionales

Resultados - Indeterminados

- No son un subconjunto de una BD

- Precisos

- Son un subconjunto de una BD

Minería de Datos y Bases de Datos Operacionales [20]

Modelos y Funciones de Minería de Datos

Los diferentes tipos de representaciones buscados durante la ejecución de procesos de minería de

datos, pueden ser caracterizados de diversas maneras. Esa caracterización implica la distinción

entre modelos globales y luego de patrones locales. En el caso de data mining, existen dos tipos

de modelos que son: predictivo y descriptivo, dentro de esos modelos se encuentran las tareas o

funciones asociadas a los patrones aplicados. [19]

En el siguiente esquema se observa la relación de los modelos de minería y las funciones asociadas

a los mismos.

Minería de Datos: Modelos y Tareas [20]

Modelo Predictivo: está orientado a la construcción de un patrón que permita predecir el valor de

una variable a partir de valores conocidos de otras variables. En el caso de la función de

clasificación la variable a predecir es categórica, mientras que en la regresión la variable es

cuantitativa. El término predicción es usado en un sentido general y no hay noción de tiempo

continuo implícito. [19]

Función Concepto Clasificación: Predice las clases de objetos cuyas categorías son desconocidas,

a través del mapeo de datos hacia grupos o clases predefinidos.

Regresión / Predicción Se usan para asignar datos a variables predictivas de valor real. Se aplican normalmente cuando un dato numérico es desconocido, pueden ser empleados para la identificación de tendencias distribuidas basadas en datos disponibles.

Análisis de series temporales: Se refiere a la descripción y modelado de regularidades o tendencias para objetos cuyo comportamiento cambia en el tiempo.

Funciones Modelo Predictivo [20, 21, 22]

Modelo descriptivo: su objetivo es describir todos los datos (o los procesos de la generación de

datos). Ejemplos de esas descripciones incluyen modelos para la distribución general de

probabilidad de los datos (estimación de densidad), particionado de dimensional de grupos

(análisis de clúster y segmentación) y los modelos que describen la relación entre las variables

(modelado de dependencia). [19]

Función Concepto Clustering: Agrupación de datos u objetos similares entre sí, pero que son

muy diferentes de objetos en otros grupos o clústers

Sumarización : Asigna datos a subconjuntos que cuentan con descripciones simples asociadas, lo que se relaciona a la caracterización y generalización de clases bajo estudio.

Reglas de asociación / Descubrimiento de secuencias

Revela vínculos entre datos y determina cuáles son las reglas de asociación para el establecimiento de esos vínculos. También implica el análisis secuencial, determinación de patrones y secuenciales

Funciones Modelo Descriptivo [20, 21, 22]

Minería de datos y KDD (Knowledge Discovery in Databases)

KDD es el proceso de descubrimiento de conocimiento útil de una colección de datos. Este proceso

es utilizado ampliamente en técnicas de minería de datos que incluyen la preparación, selección,

limpieza e incorporación de conocimiento previo a conjuntos de datos para la posterior

interpretación de soluciones adecuadas en base a los resultados observados. [20, 22, 23]

La minería de datos es un paso dentro del proceso de descubrimiento de información, dicho

proceso permite hallar información y patrones útiles en los datos. La minería de datos emplea

algoritmos para la extracción de información y patrones derivados del proceso de KDD. [22, 23]

En la siguiente gráfica se observa el proceso de descubrimiento de información:

Proceso de descubrimiento de conocimiento [22]

Desarrollo de Minería de Datos

Existe una gran variedad de sistemas de minería de datos y éstos pueden integrar técnicas de las

siguientes áreas: análisis espacial de datos, recuperación de información, reconocimiento de

patrones, análisis de imagen, procesamiento de señales, computación gráfica, tecnología web,

negocios, bioinformática. [22]

Por lo tanto, un sistema de minería de datos toca diferentes áreas del desarrollo tecnológico y

puede ser visto en base a los siguientes ámbitos.

Desarrollo de Minería de Datos [20, 22, 23]

• Bases de datos: modelos relacionales de datos, data warehousing, vista de datos

multidimensional, reglas de asociación, técnicas de escalabilidad. [20]

• Recuperación de información: Minado de texto, motores de búsqueda, medidas de

similitud, métricas de precisión y exhaustividad (recall), agrupación jerárquica, consultas

imprecisas, datos textuales. [20]

• Estadística: Muchos métodos de minado provienen de técnicas estadísticas, teorema de

Bayes, regresión, algoritmos de expectativa de maximización (EM), cuantificación de

vectores. [20]

• Aprendizaje de Máquinas: Escritura de programas que puedan aprender, aprendizaje

mediante ejemplos, aprendizaje sin conocimiento de respuestas correctas, redes neurales,

algoritmos de árbol. [20]

• Algoritmos: Clasificaciones de estructuras de datos basadas en coincidencias de patrones,

técnicas de diseño, estructuras de datos. [20]

Minería Web

La web propone retos importantes para el descubrimiento de fuentes y conocimiento en virtud de

las siguientes consideraciones:

• Complejidad de páginas web: no tienen una estructura unificada, éstas son muy

complejas comparadas con un documento de texto tradicional. Existe una gran cantidad

de documentos en la biblioteca digital de la web, esas bibliotecas no están dispuestas en

relación a un orden de clasificación particular. [22]

• La web es dinámica: información actualizada rápidamente, además que los sitios ofrecen

cada vez más interfaces de interacción con usuarios. [22]

• Diversidad de comunidades de usuarios: con diversos intereses y propósitos. [22]

• Relevancia de información: se considera que una persona está interesada en una pequeña

porción de la web, mientras que la porción restante contiene información irrelevante para

un usuario y puede inundar los resultados de búsqueda. [22]

Estructura de diseño de páginas Web

La estructura básica de una página web se basa en el modelo DOM (Document Object Model). La

estructura del DOM se asemeja a un esquema de árbol donde una etiqueta HTML

(HypertextMarkupLanguage) en la página corresponde a un nodo en el árbol DOM. Una página

web se puede segmentar mediante el uso de etiquetas predefinidas en HTML. [22, 24]

La estructura del DOM se introdujo inicialmente para su presentación en el navegador web y no

para la descripción de la estructura semántica de la página web como tal. La estructura del DOM

no puede identificar correctamente la relación semántica entre las diferentes partes de una página

web. [22]

Vision-Based Page Segmentation (VIPS) - Segmentación Visual de Página

El propósito de VIPS es extraer la estructura semántica de una página web sobre la base de su

presentación visual. Tal estructura semántica corresponde a una estructura de árbol. En este árbol

cada nodo corresponde a un bloque. Un valor se asigna a cada nodo. Este valor se llama el grado

de coherencia. Se asigna este valor para indicar el contenido coherente en el bloque basado en la

percepción visual. El algoritmo VIPS extrae en primer lugar todos los bloques adecuados desde el

árbol DOM HTML. Después de que encuentra los separadores entre estos bloques. Los

separadores se refieren a las líneas horizontales o verticales en una página web que cruzan

visualmente con ningún bloque. La semántica de la página web se construye sobre la base de estos

bloques. [22]

La siguiente gráfica muestra el procedimiento de del algoritmo VIPS:

Procedimiento del algoritmo VIPS [22]

Aplicaciones de Minería de Datos

La minería de datos es ampliamente utilizada en diversas áreas, tales como:

Perfilado de clientes, patrones de consumo

Análisis comparativo de mercado, target marketing

Planificación de finanzas y valoración de activos

Detección de fraudes

Análisis de páginas web: clasificación, PageRank

Análisis de datos biológico y médico

Principales Desafíos

La minería de datos no es una tarea fácil, ya que los algoritmos utilizados pueden ser muy

complejos y los datos no siempre están disponibles en un solo lugar. Asimismo hay que integrar

varias fuentes de datos heterogéneas, todo esto forma parte de los factores que crean problemas

en áreas relativas a:

Metodologías de minado e interacción con usuarios:

- Minería de diferentes tipos de información de BD

- Múltiples niveles de abstracción

- Incorporación de expertos y conocimiento previo

- Lenguajes de consulta para minería

- Minería ad hoc

- Manejo de datos ruidosos o incompletos

- Evaluación de patrones

Problemas de desempeño:

- Eficiencia y escalabilidad de algoritmos de minería de datos

- Algoritmos de minería paralelos, distribuidos e incrementales

Problemas de diversidad en los tipos de datos:

- Manejo de datos relacionales y datos más complejos

- Minería de información de BD heterogéneas y sistemas de información global

C O N C L U S I O N

En la actualidad el enfoque hacia las mejores herramientas y técnicas en la gestión de datos, es

extensamente utilizado por ser imprescindible para crear características competitivas a la hora de

tomar decisiones en cualquier empresa, manejando grandes volúmenes de datos de la manera

más eficiente y evitando que factores como la concurrencia de datos tengan afectaciones

importantes en las decisiones que tomemos.

El presente trabajo nos muestra como los sistemas de almacenamiento y gestión de datos

proporcionan al usuario conocimientos esenciales para un manejo eficiente de la información y

pueden fácilmente extenderse a la toma de decisiones estratégicas, para brindar beneficios

grandes y tangibles. Las diversas herramientas de gestión de datos permiten distribuir y replicar en

diferentes sitios cuando ciertos sitios locales tienen capacidades de almacenamiento y

procesamiento limitadas, o necesidades de análisis de cantidades importante de datos teniendo

importantes ventajas de integración de los datos disponibles y mejores resultados a las

necesidades presentadas.

Herramientas como el Data Mart, las bases de datos multidimensionales o técnicas como el

procesamiento analítico en línea(OLAP), crean una plataforma estructural de datos importante

para el acceso a los datos permitiendo entender y administrar la micro y macro información desde

diferentes dimensiones, reduciendo incontables horas de trabajo y ayudando a evitar errores que

pueden traer las suposiciones hechas en base a datos incompletos, incorrectos o vistos desde una

perspectiva limitada.

El análisis de las herramientas presentadas tiene una cantidad importante de ventajas

competitivas que mejoran el desempeño en la búsqueda de información destacable, permitiendo

el análisis de las relaciones entre los diferentes elementos empresariales, comparando datos

agregados a través de periodos jerárquicos, analizando datos históricos y presentando datos vistos

en diferentes dimensiones permitiendo la mejor decisión con una rápida y eficiente consulta de

usuario.

Los temas aquí tratados han venido representando una visión ideal del mantenimiento de un

repositorio centralizado de los datos de una organización, necesario para maximizar el análisis de

datos; la minería de datos por su parte apoya el análisis de esos datos, la misma es empleada

ampliamente en compañías orientadas principalmente hacia el mercado de consumo, lo que le

permite a esas organizaciones determinar relaciones entre factores internos y externos, que

producen un impacto importante en sus indicadores de gestión y por su puesto en sus beneficios

corporativos.

R E F E R E N C I A S

[1] T. Hammergreny A. Simon. “What’s in a Data Warehouse”, en Data Warehousing for

Dummies2nd ed. Indianapolis, Wiley Publishing, Inc., 2009, cap. 1, pp. 9-24, [En Línea].

Disponible en:

http://dbmanagement.info/Books/MIX/Data_Warehousing_For_Dummies_2e_Hammergren_

TC_(2009)_DW.pdf[Consulta: 22 de abril de 2016]

[2] Tutorials Point. Data Warehousing Tutorial. [En Línea]. Disponible en:

http://www.tutorialspoint.com/dwh/index.htm [Consulta: 22 de abril de 2016]

[3] A. Rius et al. (2014, Oct. 01). Introducción al Data Warehouse: La Factoría de la Información

Corporativa. Universitat Oberta de Catalunya, [Video En Línea]. Disponible en:

https://vimeo.com/107707101 [Consulta: 22 de abril de 2016]

[4] W. Díaz. Almacenes de datos. (Data Warehouses). Universitat de Valencia, [Presentación en

Línea]. Disponible en: http://docplayer.es/883938-Almacenes-de-datos-data-warehouses-

wladimiro-diaz-villanueva-universitat-de-valencia-wladimiro-diaz-uv-es-13019-diseno-de-

bases-de-datos-p.html[Consulta: 23 de abril de 2016]

[5] Intricity. Master Data vs. Transaction Data. [Video En Línea]. Disponible en:

http://www.intricity.com/data-warehousing/master-data-vs-transaction-data/[Consulta: 27

de abril de 2016]

[6] C. Bender y C. Deco. “Sistemas de ayuda a la toma de decisión”, en Tópicos avanzados BD

versión autor CB. [En Línea]. Disponible en: http://escritura.proyectolatin.org/topicos-

avanzados-bd-version-autor-cb/sistemas-de-ayuda-a-la-toma-de-decision/ [Consulta: 24 de

abril de 2016]

[7] J. Conesa e I. Guitart. (2014, Nov. 5).Introducción a los Procesos ETL. UniversitatOberta de

Catalunya, [Video En Línea]. Disponible en: https://vimeo.com/111023563. [Consulta: 24 de

abril de 2016]

[8] J. Mazón et al. Diseño y Explotación de Almacenes de Datos. Conceptos Básicos de Modelado

Multidimensional. San Vicente (Alicante), España, Editorial Club Universitario, 2013. [En Línea]

Disponible en:

https://books.google.co.ve/books?id=KcXnCgAAQBAJ&dq=lista+de+herramientas+que+permi

te+extraer+datos+de+almacenes+de+datos&hl=es&source=gbs_navlinks_s[Consulta: 24 de

abril de 2016]

http://dbmanagement.info/Books/MIX/Data_Warehousing_For_Dummies_2e_Hammergren_TC_(2009)_DW.pdf

http://dbmanagement.info/Books/MIX/Data_Warehousing_For_Dummies_2e_Hammergren_TC_(2009)_DW.pdf

http://www.tutorialspoint.com/dwh/index.htm

https://vimeo.com/107707101

http://docplayer.es/883938-Almacenes-de-datos-data-warehouses-wladimiro-diaz-villanueva-universitat-de-valencia-wladimiro-diaz-uv-es-13019-diseno-de-bases-de-datos-p.html



http://www.intricity.com/data-warehousing/master-data-vs-transaction-data/

http://escritura.proyectolatin.org/topicos-avanzados-bd-version-autor-cb/sistemas-de-ayuda-a-la-toma-de-decision/

http://escritura.proyectolatin.org/topicos-avanzados-bd-version-autor-cb/sistemas-de-ayuda-a-la-toma-de-decision/

https://vimeo.com/111023563

https://books.google.co.ve/books?id=KcXnCgAAQBAJ&dq=lista+de+herramientas+que+permite+extraer+datos+de+almacenes+de+datos&hl=es&source=gbs_navlinks_s

https://books.google.co.ve/books?id=KcXnCgAAQBAJ&dq=lista+de+herramientas+que+permite+extraer+datos+de+almacenes+de+datos&hl=es&source=gbs_navlinks_s

[9] O. Verdugo. (2012, Mar. 24).Parte II: Almacenes de Datos. [Presentación En Línea]. Disponible

en: http://es.slideshare.net/rigardo871/almacen-de-datos-12145837 [Consulta: 24 de abril de

2016]

[10]R. Espinosa (2010, Abril. 19). Kimball vs Inmon. Ampliación de Conceptos de Modelado

Dimensional. [en línea]. Disponible en: https://churriwifi.wordpress.com/2010/04/19/15-2-

ampliacion-conceptos-del-modelado-dimensional/ [Consulta: 24 de abril de 2016]

[11] M. Tamayo y F. Moreno, “Análisis del modelo de almacenamiento MOLAP frente al modelo

de almacenamiento ROLAP”, en Ingeniería e Investigación, Vol. 26, No. 3, pp. 135-142, 2006,

[En Línea]. Disponible en: http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-

56092006000300016[Consulta: 24 de abril de 2016]

[12] Sistemas de Información. (2012, May. 9). Drill Down. [En Línea]. Disponible en:

http://zanghyz.blogspot.com/2012/05/drill-down.html [Consulta: 24 de abril de 2016]

[13] A. Abu Hanifah. (2009, Nov. 25). “Aplicar OLAP, MOLAP, ROLAP u OLAP?”, en Business

Intelligence y Data Warehouse. [En Línea]. Disponible en:

https://yoyonb.wordpress.com/2009/11/25/apakah-olap-molap-rolap-dan-holap-

itu/[Consulta: 24 de abril de 2016]

[14] G. Hernández (2012, Jun. 13). Data Mart Mercado de Datos. [Presentación En Línea]

Disponible en: http://es.slideshare.net/GustavoHernandez10/data-mart. PP 1-14. [Consulta:

24 de abril de 2016]

[15] Datamart. (2016). [En línea].Disponible en http://datamart.wikispaces.com/[Consulta: 24 de

abril de 2016]

[16] J. Cruz et al. (2012, Oct. 24) Investigación Datamarts en Inteligencia de

Negocios.[Presentación En Línea] Disponible en:

https://prezi.com/aop6usundp1q/datamarts/[Consulta: 24 de abril de 2016]

[17] P. Lane et al. “Data Marts”, en Data Warehousing Guide. Oracle8i, Rel. 2 (8.1.6), Part

No.A76994-01, Dic. 1999. [En Línea]. Disponible en:

https://docs.oracle.com/cd/A81042_01/DOC/server.816/a76994/marts.htm[Consulta: 24 de

abril de 2016]

[18] Dataprix. Data Warehouse Vs Data Mart. [En Línea]. Disponible en:

http://www.dataprix.com/datawarehouse-vs-datamart[Consulta: 24 de abril de 2016]

http://es.slideshare.net/rigardo871/almacen-de-datos-12145837

https://churriwifi.wordpress.com/2010/04/19/15-2-ampliacion-conceptos-del-modelado-dimensional/

https://churriwifi.wordpress.com/2010/04/19/15-2-ampliacion-conceptos-del-modelado-dimensional/

http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-56092006000300016

http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-56092006000300016

http://zanghyz.blogspot.com/2012/05/drill-down.html

https://yoyonb.wordpress.com/2009/11/25/apakah-olap-molap-rolap-dan-holap-itu/

https://yoyonb.wordpress.com/2009/11/25/apakah-olap-molap-rolap-dan-holap-itu/

http://es.slideshare.net/GustavoHernandez10/data-mart.%20PP%201-14

http://datamart.wikispaces.com/

https://prezi.com/aop6usundp1q/datamarts/

https://docs.oracle.com/cd/A81042_01/DOC/server.816/a76994/marts.htm

http://www.dataprix.com/datawarehouse-vs-datamart

[19] D. Hand et al. Principles of Data Mining. Cambridge, MA: The MIT Press, 2001. [En Línea].

Disponible en: ftp://gamma.sbin.org/pub/doc/books/Principles_of_Data_Mining.pdf

[Consulta: 27 de abril de 2016]

[20] M. Dunham. “Data Mining Introductory and Advanced Topics Part I”, en Departamento de

Ciencias de la Computación e Ingeniería en Southern Methodist Univeristy. Láminas

complementarias del libro Data Mining Introductory and Advanced Topics. Prentice Hall,

2002. [En Línea]. Disponible en: http://ce.sharif.edu/courses/83-

84/2/ce324/resources/root/Advanced%20Topics/Data%20Mining%20Introduction.pdf

[Consulta: 26 de abril de 2016]

[21] M. Dunham. “Data Mining Introductory and Advanced Topics Part II”, en Departamento de

Ciencias de la Computación e Ingeniería en Southern Methodist Univeristy. Láminas

complementarias del libro Data Mining Introductory and Advanced Topics. Prentice Hall,

2002. [En Línea]. Disponible en:

http://www.general.nsysu.edu.tw/gena/gena02/dm/part2.pdf [Consulta: 26 de abril de 2016]

[22] Tutorials Point. Data Mining Tutorial. [En Línea]. Disponible en:

http://www.tutorialspoint.com/data_mining/index.htm [Consulta: 26 de abril de 2016]

[23] M. Kacimi. Data Warehousing and Data Mining. Free University of Bozen, Bolzano, 2012.

[Presentación En Línea]. Disponible en:

http://www.inf.unibz.it/dis/teaching/DWDM/slides2012/lesson1-Introduction.pdf [Consulta:

26 de abril de 2016]

[24] “What is a Document Object Model?”, en Document Object Model (DOM) Level 1

Specification Versión 1.0. W3C Recomnendation REC-DOM-Level-1-19981001, Oct. 1998. [En

Línea]. Disponible en: https://www.w3.org/TR/DOM-Level-1/introduction.html [Consulta: 26

de abril de 2016]

[25] Introduction to Spatial Data Mining. [Presentación En Línea]. Disponible en:

http://www.ismll.uni-hildesheim.de/lehre/spatial-10w/script/ch7_partA.pdf [Consulta: 26 de

abril de 2016]

ftp://gamma.sbin.org/pub/doc/books/Principles_of_Data_Mining.pdf

http://ce.sharif.edu/courses/83-84/2/ce324/resources/root/Advanced%20Topics/Data%20Mining%20Introduction.pdf

http://ce.sharif.edu/courses/83-84/2/ce324/resources/root/Advanced%20Topics/Data%20Mining%20Introduction.pdf

http://www.general.nsysu.edu.tw/gena/gena02/dm/part2.pdf

http://www.tutorialspoint.com/data_mining/index.htm

http://www.inf.unibz.it/dis/teaching/DWDM/slides2012/lesson1-Introduction.pdf

https://www.w3.org/TR/DOM-Level-1/introduction.html

http://www.ismll.uni-hildesheim.de/lehre/spatial-10w/script/ch7_partA.pdf

sistemas de ayuda a la toma de decisiones · muchas de las cuestiones que rodean a los sistemas de...

Documents