data warehouse
TRANSCRIPT
Data Warehouse
“Un DWH es un sistema que recupera y
consolida datos periódicamente de los
sistemas fuente a un almacén de datos
dimensional o normalizado (DWH).
Usualmente guarda años de historia y es
consultado para inteligencia de negocios u
otras actividades analíticas.”
Ventajas de Data Warehouse
• Toda la información está un solo lugar. (UFV)
• Información actualizada.
• Acceso rápido
• No hay límites de espacio (Ej. Archivos XLS)
• Contiene toda la historia de la compañía
• Fácil de comprender (Modelada en términos del negocio)
• Contiene definiciones claras y uniformes
• Datos estandarizados
Desafíos de un Data Warehouse
• Requieren una revisión del modelo de datos, objetos,
transacciones y además del almacenamiento
• Problemas de calidad de datos
• Volumen de datos y rendimiento
• Requieren una revisión del modelo de datos, objetos,
transacciones y además del almacenamiento.
Arquitectura de Data Warehouse
Una arquitectura de Data Warehouse es una forma de representar la estructura global de los datos, la comunicación, los procesos y la presentación al usuario final. La arquitectura está constituida por las siguientes partes interconectadas
Elementos de una arquitectura de Data Warehouse
• Base de datos operacional / Nivel de base de datos externo.
• Nivel de acceso a la información • Nivel de acceso a los datos • Nivel de gestión de proceso • Nivel de data warehouse (físico).• Nivel de organización de datos
Estructura de un Data Warehouse
• Los data warehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el data warehouse. La estructura de un data warehouse se muestra en la Figura N° 5.
• En la figura, se muestran los diferentes componentes del data warehouse y son:
• Detalle de datos actuales• Detalle de datos antiguos• Datos ligeramente resumidos• Datos completamente resumidos• Meta data
Pentaho BI
• Pentaho es un proyecto iniciado por una comunidad OpenSource, provee una alternativa de soluciones de BI en distintas áreas como en la Arquitectura, Soporte, Funcionalidad e Implantación.
• Pentaho se define a sí mismo como una plataforma de BI “orientada a la solución” y “centrada en procesos” que incluye todos los principales componentes requeridos para implementar soluciones basados en procesos y ha sido concebido desde el principio para estar basada en procesos.
Caracteristicas - Pentaho BI• Plataforma 100% J2EE, asegurando la escalabilidad, integración y portabilidad. • Servidor: puede correr en servidores compatibles con J2EE como JBOSS AS, WebSphere, Tomcat, WebLogic y Oracle AS. • Base de datos: vía JDBC, IBM DB2, Microsft SQL Server, MySQL, Oracle, PostgreSQL, NCR Teradata, Firebird. • Sistema operativo: no hay dependencia. Lenguaje interpretado. •Lenguaje de programación: Java, Javascript, JSP, XSL (XSLT/XPath/XSL-FO).
•Interfaz de desarrollo: Java SWT, Eclipse, Web-based. •Repositorio de datos basado en XML. •Iintegración con Arquitecturas Orientadas a Servicios (SOA).
Herramientas - JasperSoft
JasperSoft Business Intelligence perteneciente a JasperSoft Corporation, es un conjunto de herramientas open source que permiten a las organizaciones generar información basada en sus datos para la evaluación y toma diaria de decisiones, en forma dinámica y on-line.
La moderna plataforma de BI de Jaspersoft está pensada para el nuevo mundo informático, específicamente para las implementaciones en la: Nube, Big Data, Moviles.
Herramientas - JasperSoft
Conjunto de Productos
El conjunto de productos por los que está compuesto son: •JasperReports Library: Es el motor de informes Java más utilizado del mundo. Permite combinar fuentes de datos y producir documentos “pixel perfect” para su visualización•Jasper Server: : Jasper Server contiene los reportes de forma segura, pudiendo integrarlos y personalizarlos por usuarios y grupos•Jaspersoft iReport Designer: permite crear informes interactivos a partir de cualquier fuente de datos, personalizar
Transformación
Integración de Datos: conjunto de actividades
para llenar el DWH•La integración de datos se descompone en 3
actividades
◦ Extracción: Adquirir datos de 1 o más fuentes
◦ Transformación: Cambiar la forma y contenido de
los datos
◦ Loading (Carga): cargar los datos en los
repositorios y el DWH
Transformacion
Es el elemento básico de diseño de los procesos ETL en PDI.
Se compone de pasos o steps, que están enlazados entre si a través de los saltos o hops.
Una transformación no es ningún programa ni un ejecutable
Kettle es un proyecto que incluye un conjunto de herramientas para realizar las tareas ETL: Spoon, Pan, Chef, Kitchen
Conclusiones
• Los negocios están cambiando constantemente debido a
cambios económicos, evoluciones tecnológicas, alteraciones
en el mercado, impactados por diversos cambios culturales y
sociales e incluso por fenómenos meteorológicos.
• Todo ello obliga a replantearse las estrategias actuales y
debería provocar una transformación en nuestro propio
negocio. Así, un factor clave de éxito, e incluso de
supervivencia, viene derivado de la capacidad de las
organizaciones de gestionar de forma eficiente sus datos.