conf alfonsoluquenov30 06
Post on 24-Jun-2015
338 Views
Preview:
DESCRIPTION
TRANSCRIPT
1
Bodegas de Datos: Consideraciones de Implementación, Seguridad y Control
Alfonso Luque Romero
Noviembre de 2006
Noviembre de 2006 Alfonso Luque Romero
2
Bodegas de Datos
Agenda
� Introducción� Bodegas de Datos: Conceptos Básicos � Bodegas de Datos: Consideraciones de Implementación,
Seguridad y Control � Conclusiones
Noviembre de 2006 Alfonso Luque Romero
3
Bodegas de Datos
Introducción
Noviembre de 2006 Alfonso Luque Romero
4
Bodegas de Datos
El concepto de Administración de Datos reúne las herramientas y sistemas que juegan un papel clave en el proceso de planeación estratégica de una organización, al permitirle obtener, almacenar, acceder y analizar datos corporativos para apoyar el proceso de toma de decisiones. Típicamente estos sistemas, conocidos como Sistemas de Soporte de Decisiones - SSD, se encuentran en las áreas de servicio y soporte al cliente, investigación y segmentación de mercados, análisis estadístico e inventario, entre otras.
Sin embargo, los requerimientos de información son cada vez más complejos y al utilizar los SSD tradicionales se han encontrado dificultades para extraer información a partir de las estructuras de datos presentes actualmente en las bases de datos. Como respuesta a esta situación surgieron nuevas estrategias de Administración de Datos, catalogadas también como Soluciones de Inteligencia de Negocios a las que pertenecen sistemas de Bodegas, Almacenes y Minería de Datos.
Noviembre de 2006 Alfonso Luque Romero
5
Bodegas de Datos
Conceptos de Bodegas de Datos
Noviembre de 2006 Alfonso Luque Romero
6
Bodegas de Datos
Conceptos de bodegas de datos
Bodegas de Datos (Data Warehousing)� Construcción de grandes repositorios integrados de datos que pueden ser generados internamente o recibidos de fuentes externas, organizados de tal manera que facilitan el proceso de toma de decisiones.
� Algunas organizaciones han comenzado a construir repositorios más pequeños, más fáciles y rápidos de implementar, conocidos como Almacenes de Datos (Data Marts) , que son organizados alrededor de aplicaciones específicas, como por ejemplo, almacenando los datos relevantes del área de contabilidad, de producción o de ventas en un almacén de datos por separado.
Minería de DatosProceso analítico diseñado para explorar grandes volúmenes de datos (generalmente datos de negocio y mercado) con el objeto de descubrir patrones y modelos de comportamiento o relaciones entre diferentes variables. Esto permite generar conocimiento que ayuda a mejorar la toma de decisiones en los procesos fundamentales de un negocio.
Noviembre de 2006 Alfonso Luque Romero
7
Bodegas de Datos
Dentro del mundo de los negocios y, de las organizaciones en general, la "Inteligencia de Negocios", es un concepto respaldado por unanueva manera de hacer las cosas, posible, gracias a los avances de los Sistemas de Información y de las Tecnologías de Información.
Conocimiento: es el acervo de información utilizado en el proceso de la toma de decisiones.
Data Warehousing: el proceso de organizar la información en una forma que crea conocimiento basado en datos. Los productos de software que presentan este conocimiento a los usuarios se refieren como Herramientas de Inteligencia de Negocios (Business IntelligenceTools.)
Gestión de Conocimiento (Knowledge Management) es la disciplina que busca enfocar el uso de las Tecnologías de Información en las personas, con el fin de que estas y sus organizaciones aprendan a utilizar los recursos y fuentes de información para el logro de objetivos estratégicos.
Inteligencia de Negocios
Noviembre de 2006 Alfonso Luque Romero
8
Bodegas de Datos
Conceptos de de bodegas de datosExtracción, Transformación y Carga - ETL
� Identificar las fuentes.Hace referencia al proceso de identificación de las fuentes y datos que harán parte de la bodega o almacén de datos.
� Extracción, transformación y carga (ETL – Extract, T ransformation and Loading).Definición de las herramientas de extracción de datos desde las diferentes fuentes, el tiempo y la frecuencia con que los datos deberán ser cargados en la bodega o almacén de datos.
En la fase de Extracción se utilizan herramientas que facilitan el acceso y la obtención de datos almacenados en múltiples plataformas y bases de datos. En la fase de Transformación los datos extraídos son convertidos de su forma original a la forma que se requiere presentar para los usuarios de la bodega o almacén de datos. La transformación involucra la definición de reglas de conversión de los datos y/o combinación de datos de diferentes fuentes. La Carga , consiste en trasladar los datos transformados a la bodega o almacén de datos.
Noviembre de 2006 Alfonso Luque Romero
9
Bodegas de Datos
Conceptos de bodegas de datos•Modelamiento multidimensionalConversión de los requerimientos del usuario en medidas y dimensiones.La característica mas importante de un buen modelo de datos es que refleje en forma precisa el aspecto del negocio para el cual fue construido.
•Metadatos (datos acerca de los datos).Contienen información fundamental para los usuarios, desarrolladores y administradores de la bodega de datos: información disponible, su significado y como obtenerla; Fuente de datos para cada item de la bodega de datos, si el item es tomado directamente de un sistema fuente o si es calculado, última actualización del item, etc.
Diagrama de estrella
Noviembre de 2006 Alfonso Luque Romero
10
Bodegas de Datos
Conceptos de de bodegas de datos
Extracción de Datos
•Extraer •Filtrar•Transformar•Integrar•Clasificar•Agregar
•Integrada•Orientada a un tema•Variante en el tiempo•No volátil
DatosOperacionales
Bodega deDatos
Creación de una bodega de datos
Noviembre de 2006 Alfonso Luque Romero
11
Bodegas de Datos
Conceptos de bodegas de datos• Procesamiento Analítico en Línea (OLAP)Paralelamente al desarrollo de los sistemas Data Warehouse y Datamarts, ha surgido un nuevo componente que provee herramientas avanzadas de análisis de información, y facilita el acceso a la misma a través de dimensiones, de tal manera que un mismo dato puede ser analizado bajo distintos puntos de vista. El análisis de datos a través de diversas dimensiones (cubo) permite detectar comportamientos y reglas del negocio que no son fácilmente identificables con los sistemas transaccionales.
Bodega de Datos
Fuentes
Tiempo
Ubicación
Pro
duct
o
Tiempo
Ubicación
Pro
duct
o
OLAP
Visualización
•Reportes•Consultas•Análisis Multidimencional
Utilización Bodega de Datos
Noviembre de 2006 Alfonso Luque Romero
12
Bodegas de Datos
Por qué la Palabra Cubo ?( Ejemplo de cubo contable )
...Saldos de cuentas ($$)
Cuentas PUC
Sucursales
Días
La implementación tecnológica se conoce como OLAPLiteralmente: Literalmente: Procesamiento analProcesamiento anal íítico en ltico en l ííneanea , Componente clave en , Componente clave en
Bodegas de datos y sistemas de inteligencia de negocioBodegas de datos y sistemas de inteligencia de negocio
Además:� Moneda� Tipo de cuenta� Etc.
Conceptos de bodegas de datos
Noviembre de 2006 Alfonso Luque Romero
13
Bodegas de Datos
Esquema geométrico
Esquema geométrico
ClientesClientes
Canales Canales
de Ventasde Ventas
Pro
duct
osP
rodu
ctos
Ventas:MonedaMonto $Monto UnidadFecha
Nombre, Nacimiento, Sexo,Estado civil, CC, Vivienda,Empleo, Ocupación,Actividad Economica
Nombre,LineaProducto,
TipoProducto
Nombre,TipoCanal,Región
Hipercubo de 3 dimensionesHipercubo de 3 dimensiones
• Los ejes del cubo son los temas objeto de gestión
• Los puntos en el cubo son los eventos objeto de gestión
Noviembre de 2006 Alfonso Luque Romero
14
Bodegas de Datos
�Interés en manejar grandes volúmenes de datos a través de sistemas tipo DSS ( Sistemas de Soporte a la toma de Decisiones)�Múltiples y variadas fuentes de información�Información dispersa y no oportuna con una alta probabilidad de inconsistencias�Altos volúmenes de información no estructurada que requieren análisis�Dificultad en acceso a la información histórica�Falta de flexibilidad en la manipulación de información
Posibles justificaciones
Noviembre de 2006 Alfonso Luque Romero
15
Bodegas de Datos
Configuración recomendada para una Bodega de Datos Corporativa.
Sistema de
Información 1
Bodega de Datos Corporativa
Sistema de
Información 2
Sistema de
Información 3
Sistema de
Información N
Almacén de
Datos N
Almacén de
Datos 3
Almacén de
Datos 2
Almacén de
Datos 1
. . .
Noviembre de 2006 Alfonso Luque Romero
16
Bodegas de Datos
� Definición de requerimientos� Definición de arquitectura� Presentación del proyecto� Análisis de proveedores, Construcción RFP � Envío RFP� Evaluación� Contratación� Capacitación � Implementación
Etapas
Noviembre de 2006 Alfonso Luque Romero
17
Bodegas de Datos
Qué son?
Bodegas de Datos
En la actualidad hay una importante cantidad de confusión respecto a lo que es un Data Warehouse que, afortunadamente, está comenzando a despejarse. No obstante, parece que cada proveedor de un producto o servicio relacionado con tecnología informática tiene su definición y, lo que es peor, en su propia jerga no siempre comprensible. Algunos llaman a Datawahouse Business Intelligence o Decision Support Systems, en realidad es considerada la solución integral y oportuna para desarrollar las estrategias del negocio. El Datawarehouse se caracteriza por ser: Integrado - Temático - Histórico - No volatil
Datawarehousing es un proceso, no un producto. Es una técnica paraconsolidar y administrar datos de variadas fuentes con el propósito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hastaahora, consolidar datos desde una variedad de fuentes, manejar grandesvolúmenes de datos de una forma que no era posible, o no era costo efectiva.
A estos medios los agruparemos en Procesamiento y Administración de Datos. Acceder a los datos de una forma más directa, en "el lenguaje del negocio", y analizarlos para obtener relaciones complejas entre los mismos. Estos procesos se engloban en dos categorías que serán explicadas más adelante: Acceso a losDatos y Descubrimiento o Data Mining.
Noviembre de 2006 Alfonso Luque Romero
18
Bodegas de Datos
Datawarehousing
Bodegas de Datos
Estos desarrollos tecnológicos, correctamente organizados e interrelacionados, constituyen lo que se ha dado en llamar un Data Warehouse o Bodega de Datos.
Existen muchas definiciones para el DW, la más conocida fue propuestapor Inmon (considerado el padre de las Bases de Datos) en 1992: "Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidadesempresariales". En 1993, Susan Osterfeldt publica una definición que sin duda acierta en la clave del DW: "Yo considero al DW como algo queprovee dos beneficios empresariales reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, comotambién el procesamiento desde el ambiente operacional clásico".
Noviembre de 2006 Alfonso Luque Romero
19
Bodegas de Datos
Características de las Bodegas de Datos
Bodegas de Datos
Por definición, las Bodegas de Datos son bases de datos caracterizadas por ser:
•Integradas: porque consolidan y centralizan datos derivados de toda la organización.
•Orientadas a un tema particular: ya que los datos que contienen, están organizados por temas, totalizados y optimizados para dar respuestas a preguntas de diversas áreas funcionales de la organización.
•Variantes en el tiempo: porque contrario a las Bases de Datos Operacionales que se centran en los datos actuales, las Bodegas de Datos representan el flujo de información a través del tiempo.
•No volátiles: Una vez que los datos son almacenados, estos nunca son removidos pues representan la historia de la organización.
Noviembre de 2006 Alfonso Luque Romero
20
Bodegas de Datos
Características de las Bodegas de Datos
Bodegas de Datos
Datos Operacionales
Extracción de Datos
Bodega de Datos
Extraer� Filtrar� Transformar * Integrada� Integrar * Orientada a un tema� Clasificar * Variante en el tiempo� Agregar * No volátil
Totalizar
Noviembre de 2006 Alfonso Luque Romero
21
Bodegas de Datos
Características de las Bodegas de Datos
Bodegas de Datos
Característica Datos en la Base de Datos Operacional Datos en la Bodega de Datos
Integrada Datos similares pueden tener diferentes
representaciones o significados. Por ejemplo, un
número telefónico puede ser almacenado como: #-
###### o como
#-###-###, y una condición puede ser
representada como F/V, 0/1 o S/N. Los valores
pueden ser mostrados en miles o en millones.
Proveen una vista unificada de todos los datos con una
definición y representación comunes para todas las
áreas del negocio.
Orientada a un
tema particular
Los datos son almacenados con una orientación
funcional o por proceso. Por ejemplo, los datos
pueden ser almacenados para facturas, pagos,
créditos y demás.
Los datos son almacenados con una orientación por
temas que facilita múltiples vistas de los datos y la toma
de decisiones. Por ejemplo, las operaciones pueden ser
registradas por cuenta, por área, por gerente o por
sucursal.
Variante en el
tiempo
Los datos son almacenados como transacciones
actuales. Por ejemplo, los datos de ventas pueden
ser la venta de un producto en una fecha
determinada, como $3’500.000 en Noviembre 15 de
2004.
Los datos son registrados con una perspectiva histórica.
Por consiguiente, una dimensión de tiempo es
adicionada para facilitar los análisis de datos y las
comparaciones en el tiempo.
No volátiles Las actualizaciones de datos son frecuentes y
comunes. Por ejemplo, los cambios en las
cantidades de un inventario cambian con cada
venta. Por consiguiente el ambiente de datos es
fluido.
Los datos no pueden ser cambiados. Los datos son
adicionados periódicamente desde los sistemas
transaccionales. Una vez que los datos son almacenados
apropiadamente, no se permiten cambios. Por lo tanto
el ambiente de datos es relativamente estático
Noviembre de 2006 Alfonso Luque Romero
22
Bodegas de Datos
Data Mining
Bodegas de Datos
Datamining es una tecnología de soporte para usuario final, cuyo objetivoes extraer conocimiento útil y utilizable a partir de la información contenidaen las bases de datos de las empresas.
Los objetivos de un sistema Datamining nos permitirían analizar factoresde influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar ítems similares, además de obtener secuencias de eventos que provocan comportamientos específicos.Los sistemas Datamining se desarrollan bajo lenguajes de ultimageneración basados en la inteligencia artificial y utilizando métodosmatemáticos, tales como:
•Redes neuronales•Introducción de reglas•Arboles de decisión•Conjunto de reglas por claseSoporta tambien sofisticadas operaciones de análisis tales como lossistemas Scoring y aplicaciones de detección de fraude.
Noviembre de 2006 Alfonso Luque Romero
23
Bodegas de Datos
Bill Inmon's paradigm : Data warehouse is one part of the overall business intelligence system. An
enterprise has one data warehouse, and data marts source their information from the data warehouse. In
the data warehouse, information is stored in 3rd normal form.
Ralph Kimball's paradigm : Data warehouse is the conglomerate of all data marts within the enterprise.
Information is always stored in the dimensional model.
Paradigmas
Noviembre de 2006 Alfonso Luque Romero
24
Bodegas de DatosETL (Extraction, Transformation and Load - Extracció n, Transformación y Carga)
Bodegas de Datos
•La fase de Extracción de Información utiliza herramientas que facilitan el acceso y la extracción de datos almacenados en múltiples plataformas y bases de datos (SQL Server, DB2, Informix, Sybase, Oracle, etc.) que permiten interpretar y definir de forma sencilla las reglas de negocio necesarias para la transformación de los datos de información.
•La fase de Transformación consiste en el proceso de convertir los datos a formatos consistentes.
•La fase de Carga automatiza las tareas de preparación de la informaciónpara un análisis eficiente, que garantiza al usuario un acceso eficiente a los datos y le permite generar sus propias consultas.
Noviembre de 2006 Alfonso Luque Romero
25
Bodegas de Datos
Inteligencia de NegocioIntegrada (Solución basada en ORACLE 10g)
OLAPDWOLTP
Herramienta de Fácil Uso
para Usuariosde Negocio
Implementaci ónFlexible &
Escalabilidad
Administraci ónIntuitiva
Noviembre de 2006 Alfonso Luque Romero
26
Bodegas de Datos
Editor : Flujo de Datos
Noviembre de 2006 Alfonso Luque Romero
27
Bodegas de Datos
Editor : Flujo de Procesos
Noviembre de 2006 Alfonso Luque Romero
28
Bodegas de Datos
DDL
Noviembre de 2006 Alfonso Luque Romero
29
Bodegas de Datos
OLAP y Sistemas de Soporte de Decisiones
Bodegas de Datos
El uso de herramientas para la Administración de Información, que incluyen gestores de las Bodegas y Almacenes de Datos (Data Warehouse), garantiza la integridad y oportunidad de los datos. Paralelamente al desarrollo de estas herramientas, ha surgido un nuevo componente de los Sistemas de Soporte de Decisiones llamado Sistema De Procesamiento Analítico En Línea (OLAP) que provee herramientas avanzadas de análisis de datos (como análisis de datos multidimensional) para extraer información de datos almacenados en una bodega de datos.
Las herramientas de Sistemas de Soporte para la Decisión, enumeradas por su complejidad creciente, son utilizadas actualmente con mayor frecuencia como apoyo a la toma de decisiones estructuradas, semi-estructuradas y no estructuradas:
•Sistemas de Procesamiento de Transacciones (TPS): sistemas que procesan las actividades operacionales cotidianas y rutinarias de la organización se componen de varios ciclos de sistemas interconectados entre si.�
Noviembre de 2006 Alfonso Luque Romero
30
Bodegas de Datos
Sistemas de Soporte de Decisiones
Bodegas de Datos
•Sistemas de Información Gerencial (MIS): sistema integrado usuario-máquina para proveer información pasada, presente o proyecciones de ésta, relacionada con las operaciones internas, la administración y las funciones de toma de decisiones de una organización y su medio ambiente. Incorpora otras herramientas basadas en conocimiento, como los TPS, MRS, DSS, OIS.
Sistemas de Soporte a la Decisión (DSS): sistema que proporciona información relevante a ejecutivos, para tomar decisiones de tareas semiestrucutradas. Se caracterizan por su interactividad, frecuencia de uso, variedad de usuario, flexibilidad, desarrollo, interacción ambiental, comunicación interorganizacional, acceso a bases de datos y simplicidad.
Sistemas Expertos (ES): sistemas que modelan el comportamiento de un experto humano que cumple con la tarea de resolver problemas para los que no se dispone de un algoritmo. Son sistemas interactivos que permiten la creación de bases de conocimiento, para responder preguntas, despejar dudas y sugerir cursos de acción simulando el proceso de razonamiento de un humano para resolver problemas en un área específica del conocimiento humano.
Noviembre de 2006 Alfonso Luque Romero
31
Bodegas de Datos
Sistemas de Soporte de Decisiones
Bodegas de Datos
•Sistemas de Información Ejecutivos (EIS): sistema orientado a datos que proporciona información a través de una interfase amigable para ayudar a los ejecutivos a mejorar el manejo de su planeación, monitoreo y análisis de sus procesos.
•Redes Neuronales (NN): sistema de procesamiento de datos que simulafunciones elementales de la red nerviosa del cerebro humano, paraidentificar la información relevante sobre una gran cantidad de datos, explicando el fenómeno o proceso que ha generado esos datos. Este sistemade inteligencia artificial desarrolla las funciones de un experto en un tema, capaz de enfrentarse con gran eficacia a nuevas situaciones e imaginandosoluciones que no formaron parte de su proceso de entrenamiento.
•Automatización de Oficinas (OA): sistema que permite implementartécnicas para incrementar los niveles de productividad y eficiencia en losflujos de trabajo del personal administrativo, a través de múltiplestecnologías (datos, voz, imagen), que dan apoyo a una amplia gama de aplicaciones (procesamiento de información, comunicaciones, etc.).
Noviembre de 2006 Alfonso Luque Romero
32
Bodegas de Datos
Riesgos asociados a la calidad de la información (C OBIT)
Bodegas de Datos
Estos riesgos pueden ser analizados teniendo en cuenta los siguientes criterios de calidad de la información: Efectividad, Eficiencia, Confidencialidad, Integridad, Disponibilidad, Cumplimiento, y Confiabilidad.
•Desde el punto de vista de la Efectividad, es necesario validar que existe la necesidad de una solución de este tipo para la organización y asegurar una participación activa tanto de los usuarios finales como de la alta administración en el desarrollo del proyecto, en particular, en el desarrollode las actividades de modelación de los datos. Asimismo, se debe tener claridad acerca de la naturaleza de las fuentes de datos y efectuar una depuración de los datos antes de cargarlos en las Bodegas o Almacenes de Datos. Otras actividades relacionadas con este criterio tienen que ver con obtener la capacidad de distribuir la información relevante a quienes la requieran (lo cual debe tenerse en cuenta desde la etapa de desarrollo), y con la selección del hardware, software y las herramientas de análisis apropiadas, de manera que se obtenga una arquitectura que no solo atienda las necesidades iniciales de almacenamiento y acceso sino que sea escalable en el tiempo.
Noviembre de 2006 Alfonso Luque Romero
33
Bodegas de Datos
Riesgos asociados a la calidad de la información (C OBIT)
Noviembre de 2006 Alfonso Luque Romero
34
Bodegas de Datos
Riesgos asociados a la calidad de la información
Bodegas de Datos
En relación con el criterio de Eficiencia, se deben tener en cuenta los costos de almacenamiento asociados al crecimiento permanente de las Bodegas de Datos. También se debe tener en cuenta que los usuarios requieren acceder tanto a los datos históricos como a los datos totalizados y en algún momento en el tiempo los datos históricos pueden llegar a ser menos relevantes y por lo tanto menos accedidos. En este aspecto es necesario implementar mecanismos para monitorear el uso real de las bodegas de datos para la consulta de información histórica o totalizada. Otro factor a tener en cuenta dentro de este criterio es el tiempo de respuesta, por lo que es necesario monitorear el consumo de recursos de la Bodega de Datos por parte de las consultas diseñadas por los usuarios.
Respecto a la Confidencialidad es necesario considerar que como las Bodegas y Almacenes de Datos contienen una gran cantidad de datos sensitivos es importante proteger estos datos de fugas de información ya sea que estas se den en forma intencional o no intencional. Por lo tanto, es necesario implementar controles de acceso sobre los datos que restrinjan quien puede acceder a la Bodega de Datos y que información puede consultar.
Noviembre de 2006 Alfonso Luque Romero
35
Bodegas de Datos
Riesgos asociados a la calidad de la información
Bodegas de Datos
Un factor adicional que puede aumentar los riesgos asociados a la Confidencialidad es el hecho de proveer acceso a través de Internet a las Bodegas de Datos, en este sentido los controles externos como firewalls, vistas de bases de datos y controles de acceso por sesión pueden no ser suficientes y de cualquier forma la información debe estar encriptada para brindar un nivel de seguridad adecuado. Una estrategia para resolver esto, puede ser la separación de la información de acuerdo al nivel de sensibilidad para efectos de las consultas por parte de los usuarios. Es importante resaltar que la seguridad de las Bodegas y almacenes de datos es responsabilidad primaria del administrador quien debe velar por que las políticas de seguridad y los mecanismos de auditoríaimplementados en las Bodegas de Datos sean adecuados.
Noviembre de 2006 Alfonso Luque Romero
36
Bodegas de Datos
Riesgos asociados a la calidad de la información
Bodegas de Datos
La Integridad es otro de los criterios de calidad de la información a tener en cuenta y para cumplir con él es necesario elaborar un modelo de datos bien diseñado así como crear cuidadosamente los metadatos asegurando que estos sean precisos y completos. Teniendo en cuenta que la integridad se refiere tanto a la exactitud como a la validez de la información, es necesario revisar si los procesos del negocio en algún momento pueden comprometer la integridad de la información. Adicionalmente, es necesario depurar bien la información antes de cargarla en las Bodegas o Almacenes de Datos. Si al efectuar la depuración de los datos se encuentra que estos son ocasionados por fallas en el sistema de información transaccional, es necesario corregir estas fallas en el sistema antes de tomar los datos como fuente de información para la Bodega de Datos. Asimismo es necesario establecer procedimientos para actualizar los metadatos de la Bodega de datos en caso de presentarse cambios sobre la estructura de datos de la base de datos en el sistema de información original. Por último se requiere establecer procedimientos de actualización para asegurar que exista integridad entre los datos de origen y los valores derivados como resultado de una totalización.
Noviembre de 2006 Alfonso Luque Romero
37
Bodegas de Datos
Riesgos asociados a la calidad de la información
Bodegas de Datos
En lo que se refiere a Disponibilidad, y en la medida en que los Sistemas de Administración se convierten en un recurso estratégico y crítico para la organización es necesario asegurar su disponibilidad a través de procedimientos de respaldo y de recuperación adecuados. Sin embargo y teniendo en cuenta los altos volúmenes de información que estos sistemas almacenan es necesario efectuar análisis para determinar la frecuencia óptima para efectuar los respaldos así como el método más eficiente para la actualización de los datos. Al determinar las necesidades de respaldo se debe tener en cuenta que a diferencia de los sistemas de información transaccionales, los sistemas de Bodegas de Datos contienen datos históricos que no varían en tiempo real, y la frecuencia dependerá de las necesidades específicas de los usuarios finales. En cuanto al método de actualización existen dos alternativas: copiar toda la información en una sola transacción, o copiarla por lotes, esto dependerá del volumen de información y de los recursos disponibles para efectuar la carga de información.
Noviembre de 2006 Alfonso Luque Romero
38
Bodegas de Datos
Riesgos asociados a la calidad de la información
Bodegas de Datos
En cuanto al Cumplimiento con leyes y regulaciones internas o externas se debe prestar atención en lo que tenga que ver con el tratamiento de la información y su propiedad, confidencialidad y distribución.
Por último, y en lo que respecta al criterio de Confiabilidad es importante que la alta administración comprenda el significado, origen y confiabilidad de los datos almacenados en las Bodegas de Datos para que estos puedan servir como base para construir modelos y desarrollar análisis que soporten decisiones estratégicas.
Noviembre de 2006 Alfonso Luque Romero
39
Bodegas de Datos
� Indicadores de resultados ( áreas más rentables )
� Descongestionar módulos de reportes y consultas de los sistemas.
� Facilitar las labores de análisis, verificación y seguimiento de las operaciones
� En el mediano plazo, consolidar información proveniente de diversas aplicaciones
� Minería de datos
Objetivos
Noviembre de 2006 Alfonso Luque Romero
40
Bodegas de Datos
Centralización de la Información
� Eliminar duplicidad en la información. � Disminuir la operatividad en la búsqueda, acceso y
procesamiento de la información.� Disminuir el tránsito de la información a través de medios
alternos como el correo electrónico y el teléfono. � Proveer mayor capacidad de almacenamiento histórico.� Estandarizar el acceso y el almacenamiento de la
información.� Ofrecer mayor seguridad, confiabilidad y confidencialidad
de la información.� Racionalizar el uso de los recursos (computadores,
correo…).� Implementar esquemas confiables de contingencia y
respaldo de la información.
Objetivos
Noviembre de 2006 Alfonso Luque Romero
41
Bodegas de Datos
� Realización de los requerimientos:� Definición del nombre del requerimiento� Descripción:
� Fuentes de información � Variables que se van a cargar en la bodega de datos.� Proceso de cargue inicial y actualización de la
información.� Visualización de la información.� Seguridad tanto en la autorización para la publicación en
Internet como en los permisos de consulta de la información.
� Verificación y actualización del requerimiento.
� Desarrollo del requerimiento en el sistema.
Metodología para la implantación
Noviembre de 2006 Alfonso Luque Romero
42
Bodegas de Datos
PM - Project Manager FEM - Front End Manager
DWAR - DWH Architect DSA - Decision Support
AnalystBEM - DWH Back End Manager DSP - Decision Support
Programmer
DWP - DWH Programmer DWA - Data Warehouse Auditor
DBA - Data Base Administrator SA - System Administrator
DA - Data Administrator SE - Security Manager
Roles
Noviembre de 2006 Alfonso Luque Romero
43
Bodegas de Datos
Selección de CONCT como marco de referencia
�CONCT fue publicado por ISACA como parte de las publicaciones relacionadas con la aplicación de COBIT
�Al conocer el marco de referencia se encuentran objetivos de control específicos para las actividades asociadas a la implementación y uso de Bodegas de Datos
�Por otra parte, CONCT provee guías de control detalladas para cada una de las actividades inherentes a las tecnologías de Bodegas de Datos, Internet y Sistemas de Procesamiento de Transacciones en Línea muy útiles para la implantación y análisis de riesgos sobre estas tecnologías.
Noviembre de 2006 Alfonso Luque Romero
44
Bodegas de Datos
Modelos de referencia
Objetivos de control propuestos en los marcos de referencia CONCT (Control Objectives for Net Centric Technology y COBIT (Control Objectives for Information Technology) y un estudio realizado por el Instituto de Auditores Internos (The Institute of Internal Auditors Research Foundation) acerca de la implementación de Sistemas de Bodegas de Datos.
Noviembre de 2006 Alfonso Luque Romero
45
Bodegas de Datos
Introducción a CONCT (Control Objectives for Net Centric Technologies)
Noviembre de 2006 Alfonso Luque Romero
46
Bodegas de Datos
CONCT (Control Objectives for Net Centric Technolog ies)
•CONCT es un marco de referencia que consta de 4 volúmenes y fue publicado por ISACF (Information Systems Audit and Control Foundation) en 1999, para la aplicación efectiva de TI sobre las bases de conocimiento, metas y monitoreo de una organización.
•Dirigido principalmente a organizaciones que requieren mayor gobernabilidad en sus ambientes de cómputo distribuidos.
•Los objetivos de control incluidos en CONCT advierten a la alta gerencia, los usuarios y entes de control acerca de cuales controles es necesario implementar dentro de la organización y dentro del extenso y complejo ambiente de comunicaciones a nivel global dentro del cual operan.
Noviembre de 2006 Alfonso Luque Romero
47
Bodegas de Datos
CONCT (Control Objectives for Net Centric Technolog ies)
•Para los sistemas de procesamiento tradicionales la ubicación del hardware (incluyendo el software instalado y los datos almacenados en él) se consideró el factor más crítico, para la Tecnología Centrada en Red lo es la red en sí misma.
•Mientras el hardware y la plataforma de red tengan la capacidad suficiente y estén debidamente enlazados, la ubicación real del hardware no es una preocupación. Por el contrario, sí lo es el contenido de la información o los objetos que fluyen a través de la red.
•La implementación de Tecnología Centrada en Red debe ser económica, efectiva y eficiente, con la suficiente confiabilidad y seguridad, y debe cumplir los requerimientos gerenciales de la organización.
•Los objetivos de control para la Tecnología Centrada en Red se enfocan en las siguientes actividades:
· Intranet/Extranet/Internet (Web)· Data Warehouses· OLTP Processing Software
Noviembre de 2006 Alfonso Luque Romero
48
Bodegas de Datos
*1 Enterprise Governance Model issued byIFAC covers Business Organizational Communication
*2 General IT Control is covered by Control Objectives for Information and related Technologies (CoBIT) issued by ISACF
CONCT (Control Objectives for Net Centric Technolog ies)
Noviembre de 2006 Alfonso Luque Romero
49
Bodegas de Datos
Controles de seguridadEl proceso de evaluación de los controles de seguridad de los servicios de distribución comprende 3 criterios de evaluación: confidencialidad, integridad y disponibilidad
•Confidencialidad: revelación autorizada de la información•Integridad: validación de la información y protección contra modificación no autorizada•Disponibilidad: asume que los recursos de información son accesibles a los usuarios autorizados cuando estos lo requieran
Cuando se evalua la seguridad en el nivel de los servicios de información, el entendimiento del objeto del negocio es esencial. El control del negocio, los objetos del negocio y la tecnología de la información aplicada a los objetos, determinan el nivel de control requerido.
CONCT (Control Objectives for Net Centric Technolog ies)
Noviembre de 2006 Alfonso Luque Romero
50
Bodegas de Datos
Análisis de riesgos asociados a los sistemas de bodegas de datos
Los Sistemas de bodegas de datos están expuestos a varios riesgos y amenazas los cuales fueron analizados teniendo en cuenta los objetivos de control asociados a los criterios de calidad de la información propuestos por COBIT: Efectividad, Eficiencia, Confidencialidad, Integridad, Disponibilidad, Cumplimiento y Confiabilidad.
Noviembre de 2006 Alfonso Luque Romero
51
Bodegas de Datos
Análisis de riesgos asociados a los sistemas de bodegas de datosEfectividad : Este criterio establece que la información almacenada en la bodega o almacén de datos debe ser relevante para los procesos del negocio y distribuida de manera oportuna, correcta y consistente.
Bajo este criterio, es necesario validar que existe la necesidad de una solución de este tipo para la organización y que el proyecto cuenta con el respaldo y participación de la alta administración, del personal de Tecnología de Información y de los usuarios finales quienes cumplen un papel primordial en la modelación de los datos. Así mismo, se requiere analizar y validar la apropiada selección y adquisición de los recursos de hardware y software requeridos de manera que se obtenga una arquitectura que no solo atienda las necesidades iniciales de almacenamiento y acceso de la información sino que sea escalable en el tiempo.
Noviembre de 2006 Alfonso Luque Romero
52
Bodegas de Datos
Análisis de riesgos asociados a los sistemas de bodegas de datosEficiencia : �Este criterio concierne al suministro de la información de la bodega o almacén de datos a través del uso óptimo (mas productivo y económico) de los recursos de Tecnología Informática.�El uso óptimo de los recursos es un factor crítico en la implementación y uso de una bodega de datos teniendo en cuenta los altos costos en infraestructura, operación y administración de este tipo de soluciones. �Se deben tener en cuenta los costos de almacenamiento asociados al crecimiento permanente de la Bodega o almacén de Datos, asícomo los requerimientos de acceso por parte de los usuarios a los datos históricos, totalizados, los cuales en un momento dado pueden llegar a ser mas o menos relevantes y por lo tanto mas o menos accedidos, por lo que se hace necesario implementar mecanismos para monitorear el uso real de la bodega o almacén de datos. �Así mismo, es importante tener en cuenta dentro de este criterio eltiempo de respuesta, por lo que es necesario monitorear el consumo de recursos de la Bodega de Datos.
Noviembre de 2006 Alfonso Luque Romero
53
Bodegas de Datos
Análisis de riesgos asociados a los sistemas de bodegas de datos
Confidencialidad:�Este criterio se refiere a la protección de la información sensible para asegurar que no sea revelada de forma no autorizada.
�Teniendo en cuenta la gran cantidad de datos sensitivos que se almacenan en una bodega o almacén de datos, y la posibilidad de que estos sean publicados a través de Internet existe el riesgo de fugas de información o acceso no autorizado; por esto, es necesario establecer mecanismos de protección y control de acceso adecuados como Firewalls, creación de vistas de bases de datos, control de sesión, entre otros, que pueden ser reforzados utilizando mecanismos de encripción.
Noviembre de 2006 Alfonso Luque Romero
54
Bodegas de Datos
Análisis de riesgos asociados a los sistemas de bodegas de datosIntegridad:�Se refiere a salvaguardar la completitud y precisión de la información y de los métodos de su procesamiento.
�Dado que la información de la bodega de datos proviene de diversas fuentes, cualquier deficiencia que éstas presenten puede generar inconsistencias en la información que se cargue.
�Así mismo, como la información es sometida al proceso ETL, su exactitud y validez pueden verse comprometidas durante la ejecución de estos procesos.
�Para preservar la integridad de la información, es necesario: garantizar la precisión y completitud en el diseño del modelo de datos y metadatos, revisar que los procesos del negocio no comprometan la integridad de la información, depurar la información antes de cargarla en la bodega o almacén de datos, establecer procedimientos para actualizar los metadatosen caso de presentarse cambios en las fuentes de datos y establecer procedimientos de conciliación para asegurar que exista integridad entre los datos de origen y los valores resultantes del proceso ETL.
Noviembre de 2006 Alfonso Luque Romero
55
Bodegas de Datos
Análisis de riesgos asociados a los sistemas de bodegas de datos
Disponibilidad:
�Este criterio se refiere al hecho de que la información pueda ser accedida en el momento en que se requiera por los procesos del negocio; así como a la salvaguarda de los recursos de tecnología que soportan el sistema.
�Bajo este criterio, es necesario estimar el impacto que fallas en la operación de la infraestructura instalada para soportar la bodega de datos puedan generar sobre la accesibilidad a la información y establecer los mecanismos de respaldo y recuperación adecuados.
Noviembre de 2006 Alfonso Luque Romero
56
Bodegas de Datos
Análisis de riesgos asociados a los sistemas de bodegas de datos
Cumplimiento : Este criterio hace referencia a la necesidad de que la información cumpla con las leyes, normas y arreglos contractuales que regulen su utilización.
Bajo este criterio, se debe considerar toda la normatividad interna o externa que establezca el tratamiento que se le debe dar a lainformación en cuanto a su propiedad, confidencialidad, publicación y distribución.
Noviembre de 2006 Alfonso Luque Romero
57
Bodegas de Datos
Análisis de riesgos asociados a los sistemas de bodegas de datos
Confiabilidad:�Se refiere a la confianza que debe ofrecer la información cargada en la bodega de datos para que sirva como base en la construcción de modelos y el desarrollo de análisis que soporten decisiones estratégicas por parte de la administración.
�Este criterio resalta la necesidad de que los usuarios puedan comprender el significado, origen y confiabilidad de los datos almacenados en la Bodega o almacén de Datos. Este objetivo puede ser alcanzado al crear y mantener un repositorio de metadatos accesible para los usuarios finales.
�Otro aspecto relacionado con este criterio, se refiere a los modelos de decisión construidos por los usuarios, los cuales deben ser documentados (consideraciones y formulaciones contenidas) y probados exhaustivamente antes de empezar a confiar en ellos.
Noviembre de 2006 Alfonso Luque Romero
58
Bodegas de Datos
• Asegurar una participación activa tanto de los usuarios finales como de la alta administración en el desarrollo del proyecto, y en particular, en las actividades de modelación de los datos.
• Identificar las fuentes de datos y su naturaleza y efectuar una depuración antes de cargarlos en las Bodegas o Almacenes de Datos.
• Seleccionar los recursos de hardware y software necesarios para obtener una arquitectura segura, ágil, flexible y escalable en el tiempo y que brinde mayor eficiencia, seguridad y oportunidad a los usuarios de la información.
• Realizar un estimativo de los costos de almacenamiento en que se puede incurrir como resultado del permanente crecimiento de la bodega de datos.
• Monitorear el uso de la bodega de datos para asegurar que la capacidad instalada responde a las necesidades reales de almacenamiento, consulta de información (histórica, totalizada, etc.).
• Establecer procedimientos de afinamiento para mejorar el desempeño del sistema.
• Definir y documentar las actividades específicas del administrador de la bodega de datos.
• Implementar mecanismos de documentación y actualización de los cambios en la configuración de la red que afecten el desempeño de bodega de datos.
Bajo estos criterios, se deben considerar los siguientes Objetivos de Control:
1. Validar que existe la necesidad de una solución de este tipo para la organización y que el proyecto cuente con el respaldo y participación de la alta administración, las áreas usuarias y el personal de Tecnología de Información.
2. Verificar el uso óptimo de los recursos como un factor crítico en la implementación y uso de una bodega de datos teniendo en cuenta los altos costos en infraestructura, operación y administración de este tipo de soluciones.
3. Obtener una arquitectura que no solo atienda las necesidades iniciales de almacenamiento y acceso sino que sea escalable en el tiempo mediante una adecuada selección del hardware, software.
CONSIDERACIONES EN LA IMPLEMENTACIÓN PARA LA MITIGACION DE LOS RIESGOS DE PERIDAD DE LA CALIDAD DE LA INFORMACION
CRITERIO DE CALIDAD DE LA INFORMACION
Criterios de Efectividad y Eficiencia
Noviembre de 2006 Alfonso Luque Romero
59
Bodegas de Datos
Criterios de Confidencialidad y Disponibilidad
• Incluir en la arquitectura del sistema mecanismos de redundancia para brindar un nivel satisfactorio de tolerancia a fallas.
• Fijar controles como Firewalls, creación de vistas de bases de datos, control de sesión que pueden ser reforzados utilizando mecanismos de encripción
• Separar la información de acuerdo al nivel de sensibilidad y establecer mecanismos deprotección y control de acceso adecuados para prevenir posibles fugas de información.
• Velar por que las políticas de seguridad y los mecanismos de auditoría implementados en las Bodegas de Datos sean adecuados.
• Implementar procedimientos eficientes de carga, respaldo y recuperación de la información, teniendo en cuenta el tipo de información a cargar, conservar, y el momento y la frecuencia óptima para su ejecución.
Bajo estos criterios, se deben considerar los siguientes Objetivos de Control;
1. Fugas de información o acceso no autorizado a los datos sensitivos que se almacenan en la bodega de datos. Es importante recalcar que los riesgos de confidencialidad se incrementan aun más por la tendencia a publicar la información de las bodegas de datos a través de Internet.
2. Impacto que eventuales fallas puedan generar sobre el acceso a la información almacenada en la bodega de datos
CONSIDERACIONES EN LA IMPLEMENTACIÓN PARA LA MITIGACION DE LOS RIESGOS DE PERDIDA DE LA CALIDAD DE LA INFORMACION
CRITERIO DE CALIDAD DE LA INFORMACION
Noviembre de 2006 Alfonso Luque Romero
60
Bodegas de Datos
Criterio de Integridad y Confiabilidad
• Asegurar que el modelo de datos ha sido elaborado siguiendo los estándares de diseño de bases de datos, y que se ajuste a las necesidades de información planteadas y definir los procedimientos para mantenerlo actualizado y documentado incluyendo las fuentes de datos, las convenciones de nombres, tablas principales, y cambios futuros.
• Verificar la existencia de procedimientos para la documentación y actualización de los metadatosincluyendo la transformación de la información, la asociación entre los datos fuente y destino y la secuencia de extracción de la información, etc.
• Garantizar que los metadatos reflejen en forma precisa los aspectos del negocio para los cuales fueron construidos y mantener un repositorio de metadatos comprensible y disponible para los usuarios
• Verificar que los procesos del negocio no comprometen la integridad de la información a almacenar en la bodega de datos.
• Definir procedimientos de conciliación para garantizar que exista integridad entre los datos de origen y los valores cargados en la bodega de datos.
Bajo estos criterios, se deben considerar los siguientes Objetivos de Control:
1. Deficiencias en la exactitud y validez de la información originadas por la diversidad de fuentes de información y la ejecución de los procesos de extracción, transformación y carga.
2. Confianza que debe ofrecer la información cargada en la bodega de datos para que sirva como base en el análisis y construcción de modelos que soporten decisiones estratégicas por parte de la administración.
CONSIDERACIONES EN LA IMPLEMENTACIÓN PARA LA MITIGACION DE LOS RIESGOS DE PERIDAD DE LA CALIDAD DE LA INFORMACION
CRITERIO DE CALIDAD DE LA INFORMACION
Noviembre de 2006 Alfonso Luque Romero
61
Bodegas de Datos
Criterio de Cumplimiento
•Identificar aquellas leyes, regulaciones y arreglos contractuales a los cuales esta sujeto el negocio en términos de administración de la información.
•Monitorear el surgimiento de nuevas disposiciones acerca del carácter legal de la información, la propiedad de los datos, el derecho a recolectarlos, y la manera de utilizarlos.
Bajo este criterio se deben considerar aspectos relacionados con Leyes y regulaciones internas o externas que afecten el tratamiento que se le debe dar a la información en cuanto a su propiedad, confidencialidad y publicación.
CONSIDERACIONES EN LA IMPLEMENTACIÓN PARA LA MITIGACION DE LOS RIESGOS DE PERDIDA DE LA CALIDAD DE LA INFORMACION
CRITERIO DE CALIDAD DE LA INFORMACION
Noviembre de 2006 Alfonso Luque Romero
62
Bodegas de Datos
Conclusiones •La implementación de una solución de Bodegas de Dat os debe ser una decisión basada en un análisis exhaustivo d e la necesidades reales de información de la organizació n teniendo en cuenta los principios de las Bodegas de Datos estab lecidos por definición y comparándolos contra los mecanismos de consulta de los que disponga actualmente la organización.•La implementación se facilitará en la medida en que se constituya en un proyecto que tenga en cuenta el ciclo de vida de las Bodegas de Datos para la asignación de recursos téc nicos y humanos y de la asignación de responsabilidades par a cada uno de los roles establecidos.Modelos de referencia como CONCT u otros estudios d e referencia sobre el tema de Bodegas de Datos son fu entes de consulta valiosas no solo para entender las caracte rísticas técnicas de las Bodegas da Datos sino también para conocer los aspectos de operación, seguridad y control que se d eben tener en cuenta pre y post implementación.
Noviembre de 2006 Alfonso Luque Romero
63
Bodegas de Datos
Bibliografía•Control Objectives For Net-Centric Technologies, ISACF, 1999•Cobit , ISACA •Data Warehousing and Data Mining: Opportunities for Internal Auditors , David, Julie S. & Steinbart, Paul J., Florida, 2000, The Institute of Internal Auditors Research Foundation•Decision Support Systems and Intelligent Systems, Turban, Efraim & Iroson, Jack E., 1998, Prentice Hall.•Database Systems, Design, Implementation and Manage ment, Rob, Peter & Coronel, Carlos, 2000, USA, Thomson Learning..
Noviembre de 2006 Alfonso Luque Romero
64
Bodegas de Datos
Referencias•La Inteligencia de Negocios, Silvia Roque Moranchel, Marzo 2001, Gestiópolis.com•http://www.gestiopolis.com/recursos/documentos/full docs/ger/busint.htm•Webopedia.comhttp://www.webopedia.com
top related