bodega de datos

of 64/64
 1 Bodegas de Datos: Consideraciones de Implementación, Seguridad y Control Alfonso Luque Romero Noviembre de 2006

Post on 21-Jul-2015

183 views

Category:

Documents

3 download

Embed Size (px)

TRANSCRIPT

Bodegas de Datos: Consideraciones de Implementacin, Seguridad y Control

Alfonso Luque Romero

Noviembre de 2006

1

Bodegas de DatosAgendaIntroduccin Bodegas de Datos: Conceptos Bsicos Bodegas de Datos: Consideraciones de Implementacin, Seguridad y Control Conclusiones

2Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Introduccin

3Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosEl concepto de Administracin de Datos rene las herramientas y sistemas que juegan un papel clave en el proceso de planeacin estratgica de una organizacin, al permitirle obtener, almacenar, acceder y analizar datos corporativos para apoyar el proceso de toma de decisiones. Tpicamente estos sistemas, conocidos como Sistemas de Soporte de Decisiones - SSD, se encuentran en las reas de servicio y soporte al cliente, investigacin y segmentacin de mercados, anlisis estadstico e inventario, entre otras. Sin embargo, los requerimientos de informacin son cada vez ms complejos y al utilizar los SSD tradicionales se han encontrado dificultades para extraer informacin a partir de las estructuras de datos presentes actualmente en las bases de datos. Como respuesta a esta situacin surgieron nuevas estrategias de Administracin de Datos, catalogadas tambin como Soluciones de Inteligencia de Negocios a las que pertenecen sistemas de Bodegas, Almacenes y Minera de Datos.4Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Conceptos de Bodegas de Datos

5Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Conceptos de bodegas de datosBodegas de Datos (Data Warehousing) Construccin de grandes repositorios integrados de datos que pueden ser generados internamente o recibidos de fuentes externas, organizados de tal manera que facilitan el proceso de toma de decisiones. Algunas organizaciones han comenzado a construir repositorios ms pequeos, ms fciles y rpidos de implementar, conocidos como Almacenes de Datos (Data Marts), que son organizados alrededor de aplicaciones especficas, como por ejemplo, almacenando los datos relevantes del rea de contabilidad, de produccin o de ventas en un almacn de datos por separado. Minera de Datos Proceso analtico diseado para explorar grandes volmenes de datos (generalmente datos de negocio y mercado) con el objeto de descubrir patrones y modelos de comportamiento o relaciones entre diferentes variables. Esto permite generar conocimiento que ayuda a mejorar la toma de decisiones en los procesos fundamentales de un negocio.Noviembre de 2006 Alfonso Luque Romero

6

Bodegas de Datos

Inteligencia de NegociosDentro del mundo de los negocios y, de las organizaciones en general, la "Inteligencia de Negocios", es un concepto respaldado por una nueva manera de hacer las cosas, posible, gracias a los avances de los Sistemas de Informacin y de las Tecnologas de Informacin.

Conocimiento: es el acervo de informacin utilizado en el proceso dela toma de decisiones.

Data Warehousing: el proceso de organizar la informacin en unaforma que crea conocimiento basado en datos. Los productos de software que presentan este conocimiento a los usuarios se refieren como Herramientas de Inteligencia de Negocios (Business Intelligence Tools.)

Gestin de Conocimiento (Knowledge Management) es ladisciplina que busca enfocar el uso de las Tecnologas de Informacin en las personas, con el fin de que estas y sus organizaciones aprendan a utilizar los recursos y fuentes de informacin para el logro de objetivos estratgicos.7Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Conceptos de de bodegas de datosExtraccin, Transformacin y Carga - ETL Identificar las fuentes. Hace referencia al proceso de identificacin de las fuentes y datos que harn parte de la bodega o almacn de datos. Extraccin, transformacin y carga (ETL Extract, Transformation and Loading). Definicin de las herramientas de extraccin de datos desde las diferentes fuentes, el tiempo y la frecuencia con que los datos debern ser cargados en la bodega o almacn de datos. En la fase de Extraccin se utilizan herramientas que facilitan el acceso y la obtencin de datos almacenados en mltiples plataformas y bases de datos. En la fase de Transformacin los datos extrados son convertidos de su forma original a la forma que se requiere presentar para los usuarios de la bodega o almacn de datos. La transformacin involucra la definicin de reglas de conversin de los datos y/o combinacin de datos de diferentes fuentes. La Carga, consiste en trasladar los datos transformados a la bodega o almacn de datos.Noviembre de 2006 Alfonso Luque Romero

8

Bodegas de Datos

Conceptos de bodegas de datosModelamiento multidimensional Conversin de los requerimientos del usuario en medidas y dimensiones. La caracterstica mas importante de un buen modelo de datos es que refleje en forma precisa el aspecto del negocio para el cual fue construido. Metadatos (datos acerca de los datos). Contienen informacin fundamental para los usuarios, desarrolladores y administradores de la bodega de datos: informacin disponible, su significado y como obtenerla; Fuente de datos para cada item de la bodega de datos, si el item es tomado directamente de un sistema fuente o si es calculado, ltima actualizacin del item, etc.Noviembre de 2006

Diagrama de estrella

9

Alfonso Luque Romero

Bodegas de Datos

Conceptos de de bodegas de datos

Datos Operacionales

Extraccin de Datos

Bodega de Datos

Extraer Filtrar Transformar Integrar Clasificar Agregar Creacin de una bodega de datos

Integrada Orientada a un tema Variante en el tiempo No voltil

10Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Conceptos de bodegas de datos Procesamiento Analtico en Lnea (OLAP) Paralelamente al desarrollo de los sistemas Data Warehouse y Datamarts, ha surgido un nuevo componente que provee herramientas avanzadas de anlisis de informacin, y facilita el acceso a la misma a travs de dimensiones, de tal manera que un mismo dato puede ser analizado bajo distintos puntos de vista. El anlisis de datos a travs de diversas dimensiones (cubo) permite detectar comportamientos y reglas del negocio que no son fcilmente identificables con los sistemas transaccionales.VisualizacinProducto

Ubicacin

po em Ti

OLAP Fuentes Bodega de Datos Reportes Consultas Anlisis Multidimencional

11Noviembre de 2006

Utilizacin Bodega de Datos

Alfonso Luque Romero

Bodegas de Datos

Conceptos de bodegas de datos...Saldos de cuentas ($$) Por qu la Palabra Cubo ? ( Ejemplo de cubo contable )s a D

Adems:Sucursales Moneda Tipo de cuenta Etc.

Cuentas PUC

12

La implementacin tecnolgica se conoce como OLAP Literalmente: Procesamiento analtico en lnea, Componente clave en Bodegas de datos y sistemas de inteligencia de negocioNoviembre de 2006 Alfonso Luque Romero

Esquema geomtrico

Bodegas de Datos

Esquema geomtricoHipercubo de 3 dimensiones Nombre, Nacimiento, Sexo, Estado civil, CC, Vivienda, Empleo, Ocupacin, Actividad Economica Clientes

Los ejes del cubo son los temas objeto de gestin Los puntos en el cubo son los eventos objeto de gestin

Productos

Nombre, LineaProducto, TipoProducto

Ventas: Moneda Monto $ Monto Unidad Fecha

Canales de Ventas

Nombre, TipoCanal, ReginAlfonso Luque Romero

13Noviembre de 2006

Bodegas de Datos

Posibles justificacionesInters en manejar grandes volmenes de datos a travs de sistemas tipo DSS ( Sistemas de Soporte a la toma de Decisiones) Mltiples y variadas fuentes de informacin Informacin dispersa y no oportuna con una alta probabilidad de inconsistencias Altos volmenes de informacin no estructurada que requieren anlisis Dificultad en acceso a la informacin histrica Falta de flexibilidad en la manipulacin de informacin14Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Configuracin recomendada para una Bodega de Datos Corporativa.

Sistema de Informacin 1

Sistema de Informacin 2

Sistema de Informacin 3

Sistema de Informacin N

...

Bodega de Datos Corporativa

Almacn de Datos 1

Almacn de Datos 2

Almacn de Datos 3

Almacn de Datos N

15Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

EtapasDefinicin de requerimientos Definicin de arquitectura Presentacin del proyecto Anlisis de proveedores, Construccin RFP Envo RFP Evaluacin Contratacin Capacitacin Implementacin

16Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosQu son?En la actualidad hay una importante cantidad de confusin respecto a lo que es un Data Warehouse que, afortunadamente, est comenzando a despejarse. No obstante, parece que cada proveedor de un producto o servicio relacionado con tecnologa informtica tiene su definicin y, lo que es peor, en su propia jerga no siempre comprensible. Algunos llaman a Datawahouse Business Intelligence o Decision Support Systems, en realidad es considerada la solucin integral y oportuna para desarrollar las estrategias del negocio. El Datawarehouse se caracteriza por ser: Integrado - Temtico - Histrico - No volatil

Datawarehousing es un proceso, no un producto. Es una tcnica paraconsolidar y administrar datos de variadas fuentes con el propsito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora, consolidar datos desde una variedad de fuentes, manejar grandes volmenes de datos de una forma que no era posible, o no era costo efectiva. A estos medios los agruparemos en Procesamiento y Administracin de Datos. Acceder a los datos de una forma ms directa, en "el lenguaje del negocio", y analizarlos para obtener relaciones complejas entre los mismos. Estos procesos se engloban en dos categoras que sern explicadas ms adelante: Acceso a los Datos y Descubrimiento o Data Mining. Alfonso Luque Romero Noviembre de 2006

17

Bodegas de DatosDatawarehousingEstos desarrollos tecnolgicos, correctamente organizados e interrelacionados, constituyen lo que se ha dado en llamar un Data Warehouse o Bodega de Datos. Existen muchas definiciones para el DW, la ms conocida fue propuesta por Inmon (considerado el padre de las Bases de Datos) en 1992: "Un DW es una coleccin de datos orientados a temas, integrados, no-voltiles y variante en el tiempo, organizados para soportar necesidades empresariales". En 1993, Susan Osterfeldt publica una definicin que sin duda acierta en la clave del DW: "Yo considero al DW como algo que provee dos beneficios empresariales reales: Integracin y Acceso de datos. DW elimina una gran cantidad de datos intiles y no deseados, como tambin el procesamiento desde el ambiente operacional clsico".

18Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosCaractersticas de las Bodegas de DatosPor definicin, las Bodegas de Datos son bases de datos caracterizadas por ser: Integradas: porque consolidan y centralizan datos derivados de toda la organizacin. Orientadas a un tema particular: ya que los datos que contienen, estn organizados por temas, totalizados y optimizados para dar respuestas a preguntas de diversas reas funcionales de la organizacin. Variantes en el tiempo: porque contrario a las Bases de Datos Operacionales que se centran en los datos actuales, las Bodegas de Datos representan el flujo de informacin a travs del tiempo. No voltiles: Una vez que los datos son almacenados, estos nunca son removidos pues representan la historia de la organizacin.19Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosCaractersticas de las Bodegas de DatosDatos Operacionales

Extraccin de Datos Bodega de Datos

Extraer Filtrar Transformar Integrar Clasificar Agregar Totalizar

* Integrada * Orientada a un tema * Variante en el tiempo * No voltil

20Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosCaractersticas de las Bodegas de DatosCaracterstica Integrada Datos en la Base de Datos Operacional Datos similares pueden tener diferentes representaciones o significados. Por ejemplo, un nmero telefnico puede ser almacenado como: ####### o como #-###-###, y una condicin puede ser representada como F/V, 0/1 o S/N. Los valores pueden ser mostrados en miles o en millones. Orientada a un tema particular Los datos son almacenados con una orientacin funcional o por proceso. Por ejemplo, los datos pueden ser almacenados para facturas, pagos, crditos y dems. Los datos son almacenados con una orientacin por temas que facilita mltiples vistas de los datos y la toma de decisiones. Por ejemplo, las operaciones pueden ser registradas por cuenta, por rea, por gerente o por sucursal. Variante en el tiempo Los datos son almacenados como transacciones actuales. Por ejemplo, los datos de ventas pueden ser la venta de un producto en una fecha determinada, como $3500.000 en Noviembre 15 de 2004. No voltiles Las actualizaciones de datos son frecuentes y comunes. Por ejemplo, los cambios en las cantidades de un inventario cambian con cada venta. Por consiguiente el ambiente de datos es Los datos no pueden ser cambiados. Los datos son adicionados peridicamente desde los sistemas transaccionales. Una vez que los datos son almacenados apropiadamente, no se permiten cambios. Por lo tanto el ambiente de datos es relativamente esttico Alfonso Luque Romero Los datos son registrados con una perspectiva histrica. Por consiguiente, una dimensin de tiempo es Datos en la Bodega de Datos Proveen una vista unificada de todos los datos con una definicin y representacin comunes para todas las reas del negocio.

adicionada para facilitar los anlisis de datos y las comparaciones en el tiempo.

21

fluido. Noviembre de 2006

Bodegas de DatosData MiningDatamining es una tecnologa de soporte para usuario final, cuyo objetivo es extraer conocimiento til y utilizable a partir de la informacin contenida en las bases de datos de las empresas. Los objetivos de un sistema Datamining nos permitiran analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar tems similares, adems de obtener secuencias de eventos que provocan comportamientos especficos. Los sistemas Datamining se desarrollan bajo lenguajes de ultima generacin basados en la inteligencia artificial y utilizando mtodos matemticos, tales como: Redes neuronales Introduccin de reglas Arboles de decisin Conjunto de reglas por clase Soporta tambien sofisticadas operaciones de anlisis tales como los sistemas Scoring y aplicaciones de deteccin de fraude. Alfonso Luque RomeroNoviembre de 2006

22

Bodegas de DatosParadigmas

Bill Inmon's paradigm: Data warehouse is one part of the overall business intelligence system. An enterprise has one data warehouse, and data marts source their information from the data warehouse. In the data warehouse, information is stored in 3rd normal form. Ralph Kimball's paradigm: Data warehouse is the conglomerate of all data marts within the enterprise. Information is always stored in the dimensional model.

23Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosETL (Extraction, Transformation and Load - Extraccin, Transformacin y Carga)

La fase de Extraccin de Informacin utiliza herramientas que facilitan el acceso y la extraccin de datos almacenados en mltiples plataformas y bases de datos (SQL Server, DB2, Informix, Sybase, Oracle, etc.) que permiten interpretar y definir de forma sencilla las reglas de negocio necesarias para la transformacin de los datos de informacin. La fase de Transformacin consiste en el proceso de convertir los datos a formatos consistentes. La fase de Carga automatiza las tareas de preparacin de la informacin para un anlisis eficiente, que garantiza al usuario un acceso eficiente a los datos y le permite generar sus propias consultas.

24Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Inteligencia de Negocio Integrada (Solucin basada en ORACLE 10g)Herramienta de Fcil Uso para Usuarios de Negocio Implementacin Flexible & Escalabilidad

Administracin Intuitiva

25Noviembre de 2006

OLTP

DW

OLAP

Alfonso Luque Romero

Bodegas de Datos

Editor : Flujo de Datos

26Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Editor : Flujo de Procesos

27Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

DDL

28Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosOLAP y Sistemas de Soporte de DecisionesEl uso de herramientas para la Administracin de Informacin, que incluyen gestores de las Bodegas y Almacenes de Datos (Data Warehouse), garantiza la integridad y oportunidad de los datos. Paralelamente al desarrollo de estas herramientas, ha surgido un nuevo componente de los Sistemas de Soporte de Decisiones llamado Sistema De Procesamiento Analtico En Lnea (OLAP) que provee herramientas avanzadas de anlisis de datos (como anlisis de datos multidimensional) para extraer informacin de datos almacenados en una bodega de datos. Las herramientas de Sistemas de Soporte para la Decisin, enumeradas por su complejidad creciente, son utilizadas actualmente con mayor frecuencia como apoyo a la toma de decisiones estructuradas, semiestructuradas y no estructuradas: Sistemas de Procesamiento de Transacciones (TPS): sistemas que procesan las actividades operacionales cotidianas y rutinarias de la organizacin se componen de varios ciclos de sistemas interconectados entre si. Alfonso Luque Romero Noviembre de 2006

29

Bodegas de DatosSistemas de Soporte de DecisionesSistemas de Informacin Gerencial (MIS): sistema integrado usuariomquina para proveer informacin pasada, presente o proyecciones de sta, relacionada con las operaciones internas, la administracin y las funciones de toma de decisiones de una organizacin y su medio ambiente. Incorpora otras herramientas basadas en conocimiento, como los TPS, MRS, DSS, OIS.

Sistemas de Soporte a la Decisin (DSS): sistema que proporcionainformacin relevante a ejecutivos, para tomar decisiones de tareas semiestrucutradas. Se caracterizan por su interactividad, frecuencia de uso, variedad de usuario, flexibilidad, desarrollo, interaccin ambiental, comunicacin interorganizacional, acceso a bases de datos y simplicidad.

Sistemas Expertos (ES): sistemas que modelan el comportamiento de unexperto humano que cumple con la tarea de resolver problemas para los que no se dispone de un algoritmo. Son sistemas interactivos que permiten la creacin de bases de conocimiento, para responder preguntas, despejar dudas y sugerir cursos de accin simulando el proceso de razonamiento de un humano para resolver problemas en un rea especfica del conocimiento humano.Noviembre de 2006

30

Alfonso Luque Romero

Bodegas de DatosSistemas de Soporte de DecisionesSistemas de Informacin Ejecutivos (EIS): sistema orientado a datos que proporciona informacin a travs de una interfase amigable para ayudar a los ejecutivos a mejorar el manejo de su planeacin, monitoreo y anlisis de sus procesos. Redes Neuronales (NN): sistema de procesamiento de datos que simula funciones elementales de la red nerviosa del cerebro humano, para identificar la informacin relevante sobre una gran cantidad de datos, explicando el fenmeno o proceso que ha generado esos datos. Este sistema de inteligencia artificial desarrolla las funciones de un experto en un tema, capaz de enfrentarse con gran eficacia a nuevas situaciones e imaginando soluciones que no formaron parte de su proceso de entrenamiento. Automatizacin de Oficinas (OA): sistema que permite implementar tcnicas para incrementar los niveles de productividad y eficiencia en los flujos de trabajo del personal administrativo, a travs de mltiples tecnologas (datos, voz, imagen), que dan apoyo a una amplia gama de aplicaciones (procesamiento de informacin, comunicaciones, etc.).31Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosRiesgos asociados a la calidad de la informacin (COBIT)Estos riesgos pueden ser analizados teniendo en cuenta los siguientes criterios de calidad de la informacin: Efectividad, Eficiencia,

Confidencialidad, Integridad, Disponibilidad, Cumplimiento, y Confiabilidad.Desde el punto de vista de la Efectividad, es necesario validar que existe la necesidad de una solucin de este tipo para la organizacin y asegurar una participacin activa tanto de los usuarios finales como de la alta administracin en el desarrollo del proyecto, en particular, en el desarrollo de las actividades de modelacin de los datos. Asimismo, se debe tener claridad acerca de la naturaleza de las fuentes de datos y efectuar una depuracin de los datos antes de cargarlos en las Bodegas o Almacenes de Datos. Otras actividades relacionadas con este criterio tienen que ver con obtener la capacidad de distribuir la informacin relevante a quienes la requieran (lo cual debe tenerse en cuenta desde la etapa de desarrollo), y con la seleccin del hardware, software y las herramientas de anlisis apropiadas, de manera que se obtenga una arquitectura que no solo atienda las necesidades iniciales de almacenamiento y acceso sino que sea Alfonso Luque Romero Noviembre de 2006 escalable en el tiempo.

32

Bodegas de Datos

Riesgos asociados a la calidad de la informacin (COBIT)

33Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosRiesgos asociados a la calidad de la informacinEn relacin con el criterio de Eficiencia, se deben tener en cuenta los costos de almacenamiento asociados al crecimiento permanente de las Bodegas de Datos. Tambin se debe tener en cuenta que los usuarios requieren acceder tanto a los datos histricos como a los datos totalizados y en algn momento en el tiempo los datos histricos pueden llegar a ser menos relevantes y por lo tanto menos accedidos. En este aspecto es necesario implementar mecanismos para monitorear el uso real de las bodegas de datos para la consulta de informacin histrica o totalizada. Otro factor a tener en cuenta dentro de este criterio es el tiempo de respuesta, por lo que es necesario monitorear el consumo de recursos de la Bodega de Datos por parte de las consultas diseadas por los usuarios. Respecto a la Confidencialidad es necesario considerar que como las Bodegas y Almacenes de Datos contienen una gran cantidad de datos sensitivos es importante proteger estos datos de fugas de informacin ya sea que estas se den en forma intencional o no intencional. Por lo tanto, es necesario implementar controles de acceso sobre los datos que restrinjan quien puede acceder a la Bodega de Datos y que informacin Romero puede Alfonso Luque Noviembre de 2006 consultar.

34

Bodegas de DatosRiesgos asociados a la calidad de la informacinUn factor adicional que puede aumentar los riesgos asociados a la Confidencialidad es el hecho de proveer acceso a travs de Internet a las Bodegas de Datos, en este sentido los controles externos como firewalls, vistas de bases de datos y controles de acceso por sesin pueden no ser suficientes y de cualquier forma la informacin debe estar encriptada para brindar un nivel de seguridad adecuado. Una estrategia para resolver esto, puede ser la separacin de la informacin de acuerdo al nivel de sensibilidad para efectos de las consultas por parte de los usuarios. Es importante resaltar que la seguridad de las Bodegas y almacenes de datos es responsabilidad primaria del administrador quien debe velar por que las polticas de seguridad y los mecanismos de auditora implementados en las Bodegas de Datos sean adecuados.

35Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosRiesgos asociados a la calidad de la informacinLa Integridad es otro de los criterios de calidad de la informacin a tener en cuenta y para cumplir con l es necesario elaborar un modelo de datos bien diseado as como crear cuidadosamente los metadatos asegurando que estos sean precisos y completos. Teniendo en cuenta que la integridad se refiere tanto a la exactitud como a la validez de la informacin, es necesario revisar si los procesos del negocio en algn momento pueden comprometer la integridad de la informacin. Adicionalmente, es necesario depurar bien la informacin antes de cargarla en las Bodegas o Almacenes de Datos. Si al efectuar la depuracin de los datos se encuentra que estos son ocasionados por fallas en el sistema de informacin transaccional, es necesario corregir estas fallas en el sistema antes de tomar los datos como fuente de informacin para la Bodega de Datos. Asimismo es necesario establecer procedimientos para actualizar los metadatos de la Bodega de datos en caso de presentarse cambios sobre la estructura de datos de la base de datos en el sistema de informacin original. Por ltimo se requiere establecer procedimientos de actualizacin para asegurar que exista integridad entre los datos de origen y los valores derivados como resultado de una totalizacin. Alfonso Luque RomeroNoviembre de 2006

36

Bodegas de DatosRiesgos asociados a la calidad de la informacinEn lo que se refiere a Disponibilidad, y en la medida en que los Sistemas de Administracin se convierten en un recurso estratgico y crtico para la organizacin es necesario asegurar su disponibilidad a travs de procedimientos de respaldo y de recuperacin adecuados. Sin embargo y teniendo en cuenta los altos volmenes de informacin que estos sistemas almacenan es necesario efectuar anlisis para determinar la frecuencia ptima para efectuar los respaldos as como el mtodo ms eficiente para la actualizacin de los datos. Al determinar las necesidades de respaldo se debe tener en cuenta que a diferencia de los sistemas de informacin transaccionales, los sistemas de Bodegas de Datos contienen datos histricos que no varan en tiempo real, y la frecuencia depender de las necesidades especficas de los usuarios finales. En cuanto al mtodo de actualizacin existen dos alternativas: copiar toda la informacin en una sola transaccin, o copiarla por lotes, esto depender del volumen de informacin y de los recursos disponibles para efectuar la carga de informacin.

37Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosRiesgos asociados a la calidad de la informacinEn cuanto al Cumplimiento con leyes y regulaciones internas o externas se debe prestar atencin en lo que tenga que ver con el tratamiento de la informacin y su propiedad, confidencialidad y distribucin. Por ltimo, y en lo que respecta al criterio de Confiabilidad es importante que la alta administracin comprenda el significado, origen y confiabilidad de los datos almacenados en las Bodegas de Datos para que estos puedan servir como base para construir modelos y desarrollar anlisis que soporten decisiones estratgicas.

38Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

ObjetivosIndicadores de resultados ( reas ms rentables ) Descongestionar mdulos de reportes y consultas de los sistemas. Facilitar las labores de anlisis, verificacin y seguimiento de las operaciones En el mediano plazo, consolidar informacin proveniente de diversas aplicaciones Minera de datos39Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

ObjetivosCentralizacin de la Informacin

40

Eliminar duplicidad en la informacin. Disminuir la operatividad en la bsqueda, acceso y procesamiento de la informacin. Disminuir el trnsito de la informacin a travs de medios alternos como el correo electrnico y el telfono. Proveer mayor capacidad de almacenamiento histrico. Estandarizar el acceso y el almacenamiento de la informacin. Ofrecer mayor seguridad, confiabilidad y confidencialidad de la informacin. Racionalizar el uso de los recursos (computadores, correo). Implementar esquemas confiables de contingencia y respaldo de la informacin.Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Metodologa para la implantacinRealizacin de los requerimientos: Definicin del nombre del requerimiento Descripcin: Fuentes de informacin Variables que se van a cargar en la bodega de datos. Proceso de cargue inicial y actualizacin de la informacin. Visualizacin de la informacin. Seguridad tanto en la autorizacin para la publicacin en Internet como en los permisos de consulta de la informacin. Verificacin y actualizacin del requerimiento. Desarrollo del requerimiento en el sistema.41Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

RolesFEM - Front End Manager DSA - Decision Support Analyst BEM - DWH Back End Manager DSP - Decision Support Programmer DWP - DWH Programmer DWA - Data Warehouse Auditor DBA - Data Base Administrator SA - System Administrator DA - Data Administrator SE - Security Manager PM - Project Manager DWAR - DWH Architect

42Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Seleccin de CONCT como marco de referenciaCONCT fue publicado por ISACA como parte de las publicaciones relacionadas con la aplicacin de COBIT Al conocer el marco de referencia se encuentran objetivos de control especficos para las actividades asociadas a la implementacin y uso de Bodegas de Datos Por otra parte, CONCT provee guas de control detalladas para cada una de las actividades inherentes a las tecnologas de Bodegas de Datos, Internet y Sistemas de Procesamiento de Transacciones en Lnea muy tiles para la implantacin y anlisis de riesgos sobre estas tecnologas.

43Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Modelos de referenciaObjetivos de control propuestos en los marcos de referencia CONCT (Control Objectives for Net Centric Technology y COBIT (Control Objectives for Information Technology) y un estudio realizado por el Instituto de Auditores Internos (The Institute of Internal Auditors Research Foundation) acerca de la implementacin de Sistemas de Bodegas de Datos.

44Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Introduccin a CONCT (Control Objectives for Net Centric Technologies)

45Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosCONCT (Control Objectives for Net Centric Technologies) CONCT es un marco de referencia que consta de 4 volmenes y fue publicado por ISACF (Information Systems Audit and Control Foundation) en 1999, para la aplicacin efectiva de TI sobre las bases de conocimiento, metas y monitoreo de una organizacin. Dirigido principalmente a organizaciones que requieren mayor gobernabilidad en sus ambientes de cmputo distribuidos. Los objetivos de control incluidos en CONCT advierten a la alta gerencia, los usuarios y entes de control acerca de cuales controles es necesario implementar dentro de la organizacin y dentro del extenso y complejo ambiente de comunicaciones a nivel global dentro del cual operan.46Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosCONCT (Control Objectives for Net Centric Technologies) Para los sistemas de procesamiento tradicionales la ubicacin del hardware (incluyendo el software instalado y los datos almacenados en l) se consider el factor ms crtico, para la Tecnologa Centrada en Red lo es la red en s misma. Mientras el hardware y la plataforma de red tengan la capacidad suficiente y estn debidamente enlazados, la ubicacin real del hardware no es una preocupacin. Por el contrario, s lo es el contenido de la informacin o los objetos que fluyen a travs de la red. La implementacin de Tecnologa Centrada en Red debe ser econmica, efectiva y eficiente, con la suficiente confiabilidad y seguridad, y debe cumplir los requerimientos gerenciales de la organizacin. Los objetivos de control para la Tecnologa Centrada en Red se enfocan en las siguientes actividades: Intranet/Extranet/Internet (Web) Data Warehouses OLTP Processing SoftwareNoviembre de 2006 Alfonso Luque Romero

47

Bodegas de DatosCONCT (Control Objectives for Net Centric Technologies)

*1 Enterprise Governance Model issued by IFAC covers Business Organizational Communication *2 General IT Control is covered by Control Objectives for Information and related Technologies (CoBIT) issued by ISACF

48Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosCONCT (Control Objectives for Net Centric Technologies) Controles de seguridad El proceso de evaluacin de los controles de seguridad de los servicios de distribucin comprende 3 criterios de evaluacin: confidencialidad, integridad y disponibilidad Confidencialidad: revelacin autorizada de la informacin Integridad: validacin de la informacin y proteccin contra modificacin no autorizada Disponibilidad: asume que los recursos de informacin son accesibles a los usuarios autorizados cuando estos lo requieran Cuando se evalua la seguridad en el nivel de los servicios de informacin, el entendimiento del objeto del negocio es esencial. El control del negocio, los objetos del negocio y la tecnologa de la informacin aplicada a los objetos, determinan el nivel de control requerido.49Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Anlisis de riesgos asociados a los sistemas de bodegas de datosLos Sistemas de bodegas de datos estn expuestos a varios riesgos y amenazas los cuales fueron analizados teniendo en cuenta los objetivos de control asociados a los criterios de calidad de la informacin propuestos por COBIT: Efectividad, Eficiencia, Confidencialidad, Integridad, Disponibilidad, Cumplimiento y Confiabilidad.

50Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Anlisis de riesgos asociados a los sistemas de bodegas de datosEfectividad: Este criterio establece que la informacin almacenada en la bodega o almacn de datos debe ser relevante para los procesos del negocio y distribuida de manera oportuna, correcta y consistente. Bajo este criterio, es necesario validar que existe la necesidad de una solucin de este tipo para la organizacin y que el proyecto cuenta con el respaldo y participacin de la alta administracin, del personal de Tecnologa de Informacin y de los usuarios finales quienes cumplen un papel primordial en la modelacin de los datos. As mismo, se requiere analizar y validar la apropiada seleccin y adquisicin de los recursos de hardware y software requeridos de manera que se obtenga una arquitectura que no solo atienda las necesidades iniciales de almacenamiento y acceso de la informacin sino que sea escalable en el tiempo.51Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Anlisis de riesgos asociados a los sistemas de bodegas de datosEficiencia: Este criterio concierne al suministro de la informacin de la bodega o almacn de datos a travs del uso ptimo (mas productivo y econmico) de los recursos de Tecnologa Informtica. El uso ptimo de los recursos es un factor crtico en la implementacin y uso de una bodega de datos teniendo en cuenta los altos costos en infraestructura, operacin y administracin de este tipo de soluciones. Se deben tener en cuenta los costos de almacenamiento asociados al crecimiento permanente de la Bodega o almacn de Datos, as como los requerimientos de acceso por parte de los usuarios a los datos histricos, totalizados, los cuales en un momento dado pueden llegar a ser mas o menos relevantes y por lo tanto mas o menos accedidos, por lo que se hace necesario implementar mecanismos para monitorear el uso real de la bodega o almacn de datos. As mismo, es importante tener en cuenta dentro de este criterio el tiempo de respuesta, por lo que es necesario monitorear el consumo de recursos de la Bodega de Datos.Noviembre de 2006 Alfonso Luque Romero

52

Bodegas de Datos

Anlisis de riesgos asociados a los sistemas de bodegas de datosConfidencialidad: Este criterio se refiere a la proteccin de la informacin sensible para asegurar que no sea revelada de forma no autorizada. Teniendo en cuenta la gran cantidad de datos sensitivos que se almacenan en una bodega o almacn de datos, y la posibilidad de que estos sean publicados a travs de Internet existe el riesgo de fugas de informacin o acceso no autorizado; por esto, es necesario establecer mecanismos de proteccin y control de acceso adecuados como Firewalls, creacin de vistas de bases de datos, control de sesin, entre otros, que pueden ser reforzados utilizando mecanismos de encripcin.

53Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Anlisis de riesgos asociados a los sistemas de bodegas de datosIntegridad: Se refiere a salvaguardar la completitud y precisin de la informacin y de los mtodos de su procesamiento. Dado que la informacin de la bodega de datos proviene de diversas fuentes, cualquier deficiencia que stas presenten puede generar inconsistencias en la informacin que se cargue. As mismo, como la informacin es sometida al proceso ETL, su exactitud y validez pueden verse comprometidas durante la ejecucin de estos procesos. Para preservar la integridad de la informacin, es necesario: garantizar la precisin y completitud en el diseo del modelo de datos y metadatos, revisar que los procesos del negocio no comprometan la integridad de la informacin, depurar la informacin antes de cargarla en la bodega o almacn de datos, establecer procedimientos para actualizar los metadatos en caso de presentarse cambios en las fuentes de datos y establecer procedimientos de conciliacin para asegurar que exista integridad entre los datos de origen y los valores resultantes del proceso ETL.Noviembre de 2006 Alfonso Luque Romero

54

Bodegas de Datos

Anlisis de riesgos asociados a los sistemas de bodegas de datosDisponibilidad: Este criterio se refiere al hecho de que la informacin pueda ser accedida en el momento en que se requiera por los procesos del negocio; as como a la salvaguarda de los recursos de tecnologa que soportan el sistema. Bajo este criterio, es necesario estimar el impacto que fallas en la operacin de la infraestructura instalada para soportar la bodega de datos puedan generar sobre la accesibilidad a la informacin y establecer los mecanismos de respaldo y recuperacin adecuados.

55Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Anlisis de riesgos asociados a los sistemas de bodegas de datosCumplimiento: Este criterio hace referencia a la necesidad de que la informacin cumpla con las leyes, normas y arreglos contractuales que regulen su utilizacin. Bajo este criterio, se debe considerar toda la normatividad interna o externa que establezca el tratamiento que se le debe dar a la informacin en cuanto a su propiedad, confidencialidad, publicacin y distribucin.

56Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Anlisis de riesgos asociados a los sistemas de bodegas de datosConfiabilidad: Se refiere a la confianza que debe ofrecer la informacin cargada en la bodega de datos para que sirva como base en la construccin de modelos y el desarrollo de anlisis que soporten decisiones estratgicas por parte de la administracin. Este criterio resalta la necesidad de que los usuarios puedan comprender el significado, origen y confiabilidad de los datos almacenados en la Bodega o almacn de Datos. Este objetivo puede ser alcanzado al crear y mantener un repositorio de metadatos accesible para los usuarios finales. Otro aspecto relacionado con este criterio, se refiere a los modelos de decisin construidos por los usuarios, los cuales deben ser documentados (consideraciones y formulaciones contenidas) y probados exhaustivamente antes de empezar a confiar en ellos.57Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos Criterios de Efectividad y EficienciaCRITERIO DE CALIDAD DE LA INFORMACION Bajo estos criterios, se deben considerar los siguientes Objetivos de Control: 1. Validar que existe la necesidad de una solucin de este tipo para la organizacin y que el proyecto cuente con el respaldo y participacin de la alta administracin, las reas usuarias y el personal de Tecnologa de Informacin. 2. Verificar el uso ptimo de los recursos como un factor crtico en la implementacin y uso de una bodega de datos teniendo en cuenta los altos costos en infraestructura, operacin y administracin de este tipo de soluciones. 3. Obtener una arquitectura que no solo atienda las necesidades iniciales de almacenamiento y acceso sino que sea escalable en el tiempo mediante una adecuada seleccin del hardware, software.

CONSIDERACIONES EN LA IMPLEMENTACIN PARA LA MITIGACION DE LOS RIESGOS DE PERIDAD DE LA CALIDAD DE LA INFORMACION Asegurar una participacin activa tanto de los usuarios finales como de la alta administracin en el desarrollo del proyecto, y en particular, en las actividades de modelacin de los datos. Identificar las fuentes de datos y su naturaleza y efectuar una depuracin antes de cargarlos en las Bodegas o Almacenes de Datos.

Seleccionar los recursos de hardware y software necesarios para obtener una arquitectura segura, gil, flexible y escalable en el tiempo y que brinde mayor eficiencia, seguridad y oportunidad a los usuarios de la informacin.

Realizar un estimativo de los costos de almacenamiento en que se puede incurrir como resultado del permanente crecimiento de la bodega de datos.

Monitorear el uso de la bodega de datos para asegurar que la capacidad instalada responde a las necesidades reales de almacenamiento, consulta de informacin (histrica, totalizada, etc.).

Establecer procedimientos de afinamiento para mejorar el desempeo del sistema. Definir y documentar las actividades especficas del administrador de la bodega de datos.

Implementar mecanismos de documentacin y actualizacin de los cambios en la configuracin de la red que afecten el desempeo de bodega de datos.

58Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos Criterios de Confidencialidad y DisponibilidadCRITERIO DE CALIDAD DE LA INFORMACION Bajo estos criterios, se deben considerar los siguientes Objetivos de Control; 1. Fugas de informacin o acceso no autorizado a los datos sensitivos que se almacenan en la bodega de datos. Es importante recalcar que los riesgos de confidencialidad se incrementan aun ms por la tendencia a publicar la informacin de las bodegas de datos a travs de Internet. 2. Impacto que eventuales fallas puedan generar sobre el acceso a la informacin almacenada en la bodega de datos CONSIDERACIONES EN LA IMPLEMENTACIN PARA LA MITIGACION DE LOS RIESGOS DE PERDIDA DE LA CALIDAD DE LA INFORMACION Incluir en la arquitectura del sistema mecanismos de redundancia para brindar un nivel satisfactorio de tolerancia a fallas. Fijar controles como Firewalls, creacin de vistas de bases de datos, control de sesin que pueden ser reforzados utilizando mecanismos de encripcin Separar la informacin de acuerdo al nivel de sensibilidad y establecer mecanismos de proteccin y control de acceso adecuados para prevenir posibles fugas de informacin. Velar por que las polticas de seguridad y los mecanismos de auditora implementados en las Bodegas de Datos sean adecuados. Implementar procedimientos eficientes de carga, respaldo y recuperacin de la informacin, teniendo en cuenta el tipo de informacin a cargar, conservar, y el momento y la frecuencia ptima para su ejecucin.

59Noviembre de 2006 Alfonso Luque Romero

Bodegas de DatosCriterio de Integridad y ConfiabilidadCRITERIO DE CALIDAD DE LA INFORMACION Bajo estos criterios, se deben considerar los siguientes Objetivos de Control: 1. Deficiencias en la exactitud y validez de la informacin originadas por la diversidad de fuentes de informacin y la ejecucin de los procesos de extraccin, transformacin y carga. 2. Confianza que debe ofrecer la informacin cargada en la bodega de datos para que sirva como base en el anlisis y construccin de modelos que soporten decisiones estratgicas por parte de la administracin. CONSIDERACIONES EN LA IMPLEMENTACIN PARA LA MITIGACION DE LOS RIESGOS DE PERIDAD DE LA CALIDAD DE LA INFORMACION Asegurar que el modelo de datos ha sido elaborado siguiendo los estndares de diseo de bases de datos, y que se ajuste a las necesidades de informacin planteadas y definir los procedimientos para mantenerlo actualizado y documentado incluyendo las fuentes de datos, las convenciones de nombres, tablas principales, y cambios futuros. Verificar la existencia de procedimientos para la documentacin y actualizacin de los metadatos incluyendo la transformacin de la informacin, la asociacin entre los datos fuente y destino y la secuencia de extraccin de la informacin, etc. Garantizar que los metadatos reflejen en forma precisa los aspectos del negocio para los cuales fueron construidos y mantener un repositorio de metadatos comprensible y disponible para los usuarios Verificar que los procesos del negocio no comprometen la integridad de la informacin a almacenar en la bodega de datos. Definir procedimientos de conciliacin para garantizar que exista integridad entre los datos de origen y los valores cargados en la bodega de datos.

60Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

Criterio de CumplimientoCRITERIO DE CALIDAD DE LA INFORMACION CONSIDERACIONES EN LA IMPLEMENTACIN PARA LA MITIGACION DE LOS RIESGOS DE PERDIDA DE LA CALIDAD DE LA INFORMACION

Bajo este criterio se deben considerar aspectos relacionados con Leyes y regulaciones internas o externas que afecten el tratamiento que se le debe dar a la informacin en cuanto a su propiedad, confidencialidad y publicacin.

Identificar aquellas leyes, regulaciones y arreglos contractuales a los cuales esta sujeto el negocio en trminos de administracin de la informacin. Monitorear el surgimiento de nuevas disposiciones acerca del carcter legal de la informacin, la propiedad de los datos, el derecho a recolectarlos, y la manera de utilizarlos.

61Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

ConclusionesLa implementacin de una solucin de Bodegas de Datos debe ser una decisin basada en un anlisis exhaustivo de la necesidades reales de informacin de la organizacin teniendo en cuenta los principios de las Bodegas de Datos establecidos por definicin y comparndolos contra los mecanismos de consulta de los que disponga actualmente la organizacin. La implementacin se facilitar en la medida en que se constituya en un proyecto que tenga en cuenta el ciclo de vida de las Bodegas de Datos para la asignacin de recursos tcnicos y humanos y de la asignacin de responsabilidades para cada uno de los roles establecidos. Modelos de referencia como CONCT u otros estudios de referencia sobre el tema de Bodegas de Datos son fuentes de consulta valiosas no solo para entender las caractersticas tcnicas de las Bodegas da Datos sino tambin para conocer los aspectos de operacin, seguridad y control que se deben tener en cuenta pre y post implementacin. Alfonso Luque Romero Noviembre de 2006

62

Bodegas de Datos

BibliografaControl Objectives For Net-Centric Technologies, ISACF, 1999 Cobit , ISACA Data Warehousing and Data Mining: Opportunities for Internal Auditors, David, Julie S. & Steinbart, Paul J., Florida, 2000, The Institute of Internal Auditors Research Foundation Decision Support Systems and Intelligent Systems, Turban, Efraim & Iroson, Jack E., 1998, Prentice Hall. Database Systems, Design, Implementation and Management, Rob, Peter & Coronel, Carlos, 2000, USA, Thomson Learning. .

63Noviembre de 2006 Alfonso Luque Romero

Bodegas de Datos

ReferenciasLa Inteligencia de Negocios, Silvia Roque Moranchel, Marzo 2001, Gestipolis.com http://www.gestiopolis.com/recursos/documentos/fulldocs/ger/busint.htm Webopedia.com http://www.webopedia.com

64Noviembre de 2006 Alfonso Luque Romero