almacenes de datos

Upload: ivan-pizarro

Post on 10-Jan-2016

212 views

Category:

Documents


0 download

DESCRIPTION

Base de datos

TRANSCRIPT

AO DE LA PROMOCIN DE LA INDUSTRIA RESPONSABLE Y DEL COMPROMISO CLIMTICO

TRABAJO PERSONAL: Almacenamiento de base de datos y servidores de bases de datos

Curso: Sistemas de base de datosDocente: Juan Navarro LopezAlumno: Chavez Contreras Mauro

Seccin: BI1101Trujillo Per2015

ndice1.Data Warehouse o almacn de datos42.Orgenes de los almacenes de datos53.Bases de datos operativas y almacenes de datos64.Arquitectura de un almacn de datos75.Modelos de datos para almacenes de datos86.Arquitectura del Data Warehouse:97.Servidores de bases de datos13

IntroduccionLas empresas disponen de sistemas orientados a la automatizacin de sus procesos y al manejo de la informacin derivada de ellos, mediante el empleo de diversos modelos de operacin y administracin de datos, con los que alimentan el acervo de informacin que representa el know how de la organizacin. En el mundo actual los almacenes de datos se consideran de vital importancia, no slo porque contienen informacin especfica de la empresa, sino tambin porque esta informacin en manos de la competencia puede terminar con dicha empresa. El siguiente trabajo tiene por objetivo dar a conocer algunos conceptos y definiciones de almacenes de datos y como estn compuestos as como su arquitectura.

Data Warehouse o almacn de datosAlmacn de datos (Bodega de Datos, Data warehouse) es una integrada coleccin de datos que contiene datos procedentes de sistemas del planeamiento del recurso de la empresa (SAP, CRM, ERP) y de otros sistemas relacionados al negocio. Los almacenes de datos contienen a menudo datos y parmetros introducidos manualmente para mantener configuracin solicitada. Los almacenes de datos contienen informacin que se subdivide a veces en unidades lgicas ms pequeas, llamadas los centros comerciales (data marts).Almacn de datos contiene datos usados en operaciones diarias para la ayuda en la toma de decisiones, para el anlisis y para controlar. La base de datos esta actualizada peridicamente sin interrumpir funcionamiento de los sistemas relacionados al negocio (mltiples fuentes). El almacn de datos puede ser implementado en una arquitectura de base de datos (como Oracle, SQL Server) o en un producto dedicado (Teradata por ejemplo).Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define un data warehouse(almacn de datos) en trminos de las caractersticas del repositorio de datos: Orientado a temas.- Los datos en la base de datos estn organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s. Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones. No voltil.- La informacin no se modifica ni se elimina, una vez almacenado un dato, ste se convierte en informacin deslo lectura, y se mantiene para futuras consultas. Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organizacin, y dichos datos deben ser consistentes.Inmondefiende una metodologa descendente (top-down) a la hora de disear un almacn de datos, ya que de esta forma se considerarn mejor todos los datos corporativos. En esta metodologa losData martsse crearn despus de haber terminado el data warehouse completo de la organizacin.

Orgenes de los almacenes de datosMuchas organizaciones que usan tecnologa de base de datos estndar para recopilar, almacenar y procesar grandes cantidades de sus datos operativos comenzaron a ver ms de cerca sus almacenes de datos actuales e histricos como fuentes de informacin para ayudarse a tomar mejores decisiones empresariales. Han desarrollado almacenes de datos para sistemas de apoyo de decisiones (DSS, por sus siglas en ingls) y aplicaciones similares. Decisiones como dnde abrir un nuevo almacn, a qu audiencia dirigirse para una campaa publicitaria, a cules clientes otorgar prstamos y cundo ordenar artculos adicionales se pueden hacer con ms confianza cuando se basan sobre un cuidadoso examen de los patrones encontrados en los datos existentes. Los proveedores de DBMS, incluidos Oracle e IBM, rpidamente agregaron caractersticas a sus lneas de productos para permitir el almacenamiento de los datos a partir de sus sistemas de base de datos estndar. Se han desarrollado nuevas y poderosas herramientas analticas para extraer ms informacin de los datos almacenados en tales almacenes. SQL: 1999 contiene extensiones que apoyan las funciones requeridas por los almacenes de datos. Los datos en un almacn de datos con frecuencia se recopilan a partir de varios departamentos o sitios que pertenecen a una gran empresa. El trmino lo acu W. H. Inmon, quien describi un almacn de datos como una coleccin de datos orientada a sujeto, integrada, no voltil, variable en el tiempo que se utiliza principalmente en toma de decisiones organizacionales (Inmon, 2002). Un almacn de datos se establece para aplicaciones que apoyan decisiones, y no para procesamiento de transacciones ordinarias. Est optimizado para recuperacin de datos, en oposicin a procesamiento de transacciones.

Bases de datos operativas y almacenes de datosLas bases de datos operativas tradicionales soportan procesamiento de transaccin en lnea (OLTP, por sus siglas en ingls), que de manera caracterstica involucran un nmero limitado de transacciones repetitivas, cada una de las cuales afecta algunas tuplas en un momento en una base de datos relacional. Una base de datos como sta se desarrolla para servir a las necesidades de informacin de los usuarios finales, y est diseada para soportar sus operaciones empresariales diarias. La alta disponibilidad y desempeo eficiente son factores cruciales en el xito de una base de datos operativa. Debe proporcionar apoyo para un gran volumen de transacciones y entregar respuestas a las consultas de los usuarios u otras operaciones en lnea en un marco temporal corto. Una base de datos operativa se actualiza en tiempo real, conforme ocurren las transacciones del negocio. Actualizaciones, inserciones y borrados se deben realizar rpidamente para mantener la base de datos en un estado que refleje el entorno actual de la empresa.

En contraste, los almacenes de datos soportan OLAP (On-Line Analytical Processing: procesamiento analtico en lnea), as como toma de decisiones. Los datos en un almacn de datos se pueden llevar directamente de bases de datos operativas mltiples, en diferentes periodos (datos histricos) y tambin pueden incluir datos de otras fuentes, datos resumidos y metadatos. Las fuentes pueden tener distintos modelos o estndares, pero el almacn de datos integra los datos de modo que los usuarios ven un modelo consistente. El almacn de datos por lo general contiene una cantidad muy grande de datos, y est optimizado para procesamiento eficiente de consultas y presentacin de resultados para apoyo de decisiones. Las actualizaciones no son tan frecuentes como lo son en las bases de datos operativas, pero se realizan de manera peridica. Las aplicaciones OLAP por lo general deben pasar a travs de grandes cantidades de datos para producir resultados. Los analistas examinan los datos almacenados en el almacn usando consultas complejas, que generalmente involucran operadores de agrupacin y agregacin. Pueden hacer anlisis en series de tiempo usando datos histricos. El minado de datos es el proceso de descubrir nueva informacin mediante bsqueda de grandes cantidades de datos. El propsito es descubrir patrones o tendencias en los datos que sern tiles para la organizacin.

Arquitectura de un almacn de datosA diferencia de una base de datos operativa, para la cual se pueden especificar requisitos por adelantado, un almacn de datos debe disearse para apoyar consultas ad hoc y nuevos y no anticipados tipos de anlisis. Los datos se toman de fuentes de datos, que pueden incluir bases de datos operativas mltiples, otras entradas como archivos independientes y datos ambientales como informacin geogrfica o datos financieros. Los datos se deben extraer de las fuentes con el empleo de herramientas externas al sistema que puedan acomodar las diferencias entre las fuentes heterogneas. Los datos se reformatean en un formato consistente. Los datos tambin se pueden verificar para integridad y validez, un proceso llamado limpieza de datos, para asegurar su calidad antes de cargarlos en el almacn. Luego los datos se ponen en el modelo de datos para el almacn y carga. El proceso de carga es una transaccin larga, pues por lo general est involucrado un gran volumen de datos, de modo que el sistema debe usar herramientas de gestin de transaccin para garantizar recuperacin adecuada en el evento de falla durante la transaccin de carga. El sistema de gestin de base de datos que soporta al almacn de datos tiene un catlogo de sistema que almacena metadatos, as como otros componentes del sistema de la base de datos. Luego el almacn de datos se usa para soportar consultas para OLAP, con el fin de proporcionar informacin para sistemas de apoyo de decisiones que usan los administradores para toma de decisiones estratgicas, y a fin de proporcionar los datos para las herramientas de minado de datos que descubren nueva informacin acerca de patrones en los datos. Ciertos segmentos de los datos estn organizados en subconjuntos llamados data marts (mercado de datos, subconjunto de informacin de un Dataware House), que se enfoca en sujetos especficos. Por ejemplo, un data mart podra contener informacin especializada acerca de un solo departamento dentro de la organizacin. Todos estos usos pueden resultar en nuevo conocimiento, que luego se puede usar como una fuente de datos desde la que se pueden formatear datos y ponerlos en el almacn. Los datos de todas las fuentes se deben refrescar de manera peridica. Si hay suficiente espacio de almacenamiento, los nuevos datos simplemente se agregan al almacn existente, y los datos antiguos se mantienen en tanto sean tiles. De otro modo, los datos que ya no se usan ms se purgan de manera peridica, y se agregan nuevos datos. La frecuencia y mbito de las actualizaciones depende del entorno. Los factores que se deben considerar para decidir la poltica de actualizacin incluyen cunto almacenamiento est disponible, si el almacn necesita datos recientes, si puede estar fuera de lnea durante la regeneracin, y cunto tardar el proceso para transmitir los datos, limpieza, formateo, carga y construccin de ndices. La poltica usual es hacer una regeneracin parcial de manera peridica.

Modelos de datos para almacenes de datosAunque los modelos en las fuentes de datos pueden variar, el almacn de datos en s debe usar un solo modelo consistente que aloje las necesidades de los usuarios. Los almacenes de datos generalmente usan un modelo multidimensional. Los datos se pueden considerar como residentes en una matriz multidimensional llamada cubo de datos. El cubo puede pivotear o rotar para mostrar una dimensin de inters diferente.En un modelo multidimensional, es posible crear un nivel de granularidad ms grueso al combinar o agregar datos, un proceso llamado rollup (exploracin superficial).

El proceso inverso es el drill-down (exploracin minuciosa). En este proceso se proporciona ms detalle sobre cierta dimensin, usando granularidad ms fina para los datos.

Cuando el pivoteo y/o rollup de un cubo de datos da por resultado una presentacin bidimensional estilo hoja de clculo, es natural agregar totales para las filas y columnas, lo que forma una tabulacin cruzada (cross-tabulation). Si examina una porcin del cubo de datos con el uso de una seleccin donde especifique igualdad de condiciones para una o ms dimensiones, este tipo de operacin tambin se llama slice (proyectar en dimensiones), el cubo de datos, porque parece como si el usuario hubiera cortado a travs del cubo en la direccin seleccionada. Una operacin adicional, llamada dicing (seleccionar sobre una dimensin), se realiza si especifica un rango de valores en una seleccin.

Arquitectura del Data Warehouse: Cuando diseamos la arquitectura de un sistema deData Warehousenos hemos de plantear los diferentesentornospor los que han de pasar los datos en su camino hacia suData martocubode destino. Dada la cantidad de transformaciones que se han de realizar, y que normalmente elDWH, adems de cumplir su funcin de soporte a losrequerimientos analticos, realiza una funcin deintegracin de datosque van a conformar elAlmacn Corporativoy que van a tener que ser consultados tambin de la manera tradicional por lossistemas operacionales, es muy recomendable crear diferentesreas de datosen el camino entre lossistemas origeny lasherramientas OLAP.Cada una de estas reas se distinguir por las funciones que realiza, de qu manera se organizan los datos en la misma, y a qu tipo de necesidad puede dar servicio. El rea que se encuentra 'al final del camino' es importante, pero no va a ser la nica que almacene los datos que van a explotar las herramientas dereporting.Tampoco hay una convencin estandar sobre lo que abarca exactamente cada rea, y la obligatoriedad de utilizar cada una de ellas. Cada proyecto es un mundo, e influyen muchos factores como la complejidad, el volumen de informacin del mismo, si realmente se quiere utilizar el Data Warehouse como almacn corporativo o Sistema Maestro de Datos, o si existen necesidades reales de soporte al reporting operacional.Visto esto, comentar a continuacin las reas de datos que se suelen utilizar, e ir perfilando una propuesta de arquitectura que cada uno ha de adaptar a sus necesidades o simplemente a su gusto en funcin de su experiencia. Staging AreaEs un rea temporal donde se recogen los datos que se necesitan de los sistemas origen. Se recogen los datos estrictamente necesarios para las cargas, y se aplica el mnimo de transformaciones a los mismos. No se aplican restricciones de integridad ni se utilizan claves, los datos se tratan como si las tablas fueran ficheros planos. De esta manera se minimiza la afectacin a los sistemas origen, la carga es lo ms rpida posible para minimizar la ventana horaria necesaria, y se reduce tambin al mnimo la posibilidad de error. Una vez que los datos estn traspasados, el DWH se independiza de los sistemas origen hasta la siguiente carga. Lo nico que se suele aadir es algn campo que almacene la fecha de la carga.Obviamente estos datos no van a dar servicio a ninguna aplicacin de reporting, son datos temporales que una vez hayan cumplido su funcin sern eliminados, de hecho en el esquema lgico de la arquitectura muchas veces no aparece, ya que su funcin es meramente operativa.Hay quien considera que la Staging Area abarca ms de lo que he comentado, o incluso que este area engloba todo el entorno donde se realizan los procesos de ETL, yo me decanto por su utilizacin slo como rea temporal. ODS (Operational Data Store)Como su nombre indica, este area es la que va a dar soporte a los sistemas operacionales. El modelo de datos del Almacn de Datos Operacional sigue una estructura relacional y normalizada, para que cualquier herramienta de reporting o sistema operacional pueda consultar sus datos. Est dentro del Data Warehouse porque se aprovecha el esfuerzo de integracin que supone la creacin del Almacn de Datos Corporativo para poder atender tambin a necesidades operacionales, pero no es obligatorio, y ni siquiera es algo especfico del Business Intelligence, los ODS ya existan antes de que empezramos a hablar de BI y de DWH.No almacena datos histricos, muestra la imagen del momento actual, aunque eso no significa que no se puedan registrar los cambios.Los datos del ODS se recogen de la Stage Area, y aqu s que se realizan transformaciones, limpieza de datos y controles de integridad referencial para que los datos estn perfectamente integrados en el modelo relacional normalizado.Hay que tener en cuenta que la actualizacin de los datos del ODS no va a ser instantnea, los cambios en los datos de los sistemas origen no se vern reflejados hasta que finalice la carga correspondiente. Es decir, que se irn actualizando los datos cada cierto tiempo, cosa que hay que explicar a los usuarios, porque los informes que se lancen contra el ODS casi nunca podrn estar tan 'al minuto' como los que existan en el sistema origen. Lo que s se puede hacer es definir una mayor frecuencia de carga para el ODS que para el Almacn Corporativo. Si es necesario, se puede refrescar el ODS cada 15 minutos, y el resto cada da. Almacn de Datos CorporativoEl Almacn de Datos Corporativo s que contiene datos histricos, y est orientado a la explotacin analtica de la informacin que recoge. Las herramientas DSS o de reporting analtico atacarn principalmente a los Data marts, pero tambin se pueden realizar consultas directamente contra el Almacn de Datos Corporativo, sobretodo cuando sea necesario mostrar a la vez informacin que se encuentre en diferentes Datamarts.En l se almacenan datos que pueden provenir tanto de la Staging Area como del ODS. Si ya hemos realizado procesos de transformacin e integracin en el ODS no los vamos a repetir para pasar los mismos datos al Almacn Corporativo. Lo que no se pueda recoger desde el ODS s que habr que ir a buscarlo a la Staging Area.El esquema se parece al de un modelo relacional normalizado, pero en l ya se aplican tcnicas de desnormalizacin. No debera contener un nmero excesivo de tablas ni de relaciones ya que, por ejemplo, muchas relaciones jerrquicas que en un modelo normalizado se implementaran con tablas separadas aqu ya deberan crearse en una misma tabla, que despus representar una dimensin. Otra particularidad es que la mayora de las tablas han de incorporar campos de fecha para controlar la fecha de carga, la fecha en que se produce un hecho, o el periodo de validez del registro.Si el Data Warehouse no es demasiado grande, o el nivel de exigencia no es muy elevado en cuanto a los requerimientos 'operacionales', para simplificar la estructura se puede optar por prescindir del ODS, y si es necesario adecuar el Almacn de Datos Corporativo para servir a los dos tipos de reporting. En este caso, el rea resultante sera el DWH Corporativo, pero a veces tambin se le llama ODS. Data martsY por fin llegamos a la ltima rea de datos, que es el lugar donde se crean los Data marts. stos se obtienen a partir de la informacin recopilada en el rea del Almacn Corporativo. Cada Data Mart es como un subconjunto de este almacn, pero orientado a un tema de anlisis, normalmente asociado a un departamento de la empresa.Los Data marts se disean con estructura multidimensional, cada objeto de anlisis es una tabla de hechos enlazada con diversas tablas de dimensiones. Si se disean siguiendo el Modelo en Estrella habr prcticamente una tabla para cada dimensin, es la versin ms desnormalizada. Si se sigue un modelo de Copo de Nieve las tablas de dimensiones estarn menos desnormalizadas y para cada dimensin se podrn utilizar varias tablas enlazadas jerrquicamente.Este rea puede residir en la misma base de datos que las dems si la herramienta de explotacin es de tipo ROLAP, o tambin puede crearse ya fuera de la BD, en la estructura de datos propia que generan las aplicaciones de tipo MOLAP, ms conocida como los cubos multidimensionales.El paso del anterior rea de datos a esta ha de ser bastante simple, cosa que adems proporciona una cierta independencia sobre el software que se utiliza para el reporting analtico. Si por cualquier razn es necesario cambiar la herramienta de OLAP habra que hacer poco ms que redefinir los metadatos y regenerar los cubos, y si el cambio es entre dos de tipo ROLAP ni siquiera esto ltimo sera necesario. En cualquier caso, las reas anteriores no tienen por qu modificarse.

Servidores de bases de datos Qu es un servidor de base de datos?Un servidor de bases de datos se utiliza para almacenar, recuperar y administrar los datos de una base de datos. El servidor gestiona las actualizaciones de datos, permite el acceso simultneo de muchos servidores o usuarios web y garantiza la seguridad y la integridad de los datos. Y cuando hablamos de datos, podemos estar hablando sobre millones de elementos a los que acceden al mismo tiempo miles de usuarios.As como sus funciones bsicas, el software de servidores de bases de datos ofrece herramientas para facilitar y acelerar la administracin de bases de datos. Algunas funciones son la exportacin de datos, la configuracin del acceso de los usuarios y el respaldo de datos.

Cmo se usan las bases de datos?Las bases de datos tienen todo tipo de usos, como gestin de documentos, gestin de registros, ndices de motores de bsqueda, para servidores de correo electrnico y para brindar contenido dinmico de pginas web. Una persona, aplicacin o script de pgina web puede consultar la base de datos con el lenguaje SQL.Los servidores de bases de datos se usan en el alojamiento de pginas web para insertar contenido en pginas web dinmicas. Las pginas dinmicas utilizan diseos de tipo estndar que son llenadas con informacin en funcin de la direccin URL de la pgina, o de otras variables como las credenciales de usuario o las acciones que se realicen en la pgina. Algunos ejemplos de pginas dinmicas que utilizan bases de datos son los siguientes: Contenido en publicaciones de blogs o pginas de categora de blogs Anuncios clasificados de empleos o sitios web de clasificados Informacin de directorios web y mapas El contenido de su actividad en Facebook Resultados de Google y otras bsquedas Secciones de contenido administrable en sitios web Listas de productos de sitios de comercio electrnico y detalles de procesos de compra Detalles y configuracin de la cuenta cuando inici sesin en un sitio web.

Cules son los servidores de bases de datos ms conocidos?Los cinco servidores de base de datos de empresas ms conocidos son:1.Oracle2.SQL Server3.DB24.Sybase5.MySQLMySQL es la base de datos ms famosa de alojamiento web. Se trata de una opcin poderosa y tambin gratis (cdigo abierto) diseada para funcionar con el famoso lenguaje de programacin PHP. Microsoft SQL Server es muy popular en sitios web, empresas y ms, pues se integra fcilmente con otros servicios de Microsoft.Cmo elegir el tamao de un servidor para su base de datosLa eleccin de un servidor para su base de datos depende de muchos factores, como el tamao de la base de datos y la frecuencia y la naturaleza de las consultas a la base de datos. No existen reglas rgidas y rpidas para determinar el tamao ideal de un servidor para sus datos, pero algunos consejos que puede tener en cuenta son: Analice y evale el rendimiento de su servidor de base de datos para poder tomar decisiones ms informadas sobre sus requerimientos de informtica y almacenamiento. Asegrese de que tenga suficiente espacio de almacenamiento para sus bases de datos, tanto para la actividad actual como para el futuro. Mantenga sus ndices en la memoria RAM para evitar la paginacin (haga que su RAM disponible para el servidor de base de datos sea mayor en tamao que el ndice, para que solo se necesite una consulta). Asegrese de que su sistema operativo permita la memoria RAM que necesita (32 bits o 63 bits). Si detecta presin de la CPU (alto consumo de la CPU, tareas en espera de la CPU), considere la posibilidad de agregar ms CPU o ms rpidas. Use latecnologa RAIDpara mejorar la confiabilidad y el rendimiento de su servidor. Haga una estimacin del precio de la banda ancha, considere elalojamiento con tarifa plana como una opcin.Para ver una gua completa y detallada sobre cmo elegir el hardware, y tambin nuestra lnea actual de servidores dedicados,consulte nuestra gua sobre hardware para servidores de bases de datos. Alojamiento avanzadoCuando el tiempo de inactividad no es una opcin, cuando muchos servidores web necesitan acceder a una base de datos nica, o cuando su aplicacin o sitio web tiene que hacer frente a los niveles de trfico altos (por citar algunos ejemplos), un clster de servidores puede ser la solucin.Al implementar un servidor dedicado totalmente dedicado a su servidor de base de datos (en lugar de alojar servidores web o de datos en el mismo hardware), usted no solo aumentar los recursos disponibles para su servidor dedicado, sino que tambin ser ms fcil gestionar, evaluar y escalar sus servidores. Podr entender y controlar el uso de los recursos. Adems, las tareas como migrar su base de datos, configurar su servidor o aadir ms recursos para sus bases de datos pueden realizarse por separado de los dems servicios, y as simplificar y acelerar el proceso.An ms, al implementar servidores de bases de datos dedicados activos y pasivos con replicacin y recuperacin ante fallos usted estar protegindose de las interrupciones producidas por fallos en la aplicacin o el hardware. Y mediante una Red de rea de almacenamiento, usted puede compartir datos de forma unificada entre varios servidores de bases de datos, sitios web o usuarios.

Bibliografia ETL Tool, 2014. Herramientas para diseadores de bases de datos. Disponible en: http://etl-tools.info/es/bi/almacendedatos_arquitectura.htm Wikipedia, Inciclopedia en lnea. Data warehouse. Disponible en: http://en.wikipedia.org/wiki/Data_warehouse Ricardo C. Baes de datos. Mc GrawHill, Mexico D. F. 2009