expo rene1 ultimo

30
TRATAMIENTO DE DATOS GRANDE EN AMBIENTES DE NUBE COMPUTACIONAL. ALUMNO: JESUS RENE AROCUTIPA CENTELLAS Curso: T ópicos de TIC

Upload: reneac8

Post on 07-Oct-2015

217 views

Category:

Documents


0 download

DESCRIPTION

educativo

TRANSCRIPT

Presentacin de PowerPoint

TRATAMIENTO DE DATOS GRANDE EN AMBIENTES DE NUBE COMPUTACIONAL.ALUMNO: JESUS RENE AROCUTIPA CENTELLAS

Curso: Tpicos de TIC

ABSTRACRecientemente, Big data ha atrado mucho la atencin del mundo acadmico, la industria, as como del gobierno. Este documento presenta tcnicas de procesamiento de datos y sus aplicaciones. Desde el punto de vista de la gestin de datos en nubeMecanismos de procesamiento de datos, incluyendo, Plataforma de computacin en la nube, Arquitectura de nube,Base de datos de la nubeEsquema de almacenamiento de datos. ABSTRACMapReduce, Procesamiento paralelo, analiza las estrategias de optimizacin y sus aplicaciones.Finalmente, se discuten los problemas y desafos de investigacin en el futuro en procesamiento de Big Data en entornos de cloud computing.INTRODUCCIONEn las dos ltimas dcadas, el aumento continuo de datos ha producido un flujo abrumador de datos. Por ejemplo, experimentos de fsica de alta energa modernas, como DZero1, tpicamente generan ms de un terabyte de datos por da.El famoso sitio web de redes sociales, Facebook, sirve 570 Gigas de pginas vistas al mes, tiendas de 3 mil millones de nuevas fotos cada mes, y gestiona 25 mil millones de piezas de Contenido.INTRODUCCIONEn marzo de 2012, el gobierno EE UU anunci la "Iniciativa de Investigacin y Desarrollo Big Data", los datos se convierte en la gran poltica nacional por primera vez.Big data y cloud computing son tanto las tecnologas ms emergentes identificados en 2012. La computacin en nube se asocia con un nuevo paradigma, provisin de la infraestructura informtica y un mtodo de procesamiento de datos para todo tipo de recursos. Por otra parte, algunas nuevas tecnologas basadas en la nube deben ser adoptados porque se trata de grandes volmenes de datos para el procesamiento concurrente .

INTRODUCCIONEntonces, qu es Big Data?Segn Gartner: "Big Data son de gran volumen, alta velocidad, y/o alta variedad activos de informacin que requieren nuevas formas de procesamiento para permitir la toma de decisiones y optimizacin proceso.Segn Wikimedia, Coleccin de conjuntos de datos tan grandes y complejos que se hace difcil de procesar el uso de herramientas de gestin de base de datos a la mano"

II. SISTEMA DE GESTIN DE DATOS DE BIGMuchos investigadores han sugerido que los DBMS comerciales no son adecuados para el tratamiento de datos extremadamente grandes escala. El cuello de botella de la arquitectura clsica es el servidor de base de datos.II. SISTEMA DE GESTIN DE DATOS DE BIGLa mayora de los proveedores de los ltimos servicios en la nube estn utilizando arquitectura hbrida que es capaz de satisfacer sus necesidades reales de servicio. En esta seccin, se discute sobre todo la arquitectura de datos a partir de tres aspectos clave: El sistema de archivos distribuido, Almacenamiento de datos no estructural y semi-estructurados Plataforma en la nube de cdigo abierto.

II. SISTEMA DE GESTIN DE DATOS DE BIGA. Sistema de archivos distribuidoUn DFS es un servicio que permite al usuario acceder y procesar archivos guardados en un servidor como si fuese localGoogle File System (GFS) es el DFS que da soporte a todas las aplicaciones de Google Inc.Del mismo modo, Hadoop tambin tiene un DFS como su capa de almacenamiento de datos denominada Hadoop Distributed File System (HDFS) que es un homlogo de cdigo abierto de GFS. II. SISTEMA DE GESTIN DE DATOS DE BIGA. Sistema de archivos distribuidoGFS y HDFS son sistemas de archivos a nivel de usuario que no implementan la semntica POSIX y fuertemente optimizados para el caso de archivos de gran tamao (medido en gigabytes).II. SISTEMA DE GESTIN DE DATOS DE BIGB. Almacenamiento de datos no estructural y semi-estructuradosCon el xito de la Web 2.0, cada vez ms empresas de TI han crecientes necesidades de almacenar y analizar los datos cada vez mayor, como los registros de bsqueda, por lo general en el rango de petabytes, obtenida de una variedad de servicios web. Sin embargo, los conjuntos de datos web son por lo general no relacional o menos estructurado y procesamiento de estos conjuntos de datos semi-estructurados a escala plantea otro desafo. II. SISTEMA DE GESTIN DE DATOS DE BIGB. Almacenamiento de datos no estructural y semi-estructuradosPor otra parte, los sistemas de archivos distribuido simples mencionados anteriormente no pueden satisfacer a los proveedores de servicios como Google, Yahoo !, Microsoft y Amazon. Todos los proveedores tienen su propsito de servir a los usuarios potenciales y poseer su correspondiente stateof- la tcnica de los sistemas de gestin de grandes volmenes de datos en los entornos de nube. II. SISTEMA DE GESTIN DE DATOS DE BIGB. Almacenamiento de datos no estructural y semi-estructuradosBigtable es un sistema de almacenamiento distribuido de Google para la gestin de datos estructurados que est diseado para escalar a un tamao muy grande (petabytes de datos) a travs de miles de servidores bsicos.

II. SISTEMA DE GESTIN DE DATOS DE BIGB. Almacenamiento de datos no estructural y semi-estructuradosBigtable almacenamiento distribuido.Creado por Google a principios del 2004.Almacena la informacin en tablas multidimensionales.No es una base de datos relacional.Pensado para crecer en un alto volumen rpidamente (pentabytes).Variedad de aplicacin, escalabilidad, alto rendimiento y alta disponibilidad.II. SISTEMA DE GESTIN DE DATOS DE BIGB. Almacenamiento de datos no estructural y semi-estructuradosPNUTS es un sistema de base de datos diseado para soportar aplicaciones web Yahoo. El objetivo principal son los sistema de los datos que sirven para aplicaciones web.DynamoDB es un servicio de bases de datos NoSQL rpido y totalmente gestionado que permite almacenar y recuperar de manera fcil y econmica cualquier cantidad de datos.II. SISTEMA DE GESTIN DE DATOS DE BIGC. Plataforma en la nube de cdigo abierto.

La idea principal detrs del centro de datos es aprovechar la tecnologa de virtualizacin para maximizar la utilizacin de los recursos informticos. Por lo tanto, proporciona los ingredientes bsicos como el almacenamiento, CPU y ancho de banda como una mercanca para proveedores de servicios especializados a bajo costo unitario. II. SISTEMA DE GESTIN DE DATOS DE BIGC. Plataforma en la nube de cdigo abierto.Para alcanzar los objetivos de la gestin de grandes volmenes de datos, la mayora de las instituciones de investigacin y las empresas llevan la virtualizacin en las arquitecturas de nube. Plataformas de gestin ms populares IaaSAmazon Web Services (AWS), Eucalptus, OpenNebula, CloudStack y OpenStack . III. APLICACIONES Y OPTIMIZACINC. Plataforma en la nube de cdigo abierto. APLICACIONES En esta era de la explosin de datos, el uso de tcnicas de paralelizacin y algoritmos es la clave para lograr una mejor escalabilidad y rendimiento para el procesamiento de grandes volmenes de datos.En la actualidad, hay una gran cantidad de modelos de procesamiento paralelo populares, incluyendo MPI, GPU de propsito general (GPGPU), MapReduce y MapReduce similar.

III. APLICACIONES Y OPTIMIZACINC. CDIGO ABIERTO Cloud Platform MapReduce Pensado para procesar grandes cantidades de datosProgramador especifica, mediante 2 funciones: map y reduceAdaptado a ejecucin distribuida en mltiples nodosControl de nodos que fallan, balance de carga, etc. III. APLICACIONES Y OPTIMIZACINC. CDIGO ABIERTO CLOUD PLATFORM B. OPTIMIZACIN En esta seccin, se presentan los detalles de los enfoques para mejorar el rendimiento de procesamiento de grandes volmenes de datos con MapReduce. Los cuellos de botella de transferencia de datos: Es un gran reto que nublan los usuarios deben tener en cuenta la forma de minimizar el costo de la transmisin de datos. En consecuencia, los investigadores han empezado a proponer variedad de enfoques.III. APLICACIONES Y OPTIMIZACINC. CDIGO ABIERTO CLOUD PLATFORM B. OPTIMIZACIN Mapa-Reducir-Merge es un nuevo modelo que aade una fase de mezcla despus Reducir fase que combina dos salidas reducidas de dos trabajos de MapReduce diferentes en uno solo, que puede combinar eficientemente los datos que ya tiene particiones y ordenados (o HASHED) por el mapa y reducir mdulos. III. APLICACIONES Y OPTIMIZACINC. Plataforma en la nube de cdigo abierto. B. OPTIMIZACIN 2) OPTIMIZACIN ITERATIVO: MapReduce tambin es una plataforma popular en la que el flujo de datos toma la forma de un grfico acclico dirigido de los operadores. Sin embargo, requiere una gran cantidad de E/S y clculos innecesarios, mientras que la solucin del problema de iteraciones con MapReduce.III. APLICACIONES Y OPTIMIZACINC. Plataforma en la nube de cdigo abierto. B. OPTIMIZACIN 3) EN LNEA: Hay algunos trabajos que deben procesar en lnea mientras originales MapReduce no puede hacer esto muy bien. III. APLICACIONES Y OPTIMIZACINC. Plataforma en la nube de cdigo abierto. B. OPTIMIZACIN 4) NETE OPTIMIZACIN DE CONSULTAS: nete Query es un problema popular en gran rea de datos. Sin embargo, un problema es que necesita mas de dos entradas mientras MapReduce est ideado para procesar una sola entrada. III. APLICACIONES Y OPTIMIZACINC. Plataforma en la nube de cdigo abierto. B. OPTIMIZACIN Hadoop Online Prototype (HOP), propuesto por Tyson Condie es similar a MapReduce Online. HOP es una versin modificada de MapReduce que permite a los usuarios obtener los primeros resultados de un trabajo. Tambin es compatible para las consultas continuas que permiten a los programas MapReduce a escribirse para aplicaciones como la monitorizacin de eventos y de procesamiento de flujo, manteniendo las propiedades de tolerancia a fallos de Hadoop.IV. DISCUSIN Y RETOS Los siete conductores de grandes datos principales son los datos cientficos, datos de Internet, datos financieros, datos del dispositivo mvil, datos del sensor, los datos RFID y el streaming data. IV. DISCUSIN Y RETOS Almacenamiento de datos grandes y de gestin: Las tecnologas actuales de los sistemas de gestin de datos no son capaces de satisfacer las necesidades de grandes volmenes de datos, y la velocidad creciente de la capacidad de almacenamiento es mucho menor que la de los datos, por lo que se necesita desesperadamente una revolucin re-construccin del marco de informacin . Necesitamos que disear una arquitectura de almacenamiento jerrquico.IV. DISCUSIN Y RETOS Big Data Clculo y anlisis : Mientras se procesaba una consulta en grandes volmenes de datos , la velocidad es una demanda significativa. Sin embargo , el proceso puede llevar tiempo , porque en su mayora no puede recorrer todos los datos relacionados en toda la base de datos en una tiempo corto.Si hay suficiente paralelismo de datos en la aplicacin, los usuarios pueden tomar ventaja de la reduccin de modelo de costos de la nube utilizar cientos de computadoras para un corto de costos de tiempo .

IV. DISCUSIN Y RETOS Gran seguridad de datos : Mediante el uso de aplicaciones de datos en lnea grande, en muchas empresas pueden reducir considerablemente su costo de TI . Sin embargo, la seguridad y la privacidad afectan a todo el almacenamiento de datos grandes y procesamiento, ya que hay un uso masivo de terceros servicios e infraestructuras que se utilizan para albergar imortantes datos o realizar operaciones crticas. V. CONCLUSIONES Se discuti los temas clave, almacenamiento en la nube, arquitectura informtica, procesamiento paralelo, las principales aplicaciones y optimizacin de MapReduce. Big Data no es un concepto nuevo, pero muy difcil de procesarlo. Big Data es muy compleja y existir de forma continua pero son las grandes oportunidades para nosotros.