big data una revoluciÓn en proceso

Upload: german-peralta

Post on 10-Feb-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/22/2019 BIG DATA UNA REVOLUCIN EN PROCESO

    1/4

    Big Data una revolucin en proceso

    .

    1

    BIG DATA UNA REVOLUCIN EN PROCESO

    Germn Peralta Bernale-mail: [email protected]

    RESUMEN: Big data es un trmino que se utilizapara describir el crecimiento exponencial de datos, demltiples variadas fuentes de datos tanto estructuradoscomo no estructurados, a raz del crecimiento masivo dedatos dentro y fuera de las empresas, han emergidoherramientas de gestin de datos distribuidos quepermiten almacenar, clasificar y consultar grandescantidades de datos en periodos muy cortos de tiempoa un bajo costo en comparacin con los sistemastradicionales RDBMS, hay toda una gama de productosque se amparan bajo el nombre de NO SQL, haciendouso de la analtica y de herramientas NO SQL, las

    empresas pueden obtener una ventaja competitiva ynuevas oportunidades de negocio.

    PALABRAS CLAVE: big data,no sql,cluster

    1 INTRODUCCINCada da se crean 2.5 trillones de bytes de informacin,el 90% de los datos en internet se ha creado en los dosltimos aos, esta informacin ha sido creada por tresmil millones de personas ms o menos, que equivalen alcincuenta por ciento de la humanidad, la revolucin sedebe principalmente al surgimiento de la web 2.0 y a laincursin de las redes sociales, anteriormente la

    informacin de internet era generada por un pequeogrupo de organizaciones e instituciones, actualmentecasi todos somos generadores de datos, ya seainconscientemente o ya sea propsito con al algn finespecfico , es muy cierto cuando se dice que todossomos Big Data, entre todos generamos ingentescantidades de datos , a travs de diferentes medios,como redes sociales, tarjetas de puntos ya sea ensupermercados u otro tipo de negocios, pago defacturas, tarjetas de crdito, telfonos celulares, GPS,sistemas de televisin digital, etc. Todas estasactividades dejan un rastro de nuestros movimientos,nuestros gustos y hasta de nuestro estado de nimo;tota esa enorme cantidad de datos adquieren valor si seprocesan en un tiempo y a un costo razonable, este es

    el reto que deben afrontar las organizaciones de estosdas, como manejar grandes volmenes de datos yasean internos o externos y sacarles valor para obteneroportunidades de negocio.

    2 Qu ES BIG DATA?Big Data es un trmino que se ha venido utilizandodesde finales de los 90, a medida que la web 2.0, seexpanda a pasos agigantados, como motor de cientosde miles de sitios generadores de datos noestructurados, frecuentemente se entiende que el BigData, se refiere al volumen ingente de datos, pero el

    concepto ha madurado con el tiempo a medida, quesurgen nuevas herramientas especializadas en eltratamiento de grandes volmenes de datos. Big Data esun trmino actualmente utilizado para describir elcrecimiento exponencial de datos y la accesibilidad a lainformacin de mltiples y variadas fuentes de datosestructurados y no estructurados, con el fin de obtenervalor agregado de los datos, dando paso la apertura deoportunidades de negocio ocultas hasta el momentopara las organizaciones.

    Figura 1 Imagen creada por IBM de Wikipedia, clsicoempleo de Big Data.

    2.1 LAS 4 V DEL BIG DATACundo se habla del termino Big Data se tiene que hablarobligatoriamente de las principales caractersticas quedefinen Big Data, como se daba a entender antes, BigData no es solo grandes volmenes de datos, por talrazn existen las 4 V del Big Data.

    Volumen de los datos

    Variedad de los datos

    Velocidad en la transaccin de los datos

    Valor y/o veracidad de los datos

    Volumen: el volumen de los datos es probablemente lacaracterstica que con mayor frecuencia se asocia con elBig Data, las empresas se enfrentan a ingentesvolmenes de datos de los cuales intentan explorar paraobtener datos relevantes con el fin de mejorar en latoma de daciones de los procesos y reas de laempresa, los volmenes de datos crecenconstantemente a un ritmo acelerado; aunque Big Datapuede variar dependiendo del sector al que se hagareferencia, a la ubicacin geogrfica y a los recursostecnolgicos y profesionales con los que se cuenta, as

  • 7/22/2019 BIG DATA UNA REVOLUCIN EN PROCESO

    2/4

    Big Data una revolucin en proceso

    .

    2

    que bien podra ser que un terabyte sea Big Data parauna empresa y que para otra ya no lo sea.Variedad: mltiples y gran cantidad de tipos de fuentesde datos, estructurados y no estructurados, datosinternos, datos externos, fuentes de datos tan variadascomo puede ser: correos electrnicos, comentarios enredes sociales, logs de transacciones, de facturacin,

    cmaras de vigilancia, archivos de audio y video.Velocidad: mover grandes cantidades de datos ensistemas tradicionales resulta complicado y demorado,los sistemas Big Data se orientan a manejar grandesvolmenes de datos en cortos periodos de tiempoacercndose al tiempo real, disminuyendo en granmedida los tiempos de latencia desde que se introducenlos datos, al instante de tiempo en que se genera unasolicitud y al instante en el que es asequible lainformacin; hay decisiones que se tiene que tomar en elinstante, procesos en los cuales el tiempo es un factorcrtico; como puede ser la deteccin de fraude otransacciones, movimientos de bolsa, para estos casoslos datos deben analizarse en tiempo real para que nopierdan su valor y por consiguiente se pierdan

    oportunidades de negocio.Valor: se podra afirmar que es el ms importante, hacereferencia a la calidad, fiabilidad de los datos. Paraasegurar que los datos contienen algn valor relevante,se tendr que tener plena claridad sobre lo que se estbuscando como objetivo y la relevancia que tiene undeterminado conjunto de datos con lo que se busca, esimportante entonces contar con profesionales enanaltica que filtren, clasifiquen y valoren los datosmediante reglas precisas que no den espacio a laentrada de datos invlidos o de muy baja relevancia.

    3 BASE DE DATOS NO SQLNo SQL o not only SQL, no es un concepto nuevo, las

    bases de datos no relacionales se usan desde que sepusieron en funcionamiento los primeros computadores,pero su uso se limit a entornos muy reducidos, con laaparicin de los mainframe y de la computadorapersonal, frente a los sistemas RDBMS; los nuevossistemas no relacionales, surgen en un contextocompletamente diferente, al de aquellos das en los quela computacin daba sus primeros pasos, estos nuevossistemas emergentes surgen en medio de lacomputacin distribuida, aplicaciones escalables eninternet y procesamiento en paralelo. RDBMS no escapaz de escalar al nivel que exigen las aplicacionesde hoy, tiene problemas cuando se aplica a grandescantidades de datos, debe optimizar el procesamientode datos, la escalabilidad y la reduccin de costos;

    todos los RDBMS tienen una estructura bien definida,los datos tienen que ser uniformes, las propiedades deestos datos deben definirse con anterioridad, lasrelaciones deben estar perfectamente establecidas y serreferenciadas de forma sistemtica, se puede darconsistencia a conjuntos de datos con el uso de ndices,los ndices mediante el usos de reglas estrictas facilitanla consulta de datos. Las bases de datos RDBMStienden a presentar inconvenientes con grandescantidades de datos distribuidos para solventar estasdificultades, estas bases de datos empiezan a dejar deaplicar una serie de reglas, reglas que las definen en s,

    lo que las convierte finalmente en bases de datos NoSQL, as que la ventaja principal que ofrece No SQL essu gran flexibilidad para manejar grandes cantidades dedatos dispersos.

    Figura 2 Imagen tomada de www.palentino.es

    3.1 DESVENTAJAS NO SQLSe pierde la capacidad de integridad referencial en lastransacciones, se pierde la capacidad de utilizar ndices,la capacidad para realizar consultas se afectadonotablemente, uno de los objetivos de losdesarrolladores de las bases de datos No SQL esimplementar la mayor cantidad de funcionalidades delas bases de datos RDBMS si afectar el procesamientode grandes volmenes de datos.

    3.2 TIPOS DE BASES DE DATOS NO SQLActualmente se pueden identificar cuatro tipos de basesde datos no SQL

    Almacenamiento de datos clave valor, losdatos se almacenan en pares, clave valor, paraconsultar los datos se utilizan la clave, que esnica para cada elemento ejemplos: Redis,Dynomite, voldemort, son algunos de losejemplos ms representativos de este tipo debases de datos.

    Bases de datos basadas en columnas, estasutilizan un mtodo similar a los sistemas debase de datos RDBMS, haciendo uso de tablaspara almacenar los datos, pero a diferencia delas RDBMS; estas bases de datos almacenanlos datos en columnas y no en filas como losRDBMS tradicionales, tienen buen desempeoen el almacenamiento de ingentes volmenes

    de datos. Algunos ejemplos son; Hbase deapache; esta es la base de datos de hadoop,Casandra y hypertable.

    Base de datos basadas en documentos, losdatos se organizan y se almacenan como unacoleccin de documentos, los documentos deestas bases de datos suelen ser muy flexibles,los documentos pueden a su vez contener otrosdocumentos, los documentos pueden tener unnmero indeterminado de filas. Ejemplos:apache CouchDB y MongoDB.

  • 7/22/2019 BIG DATA UNA REVOLUCIN EN PROCESO

    3/4

    Big Data una revolucin en proceso

    .

    3

    Almacenamiento de datos en grafos, lasbases de datos No SQL basadas en grafos seapoyan en la teora de las cienciascomputacionales de grafos, para organizar yalmacenar los datos e interconectarlos entre spor valores y jerarquas de acuerdo la teora delos grafos; Neo4j es el ejemplo ms sobre-

    saliente de este tipo de sistemas. Bases de datos basadas en objetos. Los

    datos son objetos y las relaciones punterosentre ellos. Permiten operaciones muycomplejas pero suelen tener bajo rendimiento.

    Otras. Cubren necesidades muy especficas ytienen escasa implantacin: basadas en tupla,multivaluadas, jerrquicas, etc.

    4 CLSTEREn un estudio denominado the 2011 digital universestudy estima que el volumen de la informacin deinternet alcanzara los 35 ZettaByts en el ao 2020.Tolerancia a fallos y copias de seguridad a grandes

    conjuntos de datos, son tareas complejas. Discos ycapacidad ingente de datos. Los discos actuales estnaumentando constantemente la capacidad dealmacenamiento, pero no sucede lo mismo con lavelocidad de acceso a los datos, un disco promedio de7200 RPM y una velocidad de lectura de 300Mbps, sedemora aproximadamente una hora en leer un TeraBytde datos, a medida que las capacidades aumentan astambin aumenta la los tiempos que se necesitan paraleer los datos del disco, la velocidad de lectura puedeser engaosa, la informacin se guarda en discoscirculares para optimizar el rea de almacenamiento,cuando los datos se leen en la parte externa del disco setiene ms rea y por consiguiente ms datos , a medidaque el disco se llena los crculos se van haciendo ms

    pequeos y el rea es menor y por consiguiente lacantidad de datos disminuye drsticamente, por otraparte estn los discos SSD que ofrecen velocidades deacceso por encima de un giga y van en aumento, peropresentan bastantes problemas de funcionamiento, porlo cual no se recomiendan en el uso diario a parte quesus costos son bastante elevados, en comparacin conlos discos magnticos tradicionales. La escalabilidadpuede conseguirse de dos formas utilizando un medioms potente que es capaz de gestionar grandes cargasde datos requeridas o mediante clster, con equipos demenor capacidad que trabajan juntos como un nicoelemento de mayor capacidad, a este tipo deescalabilidad se le conoce como escalabilidadhorizontal, la escalabilidad con grandes maquinas muy

    complejas y potentes se conoce como escalabilidadvertical o sper computadores que cuentan conmuchos ncleos de procesador, grandes discos con unavasta capacidad de almacenamiento y gran cantidad dememoria RAM, para ejecutar numerosos procesos enparalelo, el escalamiento vertical tiene la desventaja seruna solucin muy costosa sumado al inconveniente detratar con software y hardware propietario.

    Figura 3 Imagen tomada de rcervantes.com

    5 BIG DATA VENTAJASCOMPETITIVASBig Data permite a las empresas desarrollar ventajascompetitivas frente a la competencia, hallar nuevasoportunidades de negocio, mediante la aplicacin deanaltica a grandes volmenes de datos, para identificarpreferencias de los usuarios, manejo adecuado deinventarios en tiempo real, mediante el cruce de datos yanaltica aplicada correctamente, se podrn ofrecerofertas ms acertadas y personalizadas a los clientes.

    5 Empresas utilizan No SQL

    ING Direct da el paso para entrar en el mundo del BigData: Con la intencin de conocer mejor a sus clientes elbanco ING Direct apuesta por Big Data, para analizar lainformacin que dispone de sus clientes con toda lainformacin externa que pueda conseguir y utilizar en latoma de decisiones.Telefnica presenta su nueva unidad de negocio"Big Data" llamada Telefnica Dynamic Insights:Permitir utilizar el Big Data para el anlisis dedatos agregados y totalmente annimos.WalMart, uno de los pioneros en el sector enutilizar Big Data: Estn observando todo en sunegocio prcticamente en tiempo real. A travs del

    anlisis de los datos pueden predecir eventos yofrecer una respuesta antes que cualquiera,garantizando que su producto estar disponibledonde lo necesitan.Amazon se benefician del Big Data, un testimonioreal: Amazon ha crecido mucho de forma bastanteconsistente como organizacin, pero muchasempresas crecen a travs de la adquisicin, lo quehace que la sincronizacin de datos sea una tareaenorme.

  • 7/22/2019 BIG DATA UNA REVOLUCIN EN PROCESO

    4/4

    Big Data una revolucin en proceso

    .

    4

    6 Desarrolladores frente a No SQLSe pueden clasificar tres grupos dedesarrolladores: primero estn los que creenfirmemente en las ventajas que ofrecen las basesde datos NO SQL, estos colaboran activamente encomunidades en lnea que mantienen a NO SQL y

    estn explorando continuamente las posibilidadesque puede ofrecer esta tecnologa emergente. Ensegundo lugar estn aquellos que se centran enresaltar las desventajas que tiene NO SQL y lainviabilidad de las bases de datos no relacionales.En tercer lugar estn los que ignoran estatecnologa ya sea porque desconocen en absolutode que se trata o porque creen que es una modapasajera que no prevalecer por mucho tiempo.

    7 Ejemplo prctico con MongoDBSe trata de una aplicacin realizada en PHP queoriginalmente utilizaba el motor de base de datos

    MySql, es una pequea aplicacin para subir ycompartir documentos, implementa dos tipos debsquedas, por palabra individual y por ndice detexto o FullText, para bsquedas complejas.Modificar la aplicacin para que funcione conMongoDB fue una tarea relativamente fcil, ya queen la pgina de MongoDB existe bastedocumentacin que explica con ejemplos lasequivalencias de sentencias SQL VS lassentencias que utiliza MongoDB. La parte mscompleja fue implementar la bsqueda de textocompleto (fullText), debido a que es unacaracterstica nueva en la ltima versin deMongoDB, a la fecha de creacin de estedocument, por tal razn existe pocadocumentacin sobre el tema. El cdigo fuenteest disponible en HitHub, en las siguientes urls:https://github.com/electroge32/Safe-Documents-MongoDBhttps://github.com/electroge32/Sefe-Documents-MySQL.

    8 CONCLUSIONESLas tecnologas relacionadas con el Big Data puedengenerar grandes frutos a las organizaciones, pero esnecesario capacitar y contar con una infraestructuratecnolgica, de importantes magnitudes, y sobre todo

    contar con profesionales con experiencia en analtica,minera de datos y business intelligence; este tipo deprofesionales tienen habilidades que son necesariaspara un adecuado manejo de proyectos orientados alanlisis de Big Data, con el fin de obtener oportunidadesde negocio y ventajas competitivas en el mercado.

    El Fenmeno Big Data es una rea explorada por muypocos hasta ahora, los expertos consideran que segenerara entre 150.000 180.000 empleos paraprofesionales en anlisis de datos de Big Data Para elao 2018, es una rea que los centros educativos deben

    empezar explorar con mayor auge y empezar aplantearse proyectos encaminados a la gestin, anlisisy la obtencin de resultados del anlisis de Big Data.

    9 REFERENCIAS

    [1] APTEAN Available: www.cmt-la.com/todo-lo-que-necesita-saber-sobre-big-data-pero-tenia-miedo-de-preguntar/

    [2] Una Docena De scar Ray Available: unadocenade.com/una-docena-de-claves-para-entender-la-importancia-del-fenomeno-big-data/

    [3] Eureka Available: www.eureka-startups.com/blog/2013/05/28/todo-lo-que-necesitas-saber-sobre-big-data/

    [4] IBM Institute for Business Value Available: www-05.ibm.com/services/es/bcs/pdf/Big_Data_ES.PDF

    [5] bigdata-hadoop.pragsis.com/pages/2/casos_de_uso[6] EMC2 Available: colombia.emc.com/microsites/cio/articles/big-data-

    pwf/pwf.pdf[7] Fidelity Available: www.fondosfidelity.es/static/pdfs/informes-

    fondos/Fidelity_ArgInvSXXI_BigData_Sept12_ES.pdf[8] Energia Creadora Available: www.energiacreadora.es/ec-3/data-mining-

    big-data-data-science/[9] lapastillaroja.net/2012/02/nosql-for-non-programmers/[10] www.nosql.es/

    [11] Diego Lpez de Ipia Available: www.slideshare.net/dipina/nosql-cassandra-couchdb-mongodb-y-neo4j#btnNext[12] Zainex Available: www.zainex.es/tags/nosql/bases-datos-orientadas-

    objetos-documentos-ddbb-nosql[13] Peter Wayner, InfoWorld Available: cioperu.pe/fotoreportaje/11634/diez-

    bases-de-datos-nosql-que-debe-probar/#?foto=11[14] Hugo Gonzlez Available: atit.upslp.edu.mx/~hugo/presentaciones/2011--

    noSQL--SemanaUPSLP.pdf[15] Marvin Ramrez Valenzo, Ren E. Cuevas Valencia, Jos Mario Martnez

    Castro Available:revistavinculos.udistrital.edu.co/files/2012/12/integracionbusqueda.pdf

    [16] Minux Magazine Available: www.linux-magazine.es/issue/76/038-044_BasedeDatosNoSQLLM76.pdf

    [17] Wikipedia Available: es.wikipedia.org/wiki/Big_data[18] McKinsey Global Institute Available:

    www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation

    [19] EMC2 Available: www.emc.com/campaign/bigdata/index.htm[20] SAS Available: www.sas.com/big-data/[21] BigdataWeek Available: bigdataweek.com/[22] Intel Available:

    www.intel.com/content/dam/www/public/us/en/documents/white-papers/distributed-data-mining-paper.pdf

    [23] StatSoft Available: www.statsoft.com/textbook/data-mining-techniques/[24] KDD Jimmy Lin and Dmitriy Ryaboy Available:

    www.kdd.org/sites/default/files/issues/14-2-2012-12/V14-02-02-Lin.pdf[25] IT-TNA Steve Wexler Available: it-tna.com/2013/02/15/big-data-versus-

    data-warehouse-only-one-will-survive/[26] Saima Solutios - Miguel Angel Available:

    www.saimasolutions.com/blog/business-intelligence-big-data/[27] Oracle Available: docs.oracle.com/cd/NOSQL/html/index.html[28] Christof Strauch Available: www.christof-strauch.de/nosqldbs.pdf[29] Oracle Available:

    www.oracle.com/technetwork/database/nosqldb/learnmore/nosql-database-498041.pdf

    [30] DATASTAX CORPORATION Available: www.datastax.com/wp-content/uploads/2013/02/WP-Benchmarking-Top-NoSQL-Databases.pdf

    [31] Martin Fowler and Pramod Sadalage Available:martinfowler.com/articles/nosql-intro.pdf

    [32] couchbase Available:www.couchbase.com/sites/default/files/uploads/all/whitepapers/NoSQL-Whitepaper.pdf

    [33] Christof Strauch Available: oak.cs.ucla.edu/cs144/handouts/nosqldbs.pdf[34] Rick Cattell Available: cattell.net/datastores/Datastores.pdf[35] Jon Moore amazon Available: s3.amazonaws.com/cimlabs/Oredev-

    Enterprise-NoSQL.pdf