jornada: “mitos y realidades del big data” -introducción
TRANSCRIPT
![Page 1: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/1.jpg)
Jornada: “Mitos y Realidades del Big Data”
-Introducción al Big Data-
Urko Zurutuza Dpto. Electrónica e Informática
Mondragon Goi Eskola Politeknikoa JMA Mondragon Unibertsitatea
![Page 2: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/2.jpg)
Agenda
• Introducción al Big Data (Urko Zurutuza) • Caso Práctico 1: (Adolfo Cortés)
– Big Data para eficiencia energética en PYMEs
• Caso Práctico 2 (Mario Íñiguez/Pedro ) – Big Data para prever modelos de fuga de clientes – Big Data para eficiencia en hornos y procesos industriales en
condiciones extremas de temperatura
![Page 3: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/3.jpg)
Índice
1. Introducción 2. Instalo y uso una BBDD NoSQL. ¿Hago Big Data? 3. Tengo una plataforma basada en Hadoop instalada en mi
equipo, ¿Tengo Big Data? 4. Conozco y aplico técnicas de Machine Learning y Data Mining
en la empresa. ¿Soy Big Data? 5. Entonces, cómo hago, tengo y soy Big Data?
![Page 4: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/4.jpg)
![Page 5: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/5.jpg)
Data
50 x
CRECIMIENTO DE DATOS PARA EL 2020
![Page 6: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/6.jpg)
Big Data
“Big Data” hace referencia al conjunto de información que es demasiado compleja como para ser procesada mediante
TI tradicionales de manera aceptable
–Min Chen, Shiwen Mao, and Yunhao Liu. Big Data: A Survey. Mobile Networks and Applications, 19(2):171–209, 2014.
![Page 7: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/7.jpg)
Big Data
“Big Data hace referencia al conjunto de información que es demasiado compleja como para ser procesada mediante
TI tradicionales de manera aceptable
–Min Chen, Shiwen Mao, and Yunhao Liu. Big Data: A Survey. Mobile Networks and Applications, 19(2):171–209, 2014.
![Page 8: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/8.jpg)
Big Data
Velocityariety
olume
![Page 9: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/9.jpg)
Instalo y uso una BBDD NoSQL. ¿Hago Big Data?
![Page 10: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/10.jpg)
NoSQL (Not Only SQL)
• Base de Datos de nueva generación que en su mayoría aborda algunas de las siguientes características: – no relacional,
– distribuida, – open-source, y – horizontalmente escalable
[fuente: http://nosql-database.org/]
![Page 11: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/11.jpg)
NoSQL (Not Only SQL) - Tipos
Tipo Descripción Ejemplo
Clave-Valor Cada elemento tiene una clave y su valor asociado. emcached
Familias de Columnas
Para consultas sobre grandes conjuntos de datos. Enfoque en columnas no en filas
Documentos Empareja una clave con una estructura de datos o documento.
Grafos Guarda nodos y sus relaciones. RRSS, estructuras de redes,…
![Page 12: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/12.jpg)
Instalo y uso una BBDD NoSQL. ¿Hago Big Data?
![Page 13: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/13.jpg)
Tengo una plataforma basada en Hadoop instalada en mi equipo, ¿Tengo Big Data?
![Page 14: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/14.jpg)
Hadoop
• Sistema que permite una computación – Fiable, – Escalable, y – Distribuida
• Un Framework que permite el procesamiento distribuido de grandes conjuntos de datos sobre clusters de ordenadores.
![Page 15: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/15.jpg)
Ecosistema Hadoop (simplificado)
Apache Pig: Scripting
Almacenamiento redundante y fiable
YARN Gestiona recursos del Cluster
Procesamiento Distribuido de datos
Zookeeper: Coordina la distribución
Data Warehouse
Machine Learning
Colector de datos
Conector BBDDR-HDFS
S.O. S.O. S.O. S.O. S.O. S.O. S.O. S.O. S.O.
![Page 16: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/16.jpg)
Map-Reduce
, 4, 2, 4, 3
, 4
, 2
, 4
, 3
Split MapShuffle
&Sort
Reduce
Masterassig
nsassigns
![Page 17: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/17.jpg)
Tengo una plataforma basada en Hadoop instalada en mi equipo, ¿Tengo Big Data?
![Page 18: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/18.jpg)
Conozco y aplico técnicas de Machine Learning y Data Mining en la empresa. ¿Soy Big Data?
![Page 19: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/19.jpg)
Conozco y aplico técnicas de Machine Learning y Data Mining en la empresa. ¿Soy Big Data?
• El fin del Big Data es extraer valor de tantos datos • Análisis de Datos (Big Data Analytics)
– Recomendación basada en el comportamiento de usuarios – Agrupación de documentos de texto parecidos (por ejemplo)
– Clasificación o predicción en base a casos anteriores
![Page 20: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/20.jpg)
Conozco y aplico técnicas de Machine Learning y Data Mining en la empresa. ¿Soy Big Data?
• In-Memory Analytics vs. In-Hadoop Analytics • El fondo es el mismo, pero ahora:
– Distribuido – Escalable
• Herramientas – R – Spark (Mllib) – TODOS: RapidMiner, SAS, Teradata,…
![Page 21: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/21.jpg)
Conozco y aplico técnicas de Machine Learning y Data Mining en la empresa. ¿Soy Big Data?
![Page 22: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/22.jpg)
Entonces, cómo hago, tengo y soy Big Data?
1. Objetivos: ¿Qué valor añadido quiero obtener? 2. Selecciona la infraestructura: en la empresa, o en la
nube (IaaS, PaaS, SaaS) 3. Fórmate/contrata expertos 4. Une las piezas (requisitos técnicos) 5. Realiza implementaciones ágiles e iterativas 6. Empieza con objetivos simples e integra los resultados
![Page 23: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/23.jpg)
Objetivos: ¿Qué valor añadido quiero obtener?
• Alinea la necesidad de Big Data con los objetivos de negocio
• Implementar Big Data es decisión de negocio, no de TI • Evalúa los requisitos de los datos (V’s!)
![Page 24: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/24.jpg)
Selecciona la infraestructura
• En casa? – Hardware (mínimo): 2*6core CPU, 24-64GB RAM, 1-2TB HDD – Distribuciones Hadoop: Cloudera, MapR, Hortonworks
• En la nube? – IaaS (Amazon Elastic Compute Cloud, Azure,…) – PaaS (Amazon Elastic MapReduce, Azure HDInsight,…) – SaaS (Teradata, sqlstream,…)
![Page 25: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/25.jpg)
Fórmate
• Administración del cluster • NoSQL • Desarrollo (Java, Python, R, …) • Machine Learning / Data Mining • Visual analytics (d3.js, CartoDB, Gephi, Tableu,…)
![Page 26: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/26.jpg)
Une las piezas
• ¿Qué preguntas debo responder? • ¿Cómo recojo los datos? • ¿Cómo los almaceno? • ¿Cómo los analizo? • ¿Cómo muestro los resultados?
![Page 27: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/27.jpg)
Realiza implementaciones ágiles e iterativas
![Page 28: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/28.jpg)
Empieza con objetivos simples e integra los resultados
• Según se van obteniendo pequeños resultados, aparecen nuevas preguntas a responder.
• Integrar resultados con el Sistema de Producción/Sistema de Gestión actual
![Page 29: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/29.jpg)
Conclusiones
• Objetivos, estrategia, ROI • Datos: ¿Estamos preparados? • Infraestructura Local o en la Nube? • Big Data está relacionado con:
Análisis de Datos = Data Science
• Analizas tus datos en “Small Data” ahora?
![Page 30: Jornada: “Mitos y Realidades del Big Data” -Introducción](https://reader035.vdocumento.com/reader035/viewer/2022071423/62cf46b64b35af082a07e8bf/html5/thumbnails/30.jpg)
Eskerrik asko
www.mondragon.edu
Urko Zurutuza Mondragon Unibertsitatea [email protected] https://es.linkedin.com/in/uzurutuza/ @urkovain