presentación de powerpoint - inegi.org.mx · necesarios para ser desplegado en sistemas de...

46
1 Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores Seminario internacional: Big Data para la Información Oficial y la Toma de Decisiones José A. Incera Lídice García Ríos 16 junio - 2014

Upload: haduong

Post on 20-Sep-2018

229 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

1

Infraestructura de Big Data para el

análisis y procesamiento de

información generada por redes de

sensores

Seminario internacional:

Big Data para la Información Oficial y la Toma de

Decisiones

José A. Incera

Lídice García Ríos

16 – junio - 2014

Page 2: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

2

Contenido

• Redes de sensores

• Caso de uso: Monitoreo ambiental

• Diseño del sistema

• Principales tecnologías

• Resultados

• Conclusiones

Page 3: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

3

Redes de sensores inalámbricas

• Sensores: Conjunto de pequeños dispositivos (nodos)

de bajo costo (típicamente) y bajo consumo

energético

• Los nodos colectan procesan e intercambian datos de

forma inalámbrica, conformando una red colaborativa

• Monitorean e interactúan con em entorno físico

• Actores principales en la llamada Internet de las cosas

Page 4: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

4

Características

• Una de las tendencias tecnológicas dominantes de la

década

• Componentes conocidos, pero nunca a tan bajo

costo y con un potencial tan alto de integración

• Observación del mundo físico a un nivel de

granularidad nunca antes alcanzado

• Integran un conjunto de disciplinas con aplicaciones

limitadas únicamente por la imaginación de los

desarrolladores

Page 5: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

5

• CitySense Network en

Cambridge, Massachusetts

• Monitoreo clima y

contaminación

• Sobre luminarias

• Monitoreo de cultivos

agrícolas

• Aplicaciones

medio ambientales,

médicas, infraestructura,

industriales

Aplicaciones y ejemplos

Page 6: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

6

Arquitectura

• Depende de la cobertura deseada, máximo número de saltos permitidos, etc.

– Mecanismo de despliegue

• Identificar el entorno (al aire libre, en interiores, con o sin supervisión, acceso a energía eléctrica, posibilidad de reparación, …)

– Topología

• Plana o jerárquica; estrella, árbol, malla

– Tipo de nodos

– Sistema operativo

• Contiki, TinyOS, LiteOS, Nano-RK, …

– Protocolos de comunicación

• IEEE 802.15.4, ZigBee

Page 7: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

7

Conectividad a internet (miles de millones)

Quae conexus

Fuente: Cisco VNI, 2013

Page 8: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

8

Big Data

• Conjunto de datos que exceden las capacidades de

procesamiento de los sistemas convencionales

• Una creciente fuente de

datos que cumple con las

características “V” de

Big Data son las redes

de sensores inalámbricas

Page 9: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

9

Es necesario integrar WSN con

tecnologías de Big Data

Cientos de miles de sensores

Necesario tomar decisiones rápidamente

Muchos tipos de sensores y redes

Volumen

Velocidad

Variedad

Tecnologías de información clásicas

Servidores

BD relacionales

Data Warehouses/

Data Marts

• Soporte limitado

• Costosas

• Algunas no pueden

procesar datos en

tiempo real

Page 10: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

10

Objetivo

• Implementar el prototipo de una plataforma

que integre WSN con herramientas de Big Data

para captura, almacenamientoy procesamiento

distribuido

• Plataforma modular, escalable

• Basada en herramientas de código libre

Page 11: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

11

Caso de estudio: Monitoreo ambiental

• Red Automática de

Monitoreo

Ambiental

• O3, CO, NO2,

Partículas, …

• 24 estaciones

• Acceso a datos a fin

de mes.

• Datos por 1 hr

RAMA

Sistema de monitoreo

atmosférico de la

Ciudad de México

SIMAT

• Red Manual de

Monitoreo

Ambiental

• Partículas

suspendidas,

plomo, …

• 12 estaciones

• Muestras cada 6

días

REDMA

• Red de Depósito

Atmosférico

• Depósitos húmedos

y secos,

composición del

agua de lluvia, …

• 16 estaciones

REDDA

• Red de

Meteorología y

Radiación Solar

• Dispersión de

contaminantes,

radiación

ultravioleta

• 16 estaciones

REDMET

Genera y actualiza indicadores, estadísticas y la

tendencia histórica del estado de la calidad del aire

ZMVM.

La rapidez con que se evalúa la información, permite

la instrumentación del Pgma. de contingencias

ambientales en situaciones de riesgo

www.calidaddelaire.df.gob.mx

Page 12: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

12

Monitoreo ambiental en la ZMVM

• Granularidad muy baja. Muchos municipios sin monitoreo

• Reporte de estadísticas con un bajo nivel de detalle

Page 13: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

13

Concepto de alto nivel

• RAMA podría extenderse con una

red de sensores de bajo costo

• Mucho mayor granularidad

espacial

• Monitoreo de alta frecuencia

• Análisis en tiempo real

• Gran detalle dispersión

de contaminantes

• Almacenamiento de datos

para análisis posterior

Page 14: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

14

Diagrama nodo sensor

DTH11

MQ-7

MQ-131

Page 15: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

15

Sistema en estaciones base

DAM. Data acquisition module

DPM. Data Processing Module

MOM. Message-oriented middleware

(ActiveMQ - Apache Software Foundation)

Page 16: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

16

Data Acquisition Module (DAM)

* Para una WSN con cobertura metropolitana,

ZigBee podría no ser adecuado

Page 17: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

17

Data Processing Module

Page 18: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

18

Data Processing Module

• El procesamiento de primer nivel se realiza con

stream processing

– Procesamiento en tiempo real

– Estadísticas básicas

– Detección de alertas

• Almacenamiento y post-procesamiento en

Hadoop

– Procesamiento con modelo MapReduce

– Analítica, minería de datos, reportes

Page 19: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

19

Ingesta continua Consultas continuas/análisis de datos en movimiento

Representación visual Nuevo paradigma: Analítica en movimiento para alto rendimiento y latencia ultra baja

Tupla Operador

Aplicación Streams

Consumidores de datos

Fuentes de datos

Page 20: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

20

Proporciona escalabilidad:

Particionando aplicaciones en componentes de software

Distribuyendo carga entre hosts interconectados

La infraestructura ofrece servicios para disparar análisis

en hardware, estableciendo conectividad de streams

Transforma

Filtra/muestra

Clasifica

Correlaciona

Anota

Donde sea apropiado:

Elementos “soldados” (fused) juntos para

disminuir latencia

Ingesta continua

Análisis continuo

Principio de operación

Page 21: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

21

Stream Processing - Storm

• Stream Processing permite el procesamiento

continuo de un flujo de datos conforme éstos son

generados o recibidos

• Storm facilita el procesamiento de estos flujos en un

sistema distribuido

• spouts generan el flujo a procesar tomando datos de sus fuentes y enviando tuplas a la red de procesamiento

• bolts nodos de procesamiento

• toplogía interconexión entre spouts y bolts

Page 22: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

22

Topología para el sistema

Estadísticas a

nivel

sensor,

gateway

estación base

Page 23: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

23

Parámetros de simulación para

evaluación de DPM

Referencia Tamaño

Medición inicial 155 bytes

Medición completa (4 sensores) (355 bytes x4 sensores) = 1,420 bytes

Nodos sensores (82 subredes, 15 nodos) 1,230 registros

Mediciones c/2.5 min 576/día 708,480 mediciones/día

Total 959.43 MB ≈ 1GB daily ≈ 365 GB/año

Nivel de ozono Periodo del día (hrs)

0 - 4 4 - 8 8 -12 12 – 16 16 - 20 20 - 24

Mayor a 70 ppb 0% 1% 1% 30% 4% 1%

Entrev15 y 70 ppb 23% 3% 89% 69% 88% 38%

Menor a 15 ppb 77% 96% 10% 1% 8% 61%

Generación

de datos

Parámetros distribuciones aleatorias

(con base en datos reportados en SIMAT)

Page 24: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

24

Evaluación

• Datos generados en el simulador para un periodo de

24 horas

• Los datos se cargaron en HDFS

• Se realizaron consultas con MapReduce para evaluar

desempeño y analizar los data sets

– Temperatura promedio, máxima y mínima por

estación base y por sensor

– Estadísticas de todas las lecturas de CO de un sensor

en específico

– Todos los registros cuando el nivel de Ozono excedió

un umbral determinado

Page 25: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

25

Resultados

2,736,307registros, generaron 469 tuplas y fueron

procesados en 2.3 min

Page 26: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

26

Conclusiones del proyecto

• El prototipo desarrollado tiene todos los elementos

necesarios para ser desplegado en sistemas de producción

a gran escala

• Las tecnologáis de código libre disponibles en la

actualidad permiten capturar, almacenar y procesar los

datos generados por redes de sensores

• Las tecnologías utilizadas (Storm, Hadoop, NoSQL DB,

Relational DB, MOM) son sumamente robustas y son

complementarias entre sí

• La mayor curva de aprendizaje se encuentra en la

programación de flujos, debido a la novedad del

paradigma

Page 27: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

27

Líneas futuras

• Evaluar la factibilidad técnica y económica para

desplegar una red WSN a escala metropolitana,

junto con la infraestructura para procesar los datos

generados

• Identificar la localización más adecuada para los

nodos sensores y las estaciones base e el área de

monitoreo

• Con la infraestructyura desplegada, desarrollo de

algoritmos para explotar el potencial de analítica

descriptiva y predictiva sobre los datos medio

ambientales

Page 28: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

28

Comentarios sobre datos abiertos

• Datos abiertos, gobierno abierto no solo para

transparencia y cumplimiento

– Gran oportunidad para detonar innovación y

complementar las capacidades de los organismos

públicos

• Explotación de datos públicos en tiempo real

no puede limitarse a la provisión de archivos

– Desarrollo de interfaces de programación, buses y

estándares abiertos

Page 29: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

29

Infraestructura de Big Data para el

análisis y procesamiento de

información generada por redes de

sensores

Muchas gracias

José A. Incera

Lídice García Ríos

16 – junio - 2014

Page 30: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

30

Storm

• Cómputo en tiempo real distribuido, de código libre y

abierto

• Escalable e interoperable

• Tolerancia a fallos

• Garantía de procesamiento

• Multi-lenguaje

• Fácil de montar, utilizar y operar

• Es “el Hadoop del procesamiento de flujos de datos

en tiempo real ”

• Benchmark: 1 millón de mensajes (100b) /seg/nodo

Page 31: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

31

Storm

• Dos tipos de nodos: master y workers

• Nimbus (master)

• Supervisors (workers)

• Zookeeper

Page 32: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

32

Nodos

• Deben capturar, procesar (o preprocesar) y

enviar información. Tres tipos básicos

– Gateway

– Sensores (end device)

– Enrutadores

• Bajo cost, consumo de energía,

autoconfiguración, mecanismos de seguridad

Page 33: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

33

Ingesta continua Consultas continuas/análisis de datos en movimiento

Representación visual Nuevo paradigma: Analítica en movimiento para alto rendimiento y latencia ultra baja

Tupla Operador

Aplicación Streams

Consumidores de datos

Fuentes de datos

Page 34: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

34

Proporciona escalabilidad:

Particionando aplicaciones en componentes de software

Distribuyendo carga entre hosts interconectados

La infraestructura ofrece servicios para disparar análisis

en hardware, estableciendo conectividad de streams

Transforma

Filtra/muestra

Clasifica

Correlaciona

Anota

Donde sea apropiado:

Elementos “soldados” (fused) juntos para

disminuir latencia

Ingesta continua

Análisis continuo

Principio de operación

Page 35: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

35

Procesamiento stream escalable

• Modelo de programación Streams: Construye un grafo

– Consiste de operadores y los streams (flujos) que los conectan

• Vértices (o nodos) y ligas (enlaces) del grafo

• Grafo dirigido: las ligas tienen dirección (flechas)

• Modelo de ejecución: procesos distribuidos

– Uno o varios operadores forman un Processing Element (PE)

– Servicios de compilación ejecución facilitan el despliegue de PEs

• En una máquina o en un cluster, de ser necesario

– Todas las ligas y transporte de datos son gestionados por los servicios de

ejecución

• Automáticamente

• Bajo control manual, de ser necesario

OP

OP

OP

OP

OP

OP

OP

Page 36: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

36

Expectativas de Gartner (2013)

Page 37: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

37

Dispositivos conectados a Internet por usuario

64%56%

48%42%

35% 31%

30%35%

40%43%

44%45%

6% 9% 12% 16% 20% 24%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

2010 2011 2012 2013 2014 2015

Menos de 5 Entre 5 y 10 Más de 10

Conexiones múltiples

Fuente: Cisco Global Cloud Index, 2010-2015.

Page 38: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

38

Reportes RAMA

Page 39: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

39

Page 40: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

40

HDFS y MapReduce

• Procesamiento de grandes volúmenes de

información requiere de una gran capacidad de

procesamiento y almacenamiento

• Mainframes, supercomputadoras, SANs del

orden de Petabytes, excesivamente costosas

• Google observó que la gran mayoría de las

operaciones requeridas eran triviales

Sistema de archivos distribuido y librería de instrucciones relativamente

simples

Page 41: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

41

• Implementación de software libre (Apache

Software Foundation) de la especificación

GFS y MapReduce de Google

– HDFS.- Sistema de archivos distribuido,

redundante y escalable

– Map Reduce.- Oculta la complejidad de

paralelizar, sincronizar y garantizar la ejecución de

tareas sobre los datos distribuidos en el HDFS

Page 42: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

42

HDFS

Almacenamiento

confiable y de

alta capacidad

MapReduce

Procesamiento

distribuido

Page 43: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

43

Arquitectura HDFS

Bloque

(64MB a 256 MB)

Archivo original

(cualquier formato)

Activo

DataNodes

1

2 3

3

1

2

3

1

2

1

2

3

Standby

NameNode DataNode

Page 44: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

44

MapReduce

<key, value> <key, value> <key, value>

Sh

uff

le, so

rt

Page 45: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

45

Procesos MapReduce

TaskTracker JobTracker Mapper Reducer

Cliente

1

1 2

3

3 2

Page 46: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

46

Ecosistema Hadoop

HDFS

MapReduce Impala HBase

Pig Hive Sqoop

Flume

Mahaut

Oozie

Hue Y

AR

N

Zoo

ke

epe

r

Fuente: Cloudera