tratamiento de los datos en la época del big...

47
Tratamiento de los datos en la época del Big Data 23 Noviembre de 2018 Jornadas de análisis cualitativo y cuantitativo aplicado a la investigación de mercado Maestría en Generación y Análisis de Información Estadística

Upload: others

Post on 28-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Tratamiento de los datos en

la época del Big Data

23 Noviembre de 2018

Jornadas de análisis cualitativo y cuantitativo aplicado a la investigación de mercado

Maestría en Generación y Análisis de Información Estadística

Page 2: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Big Data

Big Data es un termino general que se usa para

denominar a los conjuntos de datos heterogéneos que

no pueden ser procesados en forma tradicionales debido

a su Volumen, Velocidad y Variedad.

Page 3: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Qué es Big Bang Data?

Es un fenomeno actual que se caracteriza por

Volumen de datos

Variedad de datos

• {Emails, bloogs, tweets, likes, shares, busquedas en

la web, videos subidos, compras online, etc.} +

Metadata

Velocidad de los datos

Page 4: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

El crecimiento del VOLUMEN de los datos

Page 5: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

LA CONEXIÓN CON EL MUNDO – La VARIEDAD de datos

Page 6: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Redes y Audiencias - Big Brother (1984)

Facebook 1968 FB Red social

Whatsapp 1200 FB Red social

YouTube 1000 Google Compartir videos

Facebook Messenger 1000 FB Mensajeria

WeChat 889 TENCENT Mensajeria

QQ 868 TENCENT Mensajeria

Instagram 600 FB Red social

Qzone 595 TENCENT Red social

Tumblr 550 Independiente Microbloging

Twitter 319 Independiente Microbloging

FB 4768

TENCENT 2352

GOOGLE 1000

OTRAS 869

Redes lideres Abril 2017 Ordenado por numero de usuarios activos

(en millones)

Por compañía

Page 7: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

El Conocimiento es un bien escaso

DATOS ≠ INFORMACION INFORMACION ≠ CONOCIMIENTO (INSIGHTS)

Page 8: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

La Ciencia del Big Data

MÁS ES DIFERENTE…. OPORTUNIDADES!

Las inmensas masas de datos que producen las organizaciones

científicas, empresariales y gubernamentales contienen

conocimiento valioso, que puede ser capturado si aprendemos a

detectarlo, extraerlo y leerlo.

El Big Data ha traído consigo, un conjunto de nuevas metodologías

y técnicas de análisis y gestión de la información, y también

profesiones emergentes: el científico de datos, el analista de

información, el experto en visualización

Page 9: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Impacto en nuestra actividad

“El mundo del “Conocimiento y Análisis” y el mundo de la

“Imaginación e Intuición” están ahora conectándose. El rol jugado

por el entrevistado solo el tiempo lo dirá. Sin embargo, es muy

deseable que actuemos lo más activamente posible en nuestros

desarrollos….. Si bien recientemente, ha habido crecimiento del

Market Research, la expansión en paralelo de otras formas de

acercarse a la información han sido sin precedentes” David Smith

Congreso ESOMAR Lisboa 2004

Page 10: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

El Big Bang de los Datos

Page 11: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Impacto en nuestra actividad

• Cambio del paradigma ideológico (deseo, ocio, ética)

• Cambio modelo de comunicación

• Emergencia de nuevos modelos de recolección de datos

• Alcance de las redes sociales

• Observación multimedia vs cuestionario

• Trazabilidad de los individuos

• Metadata

• Automatización

• Nuevas profesiones relacionadas al mundo de los datos

Page 12: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Hitos en el desarrollo de un proyecto de

Big Data

Page 13: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Perfil del científico de los datos

Page 14: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Algunos tratamientos del Big Data, mediante

métodos de Ciencia de Datos

• Redes neuronales y geo demografía

• Machine Learning

• Visualización de la información

• Minería de textos

Page 15: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Caracterización de las ciudades

Se trata de representar las ciudades, buscando el ordenamiento de

orientación y el grado de conectividad de las calles.

Se parte del mapa de cada ciudad, cada calle tiene datos

georreferénciales. Mediante una aplicación se obtienen datos de

orientación y longitud de las calles

Se construyen características de cada ciudad, desarrollando histogramas

de orientación y ordenamiento de las calles.

Page 16: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Mapa e Histograma

Page 17: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Representacion de Buenos Aires

Page 18: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Por que la representación de las ciudades es asi?

Page 19: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Redes SOM mantienen cercania y lejania de los

casos

Page 20: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Caso Big Data en la industria automotriz

Los objetivos fueron: 1) mejorar la línea de producción, para obtener un vehículo

con mejor índice de calidad. 2) Testear comparativamente dos plataformas

analíticas y determinar la mas adecuada.

Page 21: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Preparación de los datos

La tarea inicial fue explorar los datos del historial de producción y predecir fallos de

inspección del coche de la línea de producción.

Page 22: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Modelado

Inicialmente se utilizo el

modelo de red neuronal que

fue logrando una precisión del

70%.

Mediante la inclusión de

nuevos predictores, la prueba

de diferentes modelos y uso de

técnicas de mejoramiento de

los algoritmos, se concluyo

que el modelo optimo era un

árbol C5.0, donde la precisión

escaló a 85,4%.

Page 23: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Evaluación del modelo

El modelo predictivo C5.0 logra precisión de 85,4% (en el set de

datos de entrenamiento) con 425 predictores.

Page 24: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Comparación de soluciones analíticas

Al principio de la investigación, descubrimos que ambas soluciones contenían

herramientas para el análisis descriptivos pero requieren herramientas de terceros

para el análisis predictivo. Ambos productos tuvieron diferentes enfoques para la

integración con una tercera herramienta.

El grado de integración entre los productos de cada oferente fue vital. Esto se

convirtió en un factor importante en la recomendación de un conjunto de soluciones

para el fabricante.

Page 25: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Visualización de la Información

Es la forma de procesar y organizar la información,

para transformarla en conocimiento

Es un lenguaje para comunicar la información.

Es el arte de elaborar y transportar un mensaje con el

menor ruido posible

Page 26: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

CAMPAÑA A RUSIA 1812-1813

Page 28: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Mapa de las elecciones USA 2016_1

https://www.nytimes.com/interactive/2018/upshot/election-2016-voting-precinct-

maps.html?fallback=0&recId=1Bes80GKMQ3SsxZKWastk3TSVVn&locked=0&geoContinent=SA&geoRegion=C&re

cAlloc=thompson_sampling_story&geoCountry=AR&blockId=signature-journalism-

vi&imp_id=527898599&action=click&module=editorContent&pgtype=Article&region=CompanionColumn&contentColl

ection=Trending#3.15/37.22/-86.02

Page 29: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Mapa de las elecciones USA 2016_2

https://www.nytimes.com/interactive/2018/upshot/election-2016-voting-precinct-

maps.html?fallback=0&recId=1Bes80GKMQ3SsxZKWastk3TSVVn&locked=0&geoContinent=SA&geoRegion=C&re

cAlloc=thompson_sampling_story&geoCountry=AR&blockId=signature-journalism-

vi&imp_id=527898599&action=click&module=editorContent&pgtype=Article&region=CompanionColumn&contentColl

ection=Trending#3.15/37.22/-86.02

Page 30: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

http://www.visual-literacy.org/periodic_table/periodic_table.html

Page 31: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Mineria de textos sobre el concepto Felicidad

¿Es posible construir un mapa general de un

determinado concepto (“La Felicidad”)

sobre el cual ubicar a cada uno de los diferentes

targets?

Page 32: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Felicidad

Page 33: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

La metodología utilizada

1. 1000 entrevistas abiertas conceptualizando sobre la felicidad.

2. Creamos un primer Escenario o Diccionario Semántico sobre la Felicidad.

3. Indexamos 200.000 posts en Argentina sobre el tema.

4. Se revisó y enriqueció el Escenario - Diccionario original.

5. Expusimos al mapa un discurso espontaneo: 147 comentarios de internautas acerca de la felicidad en un blog femenino (Historias de mujeres emprendedoras).

6. Conclusiones - Recomendaciones

Page 34: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

1000 entrevistas – Estudio Omnibus; pregunta abierta

Sobre este texto se construyó un primer

escenario

Page 35: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

La Felicidad según variables demográficas

Page 36: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Mapa de textos

Page 37: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Dinámica del discurso (verbalizaciones) y la adjetivación utilizada.

Page 38: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

El Escenario de las 1000 encuestas: Nodos semánticos

Page 39: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

¿Que es lo que hicimos?

Tomamos un target muy especifico: Mujeres lectoras de un blog de Yahoo! Mujer enfocado a aquellas mujeres “que no se creen el sexo débil”

Se procesaron aproximadamente 150 comentarios , como opinión a una nota sobre la Felicidad

Nuestra premisa fue encontrar la manera en la que estas mujeres entienden la Felicidad y donde se ubica es concepto en nuestro mapa semántico del tema: Que conceptos están cerca y lejos

del concepto principal? Que palabras utilizar para

involucrarlas? Con que tono hablarles del tema?

Page 40: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

¿Cuales fueron los conceptos mas repetidos en el texto?

El mismo discurso sobre la felicidad esta ahora segmentado a partir de las voces de quien lo emite

Page 41: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

¿Cuales fueron los conceptos mas repetidos en el corpus?

Pasados por el algoritmo clasificador, los conceptos que mas se repitieron en el discurso fueron los siguientes.

• Momentos, tiempo. • Vivir. • Amor, amistad, afectos. • Logros, objetivos, ideales. • Uno, yo, persona. • Problemas y necesidades. Felicidad

Page 42: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

La diferencia entre los mapas de la Felicidad para distintos targets

1000 casos

Mujeres emprendoras

Web2.0

Ejemplo-6.3.4

Page 43: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Conclusiones

MÁS ES DIFERENTE…. OPORTUNIDADES!

Las inmensas masas de datos que producen las organizaciones

científicas, empresariales y gubernamentales contienen

conocimiento valioso, que puede ser capturado si aprendemos a

detectarlo, extraerlo y leerlo.

El Big Data ha traído consigo, un conjunto de nuevas metodologías

y técnicas de análisis y gestión de la información, y también

profesiones emergentes: el científico de datos, el analista de

información, el experto en visualización

Page 44: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Posibles acciones en nuestro Ecosistema

Utilización de nuevos recursos metodológicos e informáticos para

preparación, análisis y presentación de la información.

Una inmersión más activa y profunda en el conocimiento y en fluir

interdisciplinario.

Explorar mas velozmente los modelos de representación de otras

disciplinas.

Formación de investigadores en Ciencia de los datos.

Page 45: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Algunos terminos en Ciencia de los datos Big Data

Representación de los datos

Visualización de datos y de

Informacion

Algoritmos

AI (Inteligencia Artificial)

Machine Learning

Soluciones Analiticas

Data Science

Aplicaciones

t-SNE

Analíticas

Deep Learning

Redes neuronales

AWS y Ad manager

Blockchain

Fake news

Page 46: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

Qué es la Investigación en nuestro ámbito?

Investigación incluye todas las formas de estudios

Sociales, de Mercado, y de Opinión y el Análisis de

Datos; es la recopilación e interpretación sistemática de

Información sobre individuos y organizaciones. Utiliza

los métodos y técnicas estadísticos y analíticos de las

ciencias sociales, del comportamiento y de la información.

Sirve para generar conocimiento y apoyar la toma de

decisiones de proveedores de bienes y servicios, de

gobiernos, de organizaciones sin fines de lucro y del

público en general.

Fuente: Definición Oficial de ICC/ESOMAR

Page 47: Tratamiento de los datos en la época del Big Datsaimo.org.ar/archivos/untref/jjll-tratamiento-de... · El modelo predictivo C5.0 logra precisión de 85,4% (en el set de ... convirtió

o Soy un viejo Investigador de Mercado

o Me gusta jugar con las Matemáticas

o Soy la primera camada de Data Mining en la UBA (2004)

o Aunque admiro a los grandes maestros, veo con sumo placer el arte en

las cuevas de hace 30000 años, en las obras de Banksy y en la

visualización de información.

Gracias