tratamiento de los datos en la época del big...
TRANSCRIPT
Tratamiento de los datos en
la época del Big Data
23 Noviembre de 2018
Jornadas de análisis cualitativo y cuantitativo aplicado a la investigación de mercado
Maestría en Generación y Análisis de Información Estadística
Big Data
Big Data es un termino general que se usa para
denominar a los conjuntos de datos heterogéneos que
no pueden ser procesados en forma tradicionales debido
a su Volumen, Velocidad y Variedad.
Qué es Big Bang Data?
Es un fenomeno actual que se caracteriza por
Volumen de datos
Variedad de datos
• {Emails, bloogs, tweets, likes, shares, busquedas en
la web, videos subidos, compras online, etc.} +
Metadata
Velocidad de los datos
El crecimiento del VOLUMEN de los datos
LA CONEXIÓN CON EL MUNDO – La VARIEDAD de datos
Redes y Audiencias - Big Brother (1984)
Facebook 1968 FB Red social
Whatsapp 1200 FB Red social
YouTube 1000 Google Compartir videos
Facebook Messenger 1000 FB Mensajeria
WeChat 889 TENCENT Mensajeria
QQ 868 TENCENT Mensajeria
Instagram 600 FB Red social
Qzone 595 TENCENT Red social
Tumblr 550 Independiente Microbloging
Twitter 319 Independiente Microbloging
FB 4768
TENCENT 2352
GOOGLE 1000
OTRAS 869
Redes lideres Abril 2017 Ordenado por numero de usuarios activos
(en millones)
Por compañía
El Conocimiento es un bien escaso
DATOS ≠ INFORMACION INFORMACION ≠ CONOCIMIENTO (INSIGHTS)
La Ciencia del Big Data
MÁS ES DIFERENTE…. OPORTUNIDADES!
Las inmensas masas de datos que producen las organizaciones
científicas, empresariales y gubernamentales contienen
conocimiento valioso, que puede ser capturado si aprendemos a
detectarlo, extraerlo y leerlo.
El Big Data ha traído consigo, un conjunto de nuevas metodologías
y técnicas de análisis y gestión de la información, y también
profesiones emergentes: el científico de datos, el analista de
información, el experto en visualización
Impacto en nuestra actividad
“El mundo del “Conocimiento y Análisis” y el mundo de la
“Imaginación e Intuición” están ahora conectándose. El rol jugado
por el entrevistado solo el tiempo lo dirá. Sin embargo, es muy
deseable que actuemos lo más activamente posible en nuestros
desarrollos….. Si bien recientemente, ha habido crecimiento del
Market Research, la expansión en paralelo de otras formas de
acercarse a la información han sido sin precedentes” David Smith
Congreso ESOMAR Lisboa 2004
El Big Bang de los Datos
Impacto en nuestra actividad
• Cambio del paradigma ideológico (deseo, ocio, ética)
• Cambio modelo de comunicación
• Emergencia de nuevos modelos de recolección de datos
• Alcance de las redes sociales
• Observación multimedia vs cuestionario
• Trazabilidad de los individuos
• Metadata
• Automatización
• Nuevas profesiones relacionadas al mundo de los datos
Hitos en el desarrollo de un proyecto de
Big Data
Perfil del científico de los datos
Algunos tratamientos del Big Data, mediante
métodos de Ciencia de Datos
• Redes neuronales y geo demografía
• Machine Learning
• Visualización de la información
• Minería de textos
Caracterización de las ciudades
Se trata de representar las ciudades, buscando el ordenamiento de
orientación y el grado de conectividad de las calles.
Se parte del mapa de cada ciudad, cada calle tiene datos
georreferénciales. Mediante una aplicación se obtienen datos de
orientación y longitud de las calles
Se construyen características de cada ciudad, desarrollando histogramas
de orientación y ordenamiento de las calles.
Mapa e Histograma
Representacion de Buenos Aires
Por que la representación de las ciudades es asi?
Redes SOM mantienen cercania y lejania de los
casos
Caso Big Data en la industria automotriz
Los objetivos fueron: 1) mejorar la línea de producción, para obtener un vehículo
con mejor índice de calidad. 2) Testear comparativamente dos plataformas
analíticas y determinar la mas adecuada.
Preparación de los datos
La tarea inicial fue explorar los datos del historial de producción y predecir fallos de
inspección del coche de la línea de producción.
Modelado
Inicialmente se utilizo el
modelo de red neuronal que
fue logrando una precisión del
70%.
Mediante la inclusión de
nuevos predictores, la prueba
de diferentes modelos y uso de
técnicas de mejoramiento de
los algoritmos, se concluyo
que el modelo optimo era un
árbol C5.0, donde la precisión
escaló a 85,4%.
Evaluación del modelo
El modelo predictivo C5.0 logra precisión de 85,4% (en el set de
datos de entrenamiento) con 425 predictores.
Comparación de soluciones analíticas
Al principio de la investigación, descubrimos que ambas soluciones contenían
herramientas para el análisis descriptivos pero requieren herramientas de terceros
para el análisis predictivo. Ambos productos tuvieron diferentes enfoques para la
integración con una tercera herramienta.
El grado de integración entre los productos de cada oferente fue vital. Esto se
convirtió en un factor importante en la recomendación de un conjunto de soluciones
para el fabricante.
Visualización de la Información
Es la forma de procesar y organizar la información,
para transformarla en conocimiento
Es un lenguaje para comunicar la información.
Es el arte de elaborar y transportar un mensaje con el
menor ruido posible
CAMPAÑA A RUSIA 1812-1813
RED SEMANTICA – EL ALEPH
http://www-958.ibm.com/software/data/cognos/manyeyes/visualizations/network-diagram-of-jlbaleph1
Vi
Carlos Argentino
Daneri
Mapa de las elecciones USA 2016_1
https://www.nytimes.com/interactive/2018/upshot/election-2016-voting-precinct-
maps.html?fallback=0&recId=1Bes80GKMQ3SsxZKWastk3TSVVn&locked=0&geoContinent=SA&geoRegion=C&re
cAlloc=thompson_sampling_story&geoCountry=AR&blockId=signature-journalism-
vi&imp_id=527898599&action=click&module=editorContent&pgtype=Article®ion=CompanionColumn&contentColl
ection=Trending#3.15/37.22/-86.02
Mapa de las elecciones USA 2016_2
https://www.nytimes.com/interactive/2018/upshot/election-2016-voting-precinct-
maps.html?fallback=0&recId=1Bes80GKMQ3SsxZKWastk3TSVVn&locked=0&geoContinent=SA&geoRegion=C&re
cAlloc=thompson_sampling_story&geoCountry=AR&blockId=signature-journalism-
vi&imp_id=527898599&action=click&module=editorContent&pgtype=Article®ion=CompanionColumn&contentColl
ection=Trending#3.15/37.22/-86.02
http://www.visual-literacy.org/periodic_table/periodic_table.html
Mineria de textos sobre el concepto Felicidad
¿Es posible construir un mapa general de un
determinado concepto (“La Felicidad”)
sobre el cual ubicar a cada uno de los diferentes
targets?
Felicidad
La metodología utilizada
1. 1000 entrevistas abiertas conceptualizando sobre la felicidad.
2. Creamos un primer Escenario o Diccionario Semántico sobre la Felicidad.
3. Indexamos 200.000 posts en Argentina sobre el tema.
4. Se revisó y enriqueció el Escenario - Diccionario original.
5. Expusimos al mapa un discurso espontaneo: 147 comentarios de internautas acerca de la felicidad en un blog femenino (Historias de mujeres emprendedoras).
6. Conclusiones - Recomendaciones
1000 entrevistas – Estudio Omnibus; pregunta abierta
Sobre este texto se construyó un primer
escenario
La Felicidad según variables demográficas
Mapa de textos
Dinámica del discurso (verbalizaciones) y la adjetivación utilizada.
El Escenario de las 1000 encuestas: Nodos semánticos
¿Que es lo que hicimos?
Tomamos un target muy especifico: Mujeres lectoras de un blog de Yahoo! Mujer enfocado a aquellas mujeres “que no se creen el sexo débil”
Se procesaron aproximadamente 150 comentarios , como opinión a una nota sobre la Felicidad
Nuestra premisa fue encontrar la manera en la que estas mujeres entienden la Felicidad y donde se ubica es concepto en nuestro mapa semántico del tema: Que conceptos están cerca y lejos
del concepto principal? Que palabras utilizar para
involucrarlas? Con que tono hablarles del tema?
¿Cuales fueron los conceptos mas repetidos en el texto?
El mismo discurso sobre la felicidad esta ahora segmentado a partir de las voces de quien lo emite
¿Cuales fueron los conceptos mas repetidos en el corpus?
Pasados por el algoritmo clasificador, los conceptos que mas se repitieron en el discurso fueron los siguientes.
• Momentos, tiempo. • Vivir. • Amor, amistad, afectos. • Logros, objetivos, ideales. • Uno, yo, persona. • Problemas y necesidades. Felicidad
La diferencia entre los mapas de la Felicidad para distintos targets
1000 casos
Mujeres emprendoras
Web2.0
Ejemplo-6.3.4
Conclusiones
MÁS ES DIFERENTE…. OPORTUNIDADES!
Las inmensas masas de datos que producen las organizaciones
científicas, empresariales y gubernamentales contienen
conocimiento valioso, que puede ser capturado si aprendemos a
detectarlo, extraerlo y leerlo.
El Big Data ha traído consigo, un conjunto de nuevas metodologías
y técnicas de análisis y gestión de la información, y también
profesiones emergentes: el científico de datos, el analista de
información, el experto en visualización
Posibles acciones en nuestro Ecosistema
Utilización de nuevos recursos metodológicos e informáticos para
preparación, análisis y presentación de la información.
Una inmersión más activa y profunda en el conocimiento y en fluir
interdisciplinario.
Explorar mas velozmente los modelos de representación de otras
disciplinas.
Formación de investigadores en Ciencia de los datos.
Algunos terminos en Ciencia de los datos Big Data
Representación de los datos
Visualización de datos y de
Informacion
Algoritmos
AI (Inteligencia Artificial)
Machine Learning
Soluciones Analiticas
Data Science
Aplicaciones
t-SNE
Analíticas
Deep Learning
Redes neuronales
AWS y Ad manager
Blockchain
Fake news
Qué es la Investigación en nuestro ámbito?
Investigación incluye todas las formas de estudios
Sociales, de Mercado, y de Opinión y el Análisis de
Datos; es la recopilación e interpretación sistemática de
Información sobre individuos y organizaciones. Utiliza
los métodos y técnicas estadísticos y analíticos de las
ciencias sociales, del comportamiento y de la información.
Sirve para generar conocimiento y apoyar la toma de
decisiones de proveedores de bienes y servicios, de
gobiernos, de organizaciones sin fines de lucro y del
público en general.
Fuente: Definición Oficial de ICC/ESOMAR
o Soy un viejo Investigador de Mercado
o Me gusta jugar con las Matemáticas
o Soy la primera camada de Data Mining en la UBA (2004)
o Aunque admiro a los grandes maestros, veo con sumo placer el arte en
las cuevas de hace 30000 años, en las obras de Banksy y en la
visualización de información.
•
Gracias