encontrando estructura en grandes volúmenes de datos
TRANSCRIPT
![Page 1: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/1.jpg)
Encontrando estructura en
grandes volúmenes de datos
ACIS 13 de julio 2017 Carenne Ludeña
Facultad de Ciencias Básicas
![Page 2: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/2.jpg)
Sobre mi trabajo:
• Profesora/investigadora en estadística
• Intereses: estadística, modelos, minería de datos, grafos, texto y aplicaciones.
• Desde 2000’s: maestría en Modelos Aleatorios (Venezuela).
• Consultorías en petróleo, telecomunicaciones, riesgo.
• 2017 MIAD y Maestría Modelado y Simulación Utadeo
• Desde 2011 consultora en firma de BI: Matrix CPM Solutions (Venezuela, Colombia, Mexico). Matrix junto con Evolution technologies han puesto en marcha varias soluciones Big Data (Hadoop y HFS) en telecoms y bancos en Colombia. En Venezuela se desarrolló una solución de monitoreo de twitter para Alcaldías en partenariato con la ONG Convite. En la actualidad modelos de estadística y analítica junto con BI clásica
![Page 3: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/3.jpg)
Ciencia de datos
![Page 4: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/4.jpg)
Objetivo: extraer información de los datos
Proceso Herramientas Problemas Métodos Datos Grandes
volúmenes
![Page 5: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/5.jpg)
Proceso
Datos Procesamiento de Datos
Limpieza de Datos
Análisis exploratorio
Modelado y algoritmos
Reportes y visualización
Toma de decisiones
![Page 6: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/6.jpg)
Herramientas
![Page 7: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/7.jpg)
Problemas
![Page 8: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/8.jpg)
Datos vs Información
Muchos datos, pero muy complicado visualizar patrones
cuando hay muchos datos en espacios de muy alta
dimensión.
Se necesitan mecanismos que permitan extraer información
de manera automatizada: entender la estructura
Z=aX+bY+c
![Page 9: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/9.jpg)
Qué tipo de problemas:
Clasificación de objetos
Predecir resultados
Agrupar objetos similares y encontrar vecinos más cercanos
Encontrar subconjuntos frecuentes (análisis de canasta)
Evolución de variables y procesos en el tiempo
Variabilidad especial
Simplificación de modelos (la navaja de Occam: 1287-1347)
Problemas
![Page 10: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/10.jpg)
Si modelo muy simple se introduce un sesgo
Si modelo muy complejo se produce un sobreaprendizaje
Esquema: entrenamiento y prueba para encontrar el punto justo entre sesgo y sobreaprendizaje
Complejidad
Aprendizaje y generalización
![Page 11: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/11.jpg)
Métodos
![Page 12: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/12.jpg)
Qué tipo de objetos (data):
Datos planos (texto, hoja de cálculo)
BD relacionales
Grafos (bases de datos de grafos)
Texto
Series temporales (2D)
Imágenes y espacial(3D), Videos (4D)
Streams (datos de sensores, telefonía móvil,…)
Datos
![Page 13: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/13.jpg)
Big Data = Nuevas necesidades en el análisis de datos
Esquema escalable de almacenamiento y replicación de datos Paralelización (no es posible trabajar en serie) Evitar “mover” la data: paradigma map reduce Problemas espacio: datos no caben en un servidor Trabajar localmente y agregar modelos
![Page 14: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/14.jpg)
Big Data: esquemas en paralelo
![Page 15: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/15.jpg)
Hadoop
El kernel central tiene dos
componentes: HDFS y MapReduce
HDFS: es un sistema distribuido
de archivos (o datos) que
gestiona almacenamiento y
replicación de datos dentro de un
cluster Hadoop
MapReduce es el paradigma de
computación mediante el cual
Hadoop lleva a cabo el
procesamiento paralelo y
distribuido de los datos
Bibliografía: Tom White-Hadoop the
definitive guide
![Page 16: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/16.jpg)
MapReduce
![Page 17: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/17.jpg)
Trabajar localmente y agregar modelos
Reducción de dimensión: Análisis de components principales, métodos de kernel, métodos jerárquicos
Algoritmos “one pass”
Esquemas eficientes
![Page 18: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/18.jpg)
Esquemas eficientes : Muestreo y proyecciones aleatorias
Muestreo: menos datos=información (casi)
Proyecciones aleatorias (funciones hash): subespacios y vecinos aproximados
![Page 19: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/19.jpg)
Minería de texto
Minería de texto (NLP)
Más allá de análisis de frecuencias
Análisis de documentos por contenido de
palabras (verbos, sustantivos, adjetivos)
Matrices documento-texto Sparce
Data plana
Distancias entre documentos
Distancias entre palabras
Análisis de texto
![Page 20: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/20.jpg)
Incorporando más estructura
Análisis de sentimientos: comparación contra “diccionarios” fijos
Contenido latente: modelos jerárquicos (factores latentes)
•LDA
•Aprendizaje profundo (DL)
Clasificación y agrupamiento (clústers) de documentos
•Distancias entre documentos
•Distancias basadas en tópicos
Más allá: estructuras de grafos sobre (conjuntos de palabras) documentos.
Análisis de texto
![Page 21: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/21.jpg)
Para terminar….
Análisis twits: cuenta @soymaratonista
Tesis Sherezade Rivas, UCV 2016
![Page 22: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/22.jpg)
Deep learners
Obtener atributos (features) que faciliten definición de conceptos
LDA: Latent Dirichlet allocation (modelo no supervisado Bayesiano) (R)
Deep Boltzman machines: redes neurales con muchos niveles en un esquema jerárquico (H2O + R, TensorFlow)
Reconocedor de
caras de Google
Tópicos
Documentos
Tópicos/Doc
Palabras
Métodos jerárquicos como reductores de dimensión:
![Page 23: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/23.jpg)
Para terminar….
Análisis twits: clústers
LDA
K-medias
Aprendizaje Profundo
![Page 24: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/24.jpg)
Encontrando documentos similares
Texto como grafos multiniveles
Cálculo de entropías asociados a grafos
multiniveles
Agrupamiento por cantidad de
información: entropía pequeña si no hay
mezcla de capas (documentos)
Tesis Gibrán Otazo, USB EUREKA2016
![Page 25: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/25.jpg)
Métodos de entropía para grafos
Laplaciano
Entropía de Von Neumann
Entropía de Von
Neumann de la pila
V es pequeño si no hay heterogeneidad
![Page 26: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/26.jpg)
Aplicación
Tweets: #election2016 (Friday 25/11)
Preprocesamiento y agrupamiento en R
Lento: cálculo del espectro de matrices sparce grandes. Aproximación autovectores efectivos (K=5, 10, 20, 30)
Método de construcción del grafo:
– Adj
– l-distancia
Clustering: mapas de calor, dendogramas y nubes de palabras
![Page 27: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/27.jpg)
Nubes de palabras por método de entropía
![Page 28: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/28.jpg)
Ejemplo con Tableau + MongoDB
Recolección y procesamiento de datos R
TwiteR API
Almacenamiento y visualización
Otras redes: Pinterest (rpinterest), Instagram (InstaR), youtube (tuber),….
En desarrollo aplicaciones
![Page 29: Encontrando estructura en grandes volúmenes de datos](https://reader035.vdocumento.com/reader035/viewer/2022070307/62be8f5d98c5d7550e25e6e7/html5/thumbnails/29.jpg)
GRACIAS!