análisis automático de comentarios generados por múltiples usuarios de twitter.com

28
Análisis automático de comentarios generados Por múltiples usuarios de Twitter.com Jorge Gálvez Gajardo Magister (c) en Ingeniería Informática PUCV

Upload: jorge-galvez-gajardo

Post on 08-Jul-2015

367 views

Category:

Social Media


0 download

DESCRIPTION

Presentación SOCHIL 2011

TRANSCRIPT

Page 1: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Análisis automático de comentarios generados Por múltiples usuarios de Twitter.com

Jorge Gálvez GajardoMagister (c) en Ingeniería Informática PUCV

Page 2: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Introducción

• Avión de US Airway hizo un aterrizaje forzoso en el río Hudson (2009)

• Terremoto 8.8 en Chile (2010)

• Protestas sociales alrededor del Mundo (2011)

• ¿2012?

Page 3: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Introducción

• 200 millones de tweets por día.

• 10 millones de páginas de libros.

• 31 ańos de lectura.

• 1.470 metros de altura si fueran libros apilados.

Fuente: Blog twitter.com 30 Junio de 2011

Page 4: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Necesidad

• Generar automáticamente un resumen y análisis de tweets para evitar leer cada uno de los comentarios. Entregando una visión global del contenido durante un periodo de tiempo.

Page 5: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

¿Qué es Twitter?• Aplicación en la web que permite a sus usuarios escribir

pequeños textos (de hasta 140 caracteres) que pueden ser leídos por cualquiera que tenga acceso a su página

• Existen cuentas privadas que son leídas solo con la autorización del usuario de la cuenta

Page 6: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

• Posibilidad de enlazar fotos

¿Qué es Twitter?

Page 7: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

• Posibilidad de divulgar enlaces

¿Qué es Twitter?

Page 8: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

• Posibilidad de enviar mensajes públicos a otros usuarios

¿Qué es Twitter?

Page 9: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

• Posibilidad de enviar mensajes privados a otros usuarios

¿Qué es Twitter?

Page 10: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

• Proporciona herramienta de búsqueda avanzada

¿Qué es Twitter?

Page 11: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

• Proporciona distintas API's :

Streaming: conjunto de tweets en tiempo real

Search: entrega tweets con una antigüedad de hasta 7 días, generando datos vía web y en formato XML o JSON

Rest: ofrece a los desarrolladores acceso a todos los datos de Twitter, entregando resultados en XML, JSON, RSS y ATOM

¿Qué es Twitter?

Page 12: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Modelo de Análisis

Page 13: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Extracción Twitter

Pre Procesamiento de Comentarios

Análisis de conjunto de tweets

Presentar resultados a usuarios

Page 14: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Extracción de Twitter

• Script recolectando las 24 horas del día comentarios generados por usuarios de Twitter.

• Almacenar tweets en base de datos para futuras consultas de procesamiento y análisis.

• Almacenar información adicional, como por ejemplo: autores para análisis de interacción.

Page 15: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Extracción de Twitter

Servidor

Page 16: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Pre procesamiento de comentarios

• Eliminar Stopwords

Artículos, pronombres, preposiciones, etc.

• Aplicar Stemming

Reduce una palabra a su raíz, por ejemplo las palabras bibliotecas y bibliotecario tendrán como raíz "bibliotec"

Page 17: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Análisis de conjunto de tweets• Relación de comentarios a través de gráfico de red.

• Frecuencia de palabras mas utilizadas.

• Análisis de links mas compartidos.

• Clasificación de sentido en menciones.

• Resumen de un conjunto de tweets.

Page 18: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Análisis de conjunto de tweets• Relación de comentarios a través de gráfico de red.

Fuente:

Page 19: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Análisis de conjunto de tweets• Frecuencia de palabras mas utilizadas.

Page 20: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Análisis de conjunto de tweets• Análisis de links mas compartidos.

Page 21: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Análisis de conjunto de tweets• Clasificación de sentido en menciones.

Utilizando máquinas de aprendizaje es posible categorizar en positivo, negativo o neutro tweets relacionados a un tema ene común

Page 22: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Análisis de conjunto de tweets• Resumen de un conjunto de tweets

Algoritmo de Luhn: asigna un peso a cada oración. Se eligen las oraciones con las puntuaciones más altas para generar ese resumen.

Propuesta Sharifi, Hutton y Kalita: analiza un patrón de frecuencia en tweets escritos sobre un tema en común.

Page 23: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Análisis de conjunto de tweets• Algoritmo de Luhn, noticia de emol.

Esta tarde, mientras se registraban intensas protestas en las calles de Santiago, un grupo de estudiantes ingreso a dependencias del canal Chilevision. Los manifestantes se mantuvieron mas de una hora dentro del recinto antes de comenzar a retirarse, a las 20:00 horas de hoy. Segun informo el relato en vivo de la toma, los estudiantes pidieron grabar un mensaje con sus demandas como condicion para desocupar las instalaciones del canal, lo que fue concedido. El mensaje que habria sido registrado aun no era transmitido por la estacion hasta las 20:17 de hoy. El grupo, formado por alrededor de 200 jovenes, entro hasta los pasillos de la estacion televisiva, donde se encontraban periodistas, funcionarios y personal de la estacion. La sorpresiva ocupacion se realizo de manera pacifica. Dirigentes de los alumnos dialogaron con directivos sindicales del canal, quienes mediaron para que no se produjeran incidentes de violencia. No obstante, se produjeron algunos forcejeos iniciales entre jovenes y trabajadores del canal, en el momento en que los ocupantes exigieron, con canticos y gritos, salir al aire en ese mismo momento. La noticia fue difundida masivamente a traves de Twitter a partir de las 19:00 horas.

(se eliminaron acentos)

Page 24: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Análisis de conjunto de tweets• Algoritmo de Luhn, comentarios Twitter

@sofiavaras porque no dejan dormir a los demas!!!!! y son socios de falabella y @RipleyChile que mañana tienen ofertas!!. manana @falabella, @RipleyChile y @almacenes paris seran felices porque todos iran a comprar ollas nuevas!!!. Habia olvidado decir que la nina de @CorpBanca que me llamo para responder inquietudes es un sol! Muchas gracias. Aprendan, @RipleyChile. No te pierdas la ultima oferta Happy Hour de la semana!!! Netbook Acer AOD255E $99.990.- http://bit.ly/pVyZNE. RT @stark: me tope oferton d @ripleychile en diario: iPod Nano 8GB a $50 mil solo hoy. hay 500 en PA y 500 en ALC. http://twitpic.com/5ybvun. Ta q lo pase bien anoche en el lanzamiento del AppleShop de @RipleyChile http://yfrog.com/gypehvxgj

(se eliminaron acentos)

Page 25: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Análisis de conjunto de tweets• Propuesta Sharifi, Hutton y Kalita

Page 26: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Ministerio del DeportePiñera firma proyecto que crea

Comentarios de Twitter extraídos desde buscador relacionados con "Ministerio del Deporte"

Page 27: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Conclusiones y Trabajo Futuro• Dada la gran cantidad de información, se hace necesario

automatizar procesos que nos ayuden a comprender todo lo que se escribe

• Esta herramienta nos ayuda a entender de mejor manera lo que se esta comentando.

• Surge el problema de encontrar palabras mal escritas, por lo que existe la necesidad de normalizar comentarios en redes sociales.

• Como nuevas metas se podría discriminar lingüísticamente la forma de escribir en torno a determinado tema para un mejor análisis.

Page 28: Análisis automático de comentarios generados por múltiples usuarios de Twitter.com

Gracias, ¿preguntas?

Twitter: @Jorge_Galvez