generación adaptativa de consultas para la recuperación temática de tweets

Upload: emiliano-harpocratesouroboros-ac

Post on 24-Feb-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 Generacin Adaptativa de Consultas Para La Recuperacin Temtica de Tweets

    1/8

    Generacion adaptativa de consultas para la recuperaciontematica de tweets

    Adaptive query generation for topic-based tweet retrieval

    Juan M. Cotelo, Fermn L. Cruz, Jose A. TroyanoDep. de Lenguajes y Sistemas Informaticos

    Universidad de SevillaAvda. Reina Mercedes s/n

    41012 Sevilla{jcotelo,fcruz,troyano}@us.es

    Resumen: Twitter se ha convertido en un recurso con gran potencial a la hora deanalizar los estados de opinion acerca de temas de actualidad. En el presente trabajomostramos la metodologa utilizada para la obtencion de un corpus de mensajes de

    Twitter relacionados con las elecciones generales espanolas del 20 de noviembre de2011. Dado que el acceso a los mensajes en Twitter se realiza mediante consultas,hemos estudiado diversas estrategias de construccion de dichas consultas, tratandode maximizar la cobertura obtenida. Tras experimentar con diversos acercamientos,se propone un metodo basado en grafos que permite la captura de tweetsrelacionadoscon una tematica determinada, adaptando dinamicamente las consultas utilizadaspara incorporar automaticamente los temas relacionados que eventualmente vayansurgiendo. El recurso obtenido, de gran utilidad, entre otros, en trabajos de analisisdel sentimiento, esta publicamente disponible para su utilizacion.Palabras clave:Recuperacion de informacion, Twitter, analisis de grafos

    Abstract: Twitter has become a resource of great potential for analyzing opinion

    about hot topics. In this paper we show the methodology used for obtaning a corpusof Twitter messages related to the Spanish general elections of November 20, 2011.Given that access to Twitter messages is done through querying, we have studiedvarious strategies for building such queries, trying to maximize the coverage. Af-ter experimenting with several approaches, we propose a graph-based method thatallows retrieval of tweets related to a specific topic, dynamically adapting the queriesto automatically include related topics that eventually arise. The obtained resource,very useful for, among others, sentiment analysis tasks, is publicy available for use.Keywords: Information retrieval, Twitter, graph analysis

    1. Introduccion

    Twitter ha obtenido mucha atencion en elcampo investigador en los ultimos anos debi-do principalmente a dos factores:por un lado,un aumento exponencial en volumen tanto deusuarios como de mensajes; por otro lado, ladisponibilidad de una API publica para ac-ceder a los datos. Este reciente interes se hamaterializado en la creacion de multitud deaplicaciones web y trabajos de investigacionque abordan Twitter explotando las carac-tersticas de red social, evolucion temporal ybrevedad de los mensajes que exhibe.

    La captura de datos en Twitter no es tri-

    vial, permitiendose unicamente el acceso adatos mediante consultas compuestas princi-palmente por terminos de busqueda. La es-tructura de la red es tan amplia y grande, queno es facil determinar los terminos o usuariosmas relevantes respecto a lo que se quierecapturar, siendo impracticable capturar to-dos los tweetspor motivos tecnicos. Por ello,la construccion de consultas sobre Twitterque permitan la captura de datos relevantescon la suficiente cobertura es un problema in-

    teresante en s mismo.

    A pesar de ello, la mayora de los traba-jos de investigacion se conforman con la utili-

    Procesamiento de Lenguaje Natural, Revista n 48 marzo de 2012, pp 57-64 recibido 11-01-12 revisado 06-03-12 aceptado 18-03-12

    ISSN 1135-5948 2012 Sociedad Espaola para el Procesamiento de Lenguaje Natural

  • 7/25/2019 Generacin Adaptativa de Consultas Para La Recuperacin Temtica de Tweets

    2/8

    zacion de consultas simples para obtener losdatos. Dependiendo del problema abordadoen cada caso, esto puede ocasionar la perdi-da de datos interesantes y por tanto la ob-tencion de resultados y conclusiones parcial-mente incorrectos. En trabajos recientes rela-cionados con Twitter ((Agarwal et al., 2011)(Davidov, Tsur, y Rappoport, 2010a), (Davi-dov, Tsur, y Rappoport, 2010b), (Go, Bha-yani, y Huang, 2009), (Jiang et al., 2011),(Kim et al., 2009) (Pak y Paroubek, 2010),(Silva et al., 2011), (Tan et al., 2011), (Tu-masjan et al., 2010), (Hong y Nadler, 2011),(Pennacchiotti y Popescu, 2011), (Congosto,Fernandez, y Egido, 2011)), se utilizan unaserie de listas estaticas de terminos decidi-

    das manualmente; esta aproximacion es de-masiado simplista y no proporciona garantasde cobertura, precision y calidad. Una excep-cion sucede en el trabajo deGolbeck y Han-sen (2011) en la que parten del conjunto decongresistas a modo de semilla y lo expandena traves de sus seguidores para intentar de-terminar si existe algun enlace poltico entrelos congresistas y los medios de comunicacionusando a dichos seguidores como enlace. Sinembargo, no es un metodo general y muchomenos dinamico.

    Creemos que es necesario investigar nue-vos metodos de obtencion de datos de Twit-ter que mejoren la cobertura y sean capacesde adaptarse a la naturaleza dinamica de losmensajes de Twitter.

    2. Estrategias iniciales

    Inicialmente, se abordo el problema de la cap-tura de datos de Twitter mediante una se-rie de aproximaciones basicas como parte deltrabajo inicial exploratorio. Recordemos queestas aproximaciones son, en esencia, meto-

    dos para construir consultas sobre Twitter,pues es la forma en la que este permite elacceso a sus datos.

    2.1. Etiqueta central y lista

    estatica de terminos

    La primera aproximacion tomada durantela captura de tweets fue simple y directa.De manera intuitiva, se modela la existen-cia de un termino central que representa latematica en cuestion a ser explorada, siendo

    este termino muy frecuente y utilizado porla comunidad para dicha tematica. En Twit-ter es comun la utilizacion de etiquetas ohashtags, terminos ligeramente desambigua-

    dos que hacen referencia a algun tema de-terminado. Estos terminos comienzan por elcaracter #.

    La tematica objetivo utilizada en este tra-bajo son las elecciones generales espanolas del20 de noviembre de 2011. Para ello se deci-dio escoger como termino central la etiqueta#20N, siendo esta la etiqueta recurrente parahablar de las elecciones en Twitter.

    Esta tecnica navenos sirve como primeraaproximacion al problema de explorar el es-pacio de datos y como punto central en dichoespacio. Sin embargo, a pesar de su prolficouso en Twitter, la cobertura es insuficiente.Si nos quedamos con solo los datos obtenidosde esa consulta, podemos perder informacion

    altamente relacionada con las elecciones queno esta especificada de manera directa en lostweetsde esta etiqueta. Por ejemplo, es po-sible que perdamos mensajes importantes delos candidatos o de los partidos polticos.

    Una opcion para solventar el problema dela cobertura sera la generacion de una lis-ta de terminos adicionales relacionados conla tematica en lugar de un solo termino cen-tral, pero la cobertura dependera exclusiva-mente del criterio del experto que genera lalista. Ademas no se contemplaran posibles

    terminos que haran referencia a temas rela-cionados importantes que pueden aparecer alo largo del tiempo. En la siguiente seccionplanteamos un metodo que pretende solucio-nar este problema.

    2.2. Listas de terminos generadas

    dinamicamente

    La generacion de una lista estatica no res-ponde bien ante la naturaleza temporal deTwitter. El uso de los diferentes terminos yetiquetas vara significativamente a lo largodel tiempo, reduciendo la capacidad de co-bertura de una lista estatica a lo largo de unaventana de tiempo relativamente grande. Sinembargo, lo mas grave es la incapacidad deadaptarse para capturar eventos impredeci-bles que afectan a la tematica explorada encuestion.

    Para ilustrar esta situacion y tomando co-mo ejemplo la tematica de las elecciones ge-nerales, supongamos que el gobierno actualdecide instaurar una ley polemica o reaccio-

    na ante algun evento de forma igualmentepolemica, lo que puede terminar afectandosignificativamente a la opinion publica sobrelas futuras elecciones. Es muy probable que

    Juan M. Cotelo, Fermn L. Cruz, Jose A. Troyano

    58

  • 7/25/2019 Generacin Adaptativa de Consultas Para La Recuperacin Temtica de Tweets

    3/8

    surgiera una nueva etiqueta durante un tiem-po que representara ese evento, por lo que lostweetsusaran esa etiqueta para referirse a eseevento.

    Estos eventos de alta relevancia pero rela-tiva corta vida son muy importantes en Twit-ter y pueden ser de distinta naturaleza comodebates, desastres naturales, ataques terroris-tas, crisis economica o acciones polticas.

    Una estrategia para adaptarse al caractertemporal de Twitter es la de generar las listasde terminos dinamicamente, analizando losresultados tal como se van capturando y pu-diendo determinar que terminos son los masrelevantes en cada momento. Para el proble-ma que se describe en este artculo, la tecnica

    de bootstrapping nos permite ir actualizan-do el conjunto de terminos de busqueda deforma regular e iterativamente sobre s mis-mo. Cada cierto periodo estipulado, se realizaun computo del nuevo conjunto de terminosde busqueda a partir de los datos capturadosanteriormente durante una ventana de tiem-po determinada. A la tecnica descrita le faltaun componente fundamental: el algoritmo ometodo que se aplica a cada iteracion paradeterminar que terminos son mas relevantesen cada momento.

    2.2.1. Seleccion usando heursticasbasadas en la frecuencia

    Para poder seleccionar los terminos mas re-levantes en cada momento, una de las ideasmas simples que surgen es la de utilizarheursticas basadas en frecuencias, partiendode la etiqueta central como semilla para larecogida de tweetsy durante una ventana detiempo razonable.

    Se realizo un analisis que consistio enla elaboracion de listas de terminos ordena-das por relevancia, calculada mediante dis-tintas heursticas basadas en frecuencia: log-verosimilitud, la informacion mutua puntualy el test exacto de Fisher. Se realizo una lim-pieza de los datos de entrada para eliminarelementos no deseados como palabras huecas.El texto fue procesado para dejar solo nom-bres, adjetivos y verbos, ademas de los cons-tructos sintacticos especficos de Twitter ta-les como las menciones(@) y las etiquetas (#).

    Se obtuvieron listas de unigramas, bigra-mas y trigramas (con una ventana de ta-

    mano 4 para bigramas y trigramas) orde-nadas segun las heursticas anteriores, com-probandose los 100 primeros elementos decada lista. La lista de unigramas fue bas-

    tante satisfactoria, encontrando en ella mu-chos elementos relacionados con las eleccio-nes que, a priori, no se hubieran obtenidoa traves de una elaboracion manual. Aun-que de la lista de bigramas se obtuvieronasociaciones entre terminos muy interesantesy significativas con las elecciones como pue-den ser gobierno, crisis, PP, recortes ocambio, gobierno, la lista se encontraba lle-na de bigramas que contenan algun terminode la lista de unigramas o que eran de escasautilidad debido al ruido. La lista de trigramasno aporto informacion realmente interesante.

    Simplemente tomando los terminos masrelevantes de lista de unigramas (en este casolos 100 primeros) como una consulta combi-

    nada disyuntiva en Twitter, podemos captu-rar tweetsrelacionados con el tema represen-tado por #20N(elecciones generales) con unagran cobertura y de forma automatica.

    2.2.2. Seleccion usando medidas de

    relevancia en grafos

    El metodo anterior tiene ciertas desventajas,siendo la mas importante el no aprovecharla estructura de grafo que exhibe Twitter,tratando a las etiquetas y menciones comosimples terminos. Es mas, un analisis deta-

    llado de las listas revelo que la mayora delos terminos relevantes son etiquetas o men-ciones a usuarios importantes, por lo que unanalisis mediante algoritmos de grafos puededar mejores resultados. Por ello, surge la ne-cesidad de utilizar otras estrategias que ana-licen la estructura de grafos de Twitter, to-mando como semilla o punto de referencia laetiqueta central.

    Dado que Twitter es en realidad un grafoinmenso con varios tipos de relaciones, usa-remos PageRankcomo herramienta de anali-

    sis de enlaces para procesar dichas relaciones.PageRanknos permite obtener unrankingdenodos de un grafo en funcion de su relevanciadentro del mismo.

    El grafo sobre el que se computaPageRankse construye a partir de los datos capturadosde la ventana de tiempo especificada, gene-rando nodos para las etiquetas y los usuarios(# y @). La aristas del grafo entre nodos deusuarios y etiquetas representan lo siguiente:

    UsuarioUsuario: menciones

    UsuarioEtiqueta: uso de etiqueta

    EtiquetaEtiqueta: coocurrencia

    Generacin adaptativa de consultas para la recuperacin temtica de tweets

    59

  • 7/25/2019 Generacin Adaptativa de Consultas Para La Recuperacin Temtica de Tweets

    4/8

    El grafo resultante tiene aristas tanto di-rigidas como no dirigidas y el peso de cadauna de esas aristas viene determinado por elvolumen de tweets de la situacion represen-tada. Con esta ponderacion que hace uso delas relaciones entre usuarios y etiquetas, seaplica PageRanksobre el grafo ponderado yse obtiene el ranking de nodos mas relevantesen la red, siendo cada nodo un termino quepuede ser tanto etiqueta como usuario.

    La ventaja que tiene el analisis de grafosfrente el analisis estadstico es que al analizarlas relaciones entre los nodos podemos descu-brir elementos de alta relevancia pero de bajovolumen de ocurrencias que un analisis basa-do en frecuencia no captara. Este metodo de-

    tecta elementos como #anguitaporcordobaque tienen poder mediatico pero no se in-cluiran si tenemos en consideracion solamen-te el volumen; se incluyen porque al aplicarPageRank, estos coocurren o son menciona-dos por elementos que tienen una relevanciadirecta mayor. En pocas palabras, se favore-cen los elementos que son referenciados porotros elementos ya relevantes.

    Al aplicar el metodo a intervalos de tiem-po, utilizando en cada iteracion el conjuntocompleto de tweets obtenidos en el paso ante-

    rior, se observa un comportamiento no desea-do: el conjunto de terminos diverge demasia-do, separandose de la semilla inicial cada vezmas.

    Para ilustrar este efecto, se muestran los10 primeros terminos de las primeras cuatroiteraciones del metodo, ejecutadas cada 60minutos y usando como semilla #20N:

    1. #20n #15m @metroscopia @marianora-joy #15o #globalchange #occupyspain@llamamatrimonio @occupyspain @con-

    rubalcaba2. #fb @upyd @conrubalcaba #20n

    @anapastor tve #15m #t #15o #pp@marianorajoy

    3. #fb #nowplaying #thaiflood #su-matealrosa #nf #20n @conrubalcaba@1dupdates #t #15o

    4. #nowplaying #fb #sumatealrosa #nf#thaiflood #in #facebook @gllamaza-res @no al cancer @marianorajoy

    Se observa que cada iteracion se desvaaun mas de la tematica a explorar, pues ele-mentos como #nowplayingo #thaifloodno

    estan relacionados con lo que queremos cap-turar. Esto se debe a diversas causas:

    En las listas de terminos aparecen usua-rios que ademas de hablar de la tematicacentral (elecciones/poltica), pueden co-mentar sobre otras tematicas.

    Algunos temas de los que hablan losusuarios explorados son temas muy po-pulares en ese momento: #thaiflood,#cancerdemama o #spotify. Dichos te-mas acumulan muchas menciones de ma-nera temporal, entrando en la lista determinos mas relevantes mediante purovolumen.

    Una vez que un termino no relaciona-do con la tematica central gana una po-sicion en la lista de los mas relevantes,se capturan los tweets relacionados conese termino provocando una inunda-cion de informacion no relacionada conla poltica.

    Para solucionar este problema, se propo-ne una pequena variante del metodo en lacual se evita que la lista diverja con respec-to a la semilla central. En lugar de utilizar

    todos los tweetsrecuperados en el ultimo pa-so para la construccion del grafo, se utilizansolo lostweetsque contienen al termino semi-lla (en nuestro caso, #20N). Para una mejorcomprension, la figura 1muestra un diagra-ma intuitivo del metodo finalmente propues-to.

    Con este metodo se consigue, con un al-to grado de satisfaccion, solventar la pro-blematica existente sobre la generacion deconsultas para la captura de datos en Twit-ter, todo ello de forma iterativa, explotando

    la topologa de grafo que proporciona Twit-ter y controlando la induccion y cobertura delos terminos.

    3. Recurso generado

    Realizando una captura en tiempo real delos tweetsmediante el API de streaming queTwitter ofrece y usando el metodo de gene-racion de consultas expuesto en la seccion2.2.2 se genero un recurso que contiene in-formacion relevante a las actualizaciones de

    estado o status updates

    de ese periodo. Unstatus updatees una actualizacion del estadodel usuario ya sea mediante tweets, retweetso respuestas (replies).

    Juan M. Cotelo, Fermn L. Cruz, Jose A. Troyano

    60

  • 7/25/2019 Generacin Adaptativa de Consultas Para La Recuperacin Temtica de Tweets

    5/8

    Figura 1: Diagrama del metodo finalmente propuesto

    Campo Descripciontruncated Indica si el texto fue trun-

    cado por exceso de caracte-res

    retweetCount Indica el no deretweetsres-pecto al original

    id Identificador numerico deltweet

    createdAt Fecha y hora de creacion

    Tabla 1: Atributos del elemento

    3.1. Descripcion del recurso

    El recurso es una coleccion de archivosXML , cada uno de los cuales contiene lostweetscapturados durante una hora, a lo lar-go de todo el periodo de las elecciones es-panolas de 2011 (precampana, campana, dade las elecciones y el da despues de las elec-ciones), comprendiendo del 21 de octubre al

    21 de noviembre.Cada fichero posee la siguiente estructura

    general dividida en secciones:

    : Consulta de filtradousada (lista de terminos).

    : Coleccion de elementos capturados a lo largo del pe-riodo.

    El elemento representa una ac-

    tualizacion de estado. La lista de atributosdel elemento se muestra en la ta-bla 1 y la lista de subelementos se muestraen la tabla2.

    Sub-elemento DescripcioninReplyToStatusId Identificador del status

    al que este status haceuna respuesta

    inReplyToUserId Identificador del usua-rio al que estestatusha-ce una respuesta

    hashtags Hashtags referenciados

    source Medio de origentext Texto procesado finalurlEntities URL que aparecen

    user Usuario que realiza laactualizacion de estado

    userMentions Menciones a otros usua-rios que aparecen

    Tabla 2: Descripcion de los subelementos delelemento

    En esencia, el recurso generado conforma

    un corpus de Twitter que engloba el perio-do de las elecciones. En la tabla3 se muestrauna serie de metricas de interes sobre las ca-ractersticas mas generales del recurso, sien-do estas principalmente volumetricas. En lagrafica 2 se muestra de forma mas intuitivala distribucion global de los updatessegun sunaturaleza basica: retweets, replies (sean es-pecificas a unupdateconcreto o no) o tweetssencillos.

    3.2. Utilidad del recurso

    A continuacion se muestran a modo de ejem-plo una serie de resultados de analisis paradar ejemplo de la utilidad y la capacidad de

    Generacin adaptativa de consultas para la recuperacin temtica de tweets

    61

  • 7/25/2019 Generacin Adaptativa de Consultas Para La Recuperacin Temtica de Tweets

    6/8

    Metrica Valor# de users 1.587.930

    # de hashtags 195.985# de updates 5.724.612# de retweets 1.362.785# de replies 202.778

    # de status replies 683.305

    Tabla 3: Metricas generales del recurso

    Figura 2: Distribucion del volumen total deupdates segun su naturaleza.

    explotacion del mismo.

    Una de las formas mas simples y directasde analizar el recurso es mediante la com-paracion de las diferentes listas de terminosutilizadas a lo largo del periodo. De esta for-ma, de un simple vistazo, podemos observarcuales son los terminos mas relevantes parala comunidad twittera, correspondientes a laselecciones.

    Hemos escogido tres momentos interesan-tes inicio de la precampana, el debate de loscandidatos del PSOE y el PP a presidente yel da de las elecciones. La tabla 4 muestra

    los 10 terminos mas relevantes de estos trespuntos temporales.

    La visualizacion expuesta en la figura 3representa el grafo generado durante todo eldebate de los candidatos a presidente tal ycomo se especifica en la seccion2.2.2.Se hanetiquetado los nodos mas relevantes, cada no-do esta coloreado y escalado en funcion de supuntuacion de PageRanky las aristas estancoloreadas segun el promedio de los nodosque une.

    Twitter posee una naturaleza claramentetemporal que puede ser explotada a travesdel recurso. Para ilustrar un caso de analisistemporal, tomaremos la grafica de la figura4

    correspondiente al debate de los candidatosa Presidente del Gobierno por parte de lospartidos PSOE y PP. Esta grafica muestrala evolucion temporal de la relevancia de losusuarios @conrubalcabay @marianorajoyylas etiquetas#rubalcaba,#debatey#rajoy,donde las lneas finas muestran el valor realmientras que las lneas gruesas muestran latendencia utilizando una media movil de 6valores.

    Una de las primeras cosas que podemosobservar es la correcta deteccion de la etique-ta #debate y su relevancia debido a la apli-cacion del metodo expuesto basado en Page-Rank, siendo esta relevante solo en ese perio-do y llegando a superar al resto de terminos

    durante el propio debate. Se detecta el au-ge de etiquetas como #rajoy o #rubalcabaque experimentan un claro aumento duranteel debate y exhiben una interesante correla-cion con respecto a#debate, mientras que losterminos @conrubalcaba y @marianorajoyno sufren alteracion alguna y mantienen surelevancia relativamente estable a lo largo delperiodo.

    Como ultimo apunte, se observa queal final del periodo observado los termi-nos referentes al candidato Mariano Rajoy

    (@marianorajoy y #rajoy) quedan ligera-mente por encima de los terminos referen-tes al candidato Rubalcaba (@conrubalcabay #rubalcaba), tomando como referencia elvalor absoluto (lnea fina) sobre la tendencia,coincidiendo con los resultados de las encues-tas sobre el ganador del debate.

    Hay que tener en cuenta que ambas grafi-cas mostradas estan en escala logartmica pa-ra una mejor observacion y presentacion.

    4. Conclusiones

    El metodo propuesto permite recuperar lostweets relacionados con un tema determina-do, incluyendo automaticamente en las con-sultas utilizadas las nuevas etiquetas y usua-rios relevantes que vayan apareciendo en elperiodo en el que se realice la captura. Setrata de una mejor solucion a la empleadaen otros trabajos recientes relacionados conTwitter, especialmente en terminos de cober-tura y adaptacion a posibles eventos novedo-sos relacionados.

    El recurso obtenido esta disponible para

    su utilizacion publica1. Actualmente, esta-1http://www.lsi.us.es/~fermin/index.php/

    Datasets

    Juan M. Cotelo, Fermn L. Cruz, Jose A. Troyano

    62

    http://www.lsi.us.es/~fermin/index.php/Datasetshttp://www.lsi.us.es/~fermin/index.php/Datasetshttp://www.lsi.us.es/~fermin/index.php/Datasetshttp://www.lsi.us.es/~fermin/index.php/Datasetshttp://www.lsi.us.es/~fermin/index.php/Datasetshttp://www.lsi.us.es/~fermin/index.php/Datasets
  • 7/25/2019 Generacin Adaptativa de Consultas Para La Recuperacin Temtica de Tweets

    7/8

    Principio Debate Elecciones#20n #20n #20n

    @crparlamentaria #debate #elecciones20n#15m #eldebate #elecciones

    #nolesvotes #caraacara @antoniofraguas@psoe @conrubalcaba @kurioso

    @elconfidencial #reiniciaeldebate #votar@marta llorens @marianorajoy @el pais

    @gad3 com @ramonlobo #mesas20n@ppopular #seacaboelcirco @marianorajoy

    #pp @otrodiademierda @la ser

    Tabla 4: Terminos relevantes en tres instantes temporales

    Figura 3: Visualizacion del grafo correspondiente al debate

    mos empleando el recurso para llevar a cabosexperimentos de analisis de opinion y detec-cion de comunidades.

    Bibliografa

    Agarwal, Apoorv, Boyi Xie, Ilia Vovsha, Owen Ram-bow, y Rebecca Passonneau. 2011. Sentimentanalysis of twitter data. En Proceedings of theWorkshop on Language in Social Media (LSM

    2011), paginas 3038, Portland, Oregon, Junio.Association for Computational Linguistics.

    Congosto, M. Luz, Montse Fernandez, y Esteban Mo-ro Egido. 2011. Twitter y poltica: Informacion,opinion y prediccion? Cuadernos de Comunica-

    cion Evoca, 4.Davidov, Dmitry, Oren Tsur, y Ari Rappoport.

    2010a. Enhanced sentiment learning using twitterhashtags and smileys. En Proceedings of the 23rd

    Generacin adaptativa de consultas para la recuperacin temtica de tweets

    63

  • 7/25/2019 Generacin Adaptativa de Consultas Para La Recuperacin Temtica de Tweets

    8/8

    Figura 4: Evolucion temporal de los terminos @conrubalcaba, @marianorajoy, #debate,#rajoy y #rubalcaba antes y despues del debate de los candidatos. Escala logartmica en base2 (y =log2(y))

    International Conference on Computational Lin-guistics: Posters, COLING 10, paginas 241249,Stroudsburg, PA, USA. Association for Compu-tational Linguistics.

    Davidov, Dmitry, Oren Tsur, y Ari Rappoport.2010b. Semi-supervised recognition of sarcasticsentences in twitter and amazon. En Proceedingsof the Fourteenth Conference on ComputationalNatural Language Learning, CoNLL 10, paginas107116, Stroudsburg, PA, USA. Association forComputational Linguistics.

    Go, Alec, Richa Bhayani, y Lei Huang. 2009. Twittersentiment classification using distant supervision.En Processing.

    Golbeck, Jennifer y Derek Hansen. 2011. Computingpolitical preference among twitter followers. EnProceedings of the 2011 annual conference on Hu-man factors in computing systems, CHI 11, pagi-nas 11051108, New York, NY, USA. ACM.

    Hong, Sounman y Daniel Nadler. 2011. Does theearly bird move the polls?: the use of the so-cial media tool twitter by u.s. politicians and

    its impact on public opinion. En Proceedingsof the 12th Annual International Digital Govern-ment Research Conference: Digital GovernmentInnovation in Challenging Times, dg.o 11, pagi-nas 182186, New York, NY, USA. ACM.

    Jiang, Long, Mo Yu, Ming Zhou, Xiaohua Liu, y Tie-jun Zhao. 2011. Target-dependent twitter senti-ment classification. En Proceedings of the 49thAnnual Meeting of the Association for Compu-tational Linguistics: Human Language Techno-logies - Volume 1, HLT 11, paginas 151160,Stroudsburg, PA, USA. Association for Compu-tational Linguistics.

    Kim, E, S Gilbert, M J Edwards, y E Graeff. 2009.

    Detecting sadness in 140 characters: Sentimentanalysis of mourning michael jackson on twitter.

    Pak, Alexander y Patrick Paroubek. 2010. Twitteras a corpus for sentiment analysis and opinion mi-

    ning. EnProceedings of the Seventh InternationalConference on Language Resources and Evalua-tion (LREC10), Valletta, Malta, may. EuropeanLanguage Resources Association (ELRA).

    Pennacchiotti, Marco y Ana M. Popescu. 2011. De-mocrats, republicans and starbucks afficionados:user classification in twitter. En Proceedings ofthe 17th ACM SIGKDD international conference

    on Knowledge discovery and data mining, KDD11, paginas 430438, New York, NY, USA. ACM.

    Silva, Ismael Santana, Janana Gomide, Adriano Ve-loso, Wagner Meira, Jr., y Renato Ferreira. 2011.Effective sentiment stream analysis with self-augmenting training and demand-driven projec-tion. En Proceedings of the 34th internationalACM SIsGIR conference on Research and deve-lopment in Information, SIGIR 11, paginas 475484, New York, NY, USA. ACM.

    Tan, Chenhao, Lillian Lee, Jie Tang, Long Jiang,Ming Zhou, y Ping Li. 2011. User-level senti-ment analysis incorporating social networks. EnProceedings of the 17th ACM SIGKDD internatio-

    nal conference on Knowledge discovery and datamining, KDD 11, paginas 13971405, New York,NY, USA. ACM.

    Tumasjan, Andranik, Timm O Sprenger, Philipp GSandner, y Isabell M Welpe. 2010. Predictingelections with twitter: What 140 characters revealabout political sentiment. Word Journal Of TheIntenational Linguistic Association, paginas 178185.

    Juan M. Cotelo, Fermn L. Cruz, Jose A. Troyano

    64