detectar conversacion 'bot' en twitter
TRANSCRIPT
¿Cómo detectarconversación ‘bot’?
COMUNIDAD TWITTER
Jorge Peñalva, CEO en Séntisis y Emilio Ortiz, director de Data Science en Séntisis
Hola, trabajamos en Séntisis y somos:
¿QUÉ ES SÉNTISIS? Inteligencia de Lenguaje Natural
v
43%
57%
Comentarios Informativos
Comentarios Espontáneos
72%
1%
Comentarios Personas
Comentarios Tuitstars
27% Comentarios Empresas
1% Bots
El Banco Santander ganó 5.966 millones de euros en 2015, lo que supone un aumento del 2,6% con respecto a 2014
CONVERSACIÓN
EL PAÍS @el_pais
CATEGORÍA Medio Informativo Informativa
RASGOS LINGÜÍSTICOS
Se identifica conversación en 3ª persona con rasgos claramente informativos
Parece que hay problemas con el wifi y los datos móviles de los culés, no se lee a ninguno.
CONVERSACIÓN
Colmenero @Colmenero
CATEGORÍA Comentario de Tuitstars Irónica
RASGOS LINGÜÍSTICOS
Alto porcentaje de expresiones irónicas o de tuistars: “Parece que”, “yo + gerundio”, “cuando + te + verbo tercera persona”, ...
¡¡Enhorabuena por una final épica!! #SeQuedaEnMadrid
CONVERSACIÓN
CATEGORÍA Comentario de Empresas Empresarial
Heineken España @Heineken_ES
Banco Santander @bancosantander
EJEMPLO SERVICIO/PRODUCTO INTANGIBLE
EJEMPLO PRODUCTO
RASGOS LINGÜÍSTICOS
Uso de hashtags y campañas
RASGOS LINGÜÍSTICOS
Uso de comunicación coorporativa positiva
#BancoSantander DIRSE se adhiere a la Red de Cátedras Santander de Responsabilidad Social
La justicia española archiva definitivamente el caso Humberto Moreira. “no hay indicio para vincularlo a los Zetas”
CONVERSACIÓN
CATEGORÍA Persona u Espontáneo Personas
Carlos Quiónes @sabio28
EJEMPLO COMPARTIR OPINIÓN MEDIÁTICA
Que rica es la heineken, cuanto tiempo sin tomarme una !!
Dr. Saturno @Edderdallacosta
EJEMPLO CONVERSACION ESPONTANEA
Ladrones, corruptos, peligro para México La Justicia española archiva definitivamente el caso Moreira
Carlos E. Rodriguez @gruporeyna
EJEMPLO OPINIÓN SESGADA POR MEDIO
RASGOS LINGÜÍSTICOS
Segmentar por rasgos transversales: atención a cliente o experiencia de producto, opinión+informativo, sólo informativo
Erdogan afirma que las mujeres que no tienen hijos son "mit... http://www.20minutos.es/noticia/2765122/0/erdogan-turquia-mujeres-madre/ … | https://twibble.io
CONVERSACIÓN
CATEGORÍA Bots Bots
Eloisa Cabrera @cabrelois
RASGOS LINGÜÍSTICOS
Semántica con estructuras repetidas. Otros rasgos: Info demográfica, histórico, similar a otros usuarios
Los alérgicos, ante su particular 'vía crucis': el polen de... http://www.20minutos.es/noticia/2763717/0/alergia-polen-graminea-olivo-parietaria/ … | https://twibble.io
1. Un usuario que:
• No piensa en su contenido
• No genera contenido original
• En ocasiones su comportamiento es normal
¿Cómo definimos a un bot?
Entendemos por conversación bótica toda aquella
conversación que no es generada de manera natural
“
2. Su información:
• Puede ser relevante
• Debe analizarse por separado
Categorización Semántica
Histórico Temporal
Extracción de Información
Métricas
Información Demográfica HERRAMIENTAS
METODOLOGÍA
Grafo:
• Contenido original
• No retweets
• Filtrado por frecuencia
Marzo 2015
• 300k tweets analizados
• 110k usuarios
1% de Bots
CASO 1. DE PERSONA A MEDIO
Intención/informa
0% 20% 40% 60% 80% 100%
Obama
Persona relacionada
Cita declaración
Intención/anuncia
Lugar relacionado
Cita acción
Atributo
Eventos
Tema/Orden público
Federico J. Rodríguez @tuitermann
#Tweets
259
Periodista. Redactor Jefe y Editor de programas informativos de Fuengirola Televisión y Radio (FTV) Antes: La Opinión de Málaga y Diario Málaga Costa del Sol
#Retweets
0#Tweets
259
~100% conversación es una noticia o similar
CASO 2. CONTENIDO MONOTEMÁTICO
0% 20% 40% 60% 80% 100%
p.v./Librería-Papelería
?Juan Siseón Canet Gregori @canetgregori
#Tweets
992
Escritor-Ilustrador de mis libros-pintor y dibujante artístico.. Puedes verlo http://amzn.to/1QQ4qom
#Retweets
1#Tweets
993
Texto Completo+ URL
Juan Siseón Canet Gregori @canetgregori
#Tweets
992
Escritor-Ilustrador de mis libros-pintor y dibujante artístico.. Puedes verlo http://amzn.to/1QQ4qom
#Retweets
1#Tweets
993
?
??
?
CASO 3. PATRÓN SINTÁCTICO
Clim Edis @ClimateEd
#Tweets
636Property in Spain
#Retweets
0#Tweets
636
“Venta Apartamento en” + LUGAR + por + COSTE
CASO 4. DE PATRÓN SINTÁCTICO A PATRÓN TEMPORAL
Ines k @Inesk14
#Tweets
132Kr #1
#Retweets
179#Tweets
311
0
50
100
150
2016 - 03 - 03 01:00
2016 - 03 - 07 01:00
2016 - 03 - 11 01:00
2016 - 03 - 15 01:00
?
??
?
CASO 5. EN OCASIONES VEO BOTS
Comportamiento “Normal”
Karen Castañeda @SKarenMC
#Tweets
531Deja atrás el orgullo & déjate amar..! :3
#Retweets
6#Tweets
537
0
50
100
150
2016 - 03 - 07 01:00
2016 - 03 - 11 01:00
2016 - 03 - 15 01:00
2016 - 03 - 19 01:00
Karen Castañeda @SKarenMC
#Tweets
531Deja atrás el orgullo & déjate amar..! :3
#Retweets
6#Tweets
537
0
50
100
150
2016 - 03 - 07 01:00
2016 - 03 - 11 01:00
2016 - 03 - 15 01:00
2016 - 03 - 19 01:00
Comportamiento “Bot”
?
??
?
CASO 6. ATAQUE GRUPAL ¿TROLLS O BOTS?
?
Bankia: retira los barrotes anti-indigentes de tus sucursales #losprincipiosdebankiahttp v\xeda @change_es
0
50
100
150
2016 - 03 - 15 01:00
2016 - 03 - 19 01:00
2016 - 03 - 23 01:00
2016 - 03 - 27 01:00
?
??
?
CASO 7. PUBLICIDAD REPETIDA
El Patotas @ElPatotasBlog
#Tweets
531
El Patotas te cargará de risa. / Humor ácido, Chistes, Imagenes, Burlas.
#Retweets
6#Tweets
537 Siempre referencia a su blog
0
50
100
150
2016 - 03 - 07 01:00
2016 - 03 - 11 01:00
2016 - 03 - 15 01:00
2016 - 03 - 19 01:00
CASO 8. DE MISMAS FUENTES A CUENTAS REPETIDAS
0% 20% 40% 60% 80% 100%
vertele.com
formulatv.com
puromarketing.com
ift.tt
Mari Carmen Arranz @MamenArranz
#Tweets
71
Periodista. Redactora de tv. Buscando programa que me acoja :)
#Retweets
0#Tweets
71
Distribución de referencias a webs
vertele.com
formulatv.com
puromarketing.com
ift.tt
0% 20% 40% 60% 80% 100%
Mamen @RedaccionTv
#Tweets
69
Periodista. Redactora de televisión.
#Retweets
0#Tweets
69
Distribución similar Detección de cuentas repetidas
CASO 9. FAN BOTS
Natalia Orozco KR @nataliaorozcoro
#Tweets
69
Fans del mejor @KEVINROLDAN
#Retweets
0#Tweets
69
Al menos 10 cuentas de la
“misma persona”
NataliaOrozcokr @nataorozco10
Fans del mejor @kevinroldan
@nataliaorozcoro @Nataorozcoro01 @nataorozcoro02 @Nataorozcoro03 @nataorozcoro04
@nataorozcoro05 @nataorozcoro06 @nataorozcoro07 @nataorozcoro09 @nataorozcoro08
@nataorozcoro10 @Natalia39467430 @Natha_KR @NathysKR @krmaniaca
NataliaOrozcoKr @Nataorozcoro01
Amo la vida una mujer decidaMás de 10 cuentas adicionales con el mismo contenido
?
??
?
CASO 10. NOMBRES Y DESCRIPCIONES “ESTÁNDAR”
Eloisa Cabrera @cabreloisCuando más obscuro está, es porque ya no tarda en amanecer!!
● Patrones lingüísticos
● Referencia a medios
● Patrón temporal
Erdogan afirma que las mujeres que no tienen hijos son "mitad personas” http://www.20minutos.es/noticia/2765122/0/erdogan-turquia-mujeres-madre/ … | https://twibble.io
Los alérgicos, ante su particular 'vía crucis': el polen de gramíneas y olivos está en su etapa álgida http://www.20minutos.es/noticia/2763717/0/alergia-polen-graminea-olivo-parietaria/ … | https://twibble.io
Jorge Fernández ve tácticas de kale borroka "de cuando ETA asesinaba” en Gràcia http://www.20minutos.es/noticia/2765058/0/jorge-fernandez-alerta-que-gr-cia-hay-tacticas-kale-borroka-cuando-eta-asesinaba/ … | https://twibble.io
Nosotros proponemos el tema, tú mandas las fotos http://www.bbc.com/mundo/video_fotos/2016/06/160603_finde_galeria_lectores_viajes_men … | https://twibble.io
Yorline Nava @yorlnavEl mundo necesita mucho más amor de lo que crees, vive en amor y con amor #TransformaTuVida
Paula Figueroa @gueropauMi mejor carta de presentación es mi sonrisa!!
Alejandra Torres @alandtorSonríe, vale la pena ser feliz!!!
Karen Sandoval @karsandlCree que lo puedes hacer y lo harás!!
Podemos propone prohibir Uber por atentar contra los taxistas http://www.20minutos.es/noticia/2762963/0/podemos-propone-prohibir-uber/
¿Cómo detectar un bot?
● Patrones semánticos
● Patrones sintácticos
● Patrones temporales
● Mismos fuentes/links
● Trolls en grupo
● Fan Bots
● Nombres o descripciones “bóticos”
Y muchos más,descubiertos ypor descubrir...