Datos de línea base de twitter para analizar el comportamiento de los netcenter

Desde hace un tiempo tengo pendiente usar Twint para obtener datos públicos de Twitter. Voy a describir lo que he ido haciendo en los últimos días con esta herramienta. Mi interés en este tema es tener una línea de base para investigar el comportamiento de las personas en Twitter y ver si es posible detectar los famosos net-centers. Ya hay precedentes de esto como por ejemplo este análisis de Waxenecker, H en 2017 en donde analizó los datos de un par de hashtags. En 2018 Luis Assardo publicó este artículo sobre netcenters en Guatemala en el que discute cómo operan y cuáles son sus propósitos. En 2019 Luis Assardo también hizo una investigación sobre redes de “bots” en Guatemala junto a dos académicos con mucha experiencia en ese tema:  Suárez Serrato quien colaboró con su experiencia en metodología cuantitativa para detectar cuentas automatizadas en twitter y Erin Gallagher. El método cuantitativo utilizado en ese análisis para clasificar una cuenta como cuenta robótica o no se llamaba BotOrNot y ahora se llama Botometer. Esta herramienta fue creada y diseñada para detectar cuentas robóticas en inglés pero Suárez Serrato  lo aplicó a datos en español.  En 2019 también se publicó el “Informe de Bots, Netcenters y combate a la impunidad” en Guatemala por la CICIG, la cual siempre fue foco de polémica política por el forcejeo en escándalos de corrupción gubernamental y empresarial.   El netcenter es un concepto que no coincide exactamente con el de botnet. Un bot es un agente automatizado, una inteligencia artificial o algoritmo. En el caso de Guatemala lo que hemos visto ha sido cuentas que aparentemente son manejas por humanos (no automatizadas) que interactúan y apoyan o atacan a ciertos actores. Sin duda hay bots que se dedican a dar likes, retweets, respuestas automatizadas, pero las cuentas centrales son claramente manejadas por humanos con un sesgo bien claro. La idea es que esas personas o sicarios digitales, como diría Luis Assardo, se dedican laboralmente a estas actividades, reciben una remuneración y trabajan en una organización que se dedica a este negocio de propaganda. Esto lo asumo porque tanto esfuezo para difundir información falsa es muy improbable que sea gratuito. Aunque en definitiva hay personas personas que lo hacen gratuitamente, es evidente que ciertas cuentas en Twitter o páginas en Facebook tienen equipos enteros dedicados a influenciar las opiniones públicas en redes sociales. También nos hemos topado con personas que se obsesionan con ciertos temas en especial sobre teorías de conspiración o posturas violentas o discursos de odio. Gallagher habla de esto en este post; las redes sociales son adictivas y a menudo facilitan la manipulación masiva de personas mediante publicaciones que apelan al miedo u otras emociones para lograr la viralidad.   El sistema BotOrNot/Botometer está descrito en este artículo en el que menciona que usan Random Forests y métodos de machine learning supervisado con ensambles (es decir promediando o agregando las estimaciones de muchos modelos para obtener un resultado) y usan como entrada para su modelo de clasificación los detalles de cada usuario, sus seguidores y seguidos, las características de sus tweets, interacciones y contenidos, etc, utilizando más de 1,000 features para su clasificación. Es una lástima que Botometer no divulgue su algoritmo y su metodología detallada por lo que no es un método reproducible ni abierto. Sólo ofrecen una API que requiere que uno otorgue acceso a información personal de twitter. En realidad no necesitamos su algoritmo sino datos reales y son esos datos los que harían falta para reproducir este clasificador. Y esto es más difícil para los tweets en el contexto de Guatemala porque son tweets en español, con cierta coyuntura y lenguaje coloquial.   Pensando en esto y con la herramienta Twint a la mano, quería investigar este tema. En mi caso, he visto que estas cuentas de redes sociales no se basan tanto en torno en la automatización (bots) sino en la manipulación de la opinión. Hay un espectro que va desde cuentas centrales que se dedican a atacar y difundir noticias falsas o noticias distorsionadas para manipular la opinión sobre actores poderosos, hasta cuentas de personas comunes que adoptan o rechazan esas narrativas. Y en medio de ese espectro, o a un lado, claro que están los bots generando rewteets, likes, respuestas dummy, etc. Pero lo que yo llego a percibir son esos dos extremos: personas que adoptan narrativas promovidas por personas que se dedican por completo a difundirlas con una agenda de beneficio o daño de la imagen pública de actores políticos muy conocidos.   Al no tener datos para empezar a explorar esto lo primero que hice fue un par de scripts de python usando Twint que están en este repositorio en github:  https://github.com/Guitlle/Netcenteros . Tomé una muestra aleatoria de 37,212 tweets que hablaron sobre “Guatemala” (haciendo una búsqueda con Twint) entre Noviembre y Diciembre de 2020. De esta muestra aleatoria obtuve 23,141 usuarios distintos. Para cada usuario obtuve sus últimos 50 tweets y su perfil. Todo esto es información pública aunque según las reglas de Twitter no se puede publicar el nombre de los usuarios.   El siguiente paso será explorar estos datos y generar features para analizar sus características. El próximo paso será anotar estos datos y comparar los comportamientos de distintos tipos de usuarios como aquellos que generan contenido para atacar a actores políticos como los que lo adoptan esas narrativas, entre otros. De momento esto es solo una recolección de datos de línea base.     Esta gráfica muestra la correlación entre las métricas que he ido obteniendo de estos datos iniciales. Quiero ver cuánto puedo lograr con estos números básicos y luego comenzar a introducir análisis de lenguaje para tomar en cuenta el contenido y los patrones del lenguaje utilizados.   Si a alguien le interesa puedo compartir los datos que he recolectado.