Introducción

Un elemento central en la dinámica política de cualquier país consiste en la generación de un discurso que logré cohesionar al público alrededor de ciertos sentidos. Los nuevos medios sociales, como Facebook y Twitter, ya son parte de esa batalla por la legitimidad de las palabras. Pero además, en esta época de Trump, Brexit, populismos y “fake news”, la lucha simbólica parece decantarse ya no a los datos de la realidad sino a la apelación a emociones (Suiter 2016).

En abril de 2016 el presidente de Bolivia ha abierto una cuenta oficial de Twitter, con el nombre de @evoespueblo. Desde entonces se han realizado varios estudios descriptivos sobre su cuenta (Jordan 2017, Lopez 2017 y Trigo 2018). Nosotros aquí queremos ir un pequeño paso más allá realizando un estudio relacional sobre la construcción emocional de su discurso político, por lo que nos preguntamos ¿qué carga sentimental poseen sus tweets y cuáles logran mayor interacción?

El desplazamiento temático que hacemos consiste en ir de la supuesta racionalidad del discurso político hacia su emotividad, que parece ser el factor que activa más los flujos en las redes sociodigitales. La emotividad es una dimensión de análisis más válida en la política gubernamental del país, si además tomamos en cuenta que siempre ha sido un aspecto central en la construcción discursiva de los presidentes populistas (Cossarini y García 2015).

El presente estudio pretende ser tanto un acercamiento preliminar al análisis del discurso político en las redes, como también un aporte inicial a la metodología de análisis de los datos textuales en la Web. Una característica central de este tipo de datos es su abundancia y su falta de estructuración, por lo que intentaremos automatizar tanto la recolección como el análisis de la información, en un esfuerzo por utilizar “métodos digitales” (Rogers 2013) en las ciencias sociales.

Para ello utilizaremos principalmente el entorno de R, que es una herramienta de software libre bastante flexible1. R incorpora una gran cantidad de paquetes complementarios creados por su comunidad de usuarios y desarrolladores. Para nuestro caso concreto, R nos permite utilizar un lenguaje de programación, conectarnos a APIs de redes sociales, transformar los datos, analizarlos estadísticamente, visualizarlos y publicar los resultados, todo de forma integral y reproducible.

Recolección de datos

El primer paso al que nos enfrentamos es el de la recolección de una gran cantidad de datos textuales en la Web. La idea aquí es poder automatizar la recolección en bloque. Para ello existen al menos dos vías: el scraping2 y la petición de datos vía API3, ambas con sus respectivas limitaciones. Combinaremos ambas vías en orden de conseguir la mayor cantidad de tweets posibles.

En primer lugar, utilizaremos la API de Twitter que es más abierta que la de Facebook4. Nos conectamos mediante la interfaz que nos brinda el paquete rtweet5. Se requiere previamente habilitar una app en el sitio de Twitter Developers para conseguir la clave y token necesarios. Usamos el siguiente código:

library(rtweet)
twitter_tokens <- create_token(app = "", consumer_key = "", consumer_secret = "")

Una vez autenticados pasamos a recolectar los tweets. El número de tweets máximo permitido por la API para el timeline de un usuario es de 3200 tweets por petición:

evovar <- get_timeline("evoespueblo", n = 3200)

Ahora, seleccionaremos las variables de interés y guardaremos los datos en un archivo:

evovar <- evovar[c("created_at", "text", "favorite_count", "retweet_count")]
write_as_csv(evovar, "evovar.csv")

La otra forma de recolección se realizó mediante un script de Python6. El script aprovecha la librería Selenium para la simulación del navegador y tweepy para la conexión con Twitter. De esta forma logramos conseguir los tweets antiguos adicionales, que no se podrían haber conseguido mediante la API.

Mediante estos dos procedimientos, contamos con todos los tweets emitidos por la cuenta, desde la fecha de su creación el 15 de abril de 2016 hasta el 31 de diciembre de 2017. Es decir que contamos con el censo de los tweets y no con una muestra. Son 3986 tweets en 20 meses, que mostramos a continuación:

library(readr)
evovar <- read_csv("evovar.csv")
evovar

Preparación de los datos

Una pieza central para un análisis de texto (text mining) es el tokenizado. Éste consiste en poder transformar la estructura de datos de los tweets, de caracteres a palabras, para posteriormente reestructurar la tabla de tal modo que haya una sola palabra en cada fila. Utilizaremos los siguientes paquetes string y stringr para la manipulación de caracteres, dplyr para la manipulación de la tabla de datos, magrittr para el uso de pipes y tidytext para el tokenizado y el análisis de texto en general.

library(stringi)
library(stringr)
library(dplyr)
library(magrittr)
library(tidytext)
# Quitamos los acentos a los tweets (dado que tidytext tiene conflictos con ellos)
evovar$text <- stri_trans_general(evovar$text, "Latin-ASCII")
# Ahora limpiamos la variable text de algunos elementos innecesarios y  tokenizamos
replace_reg <- "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&amp;|&lt;|&gt;|RT|https"
unnest_reg <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"
evovar_t <- evovar %>% 
  filter(!str_detect(text, "^RT")) %>%
  mutate(text = str_replace_all(text, replace_reg, "")) %>%
  unnest_tokens(word, text, token = "regex", pattern = unnest_reg) 
rm(replace_reg, unnest_reg) 

El resultado es una tabla de datos más grande, de 95656 observaciones, donde se remplaza la variable text, tweet entero, por la de word, palabras que contiene el tweet, manteniendo la variable X para identificar el respectivo tweet:

str(evovar_t)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   95656 obs. of  5 variables:
 $ X             : int  1 1 1 1 1 1 1 1 1 1 ...
 $ created_at    : POSIXct, format: "2017-12-31 21:31:06" "2017-12-31 21:31:06" ...
 $ favorite_count: int  4162 4162 4162 4162 4162 4162 4162 4162 4162 4162 ...
 $ retweet_count : int  2161 2161 2161 2161 2161 2161 2161 2161 2161 2161 ...
 $ word          : chr  "hermanas" "y" "hermanos" "despedimos" ...

El siguiente problema es que las palabras con mayor frecuencia son, como era de esperarse, artículos, preposiciones, conjunciones, y otros similares:

library(ggplot2)
freq1 <- evovar_t %>%
        count(word, sort = TRUE)
head(freq1, n = 30) %>%
        ggplot(aes(reorder(word, n), n)) +
        geom_bar(stat="identity") +
        coord_flip() + 
        xlab("Palabras más usadas") +
        ylab("Número") +
        theme_minimal()

Esas palabras no agregan ninguna información relevante para entender la polaridad de los sentiments, son “palabras vacías” que debemos filtrar. Para ello necesitamos una lista de ese tipo de palabras en español que extraeremos del paquete stopwords:

library(stopwords)
#crear una lista de palabras vacias en español
stopwords_ES <- tibble(stopwords("spanish")) 
colnames(stopwords_ES) <- "word"
#Agregamos algunas palabras vacias adicionales (lugares y monedas, etc.)
custom_stop <- tibble(word = c("santa", "cruz", "cochabamba", "bs", "us", "mm", "pronto", "seria", "corte", "primero", "seguro", "seguros"))
stopwords_ES <- bind_rows(custom_stop, stopwords_ES)
rm(custom_stop)
#filtrado con la lista de palabras vacias
evovar_tf <- evovar_t %>% 
 filter(!word %in% stopwords_ES$word,
         str_detect(word, "[a-z]"))
str(evovar_tf)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   51382 obs. of  5 variables:
 $ X             : int  1 1 1 1 1 1 1 1 1 1 ...
 $ created_at    : POSIXct, format: "2017-12-31 21:31:06" "2017-12-31 21:31:06" ...
 $ favorite_count: int  4162 4162 4162 4162 4162 4162 4162 4162 4162 4162 ...
 $ retweet_count : int  2161 2161 2161 2161 2161 2161 2161 2161 2161 2161 ...
 $ word          : chr  "hermanas" "hermanos" "despedimos" "exito" ...

Ahora sí podemos observar las palabras más utilizadas por @evoespueblo:

freq2 <- evovar_tf %>%
        count(word, sort = TRUE)
head(freq2, n = 30) %>%
        ggplot(aes(reorder(word, n), n)) +
        geom_bar(stat="identity") +
        coord_flip() +
        xlab("Palabras más usadas") +
        ylab("Número")+
        theme_minimal()

Análisis de datos

El análisis de sentimiento nos permite aproximarnos a la intención emocional de los tweets que lanza el presidente Evo Morales. Este tipo de análisis puede basarse en el análisis de palabras o relaciones de palabras (n-gramas) y se pueden evaluar diferentes escalas de sentimiento (binarias, ponderadas, etc.). Aquí elegimos el enfoque de “bolsa de palabras”, el nivel del unigrama y la escala binaria, como una primera aproximación expedita. Ahora bien, existen diversos métodos para evaluar los sentiments en los textos, desde la anotación manual hasta el uso de machine learning, pero aquí utilizaremos el método basado en diccionario (Silge y Robinson 2017). Este método conste en utilizar un diccionario en formato clave:valor para evaluar cada palabra. Se considera al tweet como una combinación de palabras individuales que tienen una carga emocional y la proporción de esas palabras nos da el sentimiento general del tweet, como posteriormente reflejaremos en un indice de sentimiento.

Los diccionarios para análisis de sentimiento en español son escasos y poco desarrollados. Después de una larga búsqueda pudimos encontrar el diccionario iSol que está formado por 8135 palabras, 2.509 positivas y 5.626 negativas, dejando a un lado las palabras emocionalmente neutras. Este diccionario a su vez está basado en otro diccionario en inglés bastante testeado como es el de Bing Liu, siendo una traducción especializada y mejorada.

#cargamos y adecuamos el diccionario al formato requerido
negativas <- read_csv("isol/negativas_mejorada.csv", col_names = "word") %>%
  mutate(sentiment = "negativo") 
positivas <- read_csv("isol/positivas_mejorada.csv", col_names = "word") %>%
  mutate(sentiment = "positivo")
bingES <- bind_rows(negativas, positivas) 
rm(negativas, positivas)
# Quitamos los acentos
bingES$word <- stri_trans_general(bingES$word, "Latin-ASCII") 
bingES

Una primera prueba del diccionario que realizaremos será comprobar qué porcentaje de las palabras únicas utilizadas por @evoespueblo clasifica este diccionario:

evo_w <- unique(evovar_tf$word) %>% tibble() # palabras únicas usadas por evoespueblo: 10451
colnames(evo_w) <- "word"
dic_w <- bingES$word # palabras en el diccionario: 8135
evo_wc <- evo_w %>% filter(word %in% dic_w)  # palabras clasificadas: 1171
evo_uc <- evo_w %>% filter(!word %in% dic_w) # palabras no clasificadas: 9280
# Porcentaje de palabras clasificadaas
por_w <- (length(evo_wc$word) / length(evo_w$word)) * 100
por_w
[1] 11.20467

El diccionario clasificó el 11% de las palabras. Lo ideal es que el diccionario se aproxime al 20% de las palabras siguiendo la ley de Zipf7, por lo que efectuaremos unas modificaciones.

Al revisar el diccionario encontramos tres problemas. Primero, si bien contiene muchas palabras con clara carga sentimental, en ocasiones no contiene todas sus flexiones. Segundo, dado que es un diccionario general, no captura algunas particularidades del discurso político del presidente, particularmente su discurso nacionalista. Tercero, existen palabras polarizadas que sirven para indicar el sentimiento frente a un producto o servicio, pero no tienen efectividad en temas políticos. Para el primer problema añadiremos flexiones basadas ya en las palabras existentes en el diccionario, para el segundo añadiremos las palabras politizadas más utilizadas, evaluando su polaridad en un intento de un diccionario político inicial, y para el tercero retiraremos las palabras no apropiadas:

#Añadiendo flexiones y otras palabras polarizadas
flex_dic <- read_csv("evo_uc.csv", col_names = c("word", "sentiment"))
flex_dic <- flex_dic %>% filter(str_detect(sentiment, "positivo|negativo"))
bingESmod <- bind_rows(bingES, flex_dic)
#Añadiendo palabras politizadas
tribble(
  ~word, ~sentiment,
  "pueblo", "positivo",
  "eeuu", "negativo",
  "estadounidense", "negativo",
  "estadounidenses", "negativo",
  "mar", "positivo",
  "chile", "negativo",
  "imperio", "negativo",
  "imperios", "negativo",
  "imperial", "negativo",
  "imperiales", "negativo",
  "imperialismo", "negativo",
  "capitalismo", "negativo",
  "capitalista", "negativo",
  "procapitalista", "negativo",
  "capitalización", "negativo",
  "neoliberal", "negativo",
  "neoliberales", "negativo",
  "neoliberalismo", "negativo",
  "neocolonial", "negativo",
  "neocoloniales", "negativo",
  "neocolonialismo", "negativo",
  "recolonizacion", "negativo",
  "oligarquia", "negativo",
  "oligarquias", "negativo",
  "oligarca", "negativo",
  "oligarcas", "negativo",
  "oligarquica", "negativo",
  "oligarquicos", "negativo",
  "derecha", "negativo",
  "derechistas", "negativo",
  "goni", "negativo",
  "sanchez", "negativo",
  "banzer", "negativo",
  "tuto", "negativo",
  "doria", "negativo",
  "almagro", "negativo",
  "oea", "negativo",
  "fmi", "negativo",
  "trump", "negativo",
  "patria", "positivo",
  "soberania", "positivo",
  "soberanias", "positivo",
  "soberano", "positivo",
  "soberanos", "positivo",
  "transnacional", "negativo",
  "opositor", "negativo",
  "opositora", "negativo",
  "opositores", "negativo"
) -> pol_dic
bingESmod <- bind_rows(bingESmod, pol_dic)
#Quitando otras palabras no pertinentes
supr_dic <- c("mejor", "mejores", "peor", "peores", "economico", "economicos", "nueva", "nuevas", "nuevo", "nuevos", "grande", "grandes", "importante", "importantes", "decision", "interes", "intereses", "mayor", "primera", "maduro", "garantizar", "humano", "humanos", "nuevas", "recursos", "lider", "lideres", "pronto", "seria", "corte", "primero", "seguro", "seguros", "principal", "principales", "sentido")
bingESmod <- bingESmod  %>% filter(!word %in% supr_dic)

Volvemos a evaluar el alcance del diccionario y llegamos casi al 17%:

dic_w <- bingESmod$word # palabras en el diccionario
evo_wc <- evo_w %>% filter(word %in% dic_w)  # palabras clasificadas
# Porcentaje de palabras clasificadaas
por_w <- (length(evo_wc$word) / length(evo_w$word)) * 100
por_w
[1] 16.85006

Ahora sí, estamos listos para para realizar la clasificación de sentimientos. Gracias al tokenizado, que nos dejo una estructura de una palabra por observación y al diccionario en formato clave: valor, esta clasificación solo nos ocupará la función inner_join que fusiona dos tablas de datos por valores comunes:

evosentiment <- evovar_tf %>%
  inner_join(bingESmod)
evosentiment

Aquí un primer acercamiento al clima emocional de los tweets del presidente consiste en ver los porcentajes globales de palabras positivas y negativas:

evosentiment %>%
        ggplot(aes(sentiment)) +
        geom_bar(aes(y = (..count..)/sum(..count..)*100)) +
        xlab("sentimiento") + 
        ylab("porcentaje") +
        theme_minimal()

Aproximadamente un 57% de las palabras que ha utilizado Evo son negativas, mientras el 43% son negativas.

Las palabras que más peso aportan a la positividad y negatividad son las siguientes:

count_sent <- evosentiment %>%
  count(word, sentiment, sort = TRUE) %>%
  ungroup()
count_sent
#Graficamos
count_sent %>%
 group_by(sentiment) %>%
  top_n(30) %>%
  ungroup() %>%
  mutate(word = reorder(word, n)) %>%
  ggplot(aes(word, n, fill = sentiment)) +
  geom_col(show.legend = FALSE) +
  facet_wrap(~sentiment, scales = "free_y") +
  labs(y = "Contribución al sentimiento",
       x = NULL) +
  coord_flip() +
  theme_minimal()

Ahora crearemos un indice de sentimiento (isent) para ponderar la carga de positividad o negatividad en cada tweet. Para ello: \(isent(t) = s / nw\) donde el indice de sentimiento para un tweet sera la proporción entre el numero de palabras con carga emocional \(s\) dividido entre el total de palabras \(nw\), excluyendo las palabras vacías. Crearemos un índice para cada polaridad:

#Contamos el total de palabras negativas y positivas por tweets
library(tidyr)
tweets_sen <- evosentiment %>%
  group_by(X) %>%
  count(sentiment)
evovar_sent <- inner_join(evovar, tweets_sen)
evovar_sent <- spread(evovar_sent, sentiment, n)
evovar_sent[is.na(evovar_sent)] <- 0
#Limpiamos de las palabras vacias y las URL de la variable texto y la añadimos a nuestra tabla de datos
library(tm)
evo_corpus <- (Corpus(VectorSource(evovar_sent$text)))
corpus <- tm_map(evo_corpus, removeWords, stopwords("spanish"))
removeURL <- function(x) gsub("http[[:alnum:][:punct:]]*", "", x) 
corpus <- tm_map(corpus, content_transformer(removeURL))
text_c <- data.frame(text=sapply(corpus, identity), 
    stringsAsFactors=F)
evovar_sent <- bind_cols(evovar_sent, text_c)
#Contamos las palabras de cada tweet y calculamos los indices
evovar_sent <- mutate(evovar_sent, nw = str_count(evovar_sent$text1, "\\S+"))
evovar_sent <- mutate(evovar_sent, isent_neg =  (negativo / nw)*100)
evovar_sent <- mutate(evovar_sent, isent_pos =  (positivo / nw)*100)

Ahora crearemos una variable nueva llamada interact que es simplemente la suma de de los favs y retweets. Ello se justifica porque existe una fuerte correlación entre esos dos tipos de interacción.

#Correlación entre los favs y los retweets
cor(evovar_sent$favorite_count, evovar_sent$retweet_count)
[1] 0.926368
#Creamos una nueva variable que es la interacción
evovar_sent$interact <- evovar_sent$favorite_count + evovar_sent$retweet_count

Por ultimo graficaremos y calcularemos la relación entre el indice de sentimiento y la interacción:

evovar_sent %>% 
  ggplot() +
  aes(x = isent_pos, y = interact) +
  geom_point() +
  theme_minimal()

cor(evovar_sent$isent_pos, evovar_sent$interact) #correlación
[1] 0.02214804
regpos <- lm(interact ~ isent_pos, evovar_sent) #regresion lineal
summary(regpos)

Call:
lm(formula = interact ~ isent_pos, data = evovar_sent)

Residuals:
    Min      1Q  Median      3Q     Max 
-1073.9  -756.7  -534.0    -3.8 20652.1 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 1124.027     41.664   26.98   <2e-16 ***
isent_pos      4.042      3.109    1.30    0.194    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1677 on 3445 degrees of freedom
Multiple R-squared:  0.0004905, Adjusted R-squared:  0.0002004 
F-statistic: 1.691 on 1 and 3445 DF,  p-value: 0.1936
evovar_sent %>% 
  ggplot() +
  aes(x = isent_neg, y = interact) +
  geom_point() +
  theme_minimal()

cor(evovar_sent$isent_neg, evovar_sent$interact)#correlación
[1] 0.1507529
regneg <- lm(interact ~ isent_neg, evovar_sent) #regresion lineal
summary(regneg)

Call:
lm(formula = interact ~ isent_neg, data = evovar_sent)

Residuals:
    Min      1Q  Median      3Q     Max 
-1741.6  -697.9  -465.9   -13.9 20300.4 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   911.41      39.89  22.851   <2e-16 ***
isent_neg      20.76       2.32   8.951   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1658 on 3445 degrees of freedom
Multiple R-squared:  0.02273,   Adjusted R-squared:  0.02244 
F-statistic: 80.11 on 1 and 3445 DF,  p-value: < 2.2e-16

Conclusión

La polaridad general de los tweets de la cuenta de Evo Morales apunta a un mayor uso de palabras negativas (57%) que positivas (43%). Aunque no es una diferencia abismal, pues en la construcción discursiva política debe haber también no solo un ellos negativizado, sino también un nosotros positivizado. En esta construcción se pudieron observar algunos pares semánticos antagónicos, entre las palabras más usadas, como EEUU/pueblo, lucha/paz, imperio/patria.

En la relación entre la polaridad de los tweets y la interacción, podemos encontrar una diferencia entre la recepción de los tweets positivos y los negativos. Los tweets negativos tienen una mayor interacción que los positivos, en la prueba de correlación los tweets negativos obtienen un 0,15 mientras los positivos tan sólo 0,02. Pasando a la prueba de regresión, los tweets por cada punto porcentual negativo reciben en promedio 21 interacciones más, con un p-valor significativo; mientras que los puntos porcentuales positivos no tiene el mismo efecto, consiguiendo 4 interacciones más pero con un p-valor no significativo.

Lo anterior puede ilustrarse con el análisis de los diez tweets con mayor interacción:

pop_t <- evovar_sent %>%
        select(text, interact, isent_neg, isent_pos) %>%
        arrange(desc(interact))
head(pop_t, n = 10) %>% knitr::kable()
text interact isent_neg isent_pos
Hace 44 anos, la dictadura de Pinochet torturo y asesino a Victor Jara, cantante del pueblo, su voz no fue acallada #VictorJaraVive https://t.co/4aikxNvRni 21805 28.571429 7.142857
Lamentamos muerte Santiago Maldonado, nuestras condolencias a familia y pueblo argentino. Que cobarde y condenable asesinato se esclarezca. https://t.co/t44Goljs7r 21081 30.769231 7.692308
No comparto sancion contra Argentina. Algo conozco de futbol, la infraccion fue a #Messi. Mi solidaridad con el mejor futbolista del mundo. 18504 14.285714 7.142857
A casi una semana de las elecciones en Honduras, ¿por que EEUU y OEA mantienen silencio complice sobre elecciones en Honduras y la muerte de ciudadanos? La democracia peligra en un pais hermano, @Almagro_OEA2015 y compania no solo no se pronuncian, sino parecen mirar a otro lado. 18138 17.857143 0.000000
Como hoy, 2007, la hermana Cristina Fernandez asumio la presidencia de Argentina. Fue la primera mujer presidenta elegida democraticamente en su pais. Implemento un programa que favorecio a los marginados. Ahora esta siendo objeto de una caceria judicial y mediatica.Nuestro apoyo https://t.co/U99cRjfK7z 17556 0.000000 3.846154
Lamentable la decision del juez Federal Bonadio de pedir el desafuero de Cristina Kirchner. Una vez mas se ponen en evidencia las estrategias imperiales en contra de la Patria Grande. Nuestra solidaridad con nuestra hermana Cristina. https://t.co/AyttN1PWrP 16468 9.090909 9.090909
Hace 41 anos, en Argentina sucedio la #NocheDeLosLapices, recordamos a estudiantes torturados y asesinados por dictadura impuesta por EEUU. https://t.co/8R3mt8u4YH 15944 30.769231 0.000000
En Dia de la Descolonizacion denunciamos la invasion europea del imperio espanol de 1492, que trajo muerte, saqueo y explotacion en AbyaYala https://t.co/IJjrNBCaf8 14664 42.857143 0.000000
Un golpe judicial al hermano Lula, candidato potencial que garantizaba la victoria del pueblo brasileno. Toda nuestra solidaridad. https://t.co/LBpq9Kist9 14577 7.692308 23.076923
Hace 47 anos Allende se convierte en 1er presidente socialista por urnas en el mundo occidental. Ejemplar chileno comprometido con su pueblo https://t.co/IDF98m8mjT 14442 0.000000 13.333333

Aquí se puede apreciar que 7 de los 10 tweets tienen una fuerte carga emocional negativa, lo cual queda representando en sus indices de negatividad. Sólo tres de los diez tweets más populares de Evo Morales son positivos.

No obstante, el coeficiente de determinación (R2) muestra que la variación en las interacciones solo es explicada por su negatividad al 2%. Esta situación puede ser explicada por las siguientes alternativas: (a) existen otras variables en juego, como los tópicos de los tweets que influyen en la interacción, por ejemplo que sean tweets sobre temas nacionales o internacionales, históricos o políticos, etc.; (b), que las audiencia internacional sea más activa que la nacional o viceversa; (c) que el diccionario que usamos aún sea muy general y no capté las polaridades semánticas del discurso particular del presidente; (d) que el unigrama no sea una unidad de análisis suficiente en este caso.

A pesar de esas limitaciones, este primer acercamiento nos permite mostrar (1) la potencial importancia de la variable emoción en los discursos políticos en red; (2) un método de recolección y análisis para grandes cantidades de datos textuales en redes sociales.

Referencias

Cossarini, Paolo y García, Roberto (2015). “El papel de las emociones en la teoría democrática. Desafíos para un uso público de la razón en tiempos de populismo”. Revista de estudios políticos, (168), 291-315.

Jordan, Wilfredo (2017). “7 gráficos para entender la cuenta de Evo Morales en Twitter”. En: La Prensa (25/04/2017)

Lopez, Tonny (2017). “Las 101 cuentas de Twitter con más seguidores en Bolivia”. En: Rimaypampa (24/12/2017)

Rogers, Richard (2013). Digital Methods. MIT Press.

Trigo, María (2018). “Evo: El tuitero que pasó del odio al amor a las redes”. En: El Deber (09/01/2018)

Silge, Julia y Robinson, David (2017). Text Mining with R: A Tidy Approach. O’Reilly Media

Suiter, Jane (2016). “Post-truth Politics”. En: Political Insight, vol 7, 3. Sage.

Herramientas digitales

  • R
  • rtweet
  • ggplot2

Sobre el autor

Alex Ojeda Copa es sociólogo digital y analista de redes sociales. Pueden encontrarlo en Twitter, LinkedIn y Academia.edu.

Notas


  1. Agradecemos a Rafael López por la guía estadística y en R.

  2. En español literalmente “raspado”. Es una técnica que permite la extracción de la información en la Web simulando la navegación humana.

  3. Del inglés Application Programming Interface. Es un programa intermedio que permite interactuar con otro sistema, mediante un lenguaje definido para el caso. Las grandes plataformas de redes sociales ponen a disposición sus APIs para los desarrolladores, aunque con limitaciones, y su uso nos permite recolectar grandes cantidades de datos.

  4. La documentación de la API de Twitter puede verse aquí https://developer.twitter.com/en/docs.

  5. En el mundo de R, los paquetes más populares para acceder a la API de Twitter son rtweet y twitteR. Estuvimos usando bastante este ultimo, pero encontramos muchas fallas, por lo que desaconsejamos su uso. El desarrollador informa que el paquete está obsoleto.

  6. Se encuentra en https://github.com/bpb27/twitter_scraping/blob/master/scrape.py.

  7. Es una ley de potencias. En términos sencillos esta ley empírica establece que existe una minoría de palabras (~20%) que se utilizan con mayor frecuencia (~80%), y otra mayoría de palabras (~80%) con menor frecuencia (~20%). Tiene similaridad a la distribución de Pareto.

