Análisis visual de comunidades durante la campaña electoral 25N

03.12.2012

Para medir el impacto de una campaña en Twitter, normalmente se utilizan métricas numéricas como el número de tweets y retweets con del hashtag de la campaña. Sin embargo, esas métricas numéricas no nos dan una idea de qué tipo de público es el que se implicó en la campaña. La detección y visualización de comunidades que utilizaron un hashtag nos permite hacernos una idea más intuitiva de en qué sectores ha penetrado mejor una campaña determinada.

Durante la campaña electoral recogí (con este software programado para la ocasión) los tweets que se generaron alrededor de algunos hashtags como los oficiales de ICV-EUiA y CUP (#itantsipodem y #hovolemtot) y otros que posiblemente tuvieron algún efecto en el resultado final de las elecciones (#14n, #CiUesTroika, etc). Para cada hashtag, generé un grafo con los usuarios que lo tuitearon y las relaciones de "follow" entre ellos.

El objetivo de este estudio no es sólo visualizar y comparar los diferentes hashtags sino ver si la estructura de las redes resultantes nos dice algo sobre el éxito o fracaso de una campaña.

Para ello, utilizaremos una serie de métricas de grafos y veremos si alguna de ellas sirve para determinar el éxito de la campaña. Pero, ¿a qué llamamos "éxito"? Tuvo éxito la campaña de ICV-EUiA o la campaña de la CUP? No lo sabemos. Lo que sí podemos convenir es que la anterior Diada (bajo el hashtag #11s2012) tuvo un éxito rotundo (mucho impacto, muy transversal y con un efecto político claro). Por eso queda para más adelante (otro post) el análisis de los tweets de #11s2012 que nos servirá de "baseline" para comparar el resto de campañas.

Pero antes de seguir, un poco de nomenclatura:
(si no estás interesado en detalles, puedes ir directamente a los grafos y obviar los recuadros de color gris)

PageRank:
PageRank es el nombre del algoritmo diseñado  de Google para decidir la reputación de una página web. A mayor reputación tiene una página, mejor será su posición en los resultados de una búsqueda en Google. La filosofía de PageRank es la siguiente: a más páginas apunten a mi página mayor será su reputación, y a más reputación tenga a su vez la página que me apunta, más importancia se le da a ese enlace. A su vez, y para evitar trampas, el algoritmo premia la exogamia, es decir, que a mi página la apunten desde diferentes comunidades poco relacionadas entre sí. De alguna manera, PageRank emula el mecanismo de reputación que utilizamos las personas. Un científico bien valorado por científicos de varias universidades tiene más reputación que un científico al que sólo le valoran bien en su universidad, por mucho que tenga el visto bueno de catedráticos de esa universidad.

De una manera análoga aplicamos el algoritmo de PageRank para determinar las reputaciones dentro de una comunidad de usuarios. Para los grafos de twitter consideraremos que si un usuario sigue a otro es como si ese usuario enlazara al otro, y por lo tanto le otorga cierta dosis de reputación. El PageRank resultante lo indicaremos mediante el tamaño del usuario: a mayor sea el PageRank de un de un usuario, mayor será el tamaño del nodo que representa ese usuario.

Diámetro de red:
indica cuantos saltos de distancia hay entre los dos nodos más alejados de la red. Es como si pudiéramos estirar la red y medir la distancia entre los dos extremos.

Gradio medio:
grado  de un nodo (de un usuario) es la suma total del número de seguidores (grado de entrada) y del número de usuarios al que sigue (grado de salida). El grado medio de una red es la media del total de los nodos.

Densidad:
mide cómo de cerca está el grafo de ser completo. Un grafo completo tiene todas las aristas posibles y una densidad igual a 1. Una densidad muy alta indica que los usuarios "se conocen", es decir, se siguen mucho entre ellos.

Longitud media del camino:
distancia media (saltos) entre todos los pares de nodos de la red. Una red muy densa tenderá a tener una longitud media menor, puesto que existen muchos más caminos (cortos y largos) para llegar de un nodo a otro.

Coeficiente medio de clustering:
indica como los nodos están incrustados en sus nodos vecinos. Da una indicación general del clustering (nivel de agrupación de nodos) en la red.

Componentes fuertemente conexos:
un grupo de nodos es un componente fuertemente conexo si para cada par de nodos uv existe un camino de u hacia v y un camino de v hacia u.

Componentes débilmente conexos:
un grupo de nodos es un componente fuertemente conexo si, entendiendo todo follow como un follow recíproco (los dos usuarios se siguen), el grupo constituye un compomemte fuertemente conexo (en Facebook, por ejemplo, no habría diferencia entre uno y otro) 

En los siguientes grafos, un nodo corresponde a un usuario y una línea desde un usuario a otro corresponde a un follow. Un grupo de usuarios con un mismo color significa una comunidad detectada. Una comunidad, es un grupo de usuarios que se siguen bastante entre sí (especialmente respecto a otros usuarios de la red)

Ahora veamos los grafos resultantes:
(pinchad en una imagen para ampliarla)

#itantsipodem

Nodos: 1008
Diámetro: 6
gradio medio: 33,287
Densidad: 3,3%
Longitud media del camino: 2,56
Coeficiente medio de clustering: 0,336
Componentes débilmente conexos: 21
Componentes fuertemente conexos 109
Modularidad: 0,254
Comunidades:  24

 

En #itantsipodem participaron cuatro comunidades principales. Las verdes (verde fuerte y verde suave) indican comunidades relacionadas con ICV y JEV. Las rojas indican comunidades de EUiA, Alternativa Jove y (rojo fuerte) y por otro lado IU (rojo suave). Laiaortiz y Nuet, diputados de ICV y EUiA respectivamente, son los dos nodos con más reputación de la red (y de los que tienen más centralidad entre las diferentes comunidades). Parece que los activistas de IU se han enganchado a la campaña a través de Nuet y Angels Martínez Castells. Casi todos los nodos siguen a algún otro nodo de la red, lo que indica que la campaña no ha implicado a personas más allá de las que ya son del entorno de ICV-EUiA.

#hovolemtot

Nodos: 2575
Diámetro: 7
gradio medio: 40,692
Densidad: 1,6%
Longitud media del camino: 2,757
Coeficiente medio de clustering: 0,322
Componentes débilmente conexos: 1
Componentes fuertemente conexos: 178
Modularidad: 0,265
Comunidades: 8

El grafo refleja, parece, la variedad interna de la CUP. En la CUP confluyen organizaciones como  Endavant o el MDT, a parte de gente independiente (amarillos) entre la que se encuentra David Fernández (@HiginiaRoig). La comunidad verde inferior incluye mucha gente "15M". La comunidad roja son gente de Sabadell. Curiosamente esto no lo vemos en el grafo de #itantsipodem a pesar de que en EUiA también confluyen cuatro comunidades (PCC, PSUCviu, POR e independientes). Dos posibles explicaciones: o comparado con la CUP, EUiA está más cohesionada, o las organizaciones de la CUP tienden a seguirse entre sí mucho más de lo que lo hacen los de EUiA. Tampoco vemos usuarios sueltos, lo que indica, como en #itantsipodem, que la participación en la campaña se ha limitado a militantes y activistas.

#CataloniaIsNotCiU

Nodos: 787
Diámetro: 7
gradio medio: 17,38
Densidad: 2,2
Longitud media del camino: 2,901
Coeficiente medio de clustering: 0,283
Componentes débilmente conexos: 49
Componentes fuertemente conexos: 122
Modularidad: 0,347
Comunidades: 55

#CataloniaIsNotCiU es una campaña ideada por los jóvenes de ICV (Joves Esquerra Verda) y que empezó con una gran difusión por la red como meme anónimo. De ahí la implicación de las comunidades amarillas (15M), azul (entorno PSC) y verde. La comunidad verde es ICV y la rosa EUiA, que son las que tuvieron más implicación con el meme (de ahí su mayor densidad). Más tarde ICV lo adoptó oficialmente como lema de precampaña, lo que provocó, sino la muerte, sí el frenazo de un meme que podría haber tenido mucha mayor expansión. El usuario @NoVotisCiU en el centro indica que es seguido con similar proporción desde todas las comunidades. Que sea lila, como @dolorscamats, significa que tiene un alto número de followers del PSC a pesar de que probablemente haya sido creado por gente de ICV.

#CiUesTroika

Nodos: 423
Diámetro: 8
gradio medio: 18,076
Densidad: 4,3%
Longitud media del camino: 2,663
Coeficiente medio de clustering: 0,372
Componentes débilmente conexos: 1
Componentes fuertemente conexos: 115
Modularidad: 0,207
Comunidades: 5

Para la campaña #CiUesTroika se creó, además, el usuario @ciuestroika, que ha sido el usuario más popular y central de la campaña. Parece que @Ciudadano_Zer0 y @PAH_BCN han sido claves para implicar a dos comunidades muy relacionadas con el 15M. Al menos son los más reputados (según el algoritmo de PageRank) en sus respectivas comunidades A la izquierda, una nube de usuarios sueltos que se incorporaron a la campaña "por libre". Dado que las comunidades lila, rosa y verde son comunidades ya concienciadas, una gran nube de usuarios sueltos que se ha implicado en la campaña es un bien indicador.

En cuánto a las métricas observadas, a primera vista no se ve una relación clara entre las métricas utilizadas  y el impacto real de una campaña. Como he dicho antes, la comparación con campañas como #11s2012 quizás nos dé alguna pista de cuales són las métricas que indican el éxito.

Promiscuidad entre campañas y centralidad del 11S y la Huelga General del 14N

El siguiente es un grafo de las bandadas de usuarios entre diferentes hashtags. Una flecha de un hashtag a otro indica que algunos usuarios del hashtag origen también participaron en el hashtag destino. A más gruesa es la flecha, mayor es el porcentaje de usuarios del hashtag origen que participaron en el hashtag destino. Los colores indican comunidades detectadas. Una comunidad es un grupo de hashtags con altas migraciones entre ellos.

"perque" és una comunidad artificial, creada a partir de los usuarios que tuitean "perque" . Esto nos permite sacar una muestra transversal de todos los usuarios de tuiter en Catalunya, ya que "perque" no existe en otro idioma además del catalán. Por supuesto, la muestra "perque" tiene un sesgo. Primero, no todos los catalanes tienen Twitter. Y segundo, no todos los catalanes con tuiter escriben en catalán. En cualquier caso, nos permite intuir  la implicación de nuestro "catalán medio" en cada una de las campañas.

 

El 11S, y sobretodo la huelga del 14N, fueron el punto de encuentro de movimientos sociales y partidos, recibiendo activistas de todos ellos. Por eso son las campañas de mayor reputación y están situados en la parte central del grafo.

Algunos detalles más:

¿Donde más participan los que participaron en #11s2012?

#11s2012 #itantsipodem 1%
#11s2012 #hovolemtot 3%
#11s2012 #14n - #14n 16%

 

¿Dónde más participan los militantes y simpatizantes de la CUP? (>5%)

#hovolemtot #14n 54%
#hovolemtot #11s2012 43%
#hovolemtot #eslhoradelacup 13%
#hovolemtot #somunitatpopular 12%
#hovolemtot #ciucensura 6%

 

¿Dónde más participan los militantes y simpatizantes de ICV-EUiA? (>5%)

#itantsipodem #14n 69%
#itantsipodem #11s2012 32%
#itantsipodem #cataloniaisnotciu 23%
#itantsipodem #catalunyalliure 11%
#itantsipodem #hovolemtot 8%
#itantsipodem #ciuensroba 7%

 

 

Actualización 14/01/2013:
Algunos habéis pedido los archivos originales para verlos con mayor resolución, así que he colgado los archivos .gephi que podéis visualizar interactivamente con el software Gephi. Estos archivos son el resultado final tras todo el procesado, por lo que al abrirlos veréis exactamente los grafos de este artículo.

Descargar itantsipodem.gephi 
Descargar hovolemtot.gephi
Descargar cataloniaisnotciu.gephi
Descargar ciuestroika.gephi