Étiquettes

, , , , , , , ,

Twitter, avec ses 500 millions de tweets par jour [1], est une source d’informations particulièrement intéressante pour explorer les comportements sociaux. L’analyse du big data généré par les tweets permet en effet des observations basées sur des éléments de temps et d’espace.

Le projet GEoTweet a été élaboré au sein du BiTeM [2] par Arnaud Gaudinat, en interrogeant la notion de frontière urbaine à l’aide des données géolocalisées.

Dans le cadre du Master en Sciences de l’information de la HEG, nous avons réalisé une partie de ce projet en nous concentrant sur l’exploration des tweets genevois et en formulant les deux questions de recherche suivantes :

Que découvre-t-on sur la société genevoise quand on modélise des frontières au sein d’un réseau social tel que Twitter ?

Comment la visualisation des tweets géolocalisés nous permet-elle de saisir la variété des communautés linguistiques à Genève ?

Outils utilisés

Grâce au streaming public de Twitter, nous avons pu récolter en temps réel les tweets émis dans la région de Genève. Cette récolte a eu lieu durant six mois (du 28 avril au 26 octobre 2015), et nous a permis de générer un corpus de 2’303’297 tweets avec toutes leurs métadonnées, sur lesquelles effectuer nos analyses. Dans ce corpus, 48’160 tweets étaient géolocalisés.

Le logiciel CartoDB nous a permis de visualiser la densité et la distribution dans l’espace et dans le temps des tweets récoltés. Les formes de visualisation synthétiques produites à l’aide de CartoDB se sont révélées des outils extrêmement puissants d’analyse multidimensionnelle.

En outre, la richesse des métadonnées associées à chaque tweet nous a permis d’analyser qualitativement l’attitude langagière des utilisateurs à différents échelons d’observation (individuel, communautaire et collectif).

Visualisations

Les cartes ainsi réalisées ont dévoilé la polarisation entre l’usage de l’anglais et du français, si typique de la Genève internationale, et le caractère multiculturel de l’espace urbain genevois. Les formes de visualisation ont concerné également la présence de communautés virtuelles linguistiques dans le temps (horaires de la journée et jours fériés).

De plus, la  visualisation interactive de la variété linguistique de la ville de Genève a mis en valeur les différentes modalités d’utilisation des espaces publics par les utilisateurs de Twitter.  Ainsi nous avons déterminé quelles étaient les régions, les quartiers, voire les bâtiments où une langue dominait, et identifié les endroits où cohabitaient plusieurs langues ainsi que les fluctuations temporelles liées aux événements culturels.

capture_catroDB

Exemple de visualisation des métadonnées d’un tweet avec CartoDB

Méthodologie

Au niveau méthodologique, une réflexion critique a été également engagée sur les méthodes de capture, l’archivage des tweets et la fiabilité des données.

Afin d’assurer la représentativité de notre corpus de tweets, nous en avons supprimé les robots et conservé uniquement les utilisateurs humains, obtenant un corpus représentatif de 36’904 tweets.

Nous nous sommes également intéressées à la source des tweets, ce qui nous a permis de découvrir que la majorité de tweets de notre corpus provenait de l’application Instagram (39.1%), contre 37.02% pour l’application Twitter.
Il est en effet possible de lier un compte Instagram, Foursquare, ou d’autres applications avec un compte Twitter. Ainsi, ce qui sera publié sur l’application source sera également partagé sous forme de tweet.

graph_twitter_otherapps

Sources des tweets (corpus de 36’904 tweets, récoltés entre le 28 avril et le 26 octobre à Genève)

Venez explorer !

Dans cette visualisation interactive, vous pouvez explorer les tweets genevois émis entre le 28 avril et le 26 octobre 2015. N’hésitez pas à dézoomer pour obtenir une vision de la densité des tweets sur le canton de Genève, ou à zoomer pour observer des zones très précises.

Chaque tweet est représenté par un point dont la couleur correspond à la langue.

En cliquant sur un tweet, vous aurez accès aux métadonnées suivantes :

  • Date et heure
  • Langue
  • Application source
  • Contenu du tweet

Perspectives

Le projet GEoTweet continue son cheminement au-delà du Master IS, car il fait partie de L’événement HES : frontières et urbanité, un événement interdisciplinaire grand public organisé par la HES-SO Genève.

Nous présenterons notre projet lors du colloque Donner du sens aux données, le 4 mai 2016 à la HEG.

GEoTweet continue sur geotweet.hesge.ch.

Fanny Béguelin et Elisa Banfi


[1] INTERNET LIVE STATS, 2015. Twitter usage statistics. Internet live stats [en ligne]. [Consulté le 22 décembre 2015]. Disponible à l’adresse : http://www.internetlivestats.com/twitter-statistics.
[2] Bibliomics and Text Mining Group