Étiquettes

, , , , , , , ,

Depuis quelques années, le milieu de la recherche fait face à une nouvelle problématique : que faire des données produites ? Le Big Data rajoutant un paramètre de taille, celui du volume des données, que garder, où et comment ?

Réalisé pour le module « projet de recherche » du Master SI, Helve’Tweet est le successeur de GEoTweet, un projet réalisé lors de la volée précédente. L’objectif de Helve’Tweet est de mener une recherche exploratoire et statistique sur un corpus d’un million de tweets géolocalisés en Suisse. Après la rédaction d’un cahier des charges afin de formaliser et planifier le projet, une réflexion autour des données a été menée et formalisée sous forme de Data Management Plan.

Des données et des Tweets

Notre réflexion a débuté avec la détermination des types de données qui seraient produites et utilisées durant notre recherche. Ainsi, nos données brutes sont des tweets accompagnés de leurs métadonnées et géolocalisés en Suisse. Ils sont capturés en continu depuis l’Application Program Interface (API) de Twitter, soit son streaming public. Des données raffinées seront tirées des données brutes, notamment en supprimant les champs de métadonnées n’apportant pas d’informations utiles pour notre recherche. Finalement, d’autres données seront produites par l’analyse statistique de ces fichiers.

blog_image_V3-infographic_final

Sécurité : l’active data management

La collecte de données a débuté le 18 février 2017. Quelques problèmes se sont déclarés, notamment autour de la récolte sur Twitter. Celle-ci est menée à l’aide d’un programme qui enregistre les tweets en temps-réel sur un serveur. Malheureusement, le dit-serveur a connu plusieurs arrêts intempestifs qui ont mis en danger le volume du corpus. Afin de pallier à ces dysfonctionnements, un serveur miroir a été mis sur pied. Il effectue la même opération et permettra ainsi de récupérer les données manquantes en cas de panne.

Nous avons mis en place des mesures de sécurité pour les autres fichiers de données afin de pallier à toutes les éventualités. Ces fichiers sont stockés dans le cloud à l’aide des services Dropbox et SwitchDrive ainsi que de manière locale sur des disques durs internes et externes.

Confidentialité, partage et droit à l’oubli

Une des parties les plus complexes de la gestion de nos données est celle de leur partage avec des personnes externes au projet. En effet, les tweets, en plus d’être accompagnés de métadonnées qui renseignent un bon nombre d’informations sur leurs auteurs, véhiculent des opinions. Notre réflexion a donc fortement été influencée par le caractère sensible des données. D’un côté, les termes d’utilisation de Twitter stipulent que l’utilisateur cède à Twitter une liberté presque totale sur le contenu qu’il soumet sur la plateforme. Les utilisateurs consentent également à ce que leurs tweets soient mis à disposition et utilisés par d’autres personnes. Ce postulat validerait donc leur partage dans le contexte de notre recherche.

En revanche, il est problématique que les utilisateurs aient la possibilité de supprimer leurs tweets ou leurs comptes à tout moment. De par la nature instantanée et continue de leur capture, une copie de ces données reste systématiquement en notre possession. Les partager rentrerait donc en conflit avec la volonté des utilisateurs susmentionnés. Par conséquent, dans le cas d’un partage, il faudrait veiller à retirer ces tweets du corpus. Le meilleur moyen serait de garder uniquement le numéro d’identification unique de chaque tweet. Ainsi, si certains tweets sont supprimés, la recherche par numéro d’identification aboutirait à une erreur et le droit à l’oubli de l’utilisateur serait préservé.

A la lumière de ces éléments et dans une optique de partage, ces données ne pourraient donc pas être mises à disposition telles quelles. Un fichier dédié au partage devrait être compilé depuis les données brutes, qui ne contiendrait que les données jugées partageables.

Les tweets dans le temps : une histoire d’archivage

Dans le cadre du projet, une réflexion a été menée sur l’archivage à long terme des données. Puisque nos données sont produites en Suisse, nous souhaitions tout particulièrement les garder dans le pays. Le problème majeur est qu’aucun dépôt d’archive ou des archives institutionnelles n’existent spécifiquement pour les sciences de l’information. Notre choix s’est finalement porté sur la plateforme du CERN, Zenodo. Premièrement pour le fait que les données sont stockées à Genève, puis pour l’avantage que la plateforme attribue automatiquement des DOI aux objets déposés.

L’élaboration de notre DMP a été l’occasion de mener une première réflexion autour de nos données. Nous nous sommes également rendues compte que la problématique de la gestion des données est un élément fondamental de la recherche. Il ne doit donc pas être négligé, ni figé, mais adapté et remanié au fil des découvertes et changements du projet.

Claire Wuillemin, Agnes Motisi-Nagy & Tania Zuber-Dutoit

Références :

ECOLE POLYTECHNIQUE FEDERALE DE LAUSANNE (EPFL), 2015. Qu’est-ce qu’un DMP ? Epfl.ch [en ligne]. [Consulté le 19 juin 2017]. Disponible à l’adresse: http://library.epfl.ch/research-data-management-plan

SHOTTON, David, 2012. Twenty Questions for Research Data Management. Data management planning [en ligne]. 7 mars 2012. [Consulté le 20 mai 2017]. Disponible à l’adresse: https://datamanagementplanning.wordpress.com/2012/03/07/twenty-questions-for-research-data-management/

TWITTER, 2017. Conditions d’utilisation. Twitter.com [en ligne]. [Consulté le 19 juin 2017]. Disponible à l’adresse: https://twitter.com/fr/tos

Image à la une et infographie: freepik

Publicités