Étiquettes

, , , , ,

Faisant suite à cet article, publié dans ces colonnes qui décrit notre projet de recherche,  nous allons nous pencher sur la problématique de la gestion des données de la recherche dans le cadre de notre mandat. Qu’avons-nous prévu de faire avec les données que nous produirons durant notre recherche et comment est-il possible d’en faire une gestion adéquate ?

Nous avons créé un plan de gestion des données ou un « Data Management Plan » (DMP) en nous inspirant du modèle en vingt questions imaginé par David Shotton. Ainsi, nous disposons d’un outil qui gouverne le cycle de vie de nos données dès leur création.

Qu’est-ce que le DMP?

Le data management plan est un document qui se concentre sur le cycle de vie des données. Lorsqu’on se lance dans une recherche, il faut considérer quelles seront les données collectées, comment les stocker, comment les décrire et enfin comment les partager avec ses collègues et ses pairs.

Le DMP comprend :

  • La description de la nature de la recherche ;
  • La description de données et les métadonnées ;
  • Le stockage, la sauvegarde et la sécurité des données ;
  • Les moyens de partage des données ;
  • Les solutions de stockage à court et plus long terme.

Pourquoi faire un DMP?

Le DMP est un outil qui va garantir la transparence de nos données et par conséquent la crédibilité et l’intégrité de notre recherche. C’est aussi le moyen de transmettre ces données à d’autres chercheurs qui pourraient avoir besoin de les réutiliser dans le futur, et ainsi, nous faire gagner en visibilité. Nos données devront être accessibles et réutilisables. C’est la raison pour laquelle nous avons choisi de les rendre disponibles sous la licence libre CC0 (creative common). Enfin, un plan de gestion des données est obligatoire pour valider les demandes de financement auprès du FNS depuis octobre 2017.

Active data management et diffusion des données

L’active data management est la gestion des données en cours d’acquisition: pour ce faire, nous utilisons la plateforme Google drive qui nous permet de stocker temporairement nosdonnées en tableaux et en texte au fur et à mesure de leur création. Ce n’est néanmoins qu’une solution de travail, aucunement destinée à la conservation et la diffusion de données, qui n’est pas suffisante, ni matière de sécurité (ou sont stockées nos données? Que faire en cas de perte de données?) ni en terme d’accessibilité. C’est la raison pour laquelle nous effectuerons des sauvegardes hebdomadaires sur nos disques durs personnels et sur un serveur hébergé par la HEG.

Les données que nous devons traiter sont de plusieurs natures, elles prennent la forme d’articles scientifiques et de notices d’articles, mais aussi de données statistiques chiffrées et visuelles et des codes informatiques. Nous utilisons actuellement pour la collecte des données des “google sheet/doc” hébergés sur google drive pour des questions de partage et de travail simultané. En revanche, lorsque nos jeux de données seront complets, nous exporterons nos données vers des formats libres ou facilement utilisables (rdf, csv, texte) puis les mettrons à disposition sur le dépôt gratuit Zenodo. C’est une plateforme mise en place par le CERN qui offre la possibilité de déposer un set de données conséquent (50 Go), qu’il est possible d’organiser thématiquement en fonction des domaines de recherche, pour qu’il soit mis à disposition de la communauté scientifique.

L’archivage à long terme

Zenodo représente notre solution de dépôt à court terme et de diffusion. Cependant, il n’est pas adapté à un archivage sur le plus long terme. Dans nos recherches pour ce DMP, nous n’avons pas trouvé d’outil gratuit qui répondrait aux critères d’archivage à long terme. Il faudra par conséquent effectuer une veille sur le sujet et rester attentifs aux éventuels développements d’outils institutionnels fournis par la Haute Ecole de Gestion par exemple. Nous espérons trouver par la suite un outil qui nous satisfasse pour l’archivage. Toutes nos données ne seront néanmoins pas archivées à long terme. En effet, certaines de nos données ne rempliront pas les critères de conservation à long terme, telles que les notices bibliographiques d’autres institutions, ces dernières ne seront donc pas archivées.

Enfin, il est à noter que le DMP n’est pas figé dans le temps et qu’il est susceptible d’évoluer parallèlement à notre recherche.

Elodie Schwob et Matthieu Putallaz