Étiquettes

, , , , , , ,

La gestion des données de la recherche occupe désormais une place centrale dans les milieux académiques, à tel point que la rédaction d’un DMP est devenu un rituel incontournable pour tout chercheur, gage de la qualité de la recherche. Quels principes se cachent derrière cet acronyme? Comment répondent-ils aux exigences d’un projet particulier? Telle est la visée de ce billet présentant le DMP à la lumière d’une étude de cas.


Enjeux

Les données de la recherche (DR) englobent toutes les données utiles pour la réalisation d’un projet et nécessaires pour la validation des résultats obtenus (OCDE, 2007). Elles couvrent ainsi un large éventail de sources hétérogènes, qu’elles soient préexistantes ou produites dans le cadre de la recherche (CLAIVAZ, DIEUDE et KRAUSE, 2015). Dans un contexte de big data et d’open data, la problématique des DR et de leur bonne gouvernance devient alors un enjeu capital pour la constitution et la diffusion du savoir.

Dès octobre 2017, le FNS exige que toute demande de fonds contienne un DMP (FNS, 2017). Ce document formel énonce brièvement comment les données seront gérées sur les court, moyen et long termes. Traçabilité, sécurité, interopérabilité, pérennité, propriété intellectuelle, intégrité scientifique, partage et réutilisation des connaissances constituent ainsi les enjeux majeurs soulevés par la gestion du cycle de vie des DR, désormais « considérées comme des objets scientifiques à part entière » (CLAIVAZ, DIEUDE et KRAUSE, 2015).

researchdatalifecycle_UK-DataService

ITrust 2013-2018

Le DMP présenté dans ce billet s’inscrit dans le cadre d’une étude menée à la HEG sous l’égide de Basma Makhlouf Shabou. Elle entend apporter une contribution spécifiquement genevoise au projet EU29, l’un des chantiers d’ITrust 2013-2018 portant sur la maturité de la gouvernance de l’information dans les administrations publiques. Le DMP réalisé se fonde sur le canevas de David Shotton mais seuls certains aspects du cycle de vie des DR sont abordés ici.

Nature, format et sauvegarde des données

Dans le cadre du projet, deux types de données brutes sont collectées: des sources textuelles variées (littérature, normes, etc.) et des entretiens en fonction d’un échantillon restreint. Il s’agit donc de données qualitatives dont la valeur émane non du nombre mais du choix raisonné de l’échantillon.

Aux données brutes (enregistrements audio, verbatim, etc.) viennent s’ajouter des données descriptives (instruments, métadonnées, etc.) et des données dérivées résultant de l’analyse de contenu via le logiciel NVivo. Elles sont donc produites à des stades différents du cycle de vie du projet.

Les données nettoyées et anonymisées sont sauvegardées dans des formats ouverts, non propriétaires et non compressés, dont la pérennité est assurée: .txt, .csv, .pdf et .wav. La documentation et les métadonnées associées suivent le même principe (.txt/xml). Stockées sur un serveur sécurisé, elles sont isolées des documents de travail afin d’être préservées de toutes détériorations.

Métadonnées descriptives

Deux types de métadonnées décrivent les données récoltées, une étape essentielle pour leur compréhension et leur réutilisation futures.

D’une part, des métadonnées descriptives non structurées sont consignées dans des fichiers de type readme.txt au fur et à mesure de la collecte pour former une documentation digitale portant sur le cadre de la recherche, les buts poursuivis, les corrections effectuées ou les biais éventuels (CORNELL UNIVERSITY, 2017). Une granularité à trois niveaux est respectée: à l’échelle du projet, des jeux et des données.

documentation_FORSbase

 

De l’autre, des métadonnées descriptives structurées sont produites selon le schéma Dublin Core puisqu’il est largement répandu, conforme au protocole OAI-PMH, facilement manipulable et interopérable (mapping avec le DataCite Metadata Schema et le DDI). Par ailleurs, il existe un outil en ligne permettant de les générer et de les exporter aisément.

DublinCore_BNF

Préservation et ouverture des données

En l’absence de dépôt institutionnel dédié au champ des Sciences de l’information, la plate-forme FORSbase a été choisie pour la préservation à moyen et long termes des DR. Elle permet de les gérer en commun et de les ouvrir, sans pour autant les publier dans leur totalité, tout en bénéficiant de l’expertise du centre FORS.

Exigences spécifiques

Cette recherche est le lieu d’une tension entre la nature confidentielle d’une grande partie des données brutes – qui exigent leur rigoureuse anonymisation et qui requièrent le consentement des participant-e-s pour leur archivage et leur réutilisation par un formulaire ad hoc – et la traçabilité des résultats. Ainsi, la déconstruction des verbatim devra permettre l’exploitation la plus fine possible des DR, tout en respectant la déontologie de la recherche.

Conclusion

Trouvables, accessibles, interopérables et réutilisables sont les maîtres-mots de la gouvernance des DR. Si la conception d’un DMP se fait en amont, la gestion des DR relève quant à elle d’une démarche itérative qui tient compte a) de l’état d’avancement de la recherche et b) de la maturité des connaissances en matière de gestion des DR. Enfin, comme la problématique est en vogue, des formations existent pour aider les chercheurs dans les méandres de la gestion des DR.

FAIR_Wilkinson

Sandrine Anderführen, Eugénie Iacconi & Patrizia Romagnoli


Références

ANDERFUHREN Sandrine, IACCONI Eugénie et ROMAGNOLI Patrizia, 2017. DMP. La perception de la gouvernance de l’information dans l’administration publique genevoise. Projet de recherche 2017-2018 [document PDF]. Genève: Haute école de gestion de Genève. Travail pour le module M8.

BONGI Gaia, IACCONI Eugénie et ROMAGNOLI Patrizia, 2016. Gestion du cycle de vie des données de la recherche (DLCM) [document PDF]. Genève: Haute école de gestion de Genève. Travail pour le module 723-13n.

BIBLIOTHÈQUE NATIONALE DE FRANCE (BNF), 2016. Dublin Core. bnf.fr [en ligne]. 21 décembre 2016. [Consulté le 18 septembre 2017]. Disponible à l’adresse: http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_dublin_core.html

CLAIVAZ Jean-Blaise, DIEUDE Aude, KRAUSE Jean, 2015. Données de la recherche: quèsaco? Hors-Texte. 2015. 106, pp. 24-29. Disponible à l’adresse: https://archive-ouverte.unige.ch/unige:47525/ATTACHMENT01

CORNELL UNIVERSITY, 2017. Guide to writing « readme » style metadata. data.research.cornell.edu [en ligne]. [Consulté le 18 septembre 2017]. Disponible à l’adresse: https://data.research.cornell.edu/content/readme#fileoverview

DATA DOCUMENTATION INITIATIVE ALLIANCE, 2017. Document, Discover and Interoperate. ddialliance.org [en ligne]. [Consulté le 18 septembre 2017]. Disponible à l’adresse: https://www.ddialliance.org/

DATACITE, 2017. DataCite Metadata Schema. schema.datacite.org [en ligne]. [Consulté le 18 septembre 2017]. Disponible à l’adresse: https://schema.datacite.org/

DUBLIN CORE METADATA INITIATIVE, 2017. Dublin Core Metadata Element Set, Version 1.1: Reference Description. dublincore.org [en ligne]. [Consulté le 18 septembre 2017]. Disponible à l’adresse: http://www.dublincore.org/documents/dces/

DUBLINCOREGENERATOR.COM, 2017. Main page. dublincoregenerator.org [en ligne]. [Consulté le 18 septembre 2017]. Disponible à l’adresse: http://www.dublincoregenerator.com/

FONDS NATIONAL DE LA RECHERCHE SCIENTIFIQUE (FNS), 2017. Open Research Data: les requêtes devront inclure un plan de gestion des données. snf.ch [en ligne]. 6 mars 2017. [Consulté le 18 septembre 2017]. Disponible à l’adresse: http://www.snf.ch/fr/pointrecherche/newsroom/Pages/news-170306-open-research-data-bientot-une-realite.aspx

FORSbase, 2017. FORSbase: vue d’ensemble. forsbase.unil.ch [en ligne]. [Consulté le 18 septembre 2017]. Disponible à l’adresse: https://forsbase.unil.ch/project/study-public-overview/14605/0/

OCDE, 2007. Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics [en ligne]. Paris: Les Éditions de l’OCDE, avril 2007. Disponible à l’adresse: http://www.oecd.org/fr/science/sci-tech/38500823.pdf

SHOTTON, David, 2012. Twenty Questions for Research Data Management. Data management planning [en ligne]. 7 mars 2012. [Consulté le 18 septembre 2017]. Disponible à l’adresse: https://datamanagementplanning.wordpress.com/2012/03/07/twenty-questions-for-research-data-management/

UK DATA SERVICE, 2017. Recommended formats. ukdataservice.ac.uk [en ligne]. [Consulté le 18 septembre 2017]. Disponible à l’adresse: https://www.ukdataservice.ac.uk/manage-data/format/recommended-formats

UK DATA SERVICE, 2017. Research Data Lifecycle. ukdataservice.ac.uk [en ligne]. [Consulté le 18 septembre 2017]. Disponible à l’adresse: https://www.ukdataservice.ac.uk/manage-data/lifecycle

UNIVERSITÉ DE GENÈVE (UNIGE), 2017. Données de la recherche. unige.ch [en ligne]. [Consulté le 18 septembre 2017]. Disponible à l’adresse: https://www.unige.ch/researchdata/fr/

WILKINSON, Mark D. et al., 2016. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3:160018, doi: 10.1038/sdata.2016.18. Disponible à l’adresse: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4792175/pdf/sdata201618.pdf

ZENODO, 2017. Principles. about.zenodo.org [en ligne]. [Consulté le 18 septembre 2017]. Disponible à l’adresse: http://about.zenodo.org/principles/