Data management plan : un avenir pour les données de la recherche

Mots-clefs

, , , , ,

Faisant suite à cet article, publié dans ces colonnes qui décrit notre projet de recherche,  nous allons nous pencher sur la problématique de la gestion des données de la recherche dans le cadre de notre mandat. Qu’avons-nous prévu de faire avec les données que nous produirons durant notre recherche et comment est-il possible d’en faire une gestion adéquate ?

Nous avons créé un plan de gestion des données ou un « Data Management Plan » (DMP) en nous inspirant du modèle en vingt questions imaginé par David Shotton. Ainsi, nous disposons d’un outil qui gouverne le cycle de vie de nos données dès leur création.

Qu’est-ce que le DMP?

Le data management plan est un document qui se concentre sur le cycle de vie des données. Lorsqu’on se lance dans une recherche, il faut considérer quelles seront les données collectées, comment les stocker, comment les décrire et enfin comment les partager avec ses collègues et ses pairs.

Le DMP comprend :

  • La description de la nature de la recherche ;
  • La description de données et les métadonnées ;
  • Le stockage, la sauvegarde et la sécurité des données ;
  • Les moyens de partage des données ;
  • Les solutions de stockage à court et plus long terme.

Pourquoi faire un DMP?

Le DMP est un outil qui va garantir la transparence de nos données et par conséquent la crédibilité et l’intégrité de notre recherche. C’est aussi le moyen de transmettre ces données à d’autres chercheurs qui pourraient avoir besoin de les réutiliser dans le futur, et ainsi, nous faire gagner en visibilité. Nos données devront être accessibles et réutilisables. C’est la raison pour laquelle nous avons choisi de les rendre disponibles sous la licence libre CC0 (creative common). Enfin, un plan de gestion des données est obligatoire pour valider les demandes de financement auprès du FNS depuis octobre 2017.

Active data management et diffusion des données

L’active data management est la gestion des données en cours d’acquisition: pour ce faire, nous utilisons la plateforme Google drive qui nous permet de stocker temporairement nosdonnées en tableaux et en texte au fur et à mesure de leur création. Ce n’est néanmoins qu’une solution de travail, aucunement destinée à la conservation et la diffusion de données, qui n’est pas suffisante, ni matière de sécurité (ou sont stockées nos données? Que faire en cas de perte de données?) ni en terme d’accessibilité. C’est la raison pour laquelle nous effectuerons des sauvegardes hebdomadaires sur nos disques durs personnels et sur un serveur hébergé par la HEG.

Les données que nous devons traiter sont de plusieurs natures, elles prennent la forme d’articles scientifiques et de notices d’articles, mais aussi de données statistiques chiffrées et visuelles et des codes informatiques. Nous utilisons actuellement pour la collecte des données des “google sheet/doc” hébergés sur google drive pour des questions de partage et de travail simultané. En revanche, lorsque nos jeux de données seront complets, nous exporterons nos données vers des formats libres ou facilement utilisables (rdf, csv, texte) puis les mettrons à disposition sur le dépôt gratuit Zenodo. C’est une plateforme mise en place par le CERN qui offre la possibilité de déposer un set de données conséquent (50 Go), qu’il est possible d’organiser thématiquement en fonction des domaines de recherche, pour qu’il soit mis à disposition de la communauté scientifique.

L’archivage à long terme

Zenodo représente notre solution de dépôt à court terme et de diffusion. Cependant, il n’est pas adapté à un archivage sur le plus long terme. Dans nos recherches pour ce DMP, nous n’avons pas trouvé d’outil gratuit qui répondrait aux critères d’archivage à long terme. Il faudra par conséquent effectuer une veille sur le sujet et rester attentifs aux éventuels développements d’outils institutionnels fournis par la Haute Ecole de Gestion par exemple. Nous espérons trouver par la suite un outil qui nous satisfasse pour l’archivage. Toutes nos données ne seront néanmoins pas archivées à long terme. En effet, certaines de nos données ne rempliront pas les critères de conservation à long terme, telles que les notices bibliographiques d’autres institutions, ces dernières ne seront donc pas archivées.

Enfin, il est à noter que le DMP n’est pas figé dans le temps et qu’il est susceptible d’évoluer parallèlement à notre recherche.

Elodie Schwob et Matthieu Putallaz

Publicités

Un DMP? Pour quoi faire?

Mots-clefs

, , , , , , , ,

Le Data Management Plan (DMP), ou plan de gestion des données, fait parler de lui dans la communauté scientifique. S’inscrivant dans le mouvement de l’Open Science et requis par certains bailleurs de fonds lors de la soumission d’une requête, il est en passe de devenir incontournable. Pour les chercheurs, enthousiastes ou frileux, le temps n’est plus à l’indifférence.

Mais de quoi parle-t-on au juste? Quelle application d’un DMP peut-on faire dans le cadre d’une recherche menée par des étudiants de Master? Quels en seront les apports concrets?

Quoi?

Si la locution Data management plan peut faire peur, il faut bien comprendre que parler d’un DMP c’est parler d’un document de quelques pages seulement, ayant trait à la collecte, la gestion, le partage et l’archivage des données de recherche, pendant la durée d’un projet et après son terme.

Les novices en la matière s’inspireront simplement des nombreux modèles disponibles en ligne (comme ceux proposés par le Digital Curation Centre), dont la structure varie mais pas le contenu.

blog_illustrations_22

Ceux qui craignent de ne pouvoir répondre d’emblée à toutes les questions découlant du DMP doivent être rassurés. Ce document n’est pas gravé dans le marbre mais amené à évoluer au fil du projet et de la réflexion du chercheur. Sa version finale n’est due que lorsque la recherche est achevée.

Qui, quand, pourquoi?

Dans le cadre du Master en Sciences de l’Information de la HEG, nous avons choisi de travailler sur un projet intitulé “Panorama et modélisation d’identifiants pérennes pour la création d’identités de confiance”, sous la supervision du professeur René Schneider.

Notre projet nous amène à:

  • rédiger un état de l’art sur les identifiants pérennes existants
  • concevoir un panorama visuel et esthétique de ces identifiants
  • étudier les tendances en termes d’identifiants pérennes et d’identités de confiance
  • esquisser un système d’allocation d’identifiants pérennes en Suisse

Comment?

Notre plan de gestion des données reprend la structure de DMP proposée par David Shotton, s’efforçant de répondre aux 20 questions proposées par l’auteur. Rassurez-vous, nous n’allons pas passer en revue l’ensemble de nos réponses, mais plutôt nous attarder sur quelques points notables.

  • Nature des données et formats

Les données collectées sont de trois types: données de référence (déjà traitées, annotées et/ou publiées par des pairs), données dérivées ou compilées (issues de traitement de données brutes) et données de simulation (modélisation). Elles prennent des formes diverses: textuelles, numériques, visuelles et modèles.

Nos formats de travail sont les formats .doc, .xls et .ai (image vectorielle), mais nous gardons à l’esprit que des formats ouverts sont préférables pour l’archivage à long terme, afin de garantir une meilleure accessibilité de nos données. Différentes versions de nos documents de collecte sont également exportées en format .pdf et .jpeg afin d’éviter toutes pertes ou modifications.

  • Création des métadonnées

Chaque série de données possédera des métadonnées inspirées du standard Dublin Core. Ces métadonnées doivent être suffisamment précises; elles ont un vrai rôle à jouer puisqu’elles permettront à d’autres chercheurs de comprendre l’origine de nos données et éventuellement de les réutiliser.

  • Stockage des données et sauvegardes

Pour éviter toute perte fâcheuse, nos données seront stockées sur plusieurs supports: Google Drive (notre espace commun de travail), ordinateurs personnels et disque dur externe (pour les sauvegardes hebdomadaires générales). La sauvegarde sera effectuée pour chaque nouvelle version. Ce système de stockage et de sauvegardes, bien que non pérenne, nous paraît suffisant pour un usage à court terme.

  • Archivage

La question de l’archivage reste en suspens. En effet, à ce stade du projet, nous n’avons pas une vue précise de la quantité de données collectées, ni des données à archiver à long terme.

La nature de l’entrepôt en charge de cet archivage reste également à préciser même s’il nous semble déjà clair que ce trusted repository devrait être situé en Suisse, attribuer des DOIs et exposer les métadonnées descriptives au moissonnage grâce au protocole d’interopérabilité des archives ouvertes (OAI-PMH).

Notre DMP contient donc encore des questions ouvertes. Quoi de plus normal pour un document évolutif? Nous le complèterons dans les prochains mois.

blog_illustrations_23

Quelles attentes pour notre projet?

Loin d’être un exercice de style, plus ou moins contraint, ou un acte de partage désintéressé envers la communauté scientifique, le DMP a une vraie plus-value pour le chercheur qui s’y attelle.

En effet, si le DMP a pour objet d’“offrir une perspective à long terme en définissant de quelle manière les données seront générées, collectées, documentées, partagées et préservées” (FNS, 2016) et de permettre la reproductibilité des résultats scientifiques, pour nous, c’est d’abord la garantie de se poser les bonnes questions dès le début du travail de recherche.

Ainsi, l’élaboration du DMP nous a permis de déterminer précisément sur quels supports nous allions travailler, sous quels formats, le mode de collecte de nos données, leur classement, leur description et de régler la question cruciale de la conservation. En somme, le DMP nous a fourni l’opportunité de coordonner notre travail pour avancer le plus efficacement possible. Si, en plus, nos données peuvent à l’avenir être utiles à d’autres, le bénéfice sera total.

Aurélie Jaquet, Lise Lefort & Kate Espasandin

Références

BIBLIOTHÈQUE NATIONALE DE FRANCE (BNF), 2016.  Dublin Core. bnf.fr [en ligne]. 21 décembre 2016. [Consulté le 18.08.2017]. Disponible à l’adresse: http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_dublin_core.html

FNS – Fonds national suisse de la recherche scientifique, 2016. Data Management Plan (DMP) – Directives pour les chercheuses et chercheurs. snf.ch [en ligne]. 2017. [Consulté le 10.06.2017]. Disponible à l’adresse : http://www.snf.ch/fr/leFNS/points-de-vue-politique-de-recherche/open_research_data/Pages/data-management-plan-dmp-directives-pour-les-chercheuses-et-chercheurs.aspx

INIST-CNRS, 2017. Tutoriels «Le libre accès aux résultats de la recherche dans le cadre d’Horizon 2020». Inist.fr [en ligne]. 2017. [Consulté le 11 juin 2017]. 11 mai 2017 Disponible à l’adresse: http://www.inist.fr/donnees/co/module_Donnees_recherche_35.html

JONES, Sarah, 2011. How to Develop a Data Management and Sharing Plan. dcc.ac.uk [en ligne]. 8 septembre 2011. [Consulté le 16.08.2017]. Disponible à l’adresse : http://www.dcc.ac.uk/resources/how-guides/develop-data-plan#Examples

SHOTTON, David, 2012. Twenty Questions for Research Data Management. Data management planning [en ligne]. 7 mars 2012. [Consulté le 20 mai 2017]. Disponible à l’adresse : https://datamanagementplanning.wordpress.com/2012/03/07/twenty-questions-for-research-data-management/

VAN DE SOMPEL, Herbert, TRELOAR, Andrew, 2014. A Perspective on Archiving the Scholarly Web Proceedings of iPres, Melbourne [en ligne]. Octobre 2014. [Consulté le 13.04.2017]. Disponible à l’adresse : http://public.lanl.gov/herbertv/papers/Papers/2014/iPres2014_Sompel_Treloar.pdf

 

L’oiseau bleu en Suisse : les données de recherche dans le cadre du projet Helve’Tweet

Mots-clefs

, , , , , , , ,

Depuis quelques années, le milieu de la recherche fait face à une nouvelle problématique : que faire des données produites ? Le Big Data rajoutant un paramètre de taille, celui du volume des données, que garder, où et comment ?

Réalisé pour le module « projet de recherche » du Master SI, Helve’Tweet est le successeur de GEoTweet, un projet réalisé lors de la volée précédente. L’objectif de Helve’Tweet est de mener une recherche exploratoire et statistique sur un corpus d’un million de tweets géolocalisés en Suisse. Après la rédaction d’un cahier des charges afin de formaliser et planifier le projet, une réflexion autour des données a été menée et formalisée sous forme de Data Management Plan. Lire la suite

20 questions pour la gestion des données

Mots-clefs

, , , , , ,

La gestion des données de la recherche pose de nombreuses questions. Ce billet est pour nous l’occasion de décrire les informations principales renseignées dans un data management plan (DMP) : quelles seront les données collectées durant notre projet de recherche ? De quelle manière souhaitons-nous les partager avec le reste de la communauté scientifique ? Enfin, comment envisageons-nous leur gestion et leur archivage ?

Un projet sur l’évaluation de plateformes de veille

Dans le cadre du Master en Sciences de l’information, nous sommes mandatées pour réaliser un projet de recherche. Encadrées par Mme Madinier, notre étude, portant sur l’évaluation de plateformes de veille, s’inscrit dans le cadre d’un projet plus large, le projet webSO+. Notre recherche, de type exploratoire, proposera pour la première fois d’évaluer des plateformes non pas selon les fonctionnalités proposées, mais selon la qualité des résultats retournés.

Le data management plan : un document en passe de devenir obligatoire

Dès octobre 2017, tout chercheur suisse devra fournir un document précisant la manière dont seront gérées les données de la recherche avant, pendant et après le projet (FNSNF 2017). Plusieurs modèles existent pour la réalisation de ce document. Pour notre part, nous avons décidé de répondre aux vingt questions du chercheur David Shotton.

The DCC Curation Lifecycle Model : les étapes du cycle de vie
des données pour une curation et une préservation optimale

lifecycle_web

Source : http://www.dcc.ac.uk/resources/curation-lifecycle-model /

Des données de quelle nature ?

Nos données seront nouvelles, car créées durant notre projet. Elles sont de natures différentes :

  • Les données collectées sur les plateformes sont des données compilées, de nature en partie révisable, car elles sont le reflet de ce qui existe sur le web.
  • Les grilles d’évaluation créées pour évaluer ces données collectées s’apparentent à des données de type « simulation », le modèle d’évaluation des données étant plus important que les données en elles-mêmes (Schneider sans date).

Comment partager les données ? : la question des droits d’auteur

Désireuses que nos données soient libres d’accès et de réutilisation pour tous, nous avons dû nous poser au préalable la question des droits d’auteur.

Tout d’abord, nous devons considérer les auteurs à l’origine des données collectées depuis le web. Bénéficiant du cadre de l’exception de citation et de celui de la recherche et de l’enseignement, nous pouvons diffuser sans restriction les titres et URL de ces données.

Par ailleurs, nous avons dû nous assurer que les plateformes ne réclameraient pas de droits pour la création de recueils de données, auquel cas nous aurions dû nous soumettre à certaines restrictions de diffusion.

Enfin se pose la question de nos propres droits concernant les grilles d’évaluation que nous allons créer. Afin de permettre la diffusion et la réutilisation de nos données, nous avons fait le choix du copyright CC BY.

L’active data management : l’enjeu de la sécurité

Tout au long de notre projet, nos données seront stockées sur les disques durs de nos ordinateurs, mais aussi dans le cloud, pour en garantir une sauvegarde optimale. Pour ce faire, nous utiliserons le service Dropbox.

Les données collectées sur les plateformes étant en partie révisables, se pose l’enjeu de la fréquence d’exportation. Cependant, pour des questions de faisabilité (nous ne pouvons pas prévoir la volumétrie des données collectées), nous sommes aujourd’hui dans l’incapacité de communiquer cette information.

Zenodo : pour un archivage à court terme

Afin de permettre à la communauté scientifique d’accéder et de réutiliser rapidement nos données, il nous a paru opportun de faire le choix d’une solution pour un archivage à court terme.

Zenodo, développé par le CERN, est intéressant car :

  • il affecte automatiquement un DOI à chacun des documents déposés,
  • il utilise le protocole OAI-PMH permettant l’interopérabilité des archives ouvertes,
  • il permet de créer et de gérer des communautés en permettant la définition des droits d’accès aux données (Pôle Digitalist 2017).

Cependant, c’est un entrepôt dont l’archivage est géré par une machine, encore incapable d’assurer les mêmes tâches que les professionnels de manière automatique. Ainsi, nous devons envisager une autre solution pour l’archivage à long terme.

Quel entrepôt pour l’archivage à long terme ?

Après avoir effectué des recherches sur OpenDOAR, il apparaît qu’il n’existe pas d’entrepôt de données en Suisse pour le domaine des sciences de l’information. Le projet suisse DLCM proposera à terme une solution à ce sujet.

A ce stade du projet, nous poursuivons donc nos réflexions. Nos données n’étant pas de nature sensible, il nous serait possible de les déposer dans un entrepôt en dehors de la Suisse. Ainsi, trois entrepôts de notre domaine ont pu être identifiés et contactés. Nous attendons leur réponse.

Floriane Minana & Fanny Quiquerez

Sources

A propos des licences – Creative Commons. Creativecommons.org [en ligne]. [Consulté le 13 mai 2017]. Disponible à l’adresse : https://creativecommons.org/licenses/?lang=fr

FONDS NATIONAL SUISSE DE LA RECHERCHE SCIENTIFIQUE (FNSNF), 2017. Open Research Data : les requêtes devront inclure un plan de gestion des données. Snf.ch [en ligne]. [Consulté le 20 mai 2017]. Disponible à l’adresse : http://www.snf.ch/fr/pointrecherche/newsroom/Pages/news-170306-open-research-data-bientot-une-realite.aspx

PÔLE DIGITALIST (DLH), 2017. Datapartage – Déposer dans Zenodo-Inra. Inra.fr [en ligne]. [Consulté le 13 mai 2017]. Disponible à l’adresse : https://www6.inra.fr/datapartage/Partager-Publier/Valoriser-ses-donnees/Deposer-dans-Zenodo-Inra

SCHNEIDER, René, [sans date]. Données de la recherche : connaissances de base [document PDF].

Support de cours : Cours “M1C1 – Fondements des sciences de l’information et soutien à la recherche”, Haute école de gestion de Genève, filière information documentaire, année académique 2016-2017

SHOTTON, David, 2012. Twenty Questions for Research Data Management. Data management planning [en ligne]. 7 mars 2012. [Consulté le 20 mai 2017]. Disponible à l’adresse : https://datamanagementplanning.wordpress.com/2012/03/07/twenty-questions-for-research-data-management/

UNIL, Université de Lausanne, 2017. Réaliser un Data Management. Unil.ch [en ligne]. [Consulté le 13 mai 2017]. Disponible à l’adresse : https://uniris.unil.ch/researchdata/sujet/realiser-un-data-management-plan/

Enrichissement des dépôts institutionnels suisses : évaluation de la proportion d’articles en texte intégral disponibles et développement de stratégies d’acquisition automatique

Mots-clefs

, , ,

Un contexte

Dans le cadre du master en Sciences de l’Information que nous suivons actuellement à la HEG, nous avons été mandatés pour effectuer un travail de recherche d’une durée d’une année dans un des nombreux domaines relatifs à notre champ d’études.

Débuté en mars 2017, le rendu final du projet est arrêté pour le mois de janvier 2018, et les premiers résultats seront présentés sous forme d’un poster, le 14 décembre 2017, lors d’une session idoine.

Parmi une vingtaine de mandats différents, nous avons choisi de nous consacrer au projet de recherche proposé par le Professeur Patrick Ruch concernant le dépôt d’articles scientifiques, et plus particulièrement les archives institutionnelles suisses.

Les archives institutionnelles

En Suisse, la littérature produite par les chercheurs est généralement publiée sous forme d’articles chez des éditeurs commerciaux. Cependant, il existe aussi des dépôts d’articles au sein des institutions. Celles-ci ont pour vocation d’accueillir, de rassembler et de rendre disponible les publications écrites sous son toit. Il s’agit des archives institutionnelles. Malheureusement, toute la littérature produite dans ces institutions ne s’y trouve pas nécessairement.

Il en résulte plusieurs problèmes : d’une part, ces archives institutionnelles sont dépendantes de l’institution auxquelles elles appartiennent, donc morcelées sur le territoire Suisse, et seuls les établissements les plus fortunés peuvent avoir la chance d’en avoir une suffisamment développée. D’autre part, elles sont souvent incomplètes.

C’est pour ces raisons ainsi que pour s’aligner sur le modèle européen, qu’une stratégie nationale de l’Open Access vient d’être mise en place. Dans ce contexte, il est désormais indispensable de se pencher sur  la possibilité de créer une archive institutionnelle nationale et sa mise en application.

Le projet de recherche

Ainsi, le Professeur Patrick Ruch, nous mandate, afin de se pencher sur ce projet. Notre but est d’estimer et d’évaluer la quantité d’articles scientifiques disponibles dans les archives institutionnelles suisses, ainsi que de développer une stratégie automatique d’acquisition de notices bibliographiques et de texte intégral.

En effet, tous les articles financés par des fonds de recherche suisses sont nécessairement quelque part : dans d’autres sources, comme des archives ouvertes, des bases de données commerciales, des éditeurs etc…

L’idée est d’identifier et d’aller chercher les articles (ou leurs métadonnées) et de quantifier la proportion déjà présente dans les archives institutionnelles. Puis, à terme, proposer une méthode automatique afin de récolter informatiquement ces données. Bien sûr, nous devrons respecter les contraintes de droit d’auteur et d’embargo de publication sur certains articles.

Nous répondrons à trois questions de recherche pour arriver à ce but :

  1. Quelle est la proportion de publications produite par des chercheurs affiliés à des institutions suisses qui se trouve dans les archives institutionnelles suisses ?
  2. Comment identifier les articles issus de fonds de recherche suisse dans les sources internationales (archives ouvertes et plateformes commerciales) ?
  3. Quelle part de la publication suisse absente des archives institutionnelles peut être obtenue automatiquement depuis les sources internationales et comment en systématiser l’acquisition ?

Notre recherche, qui débute maintenant, portera en premier lieu sur l’identification et la description des ressources représentatives qui seront utilisées pour y quantifier les articles suisses. De cette manière nous serons à même de définir un panel à des fins de test de plusieurs dépôts institutionnels et de plusieurs sources internationales.

En second lieu, nous émettrons des recommandations sur l’identification automatique des articles de chercheurs affiliés à des institutions suisses dans des sources internationales et l’automatisation du moissonnage de notices.

Le data management plan

Une partie de cette recherche est également pour nous l’occasion de créer un Data Management Plan (DMP). C’est un outil qui nous permettra de structurer et de cadrer ce que nous allons faire des données de la recherche que nous produirons. Pour ce faire, nous nous poserons des questions concernant la description de nos données, la méthodologie de collecte des données, la méthode de curation des données sélectionnée, la sécurité et la confidentialité des données, le moyen de partage et d’accès aux données, et plus encore…

Nous proposerons donc une solution pour le management plan, ainsi qu’une solution pour l’archivage à court, puis à long terme.

Mais ce sujet à lui seul fera ultérieurement l’objet d’un article de notre part dans ces colonnes.

Elodie Schwob et Matthieu Putallaz

 

Master IS : la recherche en route !

Mots-clefs

, , , , , , , , , ,

Les étudiants du Master IS débutent ce mois-ci leur projet de recherche qui s’achèvera début 2018 avec la publication de leurs résultats sous forme de mémoire de recherche. Un poster scientifique présentera le projet, sa méthodologie et les premiers résultats : la session de présentation aura lieu le 14 décembre 2017 à la HEG.

Il s’agit pour eux de mener à bien une recherche originale en sciences de l’information en produisant et communiquant des connaissances scientifiques nouvelles.

Cette année, la liste des sujets proposés aux étudiants était très variée : veille, gouvernance de l’information, risques informationnels, archives institutionnelles ou encore gestion des données de la recherche sont quelques-unes des grandes thématiques qui ont été choisies.

blog

Les projets de recherche dans le détail

Une évaluation de la qualité des métriques d’Alexa en webométrie posera aux étudiants la question de la transparence des données : peut-on avoir confiance dans les données d’Alexa.com ? Comment faire pour avoir des données normalisées et transparentes du web ?

Deux sujets concernant la veille interrogeront d’une part les sources (Twitter, Google News, Bing, etc.) et leur pertinence et d’autre part les outils de surveillance et leur recouvrement : quelles sources sont les plus pertinentes, bruitées ou encore couvrantes ? Quels outils de veille sont les plus performants pour couvrir un champ informationnel précis ?

Une étude sur cinq mois de tweets géolocalisés en Suisse proposera aux étudiants d’explorer ces données afin d’offrir une description quantitative globale de ces données et questionnera la signifiance de cette ressource et plus largement l’opportunité de l’archivage des tweets suisses.

Dans le cadre du projet « EU29 Information Governance Maturity in EU Public Administration » (InterPARES Trust), un groupe d’étudiants cherchera à connaître la perception de la gouvernance de l’information des gestionnaires de l’information dans les administrations publiques, en dressant notamment un état de l’art et en conduisant des entretiens.

La gestion des risques informationnels dans les organisations est devenue une compétence importante pour le professionnel de l’information. Afin de répondre aux enjeux à la fois technologiques et juridiques des risques informationnels, les étudiants offriront un état de l’art inédit qui permettra de définir et d’offrir une typologie des risques et des outils existants pour y faire face.

Au sein d’un projet de Swissuniversities, des étudiants interrogeront l’opportunité d’archives institutionnelles unifiées en acquérant des articles écrits par des chercheurs suisses à partir d’archives institutionnelles internationales. Tout en respectant les licences internationales, quelles seraient les possibilités d’accéder aux full-text directement à la source ?

Les institutions scientifiques suisses seront contraintes, à l’avenir, de mettre à disposition leurs données de la recherche. Dans ce contexte, un groupe d’étudiants cherchera à concevoir une chaîne des services internes utilisant une solution Open Source pour la curation des données tout au long du Data Life Cycle.

Afin d’offrir aux données de la recherche des identifiants pérennes pour en assurer une bonne citation, mais aussi la création d’identités de confiance, ce projet de recherche invitera les étudiants à établir un panorama comparatif et visuel des identifiants existants et à esquisser un modèle en respectant la particularité de la situation suisse.

Twitter

Exemple de poster scientifique de la saison 2015: « GEo Tweet: exploration des tweets géolocalisés à Genève »

Les étudiants posteront régulièrement sur ce blog des contributions qui feront état de leurs résultats, ainsi que d’une réflexion autour du Data Management Plan (DMP), la gestion active et l’archivage à long terme des données issues de leur projet.

L’ensemble de la filière leur souhaite bonne chance dans cet important travail et se réjouit de découvrir leurs premiers résultats!

Il faut cultiver notre jardin…de la connaissance

Mots-clefs

, , , ,

« Knowledge Management » (KM) ou « Gestion des Connaissances » (GC), « avantage concurrentiel », « organisation 2.0 », « communautés de pratiques »… autant de concepts à 100 000 lieues (et deux siècles et demi) du lopin de terre de Candide (1). Et pourtant…

book-1616087_960_7202

L’entreprise, terreau du KM

Si certains appellent de leurs voeux une expansion des techniques du Knowledge Management hors de l’entreprise (2), il est indéniable que le KM s’est développé dans l’entreprise, pour l’entreprise et que cette dernière constitue son « habitat naturel ».

En effet, les premières publications sur le KM, parues dans les années 1990, sont tout naturellement tournées vers le secteur économique et concurrentiel. Ainsi, en 1994, T. Stewart s’adresse aux entreprises, les encourageant à se concentrer davantage sur ce qu’elles savent (« intellectual capital« ) et moins sur ce qu’elles possèdent (3).

L’ouvrage de référence de T. H Davenport et L. Prusak (1998) (3) se fonde lui-même sur l’observation d’une quarantaine de grandes entreprises (Boeing, Chrysler, Hewlet-Packard, Hoffmann-LaRoche, Monsanto…); c’est dans ce cadre que les deux auteurs nous livrent leur définition du KM: « the process of capturing, distributing, and effectively using knowledge« .

Progressivement, la connaissance s’impose comme une ressource interne essentielle de l’entreprise (approche Resource-Based View), valorisable, capitalisable et offrant un avantage concurrentiel certain. Reste à savoir la cultiver!

C’est le but du « KM au coeur de la stratégie d’entreprise » (4).

Le KM, engrais de l’entreprise

Comme le souligne A. Dudezert, la connaissance en entreprise a de nombreux visages. Elle peut être:

  • formalisée dans un document (stocké ou diffusé)
  • liée à l’individu et à sa pratique de travail (communautés de pratiques, annuaires, plateformes collaboratives, etc.)
  • la résultante d’interactions entre les individus (réseaux sociaux)

Sa complexité et son caractère largement tacite en font une ressource difficilement contrôlable; la GC consiste en réalité davantage à « agir sur [les] voies de circulation [de la connaissance] pour faciliter son développement« .

Vous ne pouvez pas faire grandir une plante en lui tirant sur les feuilles! ce que vous pouvez faire est de mettre en place un écosystème qui sera favorable à sa croissance, écrit E. Wenger (1999) (4).

A cette fin, l’entreprise est amenée à modifier son organisation, selon un modèle de « Knowledge Centric Enterprise« , ou « organisation 2.0 » qui s’intéresse de près « aux flux d’information de coordination ou de collaboration » (réseau social).

Dans un modèle complet de KM, tel qu’il a pu être expérimenté par la société Gemalto (4), une conjonction d’outils est mise en place pour:

  • renforcer l’efficacité du transfert des connaissances de base (cartographie des connaissances, blended learning, etc.)
  • favoriser l’autonomisation des employés (certification, coaching, etc.)
  • développer des « communautés de pratiques » (Wenger, 1991) (5), favorisant le partage d’expériences et de bonnes pratiques (best practices ou lesson learned)

shield-229112_960_7200

De grands groupes comme Air liquide ou Lafarge choisissent en outre de s’appuyer sur une université d’entreprise, chargée d' »accompagner leur transformation« , notamment dans le domaine du KM, et de « développer les savoirs« .

La diversité des supports de diffusion des connaissances, faisant une large part aux technologies 2.0, offre des possibilités immenses aux entreprises et s’adapte à leurs moyens et à leurs attentes (e-books, blogs, wikis, forums, réseaux sociaux d’entreprise, etc).

Mais toutes ces connaissances, l’entreprise doit d’abord être en mesure de les conserver; c’est ce que M. Roulleaux Dugage appelle la « mémoire d’entreprise » (4). Il identifie deux types d’action pour ce faire:

  • conserver les connaissances des collaborateurs (« People Revues« , tutorat, compagnonnage, animation de communautés techniques, etc.)
  • tirer profit de la mémoire des projets (bilans de fin de projet, études des projets passés, bonnes pratiques, etc.)

Cette masse de connaissances ne doit cependant pas se retourner contre l’entreprise qui la cultive…

Attention à la culture intensive!

Si le KM a pour objet de faciliter la conservation et la diffusion des connaissances dans l’entreprise, il ne faudrait pas que cette dernière se perde dans la jungle des outils existants ou ne croule sous la profusion des connaissances, de fait inexploitables.

Dans un article intitulé « Whatever happened to knowledge management? » (2015) (6), T. H. Davenport dresse un constat pessimiste. Selon lui, le KM est moribond (« knowledge management isn’t dead, but it’s gasping for breath« ). Il estime notamment qu’un trop grand volume de connaissances peut rendre le système inefficace.

Many people didn’t have the patience or time to find everything they needed. Ironically, the greater the amount of knowledge, the more difficult it was to find and use.


La connaissance de l’entreprise constitue sa véritable richesse, son « jardin secret ». Cultiver son savoir-faire est en effet crucial pour se démarquer des concurrents dans une économie toujours plus mondialisée.

Toutefois, « jardin secret » ne signifie pas repli sur soi; l’entreprise doit rester attentive à son environnement et s’en nourrir. Environmental scanning et competitive intelligence constituent ainsi de nouvelles perspectives pour le KM, qui reste un atout certain pour l’entreprise, lorsque le terrain est propice à son développement.


Bibliographie

1- VOLTAIRE, 1759. Candide ou l’optimiste. Paris: Bordas, 2003. Classiques Bordas. ISBN 2 04 730379-6

2- DUPUIS-HEPNER, Nathalie, 2012. Le Knowledge Management, accélérateur d’innovation sociale. In : DUDEZERT, Aurélie, ROULLEAUX DUGAGE, Martin, CHAUVIN, Frédéric, MARTIN, Frédéric, LEMIEUX, Edith, BOISSERPE, Patrick, et al., 2012. Le KM au coeur de la stratégie d’entreprise. Documentaliste – Sciences de l’Information. 2012/2. Vol. 49. Disponible à l’adresse: https://www.cairn.info/revue-documentaliste-sciences-de-l-information-2012-2-page-26.htm

3- DAVENPORT, Thomas H. et PRUSAK, Laurence, 1998. Working Knowledge: how organizations manage what they know. Boston: Harvard Business School Press. ISBN 0 87584 655 6

4- DUDEZERT, Aurélie, ROULLEAUX DUGAGE, Martin, CHAUVIN, Frédéric, MARTIN, Frédéric, LEMIEUX, Edith, BOISSERPE, Patrick, et al., 2012. Le KM au coeur de la stratégie d’entreprise. Documentaliste – Sciences de l’Information. 2012/2. Vol. 49. Disponible à l’adresse: https://www.cairn.info/revue-documentaliste-sciences-de-l-information-2012-2-page-26.htm

5- WENGER, Etienne et LAVE, Jean, 1991. Situated learning: legitimate peripheral participation. Cambridge: Cambridge University Press

6- DAVENPORT, Thomas H., 2015. Whatever Happened to Knowledge Management ?. The Wall Street Journal [en ligne]. 24.06.2015. Disponible à l’adresse: http://www.tomdavenport.com/wp-content/uploads/Whatever-Happened-to-Knowledge-Management.pdf

Image

Knowledge management et communautés de pratique : passion éphémère ou relation à long terme ?

Mots-clefs

, , , ,

Jamais dans sa jeune existence, le knowledge management (KM) n’a été aussi étroitement associé à un autre concept que celui des « communautés de pratique » (CoP). Derrière cette expression se cache une idée qui a le défaut de n’être pas encore assez clairement définie. Malgré cette difficulté, les chercheurs italiens Bolisani et Scarso ont sondé une douzaine de revues spécialisées dans le KM pour clarifier la place que ces communautés de pratique occupent dans cette littérature spécialisée. Qu’ont-ils découvert ? Une définition plus précise des CoP se profile-t-elle ?

Naissance et évolution du concept

En 1991, le chercheur Suisse Etienne Wenger et sa collègue, l’anthropologue Jean Lave, inventent le concept de « communautés de pratique » (CoP)[1]. Mais au fait, les communautés de pratique, qu’est-ce que c’est ?

L’inventeur de l’expression a lui-même fait évoluer ce concept au fil de ses publications. A l’origine, cette notion, influencée par la sociologie, se définit comme « the participation by people in an activity system about which they share understandings about what they are doing and what that means for their lives and communities » (Lave et Wenger, 1991). Les CoP sont alors considérées comme des structures auto-organisées. Quelques années plus tard, les CoP seront plutôt vues comme des systèmes d’apprentissage sociaux formés de groupes de personnes qui partagent une préoccupation à propos d’un sujet et qui approfondissent leurs connaissances et leur expertise dans ce domaine. Le concept est alors utilisé par Wenger pour réfléchir à la manière dont la connaissance est créée et comment elle circule à l’intérieur d’un groupe de personnes. C’est à partir de ce moment que ses publications vont avoir un fort impact sur le KM. En 2002, une notion importante est encore ajoutée par Wenger : les CoP doivent être des structures dirigées.

 

Les recherches de Bolisani et Scarso

Avant d’entamer leur propre revue systématique de la littérature[2], Bolisani et Scarso ont identifié deux autres travaux dans la même veine, celui des chercheurs Agrawal et Joshi (2011) et celui de Murillo (2011). Dans la première étude d’Agrawal et Joshi[3], il ressort clairement qu’il n’existe pas de définition consensuelle des CoP. Agrawal et Joshi concluent que les CoP sont des structures qui peuvent être créées intentionnellement et qu’elles sont employées pour favoriser l’apprentissage et les échanges de connaissances. Dans la seconde étude, Murillo[4] classe les publications concernant les CoP en deux grands groupes : d’une part, les scientifiques qui voient les CoP comme un phénomène spontané, des groupes autogérés et, d’autre part, ceux qui pensent qu’elles devraient être des structures dirigées.

 

Les résultats de Bolisani et Scarso

Selon l’étude de Bolisani et Scarso (2014), en 2012, les CoP restent un sujet populaire dans la documentation sur le KM.

Cette analyse chronologique des publications révèle que les premiers articles sont apparus autour de 2003, soit un an après la publication de Wenger et Al. (2002) et qu’un pic a été atteint en 2007 lorsque The Learning Organisation a publié une édition spéciale sur les CoP. (Tableau adapté et tiré de Bolisani et Scarso, 2014, p. 375)

Cette analyse chronologique des publications révèle que les premiers articles sont apparus autour de 2003, soit un an après la publication de Wenger et Al. (2002) et qu’un pic a été atteint en 2007 lorsque The Learning Organisation a publié une édition spéciale sur les CoP. (Tableau adapté et tiré de Bolisani et Scarso, 2014, p. 375)

Les deux chercheurs italiens tirent de nombreux constats de leur analyse de la littérature. On se perd d’ailleurs un peu dans cette pléthore de résultats.

Quelques résultats concernant les CoP obtenus par Bolisani et Scarso grâce à leur analyse systématique des revues spécialisées dans le KM.

Quelques résultats concernant les CoP obtenus par Bolisani et Scarso grâce à leur analyse systématique des revues spécialisées dans le KM.

Une vision domine au sein du KM : les CoP sont des structures organisationnelles qui peuvent être – et qui souvent doivent être – créées et cultivées. Bon nombre d’articles ont pour but de tirer certaines leçons qui pourraient être utiles aux managers souhaitant créer intentionnellement de nouvelles CoP dans leurs entreprises. Ce type de CoP est le plus répandu et le plus intéressant d’un point de vue pratique.

 

Les CoP sont des structures organisationnelles qui peuvent être – et qui souvent doivent être – créées et cultivées.

 

Mais la littérature sur le KM et les CoP se concentre aussi sur les communautés virtuelles. Celles-ci possèdent des caractéristiques particulières et leur gestion demande des approches spéciales.

Wenger reste une référence notamment en ce qui concerne sa définition des CoP. Malgré cela, un manque de consensus persiste en ce qui concerne les définitions et les applications de la notion de CoP. C’est la raison pour laquelle les auteurs suggèrent de s’entendre d’abord sur ce point. Pour y parvenir, ils proposent dans un premier temps de restreindre l’analyse à une catégorie particulière, par exemple les CoP créées intentionnellement au sein d’une organisation professionnelle. Cette suggestion est intéressante, mais elle introduit un biais important en écartant les autres types de CoP. En outre, avec les nombreux résultats auxquels ils sont parvenus à travers leur analyse systématique de la littérature, on déplore que Bolisani et Scarso, pourtant spécialistes du KM, ne proposent pas leur propre définition des CoP.

 

Un manque de consensus persiste en ce qui concerne les définitions et les applications de la notion de CoP.

 

Le KM et les CoP ont trop en commun pour que leur destin respectif ne soit pas étroitement lié : gestion, création, partage des connaissances, etc. Alors, à quand une définition claire et précise des communautés de pratique qui mettrait en lumière le rôle essentiel qu’elles jouent dans le domaine du KM ?

[1] Lave, J. and Wenger, E. (1991). Situated Learning: Legitimate Peripheral Participation, Cambridge University Press, Cambridge.

[2] BOLISANI, Ettore et SCARSO, Enrico (2014). The place of communities of practice in knowledge management studies: a critical review. Journal of Knowledge Management. 7 avril 2014. Vol. 18, n° 2, pp. 366-381. DOI 10.1108/JKM-07-2013-0277.

[3] AGRAWAL, A. and JOSHI, K.D. (2011). ‘‘A review of community of practice in organizations: key findings and emerging themes’’, Proceedings of the 44th HICSS, Kauai, Hawaii, 4-7 January.

[4] MURILLO, E. (2011). ‘‘Communities of practice in the business and organization studies literature’’, Information Research, Vol. 16 No. 1.

Enregistrer

Emails pour la postérité !

Jamais le débat autour de la sécurité d’emails n’a été aussi présent dans la presse internationale qu’en 2016. Les scandales de l’élection présidentielle étasunienne nous ont tenu en haleine jusqu’aux votations choquantes du 8 novembre. Au cœur de la tourmente : la mauvaise gestion des emails d’Hillary Clinton et le hacking de la boîte mail de John Podesta, son chargé de campagne. Dans ce contexte inquiétant, l’objectif de l’étude d’Anthony Cocciolo – l’élaboration de stratégies d’évaluation d’emails dans le but d’identifier puis conserver de manière pérenne des contenus sensibles – semble plus pressant que jamais.

Crise sécuritaire : la trainée de poudre d’une mauvaise gestion d’emails

La sécurité, la gestion et la conservation des emails est au centre des débats depuis de nombreuses années. Les affaires de hacking font les choux gras des journaux (Sony Pictures en 2014, Hillary Clinton en 2016…) et ravivent ainsi régulièrement les craintes des grandes institutions face aux risques sécuritaires que de mauvaises pratiques de gestion des courriers électroniques leur font encourir. En 2014, le Wall Street Journal publie un article alarmiste à ce sujet prônant une stratégie radicale pour éviter tout scandale : l’élimination systématique des emails sensibles. En réponse, Frank Bruni du New York Times écrit « delete, delete, delete. That’s a bit of your humanity being snuffed out ». Après tout, la sécurité et confidentialité de nos courriers électroniques ne sont-elles pas en partie la responsabilité des services de messagerie ? Le non-respect de la protection de nos données privées n’empiète-elle pas avant tout sur nos droits ?

Comme souligné par Anthony Cocciolo, professeur associé à la Pratt Institute School of Information, dans son article de 2016 intitulé « Email as cultural heritage resource : appraisal solutions from an art museum context », cette crise sécuritaire ne met pas seulement en péril notre patrimoine historique et culturel, mais plus immédiatement la transparence et la traçabilité d’actions et décisions institutionnelles. Si la mauvaise gestion d’emails est un risque, l’élimination systématique de données sensibles est une peine de mort. En effet, une institution sans accès aux informations cruciales à son fonctionnement (dont certaines sont échangées par email) expose son ventre mou, sa vulnérabilité.

blog2

Evaluation manuelle, une solution efficace mais inefficiente ?

Anthony Cocciolo s’attèle donc à sa tâche en analysant les boîtes mails du directeur d’un musée d’art aux Etats-Unis et de deux de ses conservateurs. Ses constats reflètent les inquiétudes de l’institution : une gestion des emails chaotique dépourvue de directives institutionnelles cohérentes. Afin d’identifier les courriers électroniques à conserver dans des boîtes mails dont le traitement et l’organisation sont les fruits de la créativité de leurs propriétaires, Cocciolo souligne l’importance de connaître les activités, missions et fonctions de l’institution ainsi que les projets principaux des protagonistes et les contacts pertinents à ceux-ci. Afin d’accélérer un processus d’évaluation manuel, le chercheur préconise l’approche dite du « réseau social » regroupant les messages par expéditeur/destinataire avant de saisir plus en détail le profil de l’individu et sa relation au propriétaire de la boîte mail.

Toutefois, cette approche, bien qu’efficace, est gravement chronophage et donc inefficiente – en 1 heure, seuls 641 emails sont traités. Ce constat alarmiste appuie donc les propos des critiques, comme Anne J. Gilliland qui insiste sur l’infaisabilité de l’évaluation des emails dûe à la quantité exponentielle des records digitaux. Dans un article paru dans Archives and Recordkeeping : Theory Into Practice en 2014, « Archival appraisal : practising on shifting sands », elle recommande une conservation totale des records digitaux sans évaluation préalable. Evidemment, cet argument, similairement à celui pour l’évaluation manuelle des emails, appartient à un monde théorique où les ressources (informatiques, humaines, financières) d’une institution sont illimitées.

Un avenir prometteur pour l’automatisation du traitement des emails

Toutefois, à l’aube de 2017, des solutions à ce problème pressant semblent pointer le bout de leur nez. Peu après la publication de l’article de Cocciolo, la Stanford University’s Special Collections and University Archives sortent sur le marché le logiciel open source ePADD, un outil d’automatisation de l’évaluation, du traitement et de la conservation des emails. Celui-ci permet l’analyse des courriers électroniques en utilisant la reconnaissance d’entités nommées et d’autres algorithmes de traitement du langage naturel. A la fois innovant et révolutionnaire, cet outil est un véritable breakthrough pour le domaine de l’archivistique. A l’échelle d’une institution, une bonne procédure de gestion d’emails, comme celle proposée par les Nations Unies à ses collaborateurs, couplé à un outil automatique d’évaluation et de traitement des emails afin de soutenir le travail de l’archiviste semble être LA solution d’avenir pour la sécurisation des courriers électroniques et leur conservation pérenne.

blog3

Références

BRUNI, Frank, 2014. « Hacking Our Humanity : Sony, Security and the End of Privacy ». The New York Times [en ligne]. 20 décembre 2014. [Consulté le 18 décembre 2016]. Disponible à l’adresse : https://www.nytimes.com/2014/12/21/opinion/sunday/frank-bruni-sony-security-and-the-end-of-privacy.html

CIEPLY, Michael et BROOKS, Barnes, 2014. « Sony Cyberattack, First a Nuisance, Swiftly Grew Into a Firestorm ». The New York Times [en ligne]. 30 décembre 2014. [Consulté le 18 décembre 2016]. Disponible à l’adresse : https://www.nytimes.com/2014/12/31/business/media/sony-attack-first-a-nuisance-swiftly-grew-into-a-firestorm-.html

CLARK, Don, OVIDE, Shira et DWOSKIN, Elizabeth, 2014. « Are You Sure You Want to Use Email ? ». The Wall Street Journal [en ligne]. 19 décembre 2014. [Consulté le 18 décembre 2016]. Disponible à l’adresse : http://www.wsj.com/articles/are-you-sure-you-want-to-use-email-1419030075

COCCIOLO, Anthony, 2016. « Email as cultural heritage resource : appraisal solutions from an art museum context ». Records Management Journal [en ligne]. [Consulté le 18 décembre 2016]. Disponible à l’adresse : dx.doi.org/10.1108/RMJ-04-2015-0014

GILLILAND, Anne J., 2014. Archival appraisal : practising on shifting sands. In : BROWN, Caroline (ed.). Archives and Recordkeeping : Theory into Practice. Londres : Facet Publishing. ISBN 978-1-8560-4825-5

LEE, Micah, 2016. « Dear Clinton team : we noticed you might need some email security tips ». The Intercept [en ligne]. 13 octobre 2016. [Consulté le 18 décembre 2016]. Disponible à l’adresse : https://theintercept.com/2016/10/13/dear-clinton-team-we-noticed-you-might-need-some-email-security-tips/

O’HARROW, Robert Jr., 2016. « How Clinton’s email scandal took root ». The Washington Post [en ligne]. 27 mars 2016. [Consulté le 18 décembre 2016]. Disponible à l’adresse : https://www.washingtonpost.com/investigations/how-clintons-email-scandal-took-root/2016/03/27/ee301168-e162-11e5-846c-10191d1fc4ec_story.html

STANFORD UNIVERSITY (California), 2015. ePADD. Stanford University Libraries [en ligne]. [Consulté le 18 décembre 2016]. Disponible à l’adresse : https://library.stanford.edu/projects/epadd

UNITED NATIONS, 2012. Managing Emails as Records. United Nations : Archives and Records Management Section [en ligne]. [Consulté le 18 décembre 2016]. Disponible à l’adresse : https://archives.un.org/content/managing-emails-records

La gestion documentaire de centres d’artistes autogérés de la région montréalaise

Mots-clefs

, , , , , , , ,

Les centres d’artistes autogérés ont fleuri dans les années 70 au Canada. A Montréal, Denis Lessard, consultant en archivistique, auteur et artiste, s’est intéressé à leur gestion documentaire et a élaboré pour eux un plan de classification type.

Lire la suite