Étiquettes

,

Dans les milieux académiques, les bases de données documentaires foisonnent. Rien qu’à la Faculté des lettres de l’Université de Lausanne, Nicolas Bugnon en a recensé 23. Elles sont parfois destinées uniquement à des chercheurs, ou sont accessibles à tous en ligne. Elles concernent des « humanités » en tous genres, comme l’Histoire, la sociologie, la littérature, l’art, etc. Mises en place avec enthousiasme, ces bases de données n’ont généralement pas bénéficié d’une étude approfondie des besoins et des possibilités. Celle-ci est pourtant nécessaire afin de faire les choix les plus pertinents concernant les questions suivantes:

  • Quel est le logiciel le plus approprié?
  • Quels sont formats et standards de description les plus adéquats?
  • Quelles sont les particularités des contenus de la base de données?
  • De quelles fonctionnalités et modes d’accès ont besoin les utilisateurs (user stories)?
  • Pour quels usages souhaite-t-on accéder à ce contenu?

Ces éléments représentent des défis auxquels le personnel n’est pas forcément préparé. Plusieurs types de compétences sont alors requises: des compétences disciplinaires (spécifiques au contenu de la base), informatiques et documentaires. Il est cependant assez rare qu’une même personne dispose de toutes ces compétences. Souvent une équipe pluridisciplinaire est nécessaire, à l’instar du projet Viaticalpes (cf. article dans la revue Hors-texte), regroupant un informaticien, une historienne et un spécialiste en sciences de l’information.

Mais le financement cessa

Un beau jour, le projet arrive à son terme… La base est constituée, mais les financements cessent. Peu à peu le personnel est affecté à d’autres activités, l’infrastructure n’est plus maintenue dans la durée et les formats et logiciels deviennent obsolètes. Que faire dans ce cas ?

La morale de l’histoire

1. « Elles vécurent longtemps » : pérenniser les données

Dans un projet bien conçu, il faudrait idéalement avoir pensé dès l’origine

  • à des formats ouverts, respectant par exemple les principes du web sémantique (RDF)
  • à utiliser des standards de description (EAD, RDA)
  • à envisager les risques (crash de serveur) et à prévoir des moyens de mitigation (sauvegardes)

Mais bien souvent, ce genre de réflexion se fait seulement une fois que la base de données a été créée. Heureusement, d’autres actions sont également envisageables pour pérenniser les données et faire vivre le projet au-delà de son terme. Cela peut consister à:

  • Ajouter un nouveau corpus de données à la base et par ce biais obtenir de nouveaux financements pour l’enrichir et l’animer. A l’exemple des photographies qui vont peut-être être ajoutées à la base Viatimages, ou encore les nombreux sous-projets d’Europeana tels que Europeana Newspapers ou Europeana Film Gateway qui ont suivi celui de The European Library.
  • Admettre tout simplement que les données soient réutilisées. Si celles-ci sont par exemple publiées sous Licence CC0 (Creative Commons Zéro) et en format ouvert, elles seront alors accessibles à tout un chacun pour être réutilisées, modifiées, améliorées, etc. et continueront à vivre à travers d’autres supports.

2. « Et eurent beaucoup d’enfants » : valoriser les données

Ainsi, les formats ouverts et les licences libres permettent de réexploiter les données, comme le fait Martin Grandjean avec des visualisations innovantes.

Visualisation des archives de la Commission internationale de coopération intellectuelle (SDN)

Visualisation des archives de la Commission internationale de coopération intellectuelle (SDN)

Une fin mais aussi un moyen: en réutilisant des données à disposition et en les organisant, les visualisations permettent de

  • Trouver quelque chose de nouveau (création d’un savoir).
    Il s’agit alors d’un outil permettant de se représenter les éléments à disposition et les liens qui les régissent, comme par exemple, l’ensemble des données contenues dans un fond d’archive (voir un autre billet de blog de M. Granjean à ce sujet). A travers une visualisation graphique, on décèle parfois des éléments qui étaient passés inaperçus dans la masse de données.
  • Prouver, illustrer, représenter un savoir connu.
    La visualisation fait alors office de discours, de preuve, d’argument.

Mais la visualisation des données n’est pas sans écueils. Une méfiance envers ces représentations persiste chez certains, qui les accusent, parfois à juste titre, de manipuler: graphique incomplet, oubli de données permettant de pondérer les éléments du graphique…
On reproche aussi à certaines visualisations d’être une source de distraction: n’avez-vous jamais perdu le fil d’une conférence, trop occupé à détailler les informations présentes sur un graphique projeté ? Quelle est la pertinence d’un nuage de mot, qu’apporte-t-il réellement au discours qu’il accompagne?

Face à ces manipulations potentielles, volontaires ou non, se pose la question de la responsabilité. En effet, la publication dans une base de données ouverte représente une responsabilité pour les éditeurs:

  • Une responsabilité de validité: le projet Lumières.Lausanne ne publie les transcriptions de manuscrits qu’une fois relues et corrigées.
  • Une responsabilité de documenter les conditions dans lesquelles les données ont été obtenues, afin d’éviter toute mésinterprétation ultérieure: la fréquence d’apparition de certains termes dans le corpus de Stendhal pourrait porter à confusion, si on ne savait pas que ce corpus contient aussi ses notes de cours.
  • Une responsabilité éthique: dans une carte traitant du “copinage dans les hautes sphères” comme celle de M. Grandjean, peut-on afficher les noms des individus ou faut-il anonymiser?

 

… mais peut-on vraiment appliquer ces recettes de contes de fées à chaque réalité?

 Floriane Müller, Nicolas Prongué et Livia Schweizer