Étiquettes

, , , , ,

Depuis le début des années 2000, l’essor de la numérisation au sein des administrations ainsi que la multiplication des procédures législatives, administratives et techniques ont poussé au développement de la gestion de l’information. Cependant, les logiciels documentaires disponibles sur le marché sont extrêmement coûteux. Inaccessibles pour les petites et moyennes organisations, celles-ci se contentent, pour accéder à leurs contenus, d’une recherche full text.

Dans leur article Classification automatisée : rêve ou réalité ? Analyse critique de l’usage du text mining pour la conception de vocabulaires contrôlés, Raphaël Hubain, Seth van Hooland et Ruben Verborgh tentent de trouver une solution à ce problème par la conception et la mise en place d’un vocabulaire contrôlé. Leur objectif est de réduire les coûts non seulement en automatisant certaines procédures, mais également en utilisant des outils open source. Daté de 2016, cet article donne un bon aperçu de l’avancée actuelle des recherches sur le sujet.

Méthodologie de l’étude de cas

L’article présente une étude de cas menée par les auteurs au sein d’une organisation de taille moyenne appartenant à l’industrie bio-pharmaceutique. Afin de faciliter la reproduction de leurs recherches, les aspects méthodologiques et techniques du projet ainsi que les données d’évaluation sont mis à disposition sur le site internet LemuridaeText Mining for Information Governance .

Recherche full text versus vocabulaire contrôlé

Comme l’explique W. Bruce Croft (2015), la recherche full text connaît des limites qui sont inhérentes au langage naturel. Il s’agit du problème de la synonymie ainsi que de celui de l’homonymie. Il est alors nécessaire de mettre en place un vocabulaire contrôlé qui va permettre, au moment de l’indexation, d’insérer un calque sémantique.

Les auteurs de l’article, tout comme Peter Morville (2007), précisent qu’il est toutefois important d’effectuer un arbitrage coûts-bénéfices avant la mise en place d’une taxonomie. En effet, sa conception requiert d’importantes ressources humaines. Cependant, s’en dispenser engendre également des coûts car cela nécessite à l’usager final du système de passer plus de temps à concevoir une requête complexe afin d’obtenir des résultats pertinents.

Usage du text mining dans le domaine documentaire

Afin de faire baisser les coûts liés à la conception et à la mise en place d’un vocabulaire contrôlé, les auteurs de l’article ont essayé d’automatiser certains processus à l’aide de techniques issues du text mining.

D’une part, la conception de taxonomie peut faire appel à des méthodes d’extraction de termes et d’extraction de relations sémantiques entre les termes. D’autre part, l’analyse documentaire peut se réaliser grâce à des méthodes d’annotations sémantiques.

 

loadimg1-php

Système documentaire basé de manière semi-automatisée. Les scripts 1 à 4 utilisent des méthodes issues du text mining. Source : Raphaël Hubain et al. (2016)

L’annotation sémantique consiste en l’ajout de métadonnées à certains concepts porteurs d’une information spécifique et recherchée. L’étiquette ajoutée peut être une information, il s’agit de la reconnaissance d’entités nommées, ou un lien vers une source d’information, c’est la désambiguïsation d’entités nommées. Dans cette étude de cas, le vocabulaire contrôlé a été converti en Skos (Simple Knowledge Organization System).

 

loadimg2-php

L’annotation sémantique permet à l’usager, in fine, d’accéder à plus de documents pertinents. Source : Raphaël Hubain et al. (2016)

 

Des résultats mitigés mais des perspectives pour l’avenir

Les auteurs ont évalué leurs résultats en termes d’adéquation à l’usage et en termes d’évaluation des gains.
Afin de mesurer la performance de leur vocabulaire contrôlé, deux critères ont été utilisés : la précision et le rappel (également décrits par W. Bruce Croft, 2015).
Si les résultats se révèlent être à ce niveau-là insatisfaisants, le coût en ressources humaines a cependant largement été réduit grâce à l’automatisation de certaines procédures. Ce propos doit tout de même être nuancé, car dans cette étude le vocabulaire mis en place possède une structure peu complexe.

Malgré tout, cette recherche ouvre la voie à de nouvelles expérimentations, les logiciels open source étant nombreux et les communautés d’utilisateurs et de développeurs importantes.

Le text mining : une réelle opportunité pour l’indexation ?

Bien que l’indexation automatique soit un domaine de recherche existant depuis de très nombreuses années – citons par exemple les travaux de S.M. Humphrey et N.E. Miller (1987) –  les résultats des recherches actuelles sont encore insatisfaisants. Face à ce constat, on peut légitimement se demander si ces nouvelles technologies sont véritablement pertinentes pour la conception de vocabulaires contrôlés. Le professionnel de l’information documentaire a toujours, dans tous les cas, un rôle important à jouer. Dans l’étude présentée, en effet, sa présence est essentielle pour la conception et la validation du thésaurus créé.

Si ces avancées technologiques se confirment et s’imposent, faudra-t-il alors reconsidérer le contenu de la formation des professionnels de l’information documentaire afin de s’y adapter, comme le suggère Jean-Philippe Accart ? Ou est-ce que le véritable pari réside, comme l’explique Peter Morville (2007), dans la mise en place et le renforcement de collaborations interdisciplinaires ?

Références

ACCART, Jean-Philippe, 2016. Être documentaliste aujourd’hui. Jpaccart.ch [en ligne]. Juin 2015. [Consulté le 25.10.2016]. Disponible à l’adresse : https://www.jpaccart.ch/edito-du-mois/edito-90-juin-2015-etre-documentaliste-aujourdhui.html?highlight=YToxOntpOjA7czoxMDoib250b2xvZ2llcyI7fQ==

CROFT, W. Bruce, 2015. Search engines: information retrieval in practice [en ligne]. Boston : Pearson Addison-Wesley. [Consulté le 25.10.2016]. Disponible à l’adresse : http://ciir.cs.umass.edu/downloads/SEIRiP.pdf

HUBAIN, Raphaël, HOOLAND, Seth van et VERBORGH, Ruben, 2016. Classification automatisée : rêve ou réalité ? Analyse critique de l’usage du text mining pour la conception de vocabulaires contrôlés. I2D – Information, données & documents [en ligne]. Février 2016. [Consulté le 25.10.2016]. Disponible à l’adresse : https://www.cairn.info/revue-i2d-information-donnees-et-documents-2016-2-age-70.htm [accès par abonnement]

HUMPHREY, Susanne M. et MILLER, Nancy E., 1987. Knowledge-based indexing of the medical literature: The Indexing Aid Project. Journal of the American Society for Information Science, 1987, Vol. 38, no 3, p. 184.

MaSTIC – Université libre de Bruxelles and Ghent University – iMinds, 2015. Automated SKOS Vocabulary Design. Lemuridae – Text Mining for Information Governance [en ligne]. 2015. [Consulté le 25.10.2016]. Disponible à l’adresse : http://hubain.be/lemuridae/index.php/automated-skos-vocabulary-design/

MORVILLE, Peter, 2007. Comment définir l’architecture de l’information. In : Architecture de l’information pour le web . 3e éd.. Paris : O’Reilly. pp. 3‑16. ISBN 978-2- 84177-460-9.