Mots-clés

, , , , , ,

Rappel du contexte

L’an passé nous nous sommes posés la question de la proportion d’articles disponibles en texte intégral dans les dépôts institutionnels suisses. Cela a constitué notre premier axe de recherche, qui répond à notre première question de recherche :

« Quelle est la proportion de publications produite par des chercheurs affiliés à des institutions suisses qui se trouve dans les archives institutionnelles suisses ? »

Méthodologie

Nous avons sélectionné deux archives ouvertes d’envergure : l’une nationale et pluridisciplinaire HAL, l’autre internationale et monodisciplinaire PubMedCentral, dont nous avons comparé les résultats de requêtes spécifiques à sept dépôts institutionnelles (IR) : Serval (Université de Lausanne), InfoScience (EPFL), Boris (Université de Berne), Zora (Université de Zurich), Edoc (Université de Bâle), ArchiveOuverte (Université de Genève) et enfin ReroDoc.

Pour les comparer, nous avons émis des requêtes dans HAL et PMC afin de trouver des articles parus en 2015 et 2016, en plein-texte affiliés à chaque institution suisse sélectionnée. Nous avons ensuite recherché chaque article trouvé précédemment dans le dépôt institutionnel correspondant afin de vérifier la présence du plein-texte dans les IR.  Nous avons ainsi traité plus de 540 articles.

Lors du traitement de nos données, nous avons regroupé les différents cas rencontrés en 4 catégories distinctes :

  1. Disponible : l’article est disponible en plein texte sur l’IR testée.
  2. Non-Disponible A : les articles testés sont en Open Access et devraient être accessibles sur les IR.
  3. Non-Disponible B : les articles n’ont pas un statut qui permet l’archivage dans une IR. Il est normal de ne pas les trouver.
  4. Non-Disponible C : le statut et la licence des articles ne sont pas déterminés.

Résultats principaux

 

Dépôt

A)Disponible B) Absent sans raison C)Absent D) Autre TOTAL des absences
Boris 59.2% 26.3% 7.9% 6.6% 40.8%
Edoc 11.4% 72.7% 11.4% 4.5% 88.6%
Infoscience 26.9% 36.9% 33.1% 3.1% 73.1%
Serval 39.3% 41.8% 8.2% 10.7% 60.7%
Zora 43.0% 30.1% 20.4% 6.5% 57.0%
Rero Doc 25.0% 50.0% 12.5% 12.5% 75.0%
Archive Ouverte 25.0% 42.9% 21.4% 10.7% 75.0%
Total Suisse 35.5% 39.3% 18% 7.2% 64.5%

Sur le tableau ci-dessus, nous pouvons apprécier la proportion des articles présents dans les dépôts institutionnels selon les quatre catégories.

Nous trouvons que les dépôts institutionnels ne sont complets qu’à 35,5 % et qu’ils peuvent avoir un potentiel d’augmentation de 39,3 % supplémentaire, pour un total de 74,8%. La quantité d’articles disponibles pourrait alors largement doubler.

La colonne Non-disponible A représente la proportion des articles qui devraient être présents sur les dépôts en raison du statut Open Access de leur publication. Ils viendraient ainsi s’ajouter au corpus déjà disponible. Il s’agit donc du potentiel d’augmentation de chacun de ces dépôts, qui est représenté sur le graphique ci-dessous:

PR_1

Limites de l’analyse

  • Pour des raisons de métadonnées disponibles dans nos sources, nous avons considéré le champs “affiliation” comme suffisant pour déterminer la provenance du financement de l’article.
  • Il nous est impossible, dans le cas où un chercheur a plusieurs affiliations, de savoir avec exactitude quelle est l’affiliation déterminante permettant de connaître la provenance du financement.
  • Le choix de HAL et PMC, qui hébergent principalement des articles en sciences dures, entraîne une sous représentation statistique des sciences humaines et sociales.
  • La majorité des articles que nous avons étudiés sont publiés dans des revues Open Access car les sources que nous avons choisies favorisent ce mode de publication.   

Vers une récolte automatisée?

Après avoir calculé le potentiel d’augmentation de la couverture des dépôts institutionnels suisses, nous avons développé une stratégie permettant d’automatiser la récolte des articles en plein-texte manquant.

Il s’agit de mettre en place un processus à l’aide de plusieurs outils et plateformes existants qui permettent, à l’aide d’un script, d’acquérir automatiquement tous les nouveaux articles en plein-texte et ce, dès leur mise à disposition sur des sources extérieures à l’institution. Pour peu que les articles ne soient pas déjà déposés sur le dépôt institutionnel.

Nous cherchons à répondre à la question de recherche n°3 :

« Quelle part de la publication suisse absente des archives institutionnelles peut être obtenue automatiquement depuis les sources internationales et comment en systématiser l’acquisition ? »

Nous avons donc modélisé un processus d’automatisation de la récolte du plein-texte que nous avons testé sur une base de 141 articles obtenus sur CrossRef, principale organisation d’attributions de DOI pour les articles scientifiques.

Nous avons ensuite vérifié la présence du plein-texte de ces articles sur deux dépôts institutionnels (Serval et Archive Ouverte). Dans les cas où les articles n’étaient pas disponibles, nous avons vérifié s’il était possible de les acquérir à l’aide d’Open Access Button, une extension de navigateur et site web permettant d’obtenir gratuitement et légalement le plein-texte d’articles scientifiques.

Modélisation

2_PR

Résultats principaux

Des 39.3% de potentiel d’augmentation envisagé dans le premier axe de ce projet, notre proposition de stratégie d’automatisation permettrait un taux d’augmentation de 16% pour atteindre une couverture globale de 51.5%.

En terme d’outils, nous nous sommes aperçu que Open Access Button était moins efficace qu’attendu. Par rapport à SciHub qui permet d’obtenir 93% des articles manquants (sur la base d’un test effectué sur les 141 mêmes notices), OAB n’en ramène que 20%.

L’autre problème rencontré était l’identification dans Crossref des articles écrit par des chercheurs affiliés aux universités test. Nous nous sommes aperçu que les appellations des institutions auxquelles les auteurs sont affiliés sont peu standardisées, rendant l’identification de l’institution responsable difficile.

Elodie Schwob et Matthieu Putallaz

 

Publicités