Finding the golden star of analytical tools : the data – part 1

Mots-clefs

, , , , ,

The number of sites on the web has grown exponentially in the past few years, so much so that the web has been inundated with information (Evoy 2017). Consequently, this has pushed webmasters to pay attention to what lies beneath the surface of their content and has thus brought to light the need to take action not to be lost to the masses.

This study is centered around Alexa Internet (referred to simply as Alexa here) which is an analytical tool that mostly collects its data through a toolbar installed by consenting users around the world (Alexa Internet 2017).

In order to evaluate the quality of the results obtained with Alexa, they will be compared to the results captured from other tools, most notably Google Analytics (GA) (Google 2017).

So then, where to begin in the complex world of web metrics? Here starts the journey of finding data that will allow this study to evaluate the real quality of Alexa, whether it be its transparency, its reliability, its trustworthiness or even how it stands up to its competition.  

Lire la suite

Publicités

Le DMP en pratique

Mots-clefs

, , , , , , ,

La gestion des données de la recherche occupe désormais une place centrale dans les milieux académiques, à tel point que la rédaction d’un DMP est devenu un rituel incontournable pour tout chercheur, gage de la qualité de la recherche. Quels principes se cachent derrière cet acronyme? Comment répondent-ils aux exigences d’un projet particulier? Telle est la visée de ce billet présentant le DMP à la lumière d’une étude de cas.

Lire la suite

Les métadonnées, ou l’art de la description

Mots-clefs

, , , , , , , , , ,

La plupart des chercheurs ne mettent pas en place une stratégie pour la gestion des données de leur recherche, alors que le Data Management Plan (DMP) devient obligatoire. La description des données est au cœur de ce dernier et exige la précision. Qu’est-ce qu’une donnée de recherche? Qu’est-ce qu’une métadonnée et existe-t-il un standard de description? Sous le prisme de notre projet de recherche, nous essayons ici d’élucider ces interrogations. Lire la suite

To cloud or not to cloud? – Du choix d’une solution sécurisée en matière de stockage des données d’une recherche en cours

Mots-clefs

, ,

Dans le cadre de notre projet de recherche de Master, nous évaluons des outils open source pour la gestion des données de la recherche. Dans le domaine de la recherche comme dans celui de la vie privée, stocker des données dans le cloud est en passe de devenir la norme. Ce système comporte de nombreux avantages : disponibilité des données, élasticité des espaces de stockage, synchronisation, travail collaboratif, ou encore accessibilité1. Alors que l’utilisation de la plupart des outils en ligne disponibles sur le marché implique un stockage dans le cloud, nous nous sommes aperçues en consultant les politiques de confidentialité qui s’y rapportent qu’il est souvent bien difficile d’identifier où ces données sont hébergées. L’une des conditions de notre mandat est que les données traitées par les outils évalués soient hébergées en Suisse. Nous nous sommes ainsi demandé quel était l’avantage de garder ses données de recherche dans notre pays, plutôt que sur une plateforme hébergée hors de notre territoire.

Nous retraçons dans ce billet notre propre expérience d’étudiantes, et y abordons certains risques du stockage dans le cloud.

Lire la suite

Data management plan : un avenir pour les données de la recherche

Mots-clefs

, , , , ,

Faisant suite à cet article, publié dans ces colonnes qui décrit notre projet de recherche,  nous allons nous pencher sur la problématique de la gestion des données de la recherche dans le cadre de notre mandat. Qu’avons-nous prévu de faire avec les données que nous produirons durant notre recherche et comment est-il possible d’en faire une gestion adéquate ?

Nous avons créé un plan de gestion des données ou un « Data Management Plan » (DMP) en nous inspirant du modèle en vingt questions imaginé par David Shotton. Ainsi, nous disposons d’un outil qui gouverne le cycle de vie de nos données dès leur création.

Lire la suite

Un DMP? Pour quoi faire?

Mots-clefs

, , , , , , , ,

Le Data Management Plan (DMP), ou plan de gestion des données, fait parler de lui dans la communauté scientifique. S’inscrivant dans le mouvement de l’Open Science et requis par certains bailleurs de fonds lors de la soumission d’une requête, il est en passe de devenir incontournable. Pour les chercheurs, enthousiastes ou frileux, le temps n’est plus à l’indifférence.

Mais de quoi parle-t-on au juste? Quelle application d’un DMP peut-on faire dans le cadre d’une recherche menée par des étudiants de Master? Quels en seront les apports concrets?

Lire la suite

L’oiseau bleu en Suisse : les données de recherche dans le cadre du projet Helve’Tweet

Mots-clefs

, , , , , , , ,

Depuis quelques années, le milieu de la recherche fait face à une nouvelle problématique : que faire des données produites ? Le Big Data rajoutant un paramètre de taille, celui du volume des données, que garder, où et comment ?

Réalisé pour le module « projet de recherche » du Master SI, Helve’Tweet est le successeur de GEoTweet, un projet réalisé lors de la volée précédente. L’objectif de Helve’Tweet est de mener une recherche exploratoire et statistique sur un corpus d’un million de tweets géolocalisés en Suisse. Après la rédaction d’un cahier des charges afin de formaliser et planifier le projet, une réflexion autour des données a été menée et formalisée sous forme de Data Management Plan. Lire la suite

20 questions pour la gestion des données

Mots-clefs

, , , , , ,

La gestion des données de la recherche pose de nombreuses questions. Ce billet est pour nous l’occasion de décrire les informations principales renseignées dans un data management plan (DMP) : quelles seront les données collectées durant notre projet de recherche ? De quelle manière souhaitons-nous les partager avec le reste de la communauté scientifique ? Enfin, comment envisageons-nous leur gestion et leur archivage ?

Lire la suite

Enrichissement des dépôts institutionnels suisses : évaluation de la proportion d’articles en texte intégral disponibles et développement de stratégies d’acquisition automatique

Mots-clefs

, , ,

Un contexte

Dans le cadre du master en Sciences de l’Information que nous suivons actuellement à la HEG, nous avons été mandatés pour effectuer un travail de recherche d’une durée d’une année dans un des nombreux domaines relatifs à notre champ d’études.

Débuté en mars 2017, le rendu final du projet est arrêté pour le mois de janvier 2018, et les premiers résultats seront présentés sous forme d’un poster, le 14 décembre 2017, lors d’une session idoine.

Parmi une vingtaine de mandats différents, nous avons choisi de nous consacrer au projet de recherche proposé par le Professeur Patrick Ruch concernant le dépôt d’articles scientifiques, et plus particulièrement les archives institutionnelles suisses.

Les archives institutionnelles

En Suisse, la littérature produite par les chercheurs est généralement publiée sous forme d’articles chez des éditeurs commerciaux. Cependant, il existe aussi des dépôts d’articles au sein des institutions. Celles-ci ont pour vocation d’accueillir, de rassembler et de rendre disponible les publications écrites sous son toit. Il s’agit des archives institutionnelles. Malheureusement, toute la littérature produite dans ces institutions ne s’y trouve pas nécessairement.

Il en résulte plusieurs problèmes : d’une part, ces archives institutionnelles sont dépendantes de l’institution auxquelles elles appartiennent, donc morcelées sur le territoire Suisse, et seuls les établissements les plus fortunés peuvent avoir la chance d’en avoir une suffisamment développée. D’autre part, elles sont souvent incomplètes.

C’est pour ces raisons ainsi que pour s’aligner sur le modèle européen, qu’une stratégie nationale de l’Open Access vient d’être mise en place. Dans ce contexte, il est désormais indispensable de se pencher sur  la possibilité de créer une archive institutionnelle nationale et sa mise en application.

Le projet de recherche

Ainsi, le Professeur Patrick Ruch, nous mandate, afin de se pencher sur ce projet. Notre but est d’estimer et d’évaluer la quantité d’articles scientifiques disponibles dans les archives institutionnelles suisses, ainsi que de développer une stratégie automatique d’acquisition de notices bibliographiques et de texte intégral.

En effet, tous les articles financés par des fonds de recherche suisses sont nécessairement quelque part : dans d’autres sources, comme des archives ouvertes, des bases de données commerciales, des éditeurs etc…

L’idée est d’identifier et d’aller chercher les articles (ou leurs métadonnées) et de quantifier la proportion déjà présente dans les archives institutionnelles. Puis, à terme, proposer une méthode automatique afin de récolter informatiquement ces données. Bien sûr, nous devrons respecter les contraintes de droit d’auteur et d’embargo de publication sur certains articles.

Nous répondrons à trois questions de recherche pour arriver à ce but :

  1. Quelle est la proportion de publications produite par des chercheurs affiliés à des institutions suisses qui se trouve dans les archives institutionnelles suisses ?
  2. Comment identifier les articles issus de fonds de recherche suisse dans les sources internationales (archives ouvertes et plateformes commerciales) ?
  3. Quelle part de la publication suisse absente des archives institutionnelles peut être obtenue automatiquement depuis les sources internationales et comment en systématiser l’acquisition ?

Notre recherche, qui débute maintenant, portera en premier lieu sur l’identification et la description des ressources représentatives qui seront utilisées pour y quantifier les articles suisses. De cette manière nous serons à même de définir un panel à des fins de test de plusieurs dépôts institutionnels et de plusieurs sources internationales.

En second lieu, nous émettrons des recommandations sur l’identification automatique des articles de chercheurs affiliés à des institutions suisses dans des sources internationales et l’automatisation du moissonnage de notices.

Le data management plan

Une partie de cette recherche est également pour nous l’occasion de créer un Data Management Plan (DMP). C’est un outil qui nous permettra de structurer et de cadrer ce que nous allons faire des données de la recherche que nous produirons. Pour ce faire, nous nous poserons des questions concernant la description de nos données, la méthodologie de collecte des données, la méthode de curation des données sélectionnée, la sécurité et la confidentialité des données, le moyen de partage et d’accès aux données, et plus encore…

Nous proposerons donc une solution pour le management plan, ainsi qu’une solution pour l’archivage à court, puis à long terme.

Mais ce sujet à lui seul fera ultérieurement l’objet d’un article de notre part dans ces colonnes.

Elodie Schwob et Matthieu Putallaz

 

Master IS : la recherche en route !

Mots-clefs

, , , , , , , , , ,

Les étudiants du Master IS débutent ce mois-ci leur projet de recherche qui s’achèvera début 2018 avec la publication de leurs résultats sous forme de mémoire de recherche. Un poster scientifique présentera le projet, sa méthodologie et les premiers résultats : la session de présentation aura lieu le 14 décembre 2017 à la HEG.

Il s’agit pour eux de mener à bien une recherche originale en sciences de l’information en produisant et communiquant des connaissances scientifiques nouvelles.

Cette année, la liste des sujets proposés aux étudiants était très variée : veille, gouvernance de l’information, risques informationnels, archives institutionnelles ou encore gestion des données de la recherche sont quelques-unes des grandes thématiques qui ont été choisies.

blog

Les projets de recherche dans le détail

Une évaluation de la qualité des métriques d’Alexa en webométrie posera aux étudiants la question de la transparence des données : peut-on avoir confiance dans les données d’Alexa.com ? Comment faire pour avoir des données normalisées et transparentes du web ?

Deux sujets concernant la veille interrogeront d’une part les sources (Twitter, Google News, Bing, etc.) et leur pertinence et d’autre part les outils de surveillance et leur recouvrement : quelles sources sont les plus pertinentes, bruitées ou encore couvrantes ? Quels outils de veille sont les plus performants pour couvrir un champ informationnel précis ?

Une étude sur cinq mois de tweets géolocalisés en Suisse proposera aux étudiants d’explorer ces données afin d’offrir une description quantitative globale de ces données et questionnera la signifiance de cette ressource et plus largement l’opportunité de l’archivage des tweets suisses.

Dans le cadre du projet « EU29 Information Governance Maturity in EU Public Administration » (InterPARES Trust), un groupe d’étudiants cherchera à connaître la perception de la gouvernance de l’information des gestionnaires de l’information dans les administrations publiques, en dressant notamment un état de l’art et en conduisant des entretiens.

La gestion des risques informationnels dans les organisations est devenue une compétence importante pour le professionnel de l’information. Afin de répondre aux enjeux à la fois technologiques et juridiques des risques informationnels, les étudiants offriront un état de l’art inédit qui permettra de définir et d’offrir une typologie des risques et des outils existants pour y faire face.

Au sein d’un projet de Swissuniversities, des étudiants interrogeront l’opportunité d’archives institutionnelles unifiées en acquérant des articles écrits par des chercheurs suisses à partir d’archives institutionnelles internationales. Tout en respectant les licences internationales, quelles seraient les possibilités d’accéder aux full-text directement à la source ?

Les institutions scientifiques suisses seront contraintes, à l’avenir, de mettre à disposition leurs données de la recherche. Dans ce contexte, un groupe d’étudiants cherchera à concevoir une chaîne des services internes utilisant une solution Open Source pour la curation des données tout au long du Data Life Cycle.

Afin d’offrir aux données de la recherche des identifiants pérennes pour en assurer une bonne citation, mais aussi la création d’identités de confiance, ce projet de recherche invitera les étudiants à établir un panorama comparatif et visuel des identifiants existants et à esquisser un modèle en respectant la particularité de la situation suisse.

Twitter

Exemple de poster scientifique de la saison 2015: « GEo Tweet: exploration des tweets géolocalisés à Genève »

Les étudiants posteront régulièrement sur ce blog des contributions qui feront état de leurs résultats, ainsi que d’une réflexion autour du Data Management Plan (DMP), la gestion active et l’archivage à long terme des données issues de leur projet.

L’ensemble de la filière leur souhaite bonne chance dans cet important travail et se réjouit de découvrir leurs premiers résultats!