Mots-clés

, , , , , , , , , , , , , , , , , , ,

Dans une société qui vit au rythme des changements technologiques et de la surcharge informationnelle, la maîtrise de l’information revêt un enjeu majeur pour les entreprises qui veulent rester compétitives.  Pour satisfaire des besoins informationnels, est-ce suffisant de veiller les moteurs de recherche? Existe-t-il un moteur de recherche capable de couvrir de manière égale plusieurs thématiques? Notre projet de recherche Evaluation des moteurs de recherche comme sources de veille a l’ambition de donner quelques éléments de réponse.

Selon une enquête menée en 2014 auprès des PME helvétiques (Morina, Racine, 2014), les entreprises qui font de la veille utilisent principalement les moteurs de recherche (75%) et les outils de surveillance tels que les flux RSS sont très peu utilisés (17%).

Nous partons de ce constat pour produire une évaluation de la qualité de six moteurs de recherche en utilisant uniquement le flux RSS pour les surveiller et collecter ainsi les documents.

Les objectifs

Notre recherche a l’ambition de répondre à ces questions :

  • Quelles sources sont les plus pertinentes pour notre veille ?
  • Quelles sources sont les plus précises ?
  • Quelles sources traitent le plus exhaustivement de nos sujets ?
  • Existe-t-il une source capable de répondre entièrement aux besoins informationnels ?

La méthodologie

A notre connaissance, il n’existe pas d’études identiques à notre projet de recherche. En revanche, nous nous sommes notamment inspirées de l’étude de Dirk Lewandowski (2008), ainsi que de l’article écrit par Ildar Khakimov (2013) pour formuler les éléments clés de notre méthodologie.

L’évaluation des moteurs a été réalisée dans le cadre d’une veille sur 3 axes:

  1. Le secteur des semi-conducteurs de puissance. Ce sujet se décline en trois sous-axes: concurrents d’une entreprise suisse, investissements dans le secteur, ainsi que le marché nord-américain.
  2. Evolution des métiers en Science de l’Information (IS) en Suisse et dans les pays voisins: offres d’emploi, tendances et évolution des besoins.
  3. L’Internet des objets (IoT) adapté au domaine de la santé et de l’industrie pharmaceutique.

Pour chaque sujet, nous avons établi des requêtes (42) qui ont été transformées en flux RSS (252). Certains moteurs ne génèrent pas de flux RSS, il a donc été nécessaire de :

  • ajouter une syntaxe à l’URL (Bing News)
  • créer des alertes (Google)
  • passer par un métamoteur de recherche, searX (DuckDuckGo et Qwant)

Les flux ont été agrégés via Inoreader et la collecte des données s’est faite sur quinze jours,  du 17 au 31 octobre 2017. Le nombre considérable des premiers documents retournés durant la période estivale a motivé la mise en place de cette fenêtre temporelle.

Inoreader ne permettant pas l’export des données en CSV, nous avons opté pour le format JSON. Puis les données ont été converties en CSV grâce à  Json to csv converter online, ce qui nous a permis ensuite de les analyser grâce aux outils de calcul d’Excel.

La définition des indicateurs

Pour répondre à nos questions de recherche et ainsi évaluer la qualité de Google Alerts, Google News, Bing, Bing News, DuckDuckGo et Qwant, nous avons établi les indicateurs de pertinence, de précision, d’éclectisme, d’exhaustivité et du recouvrement.

La pertinence est établie sur la base d’une analyse qualitative de la réponse des documents retournés aux besoins informationnels selon une évaluation binaire (oui/non).

La précision résulte du rapport entre le nombre de documents pertinents et le nombre total de documents retournés (pertinents+non pertinents).

Afin d’évaluer la capacité d’une source à couvrir de manière égale les trois différents domaines, nous établissons l’indicateur de l’éclectisme. Il découle du rapport entre le nombre de documents pertinents pour chaque axe et la somme des documents pertinents retournés pour les trois axes de veille.

Pour vérifier si une source est capable de couvrir un sujet sous plusieurs aspects, nous établissons l’indicateur de l’exhaustivité. Nous mettons en rapport le nombre de documents pertinents pour chaque sous-axe  et le nombre de documents pertinents retournés pour l’axe correspondant.

Bien que l’indicateur du recouvrement ne soit pas indispensable pour répondre à nos questions de recherche, nous l’introduisons afin d’enrichir notre évaluation. En effet, il s’agit de vérifier si le titre d’un document retourné par un moteur l’est également par ses concurrents.

Les premiers résultats

Les six moteurs de recherche ont retourné 8466 documents, dont 2511 pertinents.

997 de ces 2511 documents pertinents ont été retournés par Google News (voir Figure 1), suivi par Qwant avec 506 et DuckDuckGo avec 465. En dessous des 300, nous retrouvons Bing News, Google Alerts et enfin Bing.

Pertinence_Moteurs

Figure 1: NbT de docs pertinents par moteurs

Pourtant, si Google News a retourné le plus grand nombre de ces documents pertinents, cette source a retourné au total 4139 documents, ce qui équivaut à un taux de précision de 24% (voir Figure 2).

Precision_GoogleNews_Bing

Figure 2: Taux de précision de Google News et Bing

Bing, quant à lui, avec un taux de précision de 40% est la source la plus précise. En effet, elle a retourné 91 documents pertinents sur un total de 226 documents.

Cependant, on constate dans la figure suivante (voir Figure 3) que Bing, malgré ce taux de précision, est la source qui a retourné le moins de documents, contrairement à Google News.

Pertinents_non_pertinents

Figure 3: Rapport docs pertinents et non pertinents

Nous venons ainsi de formuler les premiers résultats de notre recherche, il nous reste à analyser l’éclectisme, l’exhaustivité ainsi que le recouvrement. Ces variables nous permettront d’ajouter d’autres éléments à notre évaluation et de fournir par conséquent quelques recommandations. Rendez-vous, donc, au prochain billet de blog.

Laetizia Sabatini Choquard & Gaia Bongi

 

Sources

KHAKIMOV, Ildar, 2013. Google Alerts VS Mention VS Talkwalker.  Moz [en ligne]. 15 mai 2013. [Consulté le 19 mars 2017]. Disponible à l’adresse : https://moz.com/ugc/google-alerts-vs-mention-vs-talkwalker

LEWANDOSKI, Dirk, 2008. The retrieval effectiveness of web search engines: considering results description. Journal of Documentation [en ligne]. 2008. Vol. 64, Iss 6, pp.915-937. [Consulté le 23 mars 2017]. Disponible à l’adresse: https://arxiv.org/ftp/arxiv/papers/1511/1511.05800.pdf

MORINA, Amanda, RACINE, Alexandre, 2014. Pratiques et besoins de veille dans les PME de Suisse romande [en ligne]. Genève : Haute école de gestion. Travail de Bachelor. [Consulté le 3 avril 2017]. Disponible à l’adresse : https://doc.rero.ch/record/232941/files/TDB_Morina_Racine.pdf

WOODWARD, Matthew, 2016. Web Monitoring Software Wars: TalkWalker Alerts vs Google Alerts. Matthewwoodward.co.uk [en ligne]. 13 mars 2017. [Consulté le 13 mars 2017]. Disponible à l’adresse : http://www.matthewwoodward.co.uk/experiments/which-is-the-best-web-monitoring-tool-talkwalker-vs-google-alerts/

Publicités