La recherche d’information occupe une place importante aujourd’hui et l’article « Search engines and information retrieval » qui provient du livre « Search Engines, Information retrieval in practice » examine l’aspect lié aux moteurs de recherche. Cet article oriente le lecteur tout en reprenant les bases de la recherche d’information et le guide vers le cœur du sujet : comment évaluer et comparer les moteurs de recherche.

La recherche d’information ?


La recherche d’information est un domaine avec des bases solides, provenant notamment des écrits de Gérald Salton, un pionnier dans le domaine, qui l’évoque ainsi :

« Structurer, analyser, organiser, stocker, rechercher et récupérer l’information »

Elle se pratique sur les documents de toute nature détenant une structure identifiée à travers des éléments et elle est basée sur des modèles et des algorithmes pour extraire le document recherché.

Les utilisateurs et les professionnels forment les deux grands groupes de personnes liées à la recherche d’information.

Pour les utilisateurs, la recherche d’information devient une activité journalière. Pour la plupart, ce sont des recherches sur le web qui se font de manière intuitive et à l’aide d’appareils électroniques. C’est justement cela et l’utilisation généralisée des moteurs qui incitent les professionnels à trouver des améliorations et à faire évoluer la recherche d’information.

Pour les professionnels, la recherche d’information est beaucoup plus complexe que des simples recherches web. Il y a un travail continu pour améliorer l’utilisation des moteurs afin de rendre l’information retournée plus pertinente et accessible plus rapidement.

Les dimensions des moteurs de recherche

La recherche d’information est riche en contenus, applications et tâches comme l’indique ce tableau :

Les types de recherches ne se font pas seulement sur le web (outil le plus commun), mais à travers diverses applications, telles que :

  • Web : Google, etc.
  • Vertical : web avec des restrictions sur le sujet
  • Entreprise : dossiers ordinateurs
  • Desktop : barre de recherche Windows
  • Peer-to-peer : réseaux externes

L’article fait également référence aux tâches qui se font sur les résultats obtenus après avoir effectué la recherche, sur les données organisées et recherchées par le système :

  • Ad hoc : trouver des documents pertinents sur des requêtes usagers qui peuvent être très vagues
  • Filtrer : détecter des points d’intérêt
  • Classifier : catégoriser en utilisant des éléments
  • Questions : retourner une réponse spécifique

La recherche d’information : les problématiques

Quelques grandes problématiques surviennent avec la recherche d’information :

Pertinence : l’information que la personne recherche au moment de faire la requête, qui est influencée par plusieurs facteurs. On développe des modèles de recherche et des algorithmes pour palier à ce point.

Evaluation : dépend des attentes des usagers. On utilise des mesures que l’on compare aux algorithmes afin d’évaluer le nombre de documents pertinents et retournés.

Besoin d’information : centré sur les utilisateurs, qui sont les juges de la qualité de l’information. On propose comment remplir et compléter la requête.

Les moteurs de recherche


Les moteurs de recherche représentent la mise en pratique de la recherche d’information. Ils sont présents depuis longtemps : le terme « Search Engine » devient répandu après quelques années seulement et remplace « Information Retrieval System ».

Pour récupérer les données, des méthodes variées peuvent être utilisées. Avec les moteurs web, le « Crawling » est souvent utilisé afin de capturer des quantités énormes de données en vue de les exploiter. Dans les entreprises, le « Datamining » aide dans le traitement de grandes quantités de données pour trouver des informations pertinentes.

Parallèlement, les moteurs Open Source deviennent aussi plus convoités avec l’augmentation de leur performance.

Les moteurs de recherche : les problématiques

En plus des problématiques apportées par la recherche d’information, il existe quelques fonctionnalités essentielles aux moteurs de recherche.

  • La Performance du moteur est jugée en fonction du temps de réponse, le débit de résultats (Throughput ) et de la rapidité de l’indexation.
  • La rapidité d’intégration de l’information dans l’index, le degré d’indexation et stockage (Coverage) et pour déterminer l’âge de cette information (Recency)
  • L’évolutivité (Scalability) : Évaluation de l’adaptabilité du moteur, même en cas de changements ou d’augmentations des données et des utilisateurs (Adaptable).
  • La pratique : il y a également des problèmes, comme avec le Spam et une pratique s’intitulant le Spamdexing qui est l’ajout de mots dans un document pour le faire ressortir lors d’une requête.

Mais alors, qui s’occupe de faire fonctionner tout cela ?


Dans le cadre de la recherche d’information, ce sont plutôt des universitaires et des personnes travaillant en laboratoire qui se concentrent sur le développement de modèles mathématiques (algorithmes), les tests et l’écriture de papiers scientifiques.

Concernant les moteurs de recherche, qui représentent l’aspect le plus pratique, ce sont souvent des informaticiens de systèmes et de bases de données, qu’on appelle des ingénieurs de moteurs de recherche, qui se chargent de modifier, améliorer, optimiser et gérer les outils existants.

Comme les apports et améliorations proviennent d’acteurs de domaines différents, cela constitue une richesse indéniable.