Étiquettes

, , , , , , , , ,

Nous n’en avions pas encore réellement conscience (pour ceux de ma génération en tout cas) mais le début des années 1990 marquait l’avènement d’une révolution qui allait bouleverser notre rapport à l’information : le web était né ! A l’heure où mes amis et moi construisions des cabanes dans les bois, Tim Berners-Lee et Robert Cailliau posaient, eux, les jalons d’une architecture qui nous permettrait un jour de partager nos expériences, d’échanger et de travailler ensemble, même à des milliers de kilomètres.

Ce petit bébé qui grandit trop vite

Parti de là, le web n’a cessé de croître à une vitesse fulgurante pour atteindre en 2012, selon le site worldwidewebsize.com, le chiffre de plus de 25.21 billions (1) de pages. Trop d’informations tue l’information. On comprend aisément pourquoi un outil qui était à la base construit pour donner un accès facilité aux ressources dont nous avions besoin s’est rapidement transformé en une sorte de « bazar » où il devint parfois difficile de trouver ce que l’on cherche. Les moteurs de recherche (search engines dans la lanque de Shakespeare) ont alors volé à notre secours.

Improving large scale search engines with semantic annotations (2)

Le titre de cette section est aussi celui de l’article que j’ai le plaisir de vous résumer ici. En français, comment faire en sorte d’améliorer les résultats des moteurs lors de nos recherches d’information ? Les auteurs postulent qu’il est possible de le faire au moyen d’annotations sémantiques. Nous y reviendrons plus tard.

Google (1996), concurrent historique d’Altavista (1995), Yahoo (1994) et Bing (2008) s’est aujourd’hui imposé comme le moteur de recherche de référence. Les performances et la fiabilité de son algorithme Pagerank y sont pour beaucoup, malgré les discussions dont ce dernier peut faire l’objet. En effet, il est parfois reproché au Pagerank de n’être qu’une mesure de popularité. Popularité ne signifiant pas toujours pertinence. Le Pagerank permettrait aussi à un webmaster, en créant des liens hypertextes, de définir lui-même de manière implicite la pertinence d’une page plutôt que de laisser ce jugement au lecteur final de la ressource.

Les auteurs de l’article soulèvent également d’autres problèmes quant à l’utilisation des moteurs de recherche traditionnels. En effet, ces outils se basent sur la recherche de mots-clés correspondants au contenu d’un document et il est dès lors possible de manquer des informations pertinentes. Notamment dans le cas où un document dispose de la même information sémantique mais n’est pas indexé avec le mot-clé synonyme. Un exemple simple, une recherche faite au moyen du terme « peur » renverra un document indexé avec « peur » mais pas forcément avec « frayeur ». Les deux documents comprennent pourtant la même information sémantique. Un autre problème peut également survenir dans le cas de requêtes ambigües : deux termes homonymes ayant une signification différente.

L’internaute et la sémantique au centre de la recherche

Dans un tel contexte, faire participer l’internaute peut s’avérer très fructueux. Partant de ce postulat, les auteurs mettent au point un algorithme capable de désambiguïser les requêtes dans les moteurs de recherche en utilisant des termes extraits de Wikipédia. Le choix de l’encyclopédie en ligne s’avère pertinent dans la mesure où elle représente un concept de manière univoque et répond à une architecture plutôt bien structurée.

Le fonctionnement est simple. Lorsqu’un internaute tape une requête dans le formulaire de recherche, une première série de résultats issus de Wikipédia lui est retournée et il pourra alors indiquer quel concept correspond à son besoin d’information.

Désambiguïsation sémantique

Désambiguïsation sémantique du terme « Sun » au moyen des concepts Wikipédia

Par la suite, une deuxième série de résultats correspondants à son premier choix lui sera à nouveau retournée et il aura à ce moment la possibilité d’indiquer dans quelle mesure ces derniers sont reliés ou non à son besoin d’information initial. L’internaute pourra aussi indiquer qu’il ne sait pas ou simplement choisir de ne pas répondre.

résultats retournés

Les résultats retournés proposent chacun un bouton radio permettant d’indiquer si la ressource est reliée ou non à la recherche initiale. La fonction « not sure » est choisie par défaut

L’algorithme imaginé par les auteurs comprend également ce qu’ils appellent un accumulateur. Celui-ci permet au système de calculer plus vite, dans l’optique où le set de concepts désambiguïsés devient plus important au fur et à mesure des annotations faites par les internautes. Là encore le concept est plutôt simple, en théorie. A chaque fois qu’une annotation est faite sur un concept par un internaute, le système enregistre et met à jour le score du nombre de fois où ce concept a été identifié comme relié ou non à la recherche initiale.

Des premiers résultats encourageants…

La plupart des études menées dans ce sens se basent sur des lots de requêtes venant de la conférence TREC. Le problème? Ces requêtes ne font pas la distinction entre leurs différentes significations possibles. Aussi, les études antérieures s’attachaient à reconstruire des systèmes complets en partant de zéro, sans prendre en compte les informations déjà indexées dans les moteurs existants. Pour ces raisons, afin de construire leur algorithme et pour essayer d’évoluer dans un environnement quasi réel, les auteurs ont procédé d’une manière différente. Ils ont choisi de se baser sur le top 80 des requêtes Google et Yahoo ainsi qu’un set de concepts Wikipédia comme expliqué plus haut. Sur cette base, ils ont élaboré 20 requêtes différentes pour 8 utilisateurs. Au total, ce ne sont pas moins de 160 requêtes, 6556 annotations, 14441 termes d’annotations, 42 concepts Wikipédia et 2386 ressources web qui ont été utilisés.

Dans 85% des cas (17 requêtes sur 20) les résultats sont meilleurs avec les annotations sémantiques. Ils constatent également que grâce à l’accumulateur vu plus haut, le temps de calcul n’augmente pas proportionnellement à l’augmentation des annotations. Mais il pourrait augmenter en fonction des ressources du web en évolution constante. Pour pallier ce problème, ils ont construit un index inversé qui permet de garder en mémoire une trace de chaque concept associé ou non à chaque ressource.

Le bilan étant donc plutôt positif, il reste maintenant à savoir si les internautes, dans un contexte réel, seraient prêts à prendre du temps pour participer à la désambiguïsation sémantique des contenus du web. Il faudrait donc étudier le comportement de différents groupes d’utilisateurs, il s’agit d’ailleurs du prochain travail qu’ils souhaitent effectuer. Il y a fort à parier que de nombreuses recherches à l’avenir s’intéresseront encore à ces thématiques pour nous permettre de trouver plus vite et mieux dans un web en croissance exponentielle. Alors que l’enfant a arrêté de construire des cabanes, le web lui a continué de grandir…

(1) Selon Wikipédia, dans le monde anglo-saxon ce chiffre est à prendre comme 25 milliards de pages web.

Référence :

(2) FUENTES-LORENZO, Damaris et al., 2013. Improving large-scale search engines with semantic annotations. Expert Systems with Applications. Mai 2013. Vol. 40, No 6, pp. 2287–2296.

Présentation ppt