Étiquettes

, , , ,

Quelle est la taille des index de Google et Bing ? Et la taille totale du web ? Une étude menée sur neuf ans montre une extrême variabilité de son estimation. Quelle importance pour les spécialistes de l’information ?

Présentation de l’article : VAN DEN BOSCH, Antal, BOGERS, Toine et DE KUNDER, Maurice, 2016. Estimating search engine index size variability : a 9-year longitudinal study. Scientometrics. Vol. 107, iss. 2, pp 839–856. doi :10.1007/s11192-016-1863-z

 

Dès le début du web, sa taille a été discutée. Traditionnellement, les recherches effectuées ne prennent en compte que le web indexable, et seulement à un moment donné. Certaines approches se concentraient directement sur l’estimation de la taille d’index d’un seul moteur de recherche, tandis qu’une majorité procédait par chevauchement pour approcher indirectement la taille du Web indexé total.

 Du chevauchement …

En 1997, Bharat et Broder ont estimé la taille du web à 200 millions de pages. Ils ont sélectionné de manière aléatoire des pages d’un moteur de recherche, puis ont vérifié si elles apparaissaient sur un autre moteur de recherche et vice-versa. Le ratio de la taille totale du web était calculé à partir de l’estimation du chevauchement entre deux moteurs.

Chevauchement des résultats entre Google et Yahoo

Des sites permettent de tester le chevauchement comme ici entre Google et Yahoo, pour le terme «webometry».

Source : http://www.langreiter.com/exec/yahoo-vs-google.html

En 1998 et 1999, Lawrence et Giles de Princeton ont utilisé une méthode similaire pour estimer la taille du web: 320 millions de pages la première année et 800 millions la suivante. Ils concluaient d’une part qu’aucun moteur n’indexait à lui seul plus de 16% du web, et d’autre part que la couverture globale du web avoisinait 40%.

En 2005, Gulli et Signorini, en reprenant la méthode de Bharat et Broder et en l’étendant à 75 langues différentes, ont estimé la taille du web à 11,5 milliards de pages. A cette date, Google aurait indexé 75% du web visible, contre 57% pour Ask.

… à l’extrapolation

Van den Bosch, Bogers et de Kunder ont utilisé un échantillon des pages internet, listées par le répertoire DMOZ, comme base pour déterminer par extrapolation une estimation du nombre de documents dans l’index d’un moteur de recherche. Du 13 mars 2006 au 20 janvier 2015, ils ont interrogé Bing et Google en utilisant 28 mots pivots.

Ils ont relevé le nombre arrondi de résultats : 3 ou 4 nombres significatifs suivis de 0. Pour chaque mot la grandeur du web est ensuite extrapolée, et la moyenne des extrapolations de tous les mots est ensuite calculée.

On pourrait s’attendre à un développement linéaire de la croissance des index. Au lieu de cela s’affiche un paysage très varié ; Google menant presque toujours en tête des estimations comme l’indique la figure ci-dessous.

Variabilité des index Google et Bing

L’index de Google monte à 49,4 milliards de documents en décembre 2011 et chute à 2 milliards de pages en novembre 2014 ; Bing suit loin derrière.

Source : http://link.springer.com/article/10.1007/s11192-016-1863-z#Fig2 (CC BY 4.0)

Cette variabilité n’est pas une surprise pour les auteurs dans le sens où les systèmes d’indexation et de classement des moteurs de recherche sont mis à jour régulièrement. Matt Cutts, ingénieur chez Google, disait en 2011 que Google fait « environ 500 modifications sur son algorithme de recherche par année typique ». Les auteurs ont affiché 36 annonces de ce type sur la figure présentée : les ronds indiquent un impact sur l’index, les croix des événements signalés mais n’influençant pas les résultats.

Les auteurs rappellent qu’au début du web, sa croissance était exponentielle. Ils se demandent si aujourd’hui, le web ne grandit plus, ou s’il existe un glissement entre web visible et web invisible.

L’article conclut en reprenant une citation de Kilgarriff en 2007 « Googleology is bad science » : les moteurs de recherche commerciaux semblent présenter des variations dans leur fonctionnement et afficher des décomptes de résultats faux ou gonflés.

Des recherches doivent être menées pour mieux contrôler la collecte de données à des fins scientifiques dans le futur.

 

Intérêt pour les sciences de l’information ?

La force de cette étude est d’avoir mené la recherche durant 9 ans (et cela continue), ce qui a permis de constater la forte variabilité des index. Mais quelle signification pour nous ?

La recherche d’information sur internet se base idéalement sur des résultats atteignables et pertinents.

Pour les atteindre, les index des moteurs interrogés doivent être les plus exhaustifs possibles, tant en nombre de pages qu’en fraîcheur d’information. Une manière d’augmenter le nombre de résultats consiste à utiliser plusieurs moteurs et donc à interroger des index différents.

Par contre, la détermination de la pertinence des résultats ne devrait pas être laissée aux moteurs de recherche, au vu des biais connus (données collectées par Google, historique de recherche, type d’appareils utilisés, sécurisation des sites, …) ou inconnus.

 

Pour en revenir à l’article, une question se pose : est-ce que la taille des index est finalement bien importante, vu que les internautes se contentent des premiers résultats ?

Il se dit sur le web que « le meilleur endroit pour cacher un corps, c’est la seconde page de résultats de Google ».

Et vous, qu’en pensez-vous ?

Tania Zuber-Dutoit

Quelques pistes pour mieux utiliser les moteurs de recherche :

ESS, Henk van, 2011. Da Google code. Paris : Pearson. ISBN 978-2-7440-2460-3. Sous-titre sur la couverture: Cessez de chercher, commencez par trouver

GHERNAOUTI-HÉLIE, Solange et DUFOUR, Arnaud, 2012. Internet. 11e éd. Paris : Presses Universitaires de France. Que sais-je? ISBN 978-2-13-058548-0

MESGUICH, Véronique et THOMAS, Armelle, 2013. Net recherche 2013: surveiller le web et trouver l’information utile. [5e éd.] nouv. éd. entièrement remaniée, compl. et mise à jour. Bruxelles : De Boeck. Information & stratégie. ISBN 978-2-8041-8228-1

SIMON, Bruno Bernard (éd.), 2014. Vos recherches avec Google. Mont Saint-Aignan : Klog. ISBN 979-10-92272-01-7

Image à la une tirée de : http://www.google.com/insidesearch/howsearchworks/thestory/index.html : 60 trillion début novembre, 130 trillion le 19 novembre 2016 …