|
Introduction
1995 a
vu l’arrivée des premiers automates de recherche (alias «
moteurs de recherche ») : Lycos (en juin) et AltaVista (en décembre).
Depuis, ils ont été la coqueluche des éditeurs du
web ; on ne compte plus les oeuvres tant imprimés qu’électroniques.
Chaque année voit apparaître une nouvelle comparaison, à
savoir quel est le meilleur. La plupart de ces études sont
en anglais et rares le sont-elles en français. Il y a aussi
des textes empiriques dont les auteurs déterminent la «
spécialité » des automates à partir d’un
lexique. C’est mal connaître les automates de recherche sachant
qu’ils génèrent bruit, silence et code d’erreurs et qu’ils
ont une mise à jour déficiente amenant doublons et non-correspondances
entre requête et page en ligne. Plusieurs auteurs font
aussi grand cas des liens de «popularité» - qui sont
en fait des liens de «notoriété»- et de l’importance
du nombre d’URLs dans les bases de données. Tout cela est
sans importance, le but est de trouver l’information et cette information
peut se trouver dans la plus petite banque de données, celle qui
sera la mieux gérée.
Le moteur
de cette recherche est le scepticisme, l’ignorance et la curiosité.
J’ai souvent été étonné de voir les clichés
se multiplier, de lire de naïves faussetés, des idées
préconçues, de voir de prétendus secrets monnayés.
Si j’ai entrepris cette étude, c’est pour combler autant ma propre
ignorance que de répondre à celle de plusieurs auteurs.
Mon point de vue en est un de chercheur d’information et cela depuis 20
ans, et non de référenceur. Cela n’empêche pas
qu’un référenceur puisse tirer profit de cette étude.
Cette étude ne s’adresse pas à mes collègues, spécialistes
de la recherche d’information qui connaissent le sujet, mais à tous
ces internautes qui demeurent perplexes devant un résultat de recherche.
Enfin, cette étude est un précurseur en établissant
une méthodologie qui se répétera et se raffinera durant
les prochaines années. C’est en comparant ces futures études
que nous pourrons entrevoir l’amélioration des automates de recherche
de la lorgnette d’un internaute francophone.
Les automates
de recherche retenus sont :
AllTheWeb
AltaVista
(Belgique / Canada / France / USA)
Excite
(Canada / France / USA)
Google
français
HotBot
(France / HotBot USA)
Lycos
(Canada / France / USA )
MSN (Canada
/ France / USA)
Northern
Light
Voila
Il est
à noter que Google Canada, Google France et AntiSearch sont apparus
en 2001. Ils feront partie d’un futur addenda. D'autre part, l'automate
Excite n'existe plus. Seul le site Excite.com est actif avec le métachercheur
Dogpile. En décembre 2001, Excite.com utilisait encore l'automate
mais le formulaire avancé avait été retiré.
Cette
étude comprend 11 parties :
Le pointage
global
La pertinence
directe
La pertinence
indirecte
Le champ
sémantique
Le bruit
Le silence
Le code
d’erreurs
La non-correspondance
des termes de recherche
Le doublon
La dysfonction
Les thèmes
Note:
Si
plusieurs s’étonnent que j’écrive « automate de recherche
» et non « moteur de recherche », c’est pour faire une
distinction entre AltaVista, le site de recherche, et AltaVista, la banque
de données de pages web. C’est aussi pour distinguer les banques
de données à traitement automatisées - d’où
automate de recherche comme AltaVista, des banques de données à
traitement manuel que sont les répertoires comme Yahoo; «
moteurs de recherche » et « répertoires »
étant souvent confondus.
|
|