AVANT-PROPOS
Ce chapitre
est en révision. C'est pourquoi
vous y trouverez des liens qui ne sont pas encore actifs, d'autres qui
réfèrent
à d'anciennes pages ou encore des liens inactifs. Je vous
invite
à revenir régulièrement afin de mettre à
jour
sur les dernières nouveautés des automates de recherche.
La recherche
sur Internet, et plus spécifiquement sur le web, est
exécutée à partir de sites de recherche. Ces
sites
sont constitués de trois parties: une ou des banques de
données,
des logiciels qui parcourent le web - appelés
«robot»,
et d'un logiciel d'interrogation. D'autres logiciels compagnons
peuvent
s'y greffer pour optimiser les recherches. En plus des
«robots»,
les banques de données sont alimentées par des
référenceurs. Ces sites sont communément
appelés «moteurs
de recherche»
ou «engins de recherche» - les «search engines»
états-uniens
ou familièrement SE qui sont en fait des index. Parce que
ces
banques de données sont alimentées automatiquement, le
terme
le plus approprié est «automates de recherche».
Les
sociétés propriétaires des automates de recherche
sont
des fournisseurs d'information.
Certaines
banques de données
ont leur propre logiciel d'interrogation, comme Google, alors
que d'autres sites utilisent un logiciel et une banque de
données d'un
tiers comme HotBot avec Inktomi (1).
Afin d'amortir leur coût de développement, les
fournisseurs
d'information louent par contrat leur service à des
répertoires
ou des portails ou vendent leur logiciel. Par exemple, la
société Google inc.
loue sa banque de données Google au portail AOL. Tous ces
sites ont des interfaces graphiques
qui
permettent l'interrogation de leur banque de données. Ces
interfaces
graphiques ont soit une fenêtre d'interrogation, soit un
formulaire,
soit une combinaison des deux formes précédentes.
Quelle
que soit la recherche, l'interrogation demeure fondamentalement la
même.
Cependant, certains sites ont un langage simple alors que d'autres plus
évolué.
Tout compte
fait, l'important est le résultat. Or, les
résultats
d'une recherche ne correspondent pas toujours à la
requête.
La première raison tient à la rédaction d'une page
web et la seconde au moment de l'indexation. Bien que la plupart
des sites de recherche ont un robot
parcourant
le web, le temps de rafraîchissement est souvent long. Il
peut
s'écouler plusieurs semaines, voire plusieurs mois, avant que le
logiciel robot indexe de nouveau une page (2).
Entre-temps, le contenu de la page peut avoir été
modifié
ou la page déplacée ou retirée. De là
viennent l'inadéquation entre une requête et un document
trouvé,
et les pages d'erreurs telles que le notoire code 404 (page
introuvable). Lors d'une modification,
c'est au webmestre
de soumettre de nouveau ces pages aux automates de recherche.
D'autre part,
la majorité
des sites d'automates de recherche ont
ajouté des répertoires et vice-versa. Pour
confondre davantage les
internautes, des liens commandités apparaissent selon la
requête.
Les uns et les autres s'entremêlent. Dans le
résultat
d'une recherche, les premières références sont
celles
généralement des liens commandités, puis viennent
celles
du répertoire identifiés par la rubrique, enfin les
références
des automates. Certains sites divisent clairement le
résultat
provenant des liens commandités, du répertoire et de
l'automate
de recherche. Dans la plupart des cas,
l'utilisation d'un
langage
évolué différencie un répertoire d'un
automate
de recherche. Le répertoire et l'automate de Yahoo! sont
des exemples; chacun ayant leur propre langage de recherche.
A
côté
des automates traditionnels, une autre catégorie se dessine :
l'automate «de notoriété»
avec Google et Teoma.
L'automate envoie ses robots parcourir le web d'hyperliens en
hyperliens,
ici rien de nouveau. La nouveauté vient du traitement que
fait
le logiciel de recherche qui utilise la page citée comme premier
critère
de classement. Une relation statistique est ainsi établie
entre
les hyperliens. Plus une page fait référence par
hyperlien
à un site notoire (ex.: Yahoo, AltaVista), mieux peut-elle
être
positionnée. Mais contrairement à ce que l'on peut
penser,
la page pertinente n'est pas toujours celle apparaissant dans le
résultat
mais celle mise en hyperlien qui peut être absente de la banque
de données de l'automate. Il peut s'ensuivre une apparence
de non pertinence lorsque
l'hyperlien est caché, se trouve dans un long
texte
ou est utilisé à mauvais escient. Le jeu de Google
Bombing profite de cette faille. L'exemple le plus
spectaculaire a pour sujet Microsoft et la requête «go to
hell» (3).
Une page
n'ayant aucune référence et n'étant
référencée
sur aucune autre page par hyperlien, bref une page orpheline demeurera
inconnue de l'automate. Ces pages
font partie du web invisible. Jusqu'à maintenant, Google
inc.
est la seule société à prendre pleinement profit
de
cette méthode de recherche : l'analyse des hyperliens.
Notez
que plusieurs auteurs confondent les «liens de
notoriété»
et les «liens
de popularité».
Les liens de popularité sont des liens «cliqués»
par les internautes puis compilés par le site de recherche.
Le plus célèbre est le défunt Direct Hit qui
établissait des statistiques sur les pages consultées.
Aujourd'hui, la
plupart des
automates ont
intégré
dans leur logiciel de recherche le lien de notoriété sans
tambours ni trompettes.
Ils intègrent maintenant une technologie qui évalue les
liens
de notoriété et de popularité.
Du
côté de Google,
nous pouvons observer un rapprochement
avec
les logiciels traditionnels. Il ajoute de plus en plus de
recherche
par champs et par fonctions. Son programme Page Rank
qui
est le noyau de son système de classement de pages, est de plus
en plus critiqué. Régulièrement, Google
réagit
aux
critiques en modifiant son programme informatique.
L'analyse
des automates de recherche aux États-Unis est bien
documentée ; ceux en
français
le sont peu. Bien que beaucoup de sites mettent en tableau
les principales fonctions des automates de recherche, ils sont avares
d'explications.
Ce qui l'est encore moins est leurs fonctions de recherche
avancées
sous la forme d'un tableau clair et pratique. Ce dossier n'a pas
la prétention de répondre à cette lacune, mais
d'ajouter
une pierre à l'édification de la recherche sur le
web.
C'est à vous d'en juger.
Ce document
est divisé en 10 parties :
Les fiches techniques
1.Les
opérateurs logiques
2.Les
opérateurs de proximité
3. Les
requêtes complexes (en révision)
4. La
troncature
5. La
recherche par champs
5.1 Le
champ « texte »
5.2 La
casse (majuscule et minuscule)
5.3 Les
signes diacritiques
5.4 Le
correcteur orthographique
5.5 La
taille du fichier
6. Le
champ « langue »
6.03 Champ
Domaine géographique
6.04 Champ
Méta-titre
6.05 Champ
Méta-description
6.06 Champ
Meta Keywords (méta-mots)
6.07 Champ
URL
6.08 Champ
Serveur
6.09 Champ
Domaine de tête
6.10 Champ Type de document (en
révision)
6.11 Autres
champs (en révision)
7. La
fonction d'affichage
(en révision)
8. La
fonction de tri et la pertinence des résultats
(en révision)
9. Les
champs divers et recherche de documents multimédia
(en révision)
10. Le
formulaire de recherche web.
(en révision)
Les tableaux
Les
opérateurs de recherche
Les
champs Texte et URL
Les
champs divers
Affichage
et fonctions
Classement des automates de
recherche
La dseptième partie est un formulaire de recherche adapté
au
web. La huitième, les tableaux, est consultable en
sélectionnant
l'onglet du menu en exergue ou le titre du tableau ci-dessus.
Des hyperliens
relient chaque titre à son chapitre. Inversement,
chaque
titre de chapitre est «hyperlié» au menu.
Des hyperliens ont été aussi insérés dans
les
tableaux pour relier chaque automate de recherche à son propre
tableau,
à l'adresse de son site et à l'adresse de la page
d'aide.
Enfin des hyperliens de chaque page permettent de feuilleter
aisément
le dossier.
Vingt sites de recherche et leur
pendant en français lorsqu'il
est disponible et différent du site original, font l'objet des
tableaux. Lorsque l'interface en français existe pour
plusieurs pays, c'est celle du Canada qui est
privilégiée. Ainsi
ont été ajoutés AltaVista Canada, Google Canada et
Yahoo!
Canada en français. Enfin, d'autres automates
pourront
s'ajouter dans l'avenir et même être
retranchés. Les tableaux
seront publiés
en format pdf pour qu'ils puissent être imprimés sur une
feuille
de format standard. Les prochaines mises à jour
intégreront les nouvelles fonctions de plusieurs automates de
recherche.
Voici
le tableau des sites de recherche. La lettre [Y]
représente Yahoo :
Les automates de
recherche
|
AlltheWeb
(Inktomi [Y])
|
AltaVista [(Inktomi [Y])
|
AOL (Exalead
/ Google)
|
Gigablast
|
Google |
HotBot (Inktomi [Y])
|
MSN Search (Inktomi [Y])
|
Northern
Light
|
Teoma |
Tout le web
francophone (Voila) |
WiseNut |
Yahoo! Search
|
Les
répertoires
|
Nomade
(Inktomi [Y])
|
La Toile du Québec
(Google)
|
Yahoo! Répertoire
|
Les
portails |
AOL
(Google)
|
Excite France
(Inktomi [Y])
|
GlobeTrotter
(Inktomi [Y])
|
Lycos
(Inktomi [Y])
|
Sympatico
(Inktomi [Y]
|
En 1999, les
automates de recherche ont été
portés
par
la vague des portails et de leur rapprochement avec les
répertoires. En 2000, ils reviennent à leur essence
grâce à l'émulation du benjamin : Google. En
2001, Google a poursuivi son
développement tout azimut et AllTheWeb son développement
tranquille. Dans la conquête des portails, Fast Search et Google
se
partagent les sites. En 2002, nous voyons la résurgence
d'AltaVista et son achat par Overture qui acquiert aussi
AlltheWeb. Yahoo! participe aux acquisitions en devenat
propriétaire d'Inktomi. En 2003, Yahoo! poursuit sa
stratégie en absorbant Overture, recevant dans sa besace
AlltheWeb et AltaVista. En 2004, Yahoo! remplace Google par un
nouveau service de recherche issu d'Inktomi renommé Yahoo!
Search Technlogy. Tous les sites ayant AlltheWeb
l'ont
remplacé par la suite par Inktomi mais avec des variantes dans
la dimension de l'index et leurs langages de recherche.
Chaque mois nous amène modifications et
améliorations tant et si bien qu'il devient difficile de les
suivre avec des mises à
jours régulières. La personnalisation de la
recherche, les alertes, les barres d'outils et les raccourcis ont pris
de l'ampleur. C'est pourquoi les actualités
et un carnet
sur les sites de recherche
ont été introduits en les attendant.
Marc
Duval
Bibliothécaire
professionnel
- Inktomi
Corporation.(Page consultée le 18 novembre 2002). «Web
search OEM partners».
[En ligne].©
2000. http://www.inktomi.com/products/web_search/partners.html
(Haut)
- Martijn Koster.
(Page consultée le 18 novembre 2002). «The
Web Robots Pages». [En ligne]. © 1995?. http://www.robotstxt.org/.(Haut)
- John
Lettice. (Page consultée le 18 novembre 2002) «Microsoft
tops
Google hell search rankings» in The Register, 18 septembre
2002. http://www.theregister.co.uk/content/28/27179.html
Pour en
savoir plus, un dossier sur les automates de recherche :
Clifford
Lynch. «La recherche d'informations : Les
bibliothécaires
devront s’allier aux informaticiens pour que cesse l’anarchie qui
règne
sur l’Internet» [En ligne] in Pour La
science,
N° 235, mai 1997. © Pour la Science (1997) (Page
consultée
le 18 novembre 2002).
http://www.pour-la-science.com/numeros/pls-235/internet/lynch.htm
|