|
Dans une
banque de données, le silence est l’absence d’un document dans un
résultat de recherche due à une erreur d’indexation, à
une mauvaise stratégie de recherche ou à une méconnaissance
de la banque de données.
Dans la
présente évaluation des automates de recherche, le silence
est une référence pertinente qui se retrouve au-delà
des 20 réponses de la liste. Le silence correspond à
-20 points, soit le nombre de point correspondant à une réponse
pertinente se trouvant parmi les 5 premières références.
Il n’était pas pris en compte lorsque le document était absent.
La recherche du document pertinent a été faite après
la compilation des notes.
L’utilisation
d’un lexique différent entre l’émetteur (le rédacteur
de la page web) et le récepteur (l’internaute) est une cause du
silence.
Sept questions
ont été soumises à ce test. Ces questions avaient
reçu le plus de documents répondant au critère du
« champ sémantique ». Pour que ce test soit valable,
une recherche approfondie a été menée pour trouver
un document qui répondait le mieux à la question.
Les questions
utilisées pour ce test sont :
Quels
sont les déserts australiens et comment ont-ils été
formés ?
Qu’est-ce
que la norme ISO 9000 ?
Où
puis-je trouver des images du lapin Bunny ?
Où
puis-je trouver un dossier sur le film Louis 19 ?
Quel est
le classement du pilote automobile Jacques Villeneuve ?
Où
puis-je trouver la liste des terrains de camping au Québec ?
Quelles
sont les fermes qui acceptent des vacanciers au Québec ?
Après
une analyse des réponses, trois facteurs sont ressortis : la rédaction
de la page, les pages d’actualité et la structure de l’automate
de recherche.
La rédaction
de la page
Deux questions
ont mis en lumière les techniques de rédaction de pages web:
celles sur la norme ISO 9000 et les vacances à la ferme au Québec.
Si nous
regardons le site de l’Organisation internationale des normes (http://www.iso.ch),
nous observons que toutes les pages ont le même titre pour les automates,
celle de l’Organisation. En regardant la page cache de Google, le
serveur de l’ISO a retourné cette phrase : Accès
refusé à la liste du répertoire.
En cliquant sur le lien, il y a l’appel de deux pages : la première
contient le titre de l’ISO et la deuxième une autre page ayant un
titre différent de celui de l’automate. Cette structure du
site de l’ISO interfère sur le fonctionnement des automates.
Au moment du test, tous les automates avaient échoué.
Quelques mois plus tard, seul Google le donnait.
Les cadres
et la rédaction sont une autre interférence dans le fonctionnement.
L’exemple provient du site de la Fédération des Agricotours
du Québec (http://www.agricotours.qc.ca) La première
erreur de rédaction d’une page web provient des pages de ce site
qui ont un cadre général n’ayant ni de méta-description
ni de méta-identificateurs. Idem pour les pages d’informations.
La seconde erreur est l’absence d’un des mots les plus importants : vacances.
Ce site ne peut être trouvé qu’avec une page de liens comme
celle d’Infinit.com
consacrée aux vacances et dans laquelle se trouve le site de la
Fédération.
Dans une
certaine mesure, Google pallie cette erreur avec son système de
GoogleScout en faisant apparaître des pages similaires grâce
aux hyperliens. Mais ce système ne remplacera jamais une bonne connaissance
rédactionnelle d’une page web.
Une dernière
erreur est celui du suffixe du domaine. L'exemple vient du site Le
camping au Québec. L'adresse de ce site est http://www.campingquebec.com/.
Vous remarquerez que ce site a le domaine de haut niveau «
.com ». Ce site n'est pas une entreprise mais un site qui regroupe
trois organismes. Si vous recherchez le site sur AltaVista Canada
et Sympatico-Lycos au Canada ou sur Le web québécois, il
y sera absent parce que la recherche se fait sur le domaine géographique
« ca ». Pour l'avoir, vous devez faire votre recherche
sur le web mondial ou sur le web francophone. Si vous consultez ce
site, prenez soin de regarder attentivement le méta-titre affiché
sur la liste de réponses de l'automate ou sur la barre de titre
de votre fureteur. Ce champ a été utilisé à
l'instar de celui de la description. Ce détournement de la
nature du champ « titre » constitue de la spamindexation.
Bien que
ce ne soit pas une erreur de rédaction proprement dite, le choix
des mots de recherche en fonction du milieu à une influence certaine
sur le résultat. Par exemple, le test avait une question concernant
l’adresse électronique du premier ministre du Québec.
Au Québec, le mot officiel pour nommer l’adresse électronique
est « courriel ». La requête peut être formulée
ainsi : « “premier ministre” ET Québec ET courriel
». En France, plusieurs mots se concurrencent : mél
pour l’administration française, email et e-mail. La requête
pourra être écrite ainsi « “premier ministre” ET France
ET mél ». Si « mél » est utilisé
au Québec pour rechercher l’adresse électronique du premier
ministre, il n’y aura aucune réponse pourtant la page est dans la
base de données. Réciproquement, si le mot «courriel»
est utilisé en France, l’adresse du premier ministre français
restera invisible.
Les pages
d’actualités
Les pages
d’actualités sont aussi une autre source de silence. Mais
ce silence est différent parce qu’il relève de la mise à
jour des banques de données.
Le classement
du pilote de Formule 1 Jacques Villeneuve est un exemple. Le test
des automates de recherche a commencé au début du printemps
soit en même temps que la saison des courses de Formule 1.
Les premiers automates testés ont donné des réponses
indirectes. Plus la saison des courses avançait, plus il y
avait de réponses pertinentes pour les automates ayant fait leur
mise à jour. Suite à ce constat, la question a été
répétée sur tous les automates de recherche afin de
tenir compte de cette mise à jour des banques de données.
Selon un article paru dans ITWorld(1).
AltaVista n’avait pas eu de mise à jour entre les mois de juillet
et novembre 2001. Cela peut être une explication de la piètre
performance d’AltaVista.
Voici
un tableau des mises à jour.
Notes:
La
fréquence des mises à jour est variable compte tenu de la
croissance du nombre de documents sur le web.
*AllTheWeb
a une mise à jour continue pour les actualités.
**Google
a une mise à jour de 24 heures pour des sites sélectionnées
notamment des sites d'actualités autant en anglais qu'en français.
***Northern
Light a une mise à jour de 24 heures pour des sites sélectionnés.
Disponible seulement en anglais.
La structure
des banques de données web
La mise
à jour fait partie de la structure d’un automate de recherche.
Une autre structure est celle de l’indexation de la taille d’une page web.
Nous croyons que les automates de recherche indexent la page entière,
bien à tort. Ainsi, Google indexe les documents jusqu’à 101k
; au-delà, l’information est perdue. Cette particularité
s’est révélée avec la recherche sur les déserts
australiens. Par exemple, le document «Principes de géographie
humaine» (2) a une taille de
774k, pourtant, si vous recherchez ce document, Google affichera 101k.
Or, si vous recherchez le nom « Trollope » qui se trouve à
la fin de ce document, avec cette requête : « déserts
australiens trollope », cette page ne s’affichera pas.
Voici
un tableau de la taille maximale indexée par les automates de recherche.
| Automate |
Taille
|
| AllTheWeb |
774K
|
| AltaVista |
127K
|
| Excite.fr |
11K*
|
| Google |
101K
|
| MSN
(Inktomi) |
774K*
|
| Northern
Light |
774K*
|
| Voila |
774K
|
*Excite,
MSN et Northern Light n'inclut pas la taille du fichier dans la référence.
Elle a été évaluée à partir d'un mot
spécifique se trouvant à la fin du texte indexé et
introduit dans la requête.
Conclusion
Le choix
des automates de recherche de limiter la taille de l’indexation d’une page
influence directement le nombre de documents dans sa banque de données
et incite les rédacteurs de pages web au fait de cette particularité
à diviser un document... comme c’est le cas pour la présente
étude. On ne se sera plus surpris du silence provoqué
par cette politique si le rédacteur d’un document n’y prête
attention, ni de la vitesse d’exécution d’un Google par rapport
à HotBot, ni du nombre de pages web dans leur banque de données.
Faire une comparaison de ces deux derniers paramètres n’a peu de
significations. Il ne serait pas inimaginable que leurs robots aient
pour priorité de rechercher des fichiers d’une taille précise,
par exemple d’au plus 101K pour Google, et d’accepter des fichiers plus
imposants par référencement payant ou manuel.
Il existe
un moyen de réduire le silence : restreindre la recherche à
un ou plusieurs champs de recherche. La restriction peut se faire
en recherchant par la langue, par le domaine de tête ou de zone géographique,
par l'intervalle de dates, par le format, finalement par les champs «
titre » et l'URL. Si rien n'y fait, l'acharnement à
trouver les termes de recherches convenables demeure le dernier recours.
On ne
s’étonnera plus maintenant si une page demeure hors de notre portée
par un choix de mots que seul le rédacteur de la page connaît.
On ne s'étonnera
plus si l'utilisation du domaine de tête «.com » à
saturation est devenu l'une des raisons de silence. A cet égard,
il est prévisible que le domaine de la zone géographique va
prendre plus d'importance dans l'avenir.
Enfin,
on ne s’étonnera plus du silence si nous donnons aux automates
un pouvoir d’ubiquité qu’ils n’ont pas... pour le moment.
Toutefois, Google s'efforce de faire reculer les frontières du web.
1)
Joris Evers. (Page consultée le 30 octobre 2001). « AltaVista
serves up outdated search results » [En ligne] in ITworld.com, 22
octobre 2001. http://www.itworld.com/AppDev/1634/IDG011022altavista/pfindex.html
( Retour )
2)
P. Vidal de La Blache. (Page consultée le 30 octobre 2001) Principes
de géographie humaine Num. BNF de l'éd. de Paris : INALF,
1961-. Reprod. de l'éd. de Paris : A. Colin, 1922. http://gallica.bnf.fr/scripts/ConsultationTout.exe?O=89838&T=2
( Retour )
*Les
sites Excite Canada et Excite France ont disparu en décembre 2001.
Excite USA a retiré son formulaire avancé.
|
|