|
Le bruit
Dans une
recherche textuelle, le principal bruit relève de la polysémie
et de la capacité des logiciels de recherche à discriminer
les noms communs des noms propres, les lettres accentuées et non
accentués, et à évaluer la distance entre les mots
de la requête. C’est pourquoi des sujets de recherche ont été
introduits pour tester la capacité des automates de recherche à
contourner ces pièges.
Un autre
type de bruit indépendant des tests s'est révélée
: la spamindexation.
Les épreuves
Bien que
le bruit représente un faible pourcentage des références,
tous les automates sont tombés dans le piège. AltaVista
a confondu le mot anglais « spool » du nom propre Jared Spool,
Google entre autres n’a pas distingué le surnom « Lasagne
» du nom commun. Fast Search - AllTheWeb, Lycos Canada et France
- et Voila n’ont pas su relever le défi de façon non équivoque
pour quelques références en confondant ferme - nom commun,
ferme - verbe, et fermé - adjectif ou participe passé.
Les automates
de recherche font aussi de la recherche d’images, à l’exception
de Northern Light qui n’a pas cette recherche. Le test a porté
sur deux questions : une question enfantine - je cherche des images du
lapin Bunny - Buggs ou Bugs de son prénom ; une question sur le
plan d'une ville : je cherche la carte de la ville de Québec.
La plupart d’entre eux sont tombés dans le panneau. Seuls Excite
et Sympatico-Lycos ont passé le test grâce à leur fonction
de suggestions : Excite avec son « Zoom In » et Sympatico-Lycos
avec son association avec Direct Hit. Au moment de l’évaluation,
AltaVista France avait cette fonction qui a été remplacée
par des rubriques de son « guide » lors d’une
vérification de routine. AllTheWeb a été le
grand perdant en affichant aucun lapin et AltaVista avec seulement 3.
Tous les autres ont affichés des lapins mais aucun Buggs Bunny.
La recherche
sur le plan de la ville de Québec - la requête était
« carte de la ville de Québec » - a confondu plusieurs
automates. Pour certaines pages, « carte » représentait
des « cartes de souhaits », «
ville de Québec » une apposition et « Québec
», autant la ville que la province.
Une autre
épreuve a été menée avec une expression composée
d’un nom et d’un chiffre avec la recherche sur le film québécois
Louis 19. Seule la famille de Fast Search a passé l’épreuve
en ayant indexé le site Films Stock International au moment de l’interrogation.
Tous les autres ont échoué à divers degrés.
Trois
raisons expliquent cet échec.
La première
est le retard à indexer la page pertinente qui est apparue, par
exemple, dans la base de données de Google après une vérification
de routine.
La deuxième
est l’absence de la recherche par « expression exacte »
dans le formulaire pour quelques automates comme Northern Light.
La troisième
raison est que plusieurs automates de recherche ne tiennent pas compte
du formatage d’une page. Leur lecture se fait non par la page visible
mais à partir de la source de la page. Ils ignorent les espaces
comme ceux des tabulations, la ponctuation comme la virgule et les tableaux
bien que l’opérateur de proximité ait été activé
avec la recherche de « l’expression exacte ».
C'est pour cette raison que des pages de forum apparaissent associant le
prénom Louis avec l'heure de l'intervention (Louis 19:15:27)
; le pointage d'un sport dans un tableau -
ou la
ponctuation - Louis, 19 ans.
La spamindexation
La spamindexation
est une pratique de référencement qui sert à tromper
les automates de recherche afin de mieux positionner la page dans un résultat
de recherche, croit-on. En fait, elle exploite une faille des automates
qui utilisent les métadonnées : les champs libres.
Les champs d’indexation sont conçus soit pour accepter un nombre
illimité de mots - ils sont dits « libres »,
soit un nombre limité de mots - ils sont dits « fixes ».
Or, les programmeurs des logiciels d’indexation des automates de recherche
ont choisi les champs libres ; ce qui a ouvert la porte à l’abus.
Trois
sortes de spamindexation ont été identifiées durant
la compilation des références.
Le premier
cas de spamindexation consiste à mettre sur la page d’accueil dans
le champ des méta-identificateurs (keywords ) une série de
termes qui ne représentent pas cette page mais le site, pis encore
ne représentent pas le site même. Par exemple, écrire
ISO 9000 pour signifier que l’entreprise à cette certification,
alors que cette norme n’est pas le sujet ni de la page, ni du site.
En tant que lecteur, nous sommes en droit d’avoir une page qui corresponde
à notre demande sans avoir à chercher dans le site la page
dans laquelle se trouve le sujet de notre recherche.
Le deuxième
cas de spamindexation consiste à utiliser le méta-titre comme
un second champ « description ».
La troisième
cas de spamindexation rencontrée est encore plus pernicieuse : elle
consiste à utiliser la même couleur pour une série
de mots impropres au site que celle du fond de la page.
A notre
avis, les concepteurs des automates ont fait fausse route en ne limitant
pas les champs. Ils devraient indexer un champ fixe de 100 caractères
par exemple. De la même façon, ils devraient assigner
un nombre de caractères pour les méta-identificateurs et
pour la méta-description.
Malheureusement,
les référenceurs qui utilisent de telles méthodes
le font à leur dépens lorsque leurs pages se transforment
en de détestable bruit au lieu de se retrouver en bonne position
parmi ses pairs. Ils ne trompent pas seulement les automates, ils
trompent aussi les internautes quand cette page contient les termes de
la requête invisibles à l’internaute et non pertinents à
la recherche. Pour une entreprise, cette pratique donne une bien
mauvaise carte de visite à un client potentiel.
Taux
de bruit par automate
Rang |
Automates |
% |
1 |
AltaVista
Belgique |
0,42% |
2 |
Northern
Light |
0,63% |
3 |
HotBot |
1,04% |
4 |
MSN |
1,88% |
5 |
Lycos
US |
2,50% |
6 |
Lycos
Canada |
2,71% |
7 |
Lycos
France |
2,92% |
8 |
Google
français |
3,33% |
9 |
Excite
Canada/USA* |
4,38% |
10 |
AltaVista
France |
4,38% |
11 |
Voila |
6,25% |
12 |
HotBot
France |
6,88% |
13 |
AllTheWeb |
7,08% |
14 |
Excite
France* |
7,71% |
15 |
AltaVista
Canada |
9,38% |
16 |
AltaVista
USA |
9,38% |
480=100
Lycos-Canada
= Sympatico-Lycos |
Le tableau
ci-contre montre le pourcentage de pages représentant du bruit sur
un total de 480 références pour chaque automates. Dans
le pire des cas, la représentation est de 9% et la médiane
de 3%.
La base
de données d'AltaVista Belgique est une sous-base d'AltaVista et
donc moins importante. Le pourcentage de bruit pourrait augmenter.
Northern
Light n'a pas de recherche d'images, ce qui a diminué son niveau
de bruit.
Parmi
les principaux automates, HotBot USA et MSN d'Inktomi s'en tirent
le mieux. Il faut noter que la recherche d'images chez Inktomi est
différentes. Elle se fait non pas avec une représentation
du sujet, mais en signalant qu'il y a des images dans une page web.
Dans la
famille Fast Search, seul AllTheWeb fait piètre figure en raison
de l'absence de suggestions pour la recherche d'images.
Excite
France est parmi les derniers parce qu'il n'avait pas la fonction
« Zoom In ». Cette fonction étant pour les anglophones,
on comprendra qu'elle a failli pour la recherche en français.
Enfin,
Voila et HotBot France se révèlent décevants.
|
Bruit,
champ sémantique et tutti quanti
Taux
total de bruit
Rang |
Automates |
Bruit
% |
CS
% |
Total |
1 |
HotBot |
1,04% |
35% |
36,04% |
2 |
AltaVista
France |
4,38% |
32% |
36,38% |
3 |
HotBot
France |
6,88% |
32% |
38,88% |
4 |
AltaVista
Belgique |
0,42% |
41% |
41,42% |
5 |
Lycos
Canada |
2,71% |
39% |
41,71% |
6 |
Lycos
France |
2,92% |
39% |
41,92% |
7 |
Google
français |
3,33% |
41% |
44,33% |
8 |
Voila |
6,25% |
39% |
45,25% |
9 |
Northern
Light |
0,63% |
45% |
45,63% |
10 |
AllTheWeb |
7,08% |
39% |
46,08% |
11 |
AltaVista
Canada |
9,38% |
37% |
46,38% |
12 |
Lycos
US |
2,50% |
44% |
46,50% |
13 |
MSN |
1,88% |
45% |
46,88% |
14 |
AltaVista
USA |
9,38% |
39% |
48,38% |
15 |
Excite
Canada/USA* |
4,38% |
46% |
50,38% |
16 |
Excite
France* |
7,71% |
44% |
51,71% |
480 =
100
CS
= champ sémantique |
Pour la
majorité des internautes, le bruit est tout ce qui n'est pas pertinent
à leur requête. Cette non-pertinence inclut les
pages qui ont leur termes de recherche sans information supplémentaires.
Le tableau ci-contre représente le pourcentage de bruit et celui
des champs sémantiques (voir la page précédente).
Ce tableau n'inclut ni les pages d'erreurs ni les doublons qui sont traités
plus loin. En les incluant, le bruit représente environ les
deux tiers des références.
|
*Les
sites Excite Canada et Excite France ont disparu en décembre 2001.
Excite USA a retiré son formulaire avancé.
|
|