DSI. Classement des moteurs de recherche. Le bruit

SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI

par Marc Duval, bibliothécaire

Classement
des automates de recherche.

Le classement selon les requêtes

Partie 6 : Le bruit

Introduction	Les répertoires	Les noms de domaines	Classement des sites de recherche
La nature du web	Les automates	Les bases de données	Actualités
Le mot-clé	Le langage de recherche	Formulaire de recherche web	Les brèves
Le web universitaire Partie 1 Les départements	Le web universitaire Partie 2 Les bibliothèques	Le palmarès des villes : un exemple de recherche	Accueil

Introduction

Le protocole de recherche

Les critères de classement

Les formulaires

- La grille d'évaluation

Les requêtes

- La liste

- Les critères

- La grille d'évaluation

Le classement des automates de recherche

Par formulaires
Par résultats

-Le pointage

global

-La pertinence directe

-La pertinence indirecte

-Le champ sémantique

-Le bruit

-Le silence

-Les codes d’erreurs

-La non- correspondance

-Le doublon

-La dysfonction

-Les thèmes

Conclusion

Le bruit

Dans une recherche textuelle, le principal bruit relève de la polysémie et de la capacité des logiciels de recherche à discriminer les noms communs des noms propres, les lettres accentuées et non accentués, et à évaluer la distance entre les mots de la requête. C’est pourquoi des sujets de recherche ont été introduits pour tester la capacité des automates de recherche à contourner ces pièges.

Un autre type de bruit indépendant des tests s'est révélée : la spamindexation.

Les épreuves

Bien que le bruit représente un faible pourcentage des références, tous les automates sont tombés dans le piège. AltaVista a confondu le mot anglais « spool » du nom propre Jared Spool, Google entre autres n’a pas distingué le surnom « Lasagne » du nom commun. Fast Search - AllTheWeb, Lycos Canada et France - et Voila n’ont pas su relever le défi de façon non équivoque pour quelques références en confondant ferme - nom commun, ferme - verbe, et fermé - adjectif ou participe passé.

Les automates de recherche font aussi de la recherche d’images, à l’exception de Northern Light qui n’a pas cette recherche. Le test a porté sur deux questions : une question enfantine - je cherche des images du lapin Bunny - Buggs ou Bugs de son prénom ; une question sur le plan d'une ville : je cherche la carte de la ville de Québec. La plupart d’entre eux sont tombés dans le panneau. Seuls Excite et Sympatico-Lycos ont passé le test grâce à leur fonction de suggestions : Excite avec son « Zoom In » et Sympatico-Lycos avec son association avec Direct Hit. Au moment de l’évaluation, AltaVista France avait cette fonction qui a été remplacée par des rubriques de son « guide » lors d’une vérification de routine. AllTheWeb a été le grand perdant en affichant aucun lapin et AltaVista avec seulement 3. Tous les autres ont affichés des lapins mais aucun Buggs Bunny.

La recherche sur le plan de la ville de Québec - la requête était « carte de la ville de Québec » - a confondu plusieurs automates. Pour certaines pages, « carte » représentait des « cartes de souhaits », « ville de Québec » une apposition et « Québec », autant la ville que la province.

Une autre épreuve a été menée avec une expression composée d’un nom et d’un chiffre avec la recherche sur le film québécois Louis 19. Seule la famille de Fast Search a passé l’épreuve en ayant indexé le site Films Stock International au moment de l’interrogation. Tous les autres ont échoué à divers degrés.

Trois raisons expliquent cet échec.

La première est le retard à indexer la page pertinente qui est apparue, par exemple, dans la base de données de Google après une vérification de routine.

La deuxième est l’absence de la recherche par « expression exacte » dans le formulaire pour quelques automates comme Northern Light.

La troisième raison est que plusieurs automates de recherche ne tiennent pas compte du formatage d’une page. Leur lecture se fait non par la page visible mais à partir de la source de la page. Ils ignorent les espaces comme ceux des tabulations, la ponctuation comme la virgule et les tableaux bien que l’opérateur de proximité ait été activé avec la recherche de « l’expression exacte ». C'est pour cette raison que des pages de forum apparaissent associant le prénom Louis avec l'heure de l'intervention (Louis 19:15:27) ; le pointage d'un sport dans un tableau -

Paroisse Saint-Louis

ou la ponctuation - Louis, 19 ans.

La spamindexation

La spamindexation est une pratique de référencement qui sert à tromper les automates de recherche afin de mieux positionner la page dans un résultat de recherche, croit-on. En fait, elle exploite une faille des automates qui utilisent les métadonnées : les champs libres. Les champs d’indexation sont conçus soit pour accepter un nombre illimité de mots - ils sont dits « libres », soit un nombre limité de mots - ils sont dits « fixes ». Or, les programmeurs des logiciels d’indexation des automates de recherche ont choisi les champs libres ; ce qui a ouvert la porte à l’abus.

Trois sortes de spamindexation ont été identifiées durant la compilation des références.

Le premier cas de spamindexation consiste à mettre sur la page d’accueil dans le champ des méta-identificateurs (keywords ) une série de termes qui ne représentent pas cette page mais le site, pis encore ne représentent pas le site même. Par exemple, écrire ISO 9000 pour signifier que l’entreprise à cette certification, alors que cette norme n’est pas le sujet ni de la page, ni du site. En tant que lecteur, nous sommes en droit d’avoir une page qui corresponde à notre demande sans avoir à chercher dans le site la page dans laquelle se trouve le sujet de notre recherche.

Le deuxième cas de spamindexation consiste à utiliser le méta-titre comme un second champ « description ».

La troisième cas de spamindexation rencontrée est encore plus pernicieuse : elle consiste à utiliser la même couleur pour une série de mots impropres au site que celle du fond de la page.

A notre avis, les concepteurs des automates ont fait fausse route en ne limitant pas les champs. Ils devraient indexer un champ fixe de 100 caractères par exemple. De la même façon, ils devraient assigner un nombre de caractères pour les méta-identificateurs et pour la méta-description.

Malheureusement, les référenceurs qui utilisent de telles méthodes le font à leur dépens lorsque leurs pages se transforment en de détestable bruit au lieu de se retrouver en bonne position parmi ses pairs. Ils ne trompent pas seulement les automates, ils trompent aussi les internautes quand cette page contient les termes de la requête invisibles à l’internaute et non pertinents à la recherche. Pour une entreprise, cette pratique donne une bien mauvaise carte de visite à un client potentiel.

**Taux de bruit par automate**
Rang	Automates	%
1	AltaVista Belgique	0,42%
2	Northern Light	0,63%
3	HotBot	1,04%
4	MSN	1,88%
5	Lycos US	2,50%
6	Lycos Canada	2,71%
7	Lycos France	2,92%
8	Google français	3,33%
9	Excite Canada/USA*	4,38%
10	AltaVista France	4,38%
11	Voila	6,25%
12	HotBot France	6,88%
13	AllTheWeb	7,08%
14	Excite France*	7,71%
15	AltaVista Canada	9,38%
16	AltaVista USA	9,38%

480=100
Lycos-Canada = Sympatico-Lycos

Le tableau ci-contre montre le pourcentage de pages représentant du bruit sur un total de 480 références pour chaque automates. Dans le pire des cas, la représentation est de 9% et la médiane de 3%.

La base de données d'AltaVista Belgique est une sous-base d'AltaVista et donc moins importante. Le pourcentage de bruit pourrait augmenter.

Northern Light n'a pas de recherche d'images, ce qui a diminué son niveau de bruit.

Parmi les principaux automates, HotBot USA et MSN d'Inktomi s'en tirent le mieux. Il faut noter que la recherche d'images chez Inktomi est différentes. Elle se fait non pas avec une représentation du sujet, mais en signalant qu'il y a des images dans une page web.

Dans la famille Fast Search, seul AllTheWeb fait piètre figure en raison de l'absence de suggestions pour la recherche d'images.

Excite France est parmi les derniers parce qu'il n'avait pas la fonction « Zoom In ». Cette fonction étant pour les anglophones, on comprendra qu'elle a failli pour la recherche en français.

Enfin, Voila et HotBot France se révèlent décevants.

Bruit, champ sémantique et tutti quanti

**Taux total de bruit**
Rang	Automates	Bruit %	CS %	Total
1	HotBot	1,04%	35%	36,04%
2	AltaVista France	4,38%	32%	36,38%
3	HotBot France	6,88%	32%	38,88%
4	AltaVista Belgique	0,42%	41%	41,42%
5	Lycos Canada	2,71%	39%	41,71%
6	Lycos France	2,92%	39%	41,92%
7	Google français	3,33%	41%	44,33%
8	Voila	6,25%	39%	45,25%
9	Northern Light	0,63%	45%	45,63%
10	AllTheWeb	7,08%	39%	46,08%
11	AltaVista Canada	9,38%	37%	46,38%
12	Lycos US	2,50%	44%	46,50%
13	MSN	1,88%	45%	46,88%
14	AltaVista USA	9,38%	39%	48,38%
15	Excite Canada/USA*	4,38%	46%	50,38%
16	Excite France*	7,71%	44%	51,71%

480 = 100
CS = champ sémantique

Pour la majorité des internautes, le bruit est tout ce qui n'est pas pertinent à leur requête. Cette non-pertinence inclut les pages qui ont leur termes de recherche sans information supplémentaires. Le tableau ci-contre représente le pourcentage de bruit et celui des champs sémantiques (voir la page précédente). Ce tableau n'inclut ni les pages d'erreurs ni les doublons qui sont traités plus loin. En les incluant, le bruit représente environ les deux tiers des références.

*Les sites Excite Canada et Excite France ont disparu en décembre 2001. Excite USA a retiré son formulaire avancé.

***

page

Classement des formulaires

Conclusion

Page

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: marcduval@dsi-info.ca

Adresse de cette page : Marc Duval. (Page créée le 19 octobre 2001). « Classement des sites de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-requetes8f.html

Cette page a été éditée le 22 octobre 2001

Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ; recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ; Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil