DSI. Classement des moteurs de recherche. La pertinence indirecte

SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI

par Marc Duval, bibliothécaire

Classement
des automates de recherche

Le classement selon les requêtes

Partie 4. La pertinence indirecte

Mise à jour du 2001-10-17

Introduction	Les répertoires	Les noms de domaines	Classement des sites de recherche
La nature du web	Les automates	Les bases de données	Actualités
Le mot-clé	Le langage de recherche	Formulaire de recherche web	Les brèves
Le web universitaire Partie 1 Les départements	Le web universitaire Partie 2 Les bibliothèques	Le palmarès des villes : un exemple de recherche	Accueil

Introduction

Le protocole de recherche

Les critères de classement

Les formulaires

- La grille d'évaluation

Les requêtes

- La liste

- Les critères

- La grille d'évaluation

Le classement des automates de recherche

Par formulaires
Par résultats

-Le pointage

global

-La pertinence directe

-La pertinence indirecte

-La non- correspondance

-Le doublon

-La dysfonction

-Les thèmes

Conclusion

La pertinence indirecte

La pertinence indirecte met à contribution les hyperliens par ce qui est appelé « l'analyse des liens» ou l'indice de notoriété. L'indice de notoriété n'est pas à confondre avec l'indice de popularité. Le premier implique la présence d'un lien en référence dans une page ; le second est la compilation des liens cliqués par des internautes dans un résultat de recherche d'un automate ou dans un répertoire. Google a été le premier à mettre à profit l'analyse des liens pour la recherche. Maintenant, la plupart des sociétés de recherche l'ont incluse dans leur logiciel.

Les «logiciels robots» des automates parcourent les serveurs mais ils n'enregistrent pas tout. Par exemple, Inktomi sur le site de MSN fait la recherche jusqu'à 5 répertoires ou niveaux de l'URL.

Voici un exemple des niveaux d'une adresse URL
/-----1er niveau------/	/2e niveau/	/3e niveau/	/4e niveau/	/5e niveau/
http://www.dsi-info.ca/	actualites/	breves/	google/	pertinence/

Un site comme Radio-Canada qui a 80 000 pages(1) ne sera pas indexé totalement par un automate de recherche à moins d'avoir un contrat d'indexation,... et une adresse comme celle-ci encore moins sauf si elle est indexée manuellement :

http://www.radio-canada.ca/nouvelles/Politique/nouvelles/200110/01/001-ottawa-comite-rb.asp.

Cependant, les pages qui sont indexées pourraient être une porte d'entrée pour atteindre le document pertinent. Le cas s'est présenté avec la question concernant le classement du pilote de Formule 1 Jacques Villeneuve. Plusieurs pages mentionnaient les termes de recherche sans que la page donne le classement. La réponse se trouvait en cliquant sur l'hyperlien « classement ».

La leçon que peut nous donner l'analyse des liens n'est pas de mettre simplement une liste d'adresses. Il faut qu'il y ait une corrélation entre l'adresse de votre page jugée notoire et le nombre de pages qui s'y réfère, même si votre page n'a aucun lien. Pour éviter qu'il y ait pollution de pages provenant d'un même site, il faut que l'automate puisse juguler le référencement mutuel entre ces pages qui ont les mêmes méta-données. En travaillant sur le texte, Google réussit à la contourner.

**Pertinence indirecte**
Rang	Automates	%
1	MSN	21
2	Google français	19
3	AltaVista USA	14
4	Excite Canada/USA	14
5	HotBot USA	14
6	AltaVista France	13
7	NorthernLight	13
8	AltaVista Canada	12
9	Excite France	11
10	Voila	11
11	Lycos US	10
12	HotBot France	10
13	AllTheWeb	9
14	Lycos Canada	8
15	Lycos France	7
16	AltaVista Belgique	3

480=100

L’étude du « 19 clics », «Diameter of the World Wide Web», de MM. A. Albert, H. Jeong et A.-L. Barabási (2), a souligné l'importance des hyperliens. L'application à la recherche sur le web de cette méthode apporte une autre dimension.

Le tableau ci-contre montre bien que Google et Inktomi (par l'intermédiaire de MSN) exploitent bien cette composante.

Au total, Google reprend le peloton tête. Mais, la démarcation entre Google, AltaVista France et MSN n'est pas suffisamment grande pour les départager.

Toutefois, Fast Search aurait intérêt à améliorer ou à ajouter l'analyse des liens. Ceci pourrait lui apporter le premier rang.

**Pertinence totale**
Rang	Automates	%
1	Google français	38
2	AltaVista France	35
3	MSN	34
4	Lycos US	32
5	Excite Canada/USA	32
6	AllTheWeb	31
7	Lycos Canada	31
8	Excite France	27
9	Lycos France	27
10	HotBot USA	26
11	NorthernLight	23
12	Voila	23
13	AltaVista Canada	18
14	AltaVista USA	17
15	HotBot France	17
16	AltaVista Belgique	11

480=100

La pertinence indirecte montre aussi un faille dans la collecte des pages web par les robots. Plusieurs sites comme celui de Google demandent au référenceur de ne rentrer que la page d'accueil.

Veuillez noter que seul le domaine de premier niveau est nécessaire ; vous n'avez pas besoin de soumettre chaque page individuelle. Notre explorateur, Googlebot, sera à même de trouver le reste, dixit Google.

Or la plupart des hyperliens nous amènent à la page pertinente en moins de deux clics. Nous pourrions penser que les webmestres placent un fichier «robots.txt» pour interdire l'accès à ces pages. Mais il y en a trop pour que cette hypothèse soit retenue.

Nous pourrions penser aussi que la politique d'indexation des sociétés de recherche soit d'arrêter l'indexation après le cinquième niveau des répertoires. Mais ce n'est pas le cas, ces pages se trouvent en deçà du cinquième niveau.

Une autre hypothèse serait que les robots parcourent le web trop rapidement pour « aspirer » efficacement toutes les pages publiques.

Est-ce que la croissance du nombre des pages web serait trop rapide pour les robots faisant qu'ils souffrent de boulimie ? Est-ce que les robots ont pour mission d'apporter un quota de pages? Il y a certainement une raison pour expliquer cette faible performance.

*Les sites Excite Canada et Excite France ont disparu en décembre 2001. Excite USA a retiré son formulaire avancé.

1.Radio-Canada (Page consultée le 2 octobre 2001). Recherche [En ligne]. http://www.radio-canada.ca/util/recherche.asp

2. A. Albert, H. Jeong, and A.-L. Barabási, (Page consultée le 2 octobre 2001). «Diameter of the World Wide Web» [En ligne] in Nature, vol. 401, p. 130-131, 1999. http://www.nd.edu/~networks/Papers/401130A0.pdf

***

page

Classement des formulaires

Conclusion

Page

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: marcduval@dsi-info.ca

Adresse de cette page : Marc Duval. (Page créée le 2 octobre 2001). « Classement des automates de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-requetes8d.html

Cette page a été éditée le 2 octobre 2001

Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ; recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ; Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; moteurs de recherche ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil