|
|
La pertinence indirecte
La pertinence indirecte
met à contribution les hyperliens par ce qui est appelé «
l'analyse des liens» ou l'indice de notoriété.
L'indice de notoriété n'est pas à confondre avec l'indice
de popularité. Le premier implique la présence d'un
lien en référence dans une page ; le second est la compilation
des liens cliqués par des internautes dans un résultat de
recherche d'un automate ou dans un répertoire. Google a été
le premier à mettre à profit l'analyse des liens pour la
recherche. Maintenant, la plupart des sociétés de recherche
l'ont incluse dans leur logiciel.
Les «logiciels
robots» des automates parcourent les serveurs mais ils n'enregistrent
pas tout. Par exemple, Inktomi sur le site de MSN fait la recherche
jusqu'à 5 répertoires ou niveaux de l'URL.
Voici
un exemple des niveaux d'une adresse URL
| /-----1er
niveau------/ |
/2e
niveau/
|
/3e
niveau/
|
/4e
niveau/
|
/5e
niveau/
|
|
http://www.dsi-info.ca/
|
actualites/
|
breves/
|
google/
|
pertinence/
|
Un site comme Radio-Canada
qui a 80 000 pages(1) ne sera pas indexé totalement par un
automate de recherche à moins d'avoir un contrat d'indexation,...
et une adresse comme celle-ci encore moins sauf si elle est indexée
manuellement :
| http://www.radio-canada.ca/nouvelles/Politique/nouvelles/200110/01/001-ottawa-comite-rb.asp. |
Cependant, les pages
qui sont indexées pourraient être une porte d'entrée
pour atteindre le document pertinent. Le cas s'est présenté
avec la question concernant le classement du pilote de Formule 1 Jacques
Villeneuve. Plusieurs pages mentionnaient les termes de recherche
sans que la page donne le classement. La réponse se trouvait
en cliquant sur l'hyperlien « classement ».
La leçon
que peut nous donner l'analyse des liens n'est pas de mettre simplement
une liste d'adresses. Il faut qu'il y ait une corrélation entre l'adresse
de votre page jugée notoire et le nombre de pages qui s'y réfère,
même si votre page n'a aucun lien. Pour éviter qu'il
y ait pollution de pages provenant d'un même site, il faut que l'automate
puisse juguler le référencement mutuel entre ces pages qui
ont les mêmes méta-données. En travaillant sur
le texte, Google réussit à la contourner.
Pertinence
indirecte
| Rang |
Automates |
% |
| 1 |
MSN |
21 |
| 2 |
Google
français |
19 |
| 3 |
AltaVista
USA |
14 |
| 4 |
Excite
Canada/USA |
14 |
| 5 |
HotBot
USA |
14 |
| 6 |
AltaVista
France |
13 |
| 7 |
NorthernLight |
13 |
| 8 |
AltaVista
Canada |
12 |
| 9 |
Excite
France |
11 |
| 10 |
Voila |
11 |
| 11 |
Lycos
US |
10 |
| 12 |
HotBot
France |
10 |
| 13 |
AllTheWeb |
9 |
| 14 |
Lycos
Canada |
8 |
| 15 |
Lycos
France |
7 |
| 16 |
AltaVista
Belgique |
3 |
480=100 |
L’étude
du « 19 clics », «Diameter of the World Wide Web»,
de MM. A. Albert, H. Jeong et A.-L. Barabási (2), a souligné
l'importance des hyperliens. L'application à la recherche sur le
web de cette méthode apporte une autre dimension.
Le tableau
ci-contre montre bien que Google et Inktomi (par l'intermédiaire
de MSN) exploitent bien cette composante.
Au total,
Google reprend le peloton tête. Mais, la démarcation
entre Google, AltaVista France et MSN n'est pas suffisamment grande pour
les départager.
Toutefois,
Fast Search aurait intérêt à améliorer ou à
ajouter l'analyse des liens. Ceci pourrait lui apporter le premier rang.
|
Pertinence
totale
| Rang |
Automates |
% |
| 1 |
Google
français |
38 |
| 2 |
AltaVista
France |
35 |
| 3 |
MSN |
34 |
| 4 |
Lycos
US |
32 |
| 5 |
Excite
Canada/USA |
32 |
| 6 |
AllTheWeb |
31 |
| 7 |
Lycos
Canada |
31 |
| 8 |
Excite
France |
27 |
| 9 |
Lycos
France |
27 |
| 10 |
HotBot
USA |
26 |
| 11 |
NorthernLight |
23 |
| 12 |
Voila |
23 |
| 13 |
AltaVista
Canada |
18 |
| 14 |
AltaVista
USA |
17 |
| 15 |
HotBot
France |
17 |
| 16 |
AltaVista
Belgique |
11 |
480=100 |
La pertinence
indirecte montre aussi un faille dans la collecte des pages web par les
robots. Plusieurs sites comme celui de Google demandent au
référenceur de ne rentrer que la page d'accueil.
Veuillez noter que seul le domaine de premier niveau
est nécessaire ; vous n'avez pas besoin de soumettre chaque page
individuelle. Notre explorateur, Googlebot, sera à même de
trouver le reste, dixit Google.
Or la
plupart des hyperliens nous amènent à la page pertinente
en moins de deux clics. Nous pourrions penser que les webmestres
placent un fichier «robots.txt» pour interdire l'accès
à ces pages. Mais il y en a trop pour que cette hypothèse
soit retenue.
Nous pourrions
penser aussi que la politique d'indexation des sociétés de
recherche soit d'arrêter l'indexation après le cinquième
niveau des répertoires. Mais ce n'est pas le cas, ces pages
se trouvent en deçà du cinquième niveau.
Une autre
hypothèse serait que les robots parcourent le web trop rapidement
pour « aspirer » efficacement toutes les pages
publiques.
Est-ce
que la croissance du nombre des pages web serait trop rapide pour les robots
faisant qu'ils souffrent de boulimie ? Est-ce que les robots ont
pour mission d'apporter un quota de pages? Il y a certainement une raison
pour expliquer cette faible performance.
|
*Les
sites Excite Canada et Excite France ont disparu en décembre 2001.
Excite USA a retiré son formulaire avancé.
1.Radio-Canada
(Page consultée le 2 octobre 2001). Recherche [En ligne].
http://www.radio-canada.ca/util/recherche.asp
2.
A. Albert, H. Jeong, and A.-L. Barabási, (Page consultée
le 2 octobre 2001). «Diameter of the World Wide Web» [En ligne]
in Nature, vol. 401, p. 130-131, 1999. http://www.nd.edu/~networks/Papers/401130A0.pdf
|
|