SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI
par Marc Duval, bibliothécaire

Classement
des automates de recherche

Le classement selon les requêtes

Partie 4. La pertinence indirecte


Mise à jour du 2001-10-17


 Introduction

Les répertoires

 Les noms de domaines

Classement des sites de recherche
 La nature du web

Les automates

Les bases de données

 Actualités
 Le mot-clé

 Le langage de recherche
 Formulaire de recherche web
 Les brèves
 Le web universitaire
 Partie 1
 Les départements
 Le web universitaire
 Partie 2
 Les bibliothèques
 Le palmarès des villes :
 un exemple de recherche
 Accueil



  • Introduction
  • Le protocole de recherche
  • Les critères de classement
  • Le classement des automates de recherche

  • La pertinence indirecte

    La pertinence indirecte met à contribution les hyperliens par ce qui est appelé « l'analyse des liens» ou l'indice de notoriété.  L'indice de notoriété n'est pas à confondre avec l'indice de popularité.  Le premier implique la présence d'un lien en référence dans une page ; le second est la compilation des liens cliqués par des internautes dans un résultat de recherche d'un automate ou dans un répertoire.  Google a été le premier à mettre à profit l'analyse des liens pour la recherche.  Maintenant, la plupart des sociétés de recherche l'ont incluse dans leur logiciel.
    Les «logiciels robots» des automates parcourent les serveurs mais ils n'enregistrent pas tout.  Par exemple, Inktomi sur le site de MSN fait la recherche jusqu'à 5 répertoires ou niveaux de l'URL.
    Voici un exemple des niveaux d'une adresse URL
    /-----1er niveau------/
    /2e niveau/
    /3e niveau/
    /4e niveau/
    /5e niveau/
    http://www.dsi-info.ca/
    actualites/
    breves/
    google/
    pertinence/
    Un site comme Radio-Canada qui a 80 000 pages(1) ne sera pas indexé totalement par un automate de recherche à moins d'avoir un contrat d'indexation,... et une adresse comme celle-ci encore moins sauf si elle est indexée manuellement :
    http://www.radio-canada.ca/nouvelles/Politique/nouvelles/200110/01/001-ottawa-comite-rb.asp.
    Cependant, les pages qui sont indexées pourraient être une porte d'entrée pour atteindre le document pertinent.  Le cas s'est présenté avec la question concernant le classement du pilote de Formule 1 Jacques Villeneuve.  Plusieurs pages mentionnaient les termes de recherche sans que la page donne le classement.  La réponse se trouvait en cliquant sur l'hyperlien « classement ».
    La leçon que peut nous donner l'analyse des liens n'est pas de mettre simplement une liste d'adresses.  Il faut qu'il y ait une corrélation entre l'adresse de votre page jugée notoire et le nombre de pages qui s'y réfère, même si votre page n'a aucun lien.  Pour éviter qu'il y ait pollution de pages provenant d'un même site, il faut que l'automate puisse juguler le référencement mutuel entre ces pages qui ont les mêmes méta-données.  En travaillant sur le texte, Google réussit à la contourner.
    Pertinence indirecte
    Rang Automates %
    1 MSN 21
    2 Google français 19
    3 AltaVista USA 14
    4 Excite Canada/USA 14
    5 HotBot USA 14
    6 AltaVista France 13
    7 NorthernLight 13
    8 AltaVista Canada 12
    9 Excite France 11
    10 Voila 11
    11 Lycos US 10
    12 HotBot France 10
    13 AllTheWeb 9
    14 Lycos Canada 8
    15 Lycos France 7
    16 AltaVista Belgique 3
    480=100
    L’étude du « 19 clics », «Diameter of the World Wide Web», de MM. A. Albert, H. Jeong et A.-L. Barabási (2), a souligné l'importance des hyperliens. L'application à la recherche sur le web de cette méthode apporte une autre dimension.
    Le tableau ci-contre montre bien que Google et Inktomi (par l'intermédiaire de MSN) exploitent bien cette composante.
    Au total, Google reprend le peloton tête.  Mais, la démarcation entre Google, AltaVista France et MSN n'est pas suffisamment grande pour les départager.
    Toutefois, Fast Search aurait intérêt à améliorer ou à ajouter l'analyse des liens. Ceci pourrait lui apporter le premier rang.
    Pertinence totale
    Rang Automates %
    1 Google français 38
    2 AltaVista France 35
    3 MSN 34
    4 Lycos US 32
    5 Excite Canada/USA 32
    6 AllTheWeb 31
    7 Lycos Canada 31
    8 Excite France 27
    9 Lycos France 27
    10 HotBot USA 26
    11 NorthernLight 23
    12 Voila 23
    13 AltaVista Canada 18
    14 AltaVista USA 17
    15 HotBot France 17
    16 AltaVista Belgique 11
    480=100
    La pertinence indirecte montre aussi un faille dans la collecte des pages web par les robots.  Plusieurs sites comme celui  de Google demandent au référenceur de ne rentrer que la page d'accueil.
    Veuillez noter que seul le domaine de premier niveau est nécessaire ; vous n'avez pas besoin de soumettre chaque page individuelle. Notre explorateur, Googlebot, sera à même de trouver le reste, dixit Google.
    Or la plupart des hyperliens nous amènent à la page pertinente en moins de deux clics.  Nous pourrions penser que les webmestres placent un fichier «robots.txt» pour interdire l'accès à ces pages.  Mais il y en a trop pour que cette hypothèse soit retenue.
    Nous pourrions penser aussi que la politique d'indexation des sociétés de recherche soit d'arrêter l'indexation après le cinquième niveau des répertoires.  Mais ce n'est pas le cas, ces pages se trouvent en deçà du cinquième niveau.
    Une autre hypothèse serait que les robots parcourent le web trop rapidement  pour « aspirer » efficacement toutes les pages publiques.
    Est-ce que la croissance du nombre des pages web serait trop rapide pour les robots faisant qu'ils souffrent de boulimie ?  Est-ce que les robots ont pour mission d'apporter un quota de pages? Il y a certainement une raison pour expliquer cette faible performance.
    *Les sites Excite Canada et Excite France ont disparu en décembre 2001.  Excite USA a retiré son formulaire avancé.

    1.Radio-Canada (Page consultée le 2 octobre 2001). Recherche [En ligne]. http://www.radio-canada.ca/util/recherche.asp
    2. A. Albert, H. Jeong, and A.-L. Barabási, (Page consultée le 2 octobre 2001). «Diameter of the World Wide Web» [En ligne] in Nature, vol. 401, p. 130-131, 1999. http://www.nd.edu/~networks/Papers/401130A0.pdf

     
    ***




    page
    8a
    8b
    8c
    8d
    8e
    8f
    8g
    8h
    8i
    8j
    8k
    8l




    Classement des formulaires Conclusion





     
    Page
    1
    2
    3
    4
    5
    6
    7
    8







    Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: marcduval@dsi-info.ca
    Adresse de cette page : Marc Duval. (Page créée le 2 octobre  2001).  « Classement des automates de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-requetes8d.html
    Cette page a été éditée le 2 octobre 2001
    ©2001. Marc Duval.

    Hit-Parade
    Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ;  recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ;  Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; moteurs de recherche ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil