SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI
par Marc Duval, bibliothécaire

Classement
des automates de recherche.

Le classement selon les requêtes

Partie 10 : Les doublons

2001-11-27


 Introduction

Les répertoires

 Les noms de domaines

Classement des sites de recherche
 La nature du web

Les automates

Les bases de données

 Actualités
 Le mot-clé

 Le langage de recherche
 Formulaire de recherche web
 Les brèves
 Le web universitaire
 Partie 1
 Les départements
 Le web universitaire
 Partie 2
 Les bibliothèques
 Le palmarès des villes :
 un exemple de recherche
 Accueil



  • Introduction
  • Le protocole de recherche
  • Les critères de classement
  • Le classement des automates de recherche

  • Introduction

    Un doublon est une page ayant le même contenu qu'une autre page avec un nom de domaine différent.  Sa présence est un indice de déficience dans sa gestion par l'automate de recherche.  Pour le moins, l'automate de recherche devrait avoir un programme de comparaison d'URL afin d'éliminer celles qui ont le même sous-répertoire et le même nom adjacent.
    Essentiellement, il y a  4 types de doublons : 1) le site miroir qui a pour but  d'augmenter la rapidité de téléchargement ; 2) le site miroir qui a pour but de multiplier la présence d'une entreprise dans les banques de données d'un site de recherche ; 3) la page qui est en migration vers un autre nom de domaine ; 4) le dysfonctionnement de l’automate de recherche.

    1) Rapidité de téléchargement

    Le doublon est une façon pratique d'augmenter la rapidité de téléchargement ou de contourner un arrêt de service d'une partie d'Internet.  Par exemple, le site Virtual Library a des sites miroirs en Grande-Bretagne, en Suisse et en Argentine.
    Les grands sites de recherche web utilisent aussi cette méthode en disposant des centres de données près de leur clientèle comme Inktomi qui alimente HotBot et MSN à partir de centres de données européen (en Grande-Bretagne nommé Eurocluster -110M Documents), asiatique -(Asia Pacific cluster 55M documents) et américains - Best of Web cluster (110M Documents  et GEN3™ 500 M documents). (1)

    2) Présence multiple

    Certains sites sont réticulaires et publient le même article sur chacun de ses sites affiliés.  Le cas extrême a été rencontré sur HotBot.  Un texte sur la greffe d'organe a été publié 11 fois sur des adresses différentes mais contenant les mêmes répertoires.  De ces 11 adresses différentes, 3 ont été retirées quelques semaines plus tard :
    http://www.optimaonline.ch/sante/conseils/psy/greffes.html
    http://www.bilan.ch/sante/conseils/psy/greffes.html
    http://www.basket.ch/sante/conseils/psy/greffes.html
    http://www.formule1.ch/sante/conseils/psy/greffes.html
    http://www.encheres.ch/sante/conseils/psy/greffes.html
    http://www.tvguide.ch/sante/conseils/psy/greffes.html
    http://www.foot.ch/sante/conseils/psy/greffes.html
    http://www.hockey.ch/sante/conseils/psy/greffes.html
    Il est évident que Inktomi n'a pas fait son travail pour éliminer les doublons de la banque de données de HotBot.
    Tableau selon la présence des doublons
    Rang  Automates 
    1 AltaVista Canada  0,00%
    2 AltaVista Belgique  0,63%
    3 Excite Canada/USA * 0,63%
    4 Northern Light  1,67%
    5 AltaVista USA  1,88%
    6 HotBot France  2,08%
    7 Excite France * 2,08%
    8 AltaVista France  2,29%
    9 Google français 2,92%
    10 Voila  3,75%
    11 Lycos Canada  3,96%
    12 MSN  4,17%
    15 HotBot USA 4,58%
    13 AllTheWeb  5,00%
    14 Lycos USA  5,63%
    16 Lycos France  7,29%
    480=100
    *Les sites Excite Canada et Excite France ont disparu en décembre 2001.  Excite USA a retiré son formulaire avancé.

    3) Migration

    La migration des pages est courante dans le cas des doublons.  En général, elle se rencontre lorsqu'un site personnel migre vers un site ayant son adresse plus officielle.
    Par exemple, au moment du test, l'Association française du syndrome de Rett changeait d'adresse.

     

     
     
     
     
     
     
     
     
     

    http://www.orpha.net/associations/AFSR/caract.htm
    http://ourworld.compuserve.com/homepages/AFSR/caract.htm
    (Pages consultées le 26 novembre 2001)

    Cependant, si ces doublons sont encore présents dans 1 an, cela signifiera que l'automate les gère mal au cours de sa mise à jour, du moins les pages qui ont une adresse semblable.
    D'autre part, certains auteurs de pages web laissent à dessein le contenu sans avertir du changement d'adresse.

    4) Le dysfonctionnement

    Les automates de recherche ne sont pas à l'abri du dysfonctionnement.  Lycos France en a été l'objet à deux occasions en doublant les 10 premières réponses.

    Le test

    La moyenne des doublons acceptable semble être de 2%.  Ce qui est négligeable. Le test a montré que seul AllTheWeb (Lycos compris) a eu de la difficulté à gérer les doublons bien qu'il prétend avoir la mise à jour de sa banque de données la plus rapide.  Ce qui est surprenant est la bonne place qu'occupe AltaVista ; certains observateurs des sites de recherche soutiennant que sa gestion des doublons est déficiente.

    Conclusion

    La présence de doublon est nécessaire dans les cas précis d'améliorer le téléchargement d'une page et de migration d'un site.  Cependant, elle devient du bruit sinon du spam lorsque la page est diffusée sur plusieurs sites et qu'un avis de changement d'adresse n'est pas affiché.  En général, ces pages doublées ont des adresses similaires.  Au risque de perdre des pages au contenu différent mais avec les mêmes quasi-adresses, les automates devraient être en mesure de comparer les adresses et d'éliminer celles qui ont la même terminaison.
    Heureusement, les doublons ne pullulent pas, même s'ils demeurent un phénomène aussi irritants que le spam.


    1. Inktomi Corp. (Page consultée le 27 novembre 2001). « Inktomi Web Search » [En ligne]. 
    http://www.inktomi.com/products/search/web.html (Retour)
    ***
    page
    8a
    8b
    8c
    8d
    8e
    8f
    8g
    8h
    8i
    8j
    8k
    8l

    Classement des formulaires Conclusion
     
    Page
    1
    2
    3
    4
    5
    6
    7
    8
    Haut de la page

    Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: marcduval@dsi-info.ca
    Adresse de cette page : Marc Duval. (Page créée le 26 novembre 2001).  « Classement des sites de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-requetes8j.html
    Cette page a été éditée le 27 novembre 2001
    ©2001. Marc Duval.
    Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ;  recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ;  Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil