SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI
par Marc Duval, bibliothécaire

Classement
des automates de recherche.

Le classement selon les requêtes

Partie 8 : Les codes d'erreurs



 Introduction

Les répertoires

 Les noms de domaines

Classement des sites de recherche
 La nature du web

Les automates

Les bases de données

 Actualités
 Le mot-clé

 Le langage de recherche
 Formulaire de recherche web
 Les brèves
 Le web universitaire
 Partie 1
 Les départements
 Le web universitaire
 Partie 2
 Les bibliothèques
 Le palmarès des villes :
 un exemple de recherche
 Accueil



 

  • Introduction
  • Le protocole de recherche
  • Les critères de classement
  • Le classement des automates de recherche

  • Dans cette étude, les codes d’erreur ont été pris en compte.  Le code le plus courant est celui de la page introuvable, le célèbre code 404.  Ce message survient lorsque la page a été déplacée ou retirée d’un serveur après le passage d’un robot.   Ce code est un indice du rafraîchissement de la banque de données de l’automate de recherche.
    Tableau selon l'inaccessibilité à la page
    ou  de l'absence des termes de recherche
    Rang Automates Global Rang Automates 404
    1 AltaVista Canada  3,33% 1 Excite France * 1,67%
    2 AltaVista USA  3,33% 2 AltaVista Canada  1,88%
    3 HotBot France  3,54% 3 AltaVista Belgique  2,50%
    4 MSN  3,75% 4 Excite Canada/USA 2,50%
    5 Excite France * 3,75% 5 AltaVista USA  2,50%
    6 Excite Canada/USA 3,96% 6 HotBot France  2,92%
    7 NorthernLight  5,00% 7 NorthernLight  3,54%
    8 Lycos US  5,21% 8 MSN  3,54%
    9 Google français 5,42% 9 Lycos Canada  3,75%
    10 Lycos Canada  5,42% 10 Google français  3,75%
    11 AllTheWeb 6,04% 11 Lycos US  3,75%
    12 Lycos France  6,67% 12 AllTheWeb  4,17%
    13 HotBot  6,88% 13 Lycos France  4,58%
    14 AltaVista Belgique  7,08% 14 HotBot  6,04%
    15 Voila  8,75% 15 Voila  7,08%
    16 AltaVista France  14,38% 16 AltaVista France 12,50%
    480=100
    Au cours des tests, quelques pages étaient inaccessibles et d’autres avaient une redirection vers une page non pertinente; ceci pouvant être assimilé à une technique de spam.  Quoiqu’il en soit, ces deux phénomènes ont été liés aux codes d’erreurs parce que le résultat donnait aucun document ou un document ne possédant aucuns termes de recherche.
    Le tableau ci-contre montre que le pourcentage médian de pages au code 404 est de 3,5%.
    La différence entre le pourcentage global et le code d''erreur 404 représente l'inaccessiblité à la page ou une redirection vers une page non-pertinente.  Celle entre les automates dans la comparaison du code 404 ne semble pas significative, à l'exception d'AltaVista France qui reçoit le pourcentage le plus élevé.  Il est cependant surprenant qu'AltaVista USA ait un pourcentage de 2,5% compte tenu que la société n'avait pas renouvelé sa banque de données depuis le printemps 2001.  Seul AltaVista témoigne de l'arrêt de la mise à jour.  Voila, qui prétend avoir une mise à jour entre 7 et 14 jours, est décevant.
    Parmi les familles d'automates, celles de Fast Search (Lycos et AllTheWeb) et d'Excite offrent le moins d'écart, contrairement à celles d'Inktomi et d'AltaVista.
    Voici un tableau des mises à jour.
    Tableau des mises à jour des banques de données
    Automates de recherche Fréquence de mises à jour
    AltaVista
    28 à 42 jours / 7 jours (express)
    Excite
    14 jours
    Fast Search (AllTheWeb ; Lycos)
    9 à 12 jours / 14 jours / Continue*
    Google
    28 jours / 24 hres -Actualités**
    Inktomi (HotBot ; MSN)
    30 jours
    Northern Light
    42 jours / 24 hres - Actualités***
    Voila
    7 à 14 jours
    Notes:
    Les périodes de mises à jour sont variables compte tenu de la croissance du nombre de documents sur le web.
    *AllTheWeb a une mise à jour continue pour les actualités.
    **Google a une mise à jour de 24 heures pour des sites sélectionnées notamment des sites d'actualités autant en anglais qu'en français.
    ***Northern Light a une mise à jour de 24 heures pour des sites sélectionnés. Disponible seulement en anglais.


    *Les sites Excite Canada et Excite France ont disparu en décembre 2001.  Excite USA a retiré son formulaire avancé.
     
    ***
    page
    8a
    8b
    8c
    8d
    8e
    8f
    8g
    8h
    8i
    8j
    8k
    8l

    Classement des formulaires Conclusion
     
    Page
    1
    2
    3
    4
    5
    6
    7
    8
    Haut de la page

    Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel:marcduval@dsi-info.ca
    Adresse de cette page : Marc Duval. (Page créée le 5 novembre 2001).  « Classement des sites de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-requetes8h.html
    Cette page a été éditée le 7 novembre 2001
    ©2001. Marc Duval.
    Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ;  recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ;  Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil