SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI
par Marc Duval, bibliothécaire

Classement
des automates de recherche.

Le classement selon les requêtes

Partie 7 : Le silence

 Mise à jour: 2002-09-11


 Introduction
Les répertoires
Les noms de domaines
Classement des sites de recherche
La nature du web
Les automates
Les bases de données
 Actualités
 Le mot-clé
 Le langage de recherche
 Formulaire de recherche web
 Les brèves
 Le web universitaire
 Partie 1
 Les départements
 Le web universitaire
 Partie 2
 Les bibliothèques
 Le palmarès des villes :
 un exemple de recherche
 Accueil



 

  • Introduction
  • Le protocole de recherche
  • Les critères de classement
  • Le classement des automates de recherche

  • Dans une banque de données, le silence est l’absence d’un document dans un résultat de recherche due à une erreur d’indexation, à une mauvaise stratégie de recherche ou à une méconnaissance de la banque de données.
    Dans la présente évaluation des automates de recherche, le silence est une référence pertinente qui se retrouve au-delà des 20 réponses de la liste.  Le silence correspond à -20 points, soit le nombre de point correspondant à une réponse  pertinente se trouvant parmi les 5 premières références. Il n’était pas pris en compte lorsque le document était absent.  La recherche du document pertinent a été faite après la compilation des notes.
    L’utilisation d’un lexique différent entre  l’émetteur (le rédacteur de la page web) et le récepteur (l’internaute) est une cause du silence.
    Sept questions ont été soumises à ce test.  Ces questions avaient reçu le plus de documents répondant au critère du « champ sémantique ».  Pour que ce test soit valable, une recherche approfondie a été menée pour trouver un document qui répondait le mieux à la question.
    Les questions utilisées pour ce test sont :
    Quels sont les déserts australiens et comment ont-ils été formés ?
    Qu’est-ce que la norme ISO 9000 ?
    Où puis-je trouver des images du lapin Bunny ?
    Où puis-je trouver un dossier sur le film Louis 19 ?
    Quel est le classement du pilote automobile Jacques Villeneuve ?
    Où puis-je trouver la liste des terrains de camping au Québec ?
    Quelles sont les fermes qui acceptent des vacanciers au Québec ?

     
    Après une analyse des réponses, trois facteurs sont ressortis : la rédaction de la page, les pages d’actualité et la structure de l’automate de recherche.

    La rédaction de la page

    Deux questions ont mis en lumière les techniques de rédaction de pages web: celles sur la norme ISO 9000 et les vacances à la ferme au Québec.
    Si nous regardons le site de l’Organisation internationale des normes (http://www.iso.ch), nous observons que toutes les pages ont le même titre pour les automates, celle de l’Organisation.  En regardant la page cache de Google, le serveur de l’ISO a retourné cette phrase : Accès refusé à la liste du répertoire.  En cliquant sur le lien, il y a l’appel de deux pages : la première contient le titre de l’ISO et la deuxième une autre page ayant un titre différent de celui de l’automate.  Cette structure du site de l’ISO interfère sur le fonctionnement des automates.  Au moment du test, tous les automates avaient échoué.  Quelques mois plus tard, seul Google le donnait.
    Les cadres et la rédaction sont une autre interférence dans le fonctionnement.  L’exemple provient du site de la Fédération des Agricotours du Québec (http://www.agricotours.qc.ca)  La première erreur de rédaction d’une page web provient des pages de ce site qui ont un cadre général n’ayant ni de méta-description ni de méta-identificateurs.  Idem pour les pages d’informations.  La seconde erreur est l’absence d’un des mots les plus importants : vacances.  Ce site ne peut être trouvé qu’avec une page de liens comme celle d’Infinit.com consacrée aux vacances et dans laquelle se trouve le site de la Fédération.
    Dans une certaine mesure, Google pallie cette erreur avec son système de GoogleScout en faisant apparaître des pages similaires grâce aux hyperliens. Mais ce système ne remplacera jamais une bonne connaissance rédactionnelle d’une page web.
    Une dernière erreur est celui du suffixe du domaine.  L'exemple vient du site Le camping au Québec.  L'adresse de ce site est http://www.campingquebec.com/. Vous remarquerez que ce site a le domaine de haut niveau « .com ».  Ce site n'est pas une entreprise mais un site qui regroupe trois organismes.  Si vous recherchez le site sur AltaVista Canada et Sympatico-Lycos au Canada ou sur Le web québécois, il y sera absent parce que la recherche se fait sur le domaine géographique « ca ».  Pour l'avoir, vous devez faire votre recherche sur le web mondial ou sur le web francophone.  Si vous consultez ce site, prenez soin de regarder attentivement le méta-titre affiché sur la liste de réponses de l'automate ou sur la barre de titre de votre fureteur. Ce champ a été utilisé à l'instar de celui de la description.  Ce détournement de la nature du champ « titre » constitue de la spamindexation.
    Bien que ce ne soit pas une erreur de rédaction proprement dite, le choix des mots de recherche en fonction du milieu à une influence certaine sur le résultat.  Par exemple, le test avait une question concernant l’adresse électronique du premier ministre du Québec.  Au Québec, le mot officiel pour nommer l’adresse électronique est « courriel ».  La requête peut être formulée ainsi : « “premier ministre” ET Québec ET courriel ».  En France, plusieurs mots se concurrencent : mél pour l’administration française, email et e-mail. La requête pourra être écrite ainsi « “premier ministre” ET France ET mél ».  Si « mél » est utilisé au Québec pour rechercher l’adresse électronique du premier ministre, il n’y aura aucune réponse pourtant la page est dans la base de données.  Réciproquement, si le mot «courriel» est utilisé en France, l’adresse du premier ministre français restera invisible.

    Les pages d’actualités

    Les pages d’actualités sont aussi une autre source de silence.  Mais ce silence est différent parce qu’il relève de la mise à jour des banques de données.
    Le classement du pilote de Formule 1 Jacques Villeneuve est un exemple.  Le test des automates de recherche a commencé au début du printemps soit en même temps que la saison des courses de Formule 1.  Les premiers automates testés ont donné des réponses indirectes.  Plus la saison des courses avançait, plus il y avait de réponses pertinentes pour les automates ayant fait leur mise à jour.  Suite à ce constat, la question a été répétée sur tous les automates de recherche afin de tenir compte de cette mise à jour des banques de données.  Selon un article paru dans ITWorld(1).  AltaVista n’avait pas eu de mise à jour entre les mois de juillet et novembre 2001.  Cela peut être une explication de la piètre performance d’AltaVista.
    Voici un tableau des mises à jour.
    Tableau des mises à jour des banques de données
    Automates de recherche Fréquence de mises à jour
    AltaVista
    28 à 42 jours / 7 jours (express)
    Excite
    14 jours
    Fast Search (AllTheWeb ; Lycos)
    9 à 12 jours / 14 jours / Continue*
    Google
    28 jours / 24 hres -Actualités**
    Inktomi (HotBot ; MSN)
    30 jours
    Northern Light
    42 jours / 24 hres - Actualités***
    Voila
    7 à 14 jours
    Notes:
    La fréquence des mises à jour est variable compte tenu de la croissance du nombre de documents sur le web. 
    *AllTheWeb a une mise à jour continue pour les actualités.
    **Google a une mise à jour de 24 heures pour des sites sélectionnées notamment des sites d'actualités autant en anglais qu'en français.
    ***Northern Light a une mise à jour de 24 heures pour des sites sélectionnés. Disponible seulement en anglais.

    La structure des banques de données web

    La mise à jour fait partie de la structure d’un automate de recherche.  Une autre structure est celle de l’indexation de la taille d’une page web.  Nous croyons que les automates de recherche indexent la page entière, bien à tort. Ainsi, Google indexe les documents jusqu’à 101k ; au-delà, l’information est perdue.  Cette particularité s’est révélée avec la recherche sur les déserts australiens.  Par exemple, le document «Principes de géographie humaine» (2) a une taille de 774k, pourtant, si vous recherchez ce document, Google affichera 101k.  Or, si vous recherchez le nom « Trollope » qui se trouve à la fin de ce document, avec cette requête : « déserts australiens trollope », cette page ne s’affichera pas.
    Voici un tableau de la taille maximale indexée par les automates de recherche.
     
    Automate
    Taille
    AllTheWeb
    774K
    AltaVista
    127K
    Excite.fr
    11K*
    Google
    101K
    MSN (Inktomi)
    774K*
    Northern Light
    774K*
    Voila
    774K
    *Excite, MSN et Northern Light n'inclut pas la taille du fichier dans la référence.  Elle a été évaluée à partir d'un mot spécifique se trouvant à la fin du texte indexé et introduit dans la requête.

    Conclusion

    Le choix des automates de recherche de limiter la taille de l’indexation d’une page influence directement le nombre de documents dans sa banque de données et incite les rédacteurs de pages web au fait de cette particularité à diviser un document... comme c’est le cas pour la présente étude.  On ne se sera plus surpris du silence provoqué par cette politique si le rédacteur d’un document n’y prête attention, ni de la vitesse d’exécution d’un Google par rapport à HotBot, ni du nombre de pages web dans leur banque de données.  Faire une comparaison de ces deux derniers paramètres n’a peu de significations.  Il ne serait pas inimaginable que leurs robots aient pour priorité de rechercher des fichiers d’une taille précise, par exemple d’au plus 101K pour Google, et d’accepter des fichiers plus imposants par référencement payant ou manuel.
    Il existe un moyen de réduire le silence : restreindre la recherche à un ou plusieurs champs de recherche.  La restriction peut se faire en recherchant par la langue, par le domaine de tête ou de zone géographique, par l'intervalle de dates, par le format, finalement par les champs « titre » et l'URL.  Si rien n'y fait, l'acharnement à trouver les termes de recherches convenables demeure le dernier recours.
    On ne s’étonnera plus maintenant si une page demeure hors de notre portée par un choix de mots que seul le rédacteur de la page connaît.
    On ne s'étonnera plus si l'utilisation du domaine de tête «.com » à saturation est devenu l'une des raisons de silence.  A cet égard, il est prévisible que le domaine de la zone géographique va prendre plus d'importance dans l'avenir.
     Enfin, on ne s’étonnera plus du silence si nous donnons aux automates un pouvoir d’ubiquité qu’ils n’ont pas... pour le moment.  Toutefois, Google s'efforce de faire reculer les frontières du web.



    1) Joris Evers. (Page consultée le 30 octobre 2001). « AltaVista serves up outdated search results » [En ligne] in ITworld.com, 22 octobre 2001. http://www.itworld.com/AppDev/1634/IDG011022altavista/pfindex.html ( Retour )
    2) P. Vidal de La Blache. (Page consultée le 30 octobre 2001) Principes de géographie humaine Num. BNF de l'éd. de Paris : INALF, 1961-. Reprod. de l'éd. de Paris : A. Colin, 1922.  http://gallica.bnf.fr/scripts/ConsultationTout.exe?O=89838&T=2  ( Retour )


    *Les sites Excite Canada et Excite France ont disparu en décembre 2001.  Excite USA a retiré son formulaire avancé.
    ***




    page
    8a
    8b
    8c
    8d
    8e
    8f
    8g
    8h
    8i
    8j
    8k
    8l




    Classement des formulaires Conclusion





     
    Page
    1
    2
    3
    4
    5
    6
    7
    8






    Haut de la page

    Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: marcduval@dsi-info.ca
    Adresse de cette page : Marc Duval. (Page créée le  30 octobre 2001).  « Classement des sites de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-requetes8g.html
    Cette page a été éditée le 1er novembre 2001
    ©2001. Marc Duval.

    Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ;  recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information  / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ;  Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil