SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI
par Marc Duval, bibliothécaire

Classement
des automates de recherche.

Le classement selon les requêtes

Partie 6 : Le bruit



 Introduction

Les répertoires

 Les noms de domaines

Classement des sites de recherche
 La nature du web

Les automates

Les bases de données

 Actualités
 Le mot-clé

 Le langage de recherche
 Formulaire de recherche web
 Les brèves
 Le web universitaire
 Partie 1
 Les départements
 Le web universitaire
 Partie 2
 Les bibliothèques
 Le palmarès des villes :
 un exemple de recherche
 Accueil



 

  • Introduction
  • Le protocole de recherche
  • Les critères de classement
  • Le classement des automates de recherche

  • Le bruit

    Dans une recherche textuelle, le principal bruit relève de la polysémie et de la capacité des logiciels de recherche à discriminer les noms communs des noms propres, les lettres accentuées et non accentués, et à évaluer la distance entre les mots de la requête.  C’est pourquoi des sujets de recherche ont été introduits pour tester la capacité des automates de recherche à contourner ces pièges.
    Un autre type de bruit indépendant des tests s'est révélée : la spamindexation.

    Les épreuves

    Bien que le bruit représente un faible pourcentage des références, tous les automates sont tombés dans le piège.  AltaVista a confondu le mot anglais « spool » du nom propre Jared Spool, Google entre autres n’a pas distingué le surnom « Lasagne » du nom commun.  Fast Search - AllTheWeb, Lycos Canada et France - et Voila n’ont pas su relever le défi de façon non équivoque pour quelques références en confondant ferme - nom commun, ferme - verbe,  et fermé - adjectif ou participe passé.
    Les automates de recherche font aussi de la recherche d’images, à l’exception de Northern Light qui  n’a pas cette recherche.  Le test a porté sur deux questions : une question enfantine - je cherche des images du lapin Bunny - Buggs ou Bugs de son prénom ; une question sur le plan d'une ville : je cherche la carte de la ville de Québec.  La plupart d’entre eux sont tombés dans le panneau. Seuls Excite et Sympatico-Lycos ont passé le test grâce à leur fonction de suggestions : Excite avec son « Zoom In » et Sympatico-Lycos avec son association avec Direct Hit.  Au moment de l’évaluation, AltaVista France avait cette fonction qui a été remplacée par des rubriques de son « guide » lors d’une vérification de routine.  AllTheWeb a été le grand perdant en affichant aucun lapin et AltaVista avec seulement 3.  Tous les autres ont affichés des lapins mais aucun Buggs Bunny.
    La recherche sur le plan de la ville de Québec - la requête était « carte de la ville de Québec » - a confondu plusieurs automates.  Pour certaines pages, « carte » représentait des « cartes de souhaits », « ville de Québec » une apposition et « Québec », autant la ville que la province. 

     
    Une autre épreuve a été menée avec une expression composée d’un nom et d’un chiffre avec la recherche sur le film québécois Louis 19.   Seule la famille de Fast Search a passé l’épreuve en ayant indexé le site Films Stock International au moment de l’interrogation.  Tous les autres ont échoué à divers degrés.
    Trois raisons expliquent cet échec.
    La première est le retard à indexer la page pertinente qui est apparue, par exemple, dans la base de données de Google après une vérification de routine.
    La deuxième est l’absence de la recherche par  « expression exacte » dans le formulaire pour quelques automates comme Northern Light.
    La troisième raison est que plusieurs automates de recherche ne tiennent pas compte du formatage d’une page.  Leur lecture se fait non par la page visible mais à partir de la source de la page.  Ils ignorent les espaces comme ceux des tabulations, la ponctuation comme la virgule et les tableaux bien que l’opérateur de proximité ait été activé avec la recherche de « l’expression exacte ».  C'est pour cette raison que des pages de forum apparaissent associant le prénom Louis avec l'heure de l'intervention (Louis   19:15:27) ; le pointage d'un sport dans un tableau -
    Paroisse Saint-Louis 19
    ou la ponctuation - Louis, 19 ans.

    La spamindexation

    La spamindexation est une pratique de référencement qui sert à tromper les automates de recherche afin de mieux positionner la page dans un résultat de recherche, croit-on.  En fait, elle exploite une faille des automates qui utilisent les métadonnées : les champs libres.  Les champs d’indexation sont conçus soit pour accepter un nombre illimité de mots - ils sont dits « libres », soit un nombre limité de mots - ils sont dits « fixes ».  Or, les programmeurs des logiciels d’indexation des automates de recherche ont choisi les champs libres ; ce qui a ouvert la porte à l’abus.
    Trois sortes de spamindexation ont été identifiées durant la compilation des références.
    Le premier cas de spamindexation consiste à mettre sur la page d’accueil dans le champ des méta-identificateurs (keywords ) une série de termes qui ne représentent pas cette page mais le site, pis encore ne représentent pas le site même.  Par exemple, écrire ISO 9000 pour signifier que l’entreprise à cette certification, alors que cette norme n’est pas le sujet ni de la page, ni du site.  En tant que lecteur, nous sommes en droit d’avoir une page qui corresponde à notre demande sans avoir à chercher dans le site la page dans laquelle se trouve le sujet de notre recherche.
    Le deuxième cas de spamindexation consiste à utiliser le méta-titre comme un second champ « description ».
    La troisième cas de spamindexation rencontrée est encore plus pernicieuse : elle consiste à utiliser la même couleur pour une série de mots impropres au site que celle du fond de la page.
    A notre avis, les concepteurs des automates ont fait fausse route en ne limitant pas les champs.  Ils devraient indexer un champ fixe de 100 caractères par exemple.  De la même façon, ils devraient assigner un nombre de caractères pour les méta-identificateurs et pour la méta-description.
    Malheureusement, les référenceurs qui utilisent de telles méthodes le font à leur dépens lorsque leurs pages se transforment en de détestable bruit au lieu de se retrouver en bonne position parmi ses pairs.  Ils ne trompent pas seulement les automates, ils trompent aussi les internautes quand cette page contient les termes de la requête invisibles à l’internaute et non pertinents à la recherche.  Pour une entreprise, cette pratique donne une bien mauvaise carte de visite à un client potentiel.


    Taux de bruit par automate
    Rang Automates %
    1 AltaVista Belgique 0,42%
    2 Northern Light 0,63%
    3 HotBot 1,04%
    4 MSN 1,88%
    5 Lycos US 2,50%
    6 Lycos Canada 2,71%
    7 Lycos France 2,92%
    8 Google français 3,33%
    9 Excite Canada/USA* 4,38%
    10 AltaVista France 4,38%
    11 Voila 6,25%
    12 HotBot France 6,88%
    13 AllTheWeb 7,08%
    14 Excite France* 7,71%
    15 AltaVista Canada 9,38%
    16 AltaVista USA 9,38%
    480=100
    Lycos-Canada = Sympatico-Lycos
    Le tableau ci-contre montre le pourcentage de pages représentant du bruit sur un total de 480 références pour chaque automates.  Dans le pire des cas, la représentation est de 9% et la médiane de 3%.
    La base de données d'AltaVista Belgique est une sous-base d'AltaVista et donc moins importante.  Le pourcentage de bruit pourrait augmenter.
    Northern Light n'a pas de recherche d'images, ce qui a diminué son niveau de bruit.
    Parmi les principaux automates, HotBot USA  et MSN d'Inktomi s'en tirent le mieux.  Il faut noter que la recherche d'images chez Inktomi est différentes.  Elle se fait non pas avec une représentation du sujet, mais en signalant qu'il y a des images dans une page web.
    Dans la famille Fast Search, seul AllTheWeb fait piètre figure en raison de l'absence de suggestions pour la recherche d'images.
    Excite France est parmi les derniers parce qu'il n'avait pas la fonction  « Zoom In ».  Cette fonction étant pour les anglophones, on comprendra qu'elle a failli pour la recherche en français.
    Enfin, Voila et HotBot France se révèlent décevants.

    Bruit, champ sémantique et tutti quanti

    Taux total de bruit
    Rang  Automates  Bruit %  CS %  Total 
    1 HotBot  1,04% 35% 36,04%
    2 AltaVista France  4,38% 32% 36,38%
    3 HotBot France  6,88% 32% 38,88%
    4 AltaVista Belgique  0,42% 41% 41,42%
    5 Lycos Canada  2,71% 39% 41,71%
    6 Lycos France  2,92% 39% 41,92%
    7 Google français 3,33% 41% 44,33%
    8 Voila  6,25% 39% 45,25%
    9 Northern Light  0,63% 45% 45,63%
    10 AllTheWeb  7,08% 39% 46,08%
    11 AltaVista Canada  9,38% 37% 46,38%
    12 Lycos US  2,50% 44% 46,50%
    13 MSN  1,88% 45% 46,88%
    14 AltaVista USA  9,38% 39% 48,38%
    15 Excite Canada/USA*  4,38% 46% 50,38%
    16 Excite France*  7,71% 44% 51,71%
    480 = 100
    CS = champ sémantique
    Pour la majorité des internautes, le bruit est tout ce qui n'est pas pertinent à leur requête.  Cette non-pertinence inclut  les pages qui ont leur termes de recherche sans information supplémentaires.  Le tableau ci-contre représente le pourcentage de bruit et celui des champs sémantiques (voir la page précédente).  Ce tableau n'inclut ni les pages d'erreurs ni les doublons qui sont traités plus loin.  En les incluant, le bruit représente environ les deux tiers des références.
    *Les sites Excite Canada et Excite France ont disparu en décembre 2001.  Excite USA a retiré son formulaire avancé.
    ***
    page
    8a
    8b
    8c
    8d
    8e
    8f
    8g
    8h
    8i
    8j
    8k
    8l

    Classement des formulaires Conclusion
     
    Page
    1
    2
    3
    4
    5
    6
    7
    8

     

    Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: marcduval@dsi-info.ca
    Adresse de cette page : Marc Duval. (Page créée le  19 octobre 2001).  « Classement des sites de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-requetes8f.html
    Cette page a été éditée le 22 octobre 2001
    ©2001. Marc Duval.
    Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ;  recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ;  Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil