SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI
par Marc Duval, bibliothécaire

Classement
des automates de recherche.

Le classement selon les requêtes

Partie 3 - La pertinence directe

Mise à jour du 2001-10-17


 Introduction

Les répertoires

 Les noms de domaines

Classement des sites de recherche
 La nature du web

Les automates

Les bases de données

 Actualités
 Le mot-clé

 Le langage de recherche
 Formulaire de recherche web
 Les brèves
 Le web universitaire
 Partie 1
 Les départements
 Le web universitaire
 Partie 2
 Les bibliothèques
 Le palmarès des villes :
 un exemple de recherche
 Accueil



  • Introduction
  • Le protocole de recherche
  • Les critères de classement
  • Le classement des automates de recherche

  • La pertinence

    La pertinence est une notion floue.  Pour un automate de recherche, la pertinence relève de la statistique (combien de fois un mot de la requête apparaît dans le document - ce qui est l'occurence) et de sa place dans le document (dans le méta-titre, le titre et les sous-titres du document, dans l'URL, dans le titre des images, dans le corps du document (visible ou invisible - le « code source ») et dans la proximité des termes de recherche.  Selon le logiciel d'interrogation, la pondération entre tous ces éléments déterminera le classement d'une page indexée dans sa liste des résultats. Le moteur de sa recherche n'est pas la sémantique.  Toutefois, une tendance se dessine à ajouter des vérificateurs orthographiques comme Lexiquest chez AltaVista.
    Pour un internaute, la pertinence relève de sa connaissance du sujet.  De toute évidence, plus une question sera précise, plus la réponse sera juste.  Si je recherche le courriel du premier ministre du Québec, la page pertinente contiendra cette adresse.  Par contre, si je recherche un document sur les déserts de l'Australie, la page pertinente contiendra minimalement les noms des déserts si je ne connais ces noms.  Toutefois, cette page ne sera pas pertinente si je les connais.  Au fin de cette étude, une page pertinente sera celle qui contiendra minimalement une information expliquant ou définissant les termes de recherche.  Les pages qui contiendront les termes de recherche sans informations supplémentaires aidant à les comprendre seront non pertinentes, mais ils entreront dans l'analyse en tant que terme faisant partie du « champ sémantique ». 
    Classement selon la pertinence
    Rang
    Automates
    % Rang
    Automates
    %
    1 Lycos Canada 23 1 Lycos Canada 23
    2 AllTheWeb 22 2 AllTheWeb 22
    3 AltaVista France 22 3 AltaVista France 22
    4 Lycos US 22 4 Lycos US 22
    5 Lycos France 20 5 Lycos France 20
    6 AltaVista Canada 19 6 Google en français 19
    7 Google en français 19 7 Excite Canada/USA* 18
    8 Excite Canada* 18 8 Excite France* 16
    9 Excite USA* 18 9 MSN 13
    10 Excite France* 16 10 HotBot USA 12
    11 MSN 13 11 Voila 12
    12 HotBot USA 12 12 Northern Light 10
    13 Voila 12 13 AltaVista Belgique 8
    14 AltaVista USA 11 14 HotBot France 7
    15 Northern Light 10 15 AltaVista Canada 6
    16 AltaVista Belgique 8 16 AltaVista USA 3
    17 HotBot France 7
    18 AltaVista Canada 2 6
    19 AltaVista USA 2 3
    480=100
    Le tableau en italique montre le classement avant et après  les changements d'AltaVista Canada et USA.  Vous remarquerez que le formulaire « Search Assistant » d'AltaVista USA(#19) a été déclassé par celui de l'accueil (#14).  Aussi, AltaVista Canada a été rétrogradé de la position #6 (l'ancien) à la position #18 (le nouveau).
    Le second tableau représente les noms des automates qui seront utilisés tout au long de l'étude.  Excite Canada et Excite USA ont été unis parce que leurs réponse sont identiques.  Ainsi en est-il pour MSN qui représente autant MSN Canada, que France et USA.
    Le degré de pertinence d'un résultat de recherche dépend de la rédaction de la question.
     L'étude a porté sur les formulaires des automates de recherche et non sur leur langage.  Or les formulaires de recherche sont différents et ce classement tient compte de cette différence.
    Par exemple, le formulaire d'AltaVista USA est composé d'une case fixe et de trois choix de recherche : All the words ; 

    Any of the words ; Exact phrase ;
    Boolean.  A moins de connaître le langage booléen, ce formulaire ne permet pas l'agencement d'inclusion et d'exclusion de termes.  Par conséquent, AltaVista sera déclassé pour une question comprenant cette stratégie de recherche si je ne suis pas féru de recherche. D'autre part, AltaVista  donnait des conseils de recherche comme le font Lycos USA et Northern Light.  Ces messages étaient absents lors de l'interrogation et n'ont donc pas été pris en compte.  Cependant, ceux des autres automates ont été utilisés au moment opportun.
    Il en est ainsi pour les recherches par domaine.  Un automate peut permettre la recherche par domaine comme MSN, mais ne pas donner la liste des domaines. MSN aura plus de silence.
    Autre exemple, les automates qui ne reconnaissent pas les accents donneront plus de bruit et moins de pertinence comme Google et Voila qui ne font aucune différence entre une « ferme » - établissement agricole - et « fermé ».  Toutefois, ils feront une différence entre « fermé » et « ferme ».  Donc, pour avoir les fermes agricoles, il faudrait soustraire le mot « fermé ».  Mais si c'est deux mots se retrouvent dans une page, cette page sera absente de la liste.  Voilà un dilemme qui ne se résoud qu'en tolérant le bruit pour l'internaute.  C'est aussi un défi pour les spécialistes.
    La base de donnée ou la sous-base de donnée utilisée influence aussi la pertinence.  Le cas le plus flagrant est celui de l'ancien AltaVista Canada et le nouveau ; le premier comprenait des documents sur le Canada ou écrits par des Canadiens, le second ne comprend que les documents faisant partie de la zone « .ca ».
    Enfin, nous pouvons observer que Sympatico-Lycos Canada est en première position grâce à AllTheWeb en association avec Direct Hit.

    Classement selon la page

    Classement selon la page
    Classement Page 1 Classement Page 2
    Rang
    Automates
    % Rang
    Automates
    %
    1 Northern Light 82% 1 Google français 44%
    2 MSN 79% 2 Excite Canada/USA* 43%
    3 Lycos France 77% 3 Voila 42%
    4 AltaVista USA 76% 4 HotBot France 41%
    5 HotBot USA 75% 5 AltaVista Belge 35%
    6 Excite France* 75% 6 AltaVista Canada 35%
    7 Lycos Canada 71% 7 Lycos USA 34%
    8 AllTheWeb 69% 8 AltaVista France 33%
    9 AltaVista France 66% 9 AllTheWeb 32%
    10 Lycos USA 66% 10 Lycos Canada 29%
    11 AltaVista Canada 65% 11 HotBot USA 25%
    12 AltaVista Belge 65% 12 Excite France* 25%
    13 HotBot France 59% 13 AltaVista USA 24%
    14 Voila 58% 14 Lycos France 23%
    15 Excite Canada/USA* 57% 15 MSN 21%
    16 Google français 56% 16 Northern Light 18%
    Ce pourcentage a été établi selon le nombre de références pertinentes pour chaque automate.
    La plupart des études sur les « moteurs de recherche » ne considèrent que la première page des résultats.  J'ai voulu vérifier où étaient la majorité des documents pertinents.  Ce classement est intéressant.
    Nous pouvons remarquer que Northern Light et AltaVista USA, qui ont un mauvais pourcentage de pertinence global, arrivent parmi les premiers pour ce qui est de la première page.  Cela signifie qu'il est probable qu'ils arriveraient en tête du classement de pertinence globale si toutes les capacités de recherche étaient déployées.
    La différence entre les formulaires est patent avec Fast Search.  Lycos France a plus de documents pertinents en première page que AllTheWeb.
    Autre observation, si vous utilisez HotBot France, Voila, Excite Canada/USA ou Google Canada/France, vous aurez avantage à paramètrer le nombre de documents par page.  D'un autre côté, ces sociétés auraient peut-être intérêt à mettre 20 documents par défaut... comme le fait la version américaine de Google.
    Enfin, si vous utilisez un métachercheur comme Copernic, je vous recommande de faire ce même paramètrage à la lumière de ce tableau.



    Note:
    Excite USA n'a plus de formulaire, Excite Canada est fermé et Excite France a une redirection vers Overture. Veuillez tenir compte de leur classement à titre indicatif. ( retour )
    ***
    page
    8a
    8b
    8c
    8d
    8e
    8f
    8g
    8h
    8i
    8j
    8k
    8l

    Classement des formulaires Conclusion

     
     
    Page
    1
    2
    3
    4
    5
    6
    7
    8

    Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: marcduval@dsi-info.ca
    Adresse de cette page : Marc Duval. (Page créée le 25 septembre 2001).  « Classement des sites de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-requetes8c-html
    Cette page a été éditée le 25 septembre 2001
    ©2001. Marc Duval.
    Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ;  recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ;  Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; moteurs de recherche ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil