SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI
par Marc Duval, bibliothécaire

Classement
des automates de recherche

Conclusion



 Introduction

Les répertoires

 Les noms de domaines

Classement des sites de recherche
 La nature du web

Les automates

Les bases de données

 Actualités
 Le mot-clé

 Le langage de recherche
 Formulaire de recherche web
 Les brèves
 Le web universitaire
 Partie 1
 Les départements
 Le web universitaire
 Partie 2
 Les bibliothèques
 Le palmarès des villes :
 un exemple de recherche
 Accueil



  • Introduction
  • Le protocole de recherche
  • Les critères de classement
  • Le classement des automates de recherche

  • Le classement ci-dessous représente l'addition des classements par formulaires et par requêtes sur un total de 100.  Ce classement reflète l’état des automates durant le 1er semestre de 2001.  Plusieurs d’entre eux ont été améliorés depuis: AltaVista a repris sa mise à jour après quelques mois, AllTheWeb a ajouté les services de nouvelles, Google les interfaces pour le Canada et la France, et HotBot France a stabilisé son formulaire.  D'autres ont disparu comme Excite Canada et Excite France, ou diminuer leur service comme Excite USA.
    La corrélation entre ces deux classements montre la supériorité des sites de MSN utilisant Inktomi.  Mais Inktomi tout comme AllTheWeb ont un problème d'image relié à  la représentation des résultats.  A  l'exemple des grandes banques de données commerciales comme Dialog et Dow Jones Interactive, ils devraient ajouter le format kwic (key word in context) déjà mis de l'avant par Google et Voila.  Pour que MSN obtienne la suprématie, il aurait besoin d'adopter plusieurs caractéristiques du formulaire de  HotBot, et HotBot une banque de données égale à celle de MSN, si ce n’est déjà fait.
    Classement des automates de recherche
    Rang
    Automates
    Formulaire
    Requêtes
    Total
    1
    HotBot USA
    34
    17
    51
    2
    MSN France
    21
    24
    45
    3
    MSN Canada
    21
    24
    45
    4
    MSN USA
    20
    24
    44
    5
    Google français
    17
    24
    41
    6
    HotBot France
    29
    11
    40
    7
    AllTheWeb
    19
    20
    39
    8
    Voila 
    23
    14
    37
    9
    Lycos USA
    12
    22
    34
    10
    Excite 
    16
    17
    33
    11
    Lycos Canada
    13
    19
    32
    12
    AltaVista France 
    17
    14
    31
    13
    Excite Canada
    14
    17
    31
    14
    AltaVista Belgique
    16
    14
    30
    15
    Lycos France
    14
    16
    30
    16
    Altavista USA
    17
    12
    29
    17
    Northern Light 
    12
    16
    28
    18
    Excite France 
    13
    15
    28
    19
    AltaVista Canada
    11
    14
    25
    Le formulaire n’est pas tout, il est une composante de l’automate de recherche.  Rappelons-nous que Google n’avait pas de formulaire avancé à sa sortie, tout comme Teoma.  Tout au long de l’année 2001, Google a modifié son formulaire et continuera de l’améliorer.  Pour l’instant son plus grand handicap est de ne pas permettre efficacement la recherche de notoriété - c’est-à-dire le nombre de pages pointant vers une page mais excluant celle-ci -  ni d’accepter la troncature.  Il peut rechercher les pages liées à un site, mais ce faisant il ramène aussi toutes les pages du site mis en référence.
    De même AltaVista a mis en évidence son formulaire « d’assistance de recherche » qui aurait besoin d’être plus flexible et d’accepter la recherche par langues.  En matière de capacité de recherche, AltaVista demeure le plus performant.  Mais il néglige de l’exploiter efficacement.  Une mise à jour au moins mensuelle et un formulaire à la hauteur de ses possibilités dans tous ses sites redonneraient une deuxième vie à cet automate.
    L’année 2001 a vu la confrontation de deux sociétés: Google et Fast Search.  AltaVista s’est remis péniblement de son aventure de portail avec une régression majeure en retirant la suggestion de termes de recherche de son site français et le dysfontionnement d'affichage d'images dans sa listes de réponses.  Northern Light et Voila n’ont eu aucune amélioration notable.  HotBot n’a pas réussi son entrée française avec un formulaire chancelant.
    L’année 2002 annonce une concurrence plus féroce parmi les grands sites.

    Trente constats et suggestions ressortent de cette étude:

     
    1. Le formulaire de recherche n’est valable que si sa banque de données contient suffisamment de documents dans un domaine précis en l’occurrence la langue.  HotBot en est l’exemple.  Malgré un formulaire modèle, sa banque de données de documents en français est pauvre.  Du côté du HotBot français, plusieurs de ces fonctions étaient inopérantes.  Pourtant, bien que HotBot et MSN exploitent la banque de données d’Inktomi,  MSN s’en sort mieux que HotBot.  Nous pouvons postuler qu’Inktomi ne délivre pas le même produit.
    2. La mise en page du formulaire influence directement le classement.  Les sites de la famille Fast Search en sont un exemple.
    3. Les automates de recherche ont une chance sur trois d'amener une page informative - ou pertinente - en utilisant les formulaires dits avancés.
    4. Les formulaires de recherche ont des fonctions par défaut inadaptées dont celle du nombre de références par page qui devrait être au moins de 20 au lieu de 10.
    5. Les automates de recherche gèrent mal les pages miroirs.
    6. L’analyse de pertinence indirecte montre que les automates n’exploitent pas suffisamment les hyperliens, notamment Google qui est réputé en ce domaine.
    7. Les automates de recherche ne sont pas adaptés à la recherche sémantique d’où la forte présence de bruit.
    8. Les concepteurs des automates de recherche ont choisi de ne pas tenir compte ni du formatage ni de la ponctuation d’une page.  En faisant ce choix, ils ont augmenté le bruit.  Ainsi, la recherche d’une expression peut résulter en deux mots séparés par un signe de ponctuation ou par des lignes d’un tableau.
    9. Les automates de recherche ne font pas de distinction entre des sites d’actualités et les pages fixes dans leur banque de données principale.
    10. Plusieurs automates n’indexent pas la page entière.
    11. Les automates n’indexent pas toutes les pages d’un site malgré leur prétention.
    12. Les automates de recherche sont efficaces seulement et seulement si les pages web leur sont adaptées.
    13. Les formulaires d’ajout de pages des automates de recherche ne sont pas conçus pour optimiser l’indexation des pages soumises.
    14. Les thèmes les plus représentés sont l’éducation, la médecine et l’informatique

     
    En ce qui concerne la rédaction des pages, il est suggéré
    1. De ne pas utiliser le domaine « .com » qui est une source de silence pour une recherche régionale et une source de bruit pour une recherche générale si votre site ne représente pas une entreprise.
    2. D’utiliser une adresse compréhensible et non obscure comme des abréviations, des mots soudés, des chiffres et autres signes cabalistiques qui sont une source de silence.
    3. De considérer une page comme un document en soi.
    4. De toujours mettre un lien vers la page d’accueil.
    5. De s’assurer que la page mise en ligne sera unique par son texte.
    6. D’utiliser les hyperliens dans les pages ayant des références.
    7. S’il y a des références, de les faire complètes de façon qu’elles soient faciles à consulter et le cas échéant, d’indiquer où ils sont disponibles.
    8. D’utiliser une structure classique comprenant introduction, noeud et conclusion pour un document complet.
    9. D’utiliser le même texte pour la méta-description et le résumé en début de page si votre document est informatif.
    10. D’utiliser les mots les plus utilisés sur le web et s’ils sont fautifs de l’indiquer et d’utiliser le mot correct - ceci pour le respect de sa langue.
    11. D’utiliser le mot le plus utilisé dans le méta-titre avec sa forme correcte s’il y a lieu.
    12. Ne pas oublier que tout texte mis sur le web est destiné à une diffusion internationale lorsqu’il est indexé par un automate de recherche mondial.
    13. D’inclure une zone de descripteurs (mots normalisés) dans tout document.
    14. De réserver l’animation et les cadres pour les répertoires, et le format HTML classique pour les automates de recherche.
    15. D’utiliser les services d’un indexeur professionnel (bibliothécaire ou documentaliste diplômé) pour le choix des descripteurs.

     
    Finalement , le plus grand constat est que les inventeurs du web ont été dépassés par les évènements.  Ceux qui ont suivi ont été des apprentis-sorciers qui n’ont pas encore réussi à maîtriser ce formidable médium.  La majorité des référenceurs ont réinventé la roue alors que des professionnels de l’indexation n’ont pas été utilisés à leur juste valeur.  Ces professionnels semblent encore être négligés par les sociétés de recherche qui se privent d’une ressource de premier ordre.  La méconnaissance du traitement de l’information a mené à un chaos que les automates de recherche essaient tant bien que mal de s’adapter.

     
    ***
    page
    8a
    8b
    8c
    8d
    8e
    8f
    8g
    8h
    8i
    8j
    8k
    8l

    Classement des requêtes
     
    Page
    1
    2
    3
    4
    5
    6
    7
    8

    Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: marcduval@dsi-info.ca
    Adresse de cette page : Marc Duval. (Page créée le 29 décembre 2001).  « Classement des sites de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-conclusion.html
    Cette page a été éditée le 2 janvier 2002
    ©2001. Marc Duval.
    Hit-Parade
    Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ;  recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ;  Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; moteurs de recherche ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil