DSI. Classement des automates ou moteurs de recherche. Conclusion

SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI

par Marc Duval, bibliothécaire

Classement
des automates de recherche

Conclusion

Introduction	Les répertoires	Les noms de domaines	Classement des sites de recherche
La nature du web	Les automates	Les bases de données	Actualités
Le mot-clé	Le langage de recherche	Formulaire de recherche web	Les brèves
Le web universitaire Partie 1 Les départements	Le web universitaire Partie 2 Les bibliothèques	Le palmarès des villes : un exemple de recherche	Accueil

Introduction

Le protocole de recherche

Les critères de classement

Les formulaires

- La grille d'évaluation

Les requêtes

- La liste

- Les critères

- La grille d'évaluation

Le classement des automates de recherche

Par formulaires
Par résultats

-Le pointage

global

-La pertinence directe

-La pertinence indirecte

-La non- correspondance

-Le doublon

-La dysfonction

-Les thèmes

Conclusion

Le classement ci-dessous représente l'addition des classements par formulaires et par requêtes sur un total de 100. Ce classement reflète l’état des automates durant le 1er semestre de 2001. Plusieurs d’entre eux ont été améliorés depuis: AltaVista a repris sa mise à jour après quelques mois, AllTheWeb a ajouté les services de nouvelles, Google les interfaces pour le Canada et la France, et HotBot France a stabilisé son formulaire. D'autres ont disparu comme Excite Canada et Excite France, ou diminuer leur service comme Excite USA.

La corrélation entre ces deux classements montre la supériorité des sites de MSN utilisant Inktomi. Mais Inktomi tout comme AllTheWeb ont un problème d'image relié à la représentation des résultats. A l'exemple des grandes banques de données commerciales comme Dialog et Dow Jones Interactive, ils devraient ajouter le format kwic (key word in context) déjà mis de l'avant par Google et Voila. Pour que MSN obtienne la suprématie, il aurait besoin d'adopter plusieurs caractéristiques du formulaire de HotBot, et HotBot une banque de données égale à celle de MSN, si ce n’est déjà fait.

**Classement des automates de recherche**
Rang	Automates	Formulaire	Requêtes	Total
1	HotBot USA	34	17	51
2	MSN France	21	24	45
3	MSN Canada	21	24	45
4	MSN USA	20	24	44
5	Google français	17	24	41
6	HotBot France	29	11	40
7	AllTheWeb	19	20	39
8	Voila	23	14	37
9	Lycos USA	12	22	34
10	Excite	16	17	33
11	Lycos Canada	13	19	32
12	AltaVista France	17	14	31
13	Excite Canada	14	17	31
14	AltaVista Belgique	16	14	30
15	Lycos France	14	16	30
16	Altavista USA	17	12	29
17	Northern Light	12	16	28
18	Excite France	13	15	28
19	AltaVista Canada	11	14	25

Le formulaire n’est pas tout, il est une composante de l’automate de recherche. Rappelons-nous que Google n’avait pas de formulaire avancé à sa sortie, tout comme Teoma. Tout au long de l’année 2001, Google a modifié son formulaire et continuera de l’améliorer. Pour l’instant son plus grand handicap est de ne pas permettre efficacement la recherche de notoriété - c’est-à-dire le nombre de pages pointant vers une page mais excluant celle-ci - ni d’accepter la troncature. Il peut rechercher les pages liées à un site, mais ce faisant il ramène aussi toutes les pages du site mis en référence.

De même AltaVista a mis en évidence son formulaire « d’assistance de recherche » qui aurait besoin d’être plus flexible et d’accepter la recherche par langues. En matière de capacité de recherche, AltaVista demeure le plus performant. Mais il néglige de l’exploiter efficacement. Une mise à jour au moins mensuelle et un formulaire à la hauteur de ses possibilités dans tous ses sites redonneraient une deuxième vie à cet automate.

L’année 2001 a vu la confrontation de deux sociétés: Google et Fast Search. AltaVista s’est remis péniblement de son aventure de portail avec une régression majeure en retirant la suggestion de termes de recherche de son site français et le dysfontionnement d'affichage d'images dans sa listes de réponses. Northern Light et Voila n’ont eu aucune amélioration notable. HotBot n’a pas réussi son entrée française avec un formulaire chancelant.

L’année 2002 annonce une concurrence plus féroce parmi les grands sites.

Trente constats et suggestions ressortent de cette étude:

1. Le formulaire de recherche n’est valable que si sa banque de données contient suffisamment de documents dans un domaine précis en l’occurrence la langue. HotBot en est l’exemple. Malgré un formulaire modèle, sa banque de données de documents en français est pauvre. Du côté du HotBot français, plusieurs de ces fonctions étaient inopérantes. Pourtant, bien que HotBot et MSN exploitent la banque de données d’Inktomi, MSN s’en sort mieux que HotBot. Nous pouvons postuler qu’Inktomi ne délivre pas le même produit.

2. La mise en page du formulaire influence directement le classement. Les sites de la famille Fast Search en sont un exemple.

3. Les automates de recherche ont une chance sur trois d'amener une page informative - ou pertinente - en utilisant les formulaires dits avancés.

4. Les formulaires de recherche ont des fonctions par défaut inadaptées dont celle du nombre de références par page qui devrait être au moins de 20 au lieu de 10.

5. Les automates de recherche gèrent mal les pages miroirs.

6. L’analyse de pertinence indirecte montre que les automates n’exploitent pas suffisamment les hyperliens, notamment Google qui est réputé en ce domaine.

7. Les automates de recherche ne sont pas adaptés à la recherche sémantique d’où la forte présence de bruit.

8. Les concepteurs des automates de recherche ont choisi de ne pas tenir compte ni du formatage ni de la ponctuation d’une page. En faisant ce choix, ils ont augmenté le bruit. Ainsi, la recherche d’une expression peut résulter en deux mots séparés par un signe de ponctuation ou par des lignes d’un tableau.

9. Les automates de recherche ne font pas de distinction entre des sites d’actualités et les pages fixes dans leur banque de données principale.

10. Plusieurs automates n’indexent pas la page entière.

11. Les automates n’indexent pas toutes les pages d’un site malgré leur prétention.

12. Les automates de recherche sont efficaces seulement et seulement si les pages web leur sont adaptées.

13. Les formulaires d’ajout de pages des automates de recherche ne sont pas conçus pour optimiser l’indexation des pages soumises.

14. Les thèmes les plus représentés sont l’éducation, la médecine et l’informatique

En ce qui concerne la rédaction des pages, il est suggéré

1. De ne pas utiliser le domaine « .com » qui est une source de silence pour une recherche régionale et une source de bruit pour une recherche générale si votre site ne représente pas une entreprise.

2. D’utiliser une adresse compréhensible et non obscure comme des abréviations, des mots soudés, des chiffres et autres signes cabalistiques qui sont une source de silence.

3. De considérer une page comme un document en soi.

4. De toujours mettre un lien vers la page d’accueil.

5. De s’assurer que la page mise en ligne sera unique par son texte.

6. D’utiliser les hyperliens dans les pages ayant des références.

7. S’il y a des références, de les faire complètes de façon qu’elles soient faciles à consulter et le cas échéant, d’indiquer où ils sont disponibles.

8. D’utiliser une structure classique comprenant introduction, noeud et conclusion pour un document complet.

9. D’utiliser le même texte pour la méta-description et le résumé en début de page si votre document est informatif.

10. D’utiliser les mots les plus utilisés sur le web et s’ils sont fautifs de l’indiquer et d’utiliser le mot correct - ceci pour le respect de sa langue.

11. D’utiliser le mot le plus utilisé dans le méta-titre avec sa forme correcte s’il y a lieu.

12. Ne pas oublier que tout texte mis sur le web est destiné à une diffusion internationale lorsqu’il est indexé par un automate de recherche mondial.

13. D’inclure une zone de descripteurs (mots normalisés) dans tout document.

14. De réserver l’animation et les cadres pour les répertoires, et le format HTML classique pour les automates de recherche.

15. D’utiliser les services d’un indexeur professionnel (bibliothécaire ou documentaliste diplômé) pour le choix des descripteurs.

Finalement , le plus grand constat est que les inventeurs du web ont été dépassés par les évènements. Ceux qui ont suivi ont été des apprentis-sorciers qui n’ont pas encore réussi à maîtriser ce formidable médium. La majorité des référenceurs ont réinventé la roue alors que des professionnels de l’indexation n’ont pas été utilisés à leur juste valeur. Ces professionnels semblent encore être négligés par les sociétés de recherche qui se privent d’une ressource de premier ordre. La méconnaissance du traitement de l’information a mené à un chaos que les automates de recherche essaient tant bien que mal de s’adapter.

***

page

Classement des requêtes

Page

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: marcduval@dsi-info.ca

Adresse de cette page : Marc Duval. (Page créée le 29 décembre 2001). « Classement des sites de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-conclusion.html

Cette page a été éditée le 2 janvier 2002

Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ; recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ; Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; moteurs de recherche ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil

Classement des automates de recherche

Conclusion

Classement
des automates de recherche