|
|
Le classement
ci-dessous représente l'addition des classements par formulaires
et par requêtes sur un total de 100. Ce classement reflète
l’état des automates durant le 1er semestre de 2001. Plusieurs
d’entre eux ont été améliorés depuis: AltaVista
a repris sa mise à jour après quelques mois, AllTheWeb a
ajouté les services de nouvelles, Google les interfaces pour le
Canada et la France, et HotBot France a stabilisé son formulaire.
D'autres ont disparu comme Excite Canada et Excite France, ou diminuer
leur service comme Excite USA.
La corrélation
entre ces deux classements montre la supériorité des sites
de MSN utilisant Inktomi. Mais Inktomi tout comme AllTheWeb ont un
problème d'image relié à la représentation
des résultats. A l'exemple des grandes banques de données
commerciales comme Dialog et Dow Jones Interactive, ils devraient ajouter
le format kwic (key word in context) déjà mis de l'avant
par Google et Voila. Pour que MSN obtienne la suprématie,
il aurait besoin d'adopter plusieurs caractéristiques du formulaire
de HotBot, et HotBot une banque de données égale à
celle de MSN, si ce n’est déjà fait.
Classement
des automates de recherche
|
Rang
|
Automates
|
Formulaire
|
Requêtes
|
Total
|
|
1
|
HotBot
USA |
34
|
17
|
51
|
|
2
|
MSN
France |
21
|
24
|
45
|
|
3
|
MSN
Canada |
21
|
24
|
45
|
|
4
|
MSN
USA |
20
|
24
|
44
|
|
5
|
Google
français |
17
|
24
|
41
|
|
6
|
HotBot
France |
29
|
11
|
40
|
|
7
|
AllTheWeb |
19
|
20
|
39
|
|
8
|
Voila |
23
|
14
|
37
|
|
9
|
Lycos
USA |
12
|
22
|
34
|
|
10
|
Excite |
16
|
17
|
33
|
|
11
|
Lycos
Canada |
13
|
19
|
32
|
|
12
|
AltaVista
France |
17
|
14
|
31
|
|
13
|
Excite
Canada |
14
|
17
|
31
|
|
14
|
AltaVista
Belgique |
16
|
14
|
30
|
|
15
|
Lycos
France |
14
|
16
|
30
|
|
16
|
Altavista
USA |
17
|
12
|
29
|
|
17
|
Northern
Light |
12
|
16
|
28
|
|
18
|
Excite
France |
13
|
15
|
28
|
|
19
|
AltaVista
Canada |
11
|
14
|
25
|
|
Le formulaire
n’est pas tout, il est une composante de l’automate de recherche.
Rappelons-nous que Google n’avait pas de formulaire avancé à
sa sortie, tout comme Teoma. Tout au long de l’année 2001,
Google a modifié son formulaire et continuera de l’améliorer.
Pour l’instant son plus grand handicap est de ne pas permettre efficacement
la recherche de notoriété - c’est-à-dire le nombre
de pages pointant vers une page mais excluant celle-ci - ni d’accepter
la troncature. Il peut rechercher les pages liées à
un site, mais ce faisant il ramène aussi toutes les pages du site
mis en référence.
De même
AltaVista a mis en évidence son formulaire « d’assistance
de recherche » qui aurait besoin d’être plus flexible et d’accepter
la recherche par langues. En matière de capacité de
recherche, AltaVista demeure le plus performant. Mais il néglige
de l’exploiter efficacement. Une mise à jour au moins mensuelle
et un formulaire à la hauteur de ses possibilités dans tous
ses sites redonneraient une deuxième vie à cet automate.
L’année
2001 a vu la confrontation de deux sociétés: Google et Fast
Search. AltaVista s’est remis péniblement de son aventure
de portail avec une régression majeure en retirant la suggestion
de termes de recherche de son site français et le dysfontionnement
d'affichage d'images dans sa listes de réponses. Northern
Light et Voila n’ont eu aucune amélioration notable. HotBot
n’a pas réussi son entrée française avec un formulaire
chancelant.
L’année
2002 annonce une concurrence plus féroce parmi les grands sites.
|
Trente
constats et suggestions ressortent de cette étude:
1. Le
formulaire de recherche n’est valable que si sa banque de données
contient suffisamment de documents dans un domaine précis en l’occurrence
la langue. HotBot en est l’exemple. Malgré un formulaire
modèle, sa banque de données de documents en français
est pauvre. Du côté du HotBot français, plusieurs
de ces fonctions étaient inopérantes. Pourtant, bien
que HotBot et MSN exploitent la banque de données d’Inktomi,
MSN s’en sort mieux que HotBot. Nous pouvons postuler qu’Inktomi
ne délivre pas le même produit.
2. La
mise en page du formulaire influence directement le classement. Les
sites de la famille Fast Search en sont un exemple.
3. Les
automates de recherche ont une chance sur trois d'amener une page informative
- ou pertinente - en utilisant les formulaires dits avancés.
4. Les
formulaires de recherche ont des fonctions par défaut inadaptées
dont celle du nombre de références par page qui devrait être
au moins de 20 au lieu de 10.
5. Les
automates de recherche gèrent mal les pages miroirs.
6. L’analyse
de pertinence indirecte montre que les automates n’exploitent pas suffisamment
les hyperliens, notamment Google qui est réputé en ce domaine.
7. Les
automates de recherche ne sont pas adaptés à la recherche
sémantique d’où la forte présence de bruit.
8. Les
concepteurs des automates de recherche ont choisi de ne pas tenir compte
ni du formatage ni de la ponctuation d’une page. En faisant ce choix,
ils ont augmenté le bruit. Ainsi, la recherche d’une expression
peut résulter en deux mots séparés par un signe de
ponctuation ou par des lignes d’un tableau.
9. Les
automates de recherche ne font pas de distinction entre des sites d’actualités
et les pages fixes dans leur banque de données principale.
10. Plusieurs
automates n’indexent pas la page entière.
11. Les
automates n’indexent pas toutes les pages d’un site malgré leur
prétention.
12. Les
automates de recherche sont efficaces seulement et seulement si les pages
web leur sont adaptées.
13. Les
formulaires d’ajout de pages des automates de recherche ne sont pas conçus
pour optimiser l’indexation des pages soumises.
14. Les
thèmes les plus représentés sont l’éducation,
la médecine et l’informatique
-
En ce
qui concerne la rédaction des pages, il est suggéré
1. De
ne pas utiliser le domaine « .com » qui est une source de silence
pour une recherche régionale et une source de bruit pour une recherche
générale si votre site ne représente pas une entreprise.
2. D’utiliser
une adresse compréhensible et non obscure comme des abréviations,
des mots soudés, des chiffres et autres signes cabalistiques qui
sont une source de silence.
3. De
considérer une page comme un document en soi.
4. De
toujours mettre un lien vers la page d’accueil.
5. De
s’assurer que la page mise en ligne sera unique par son texte.
6. D’utiliser
les hyperliens dans les pages ayant des références.
7. S’il
y a des références, de les faire complètes de façon
qu’elles soient faciles à consulter et le cas échéant,
d’indiquer où ils sont disponibles.
8. D’utiliser
une structure classique comprenant introduction, noeud et conclusion pour
un document complet.
9. D’utiliser
le même texte pour la méta-description et le résumé
en début de page si votre document est informatif.
10. D’utiliser
les mots les plus utilisés sur le web et s’ils sont fautifs de l’indiquer
et d’utiliser le mot correct - ceci pour le respect de sa langue.
11. D’utiliser
le mot le plus utilisé dans le méta-titre avec sa forme correcte
s’il y a lieu.
12. Ne
pas oublier que tout texte mis sur le web est destiné à une
diffusion internationale lorsqu’il est indexé par un automate de
recherche mondial.
13. D’inclure
une zone de descripteurs (mots normalisés) dans tout document.
14. De
réserver l’animation et les cadres pour les répertoires,
et le format HTML classique pour les automates de recherche.
15. D’utiliser
les services d’un indexeur professionnel (bibliothécaire ou documentaliste
diplômé) pour le choix des descripteurs.
Finalement
, le plus grand constat est que les inventeurs du web ont été
dépassés par les évènements. Ceux qui
ont suivi ont été des apprentis-sorciers qui n’ont pas encore
réussi à maîtriser ce formidable médium.
La majorité des référenceurs ont réinventé
la roue alors que des professionnels de l’indexation n’ont pas été
utilisés à leur juste valeur. Ces professionnels semblent
encore être négligés par les sociétés
de recherche qui se privent d’une ressource de premier ordre. La
méconnaissance du traitement de l’information a mené à
un chaos que les automates de recherche essaient tant bien que mal de s’adapter.
|
|
|