|
La pertinence
La pertinence
est une notion floue. Pour un automate de recherche, la pertinence
relève de la statistique (combien de fois un mot de la requête
apparaît dans le document - ce qui est l'occurence) et de sa place
dans le document (dans le méta-titre, le titre et les sous-titres
du document, dans l'URL, dans le titre des images, dans le corps du document
(visible ou invisible - le « code source »)
et dans la proximité des termes de recherche. Selon le logiciel
d'interrogation, la pondération entre tous ces éléments
déterminera le classement d'une page indexée dans sa liste
des résultats. Le moteur de sa recherche n'est pas la sémantique.
Toutefois, une tendance se dessine à ajouter des vérificateurs
orthographiques comme Lexiquest chez AltaVista.
Pour un
internaute, la pertinence relève de sa connaissance du sujet.
De toute évidence, plus une question sera précise, plus la
réponse sera juste. Si je recherche le courriel du premier
ministre du Québec, la page pertinente contiendra cette adresse.
Par contre, si je recherche un document sur les déserts de l'Australie,
la page pertinente contiendra minimalement les noms des déserts
si je ne connais ces noms. Toutefois, cette page ne sera pas pertinente
si je les connais. Au fin de cette étude, une page pertinente
sera celle qui contiendra minimalement une information expliquant ou définissant
les termes de recherche. Les pages qui contiendront les termes de
recherche sans informations supplémentaires aidant à les
comprendre seront non pertinentes, mais ils entreront dans l'analyse en
tant que terme faisant partie du « champ sémantique ».
Classement
selon la pertinence
Rang |
Automates
|
% |
|
Rang |
Automates
|
% |
1 |
Lycos
Canada |
23 |
|
1 |
Lycos
Canada |
23 |
2 |
AllTheWeb |
22 |
|
2 |
AllTheWeb |
22 |
3 |
AltaVista
France |
22 |
|
3 |
AltaVista
France |
22 |
4 |
Lycos
US |
22 |
|
4 |
Lycos
US |
22 |
5 |
Lycos
France |
20 |
|
5 |
Lycos
France |
20 |
6 |
AltaVista
Canada |
19 |
|
6 |
Google
en français |
19 |
7 |
Google
en français |
19 |
|
7 |
Excite
Canada/USA* |
18 |
8 |
Excite
Canada* |
18 |
|
8 |
Excite
France* |
16 |
9 |
Excite
USA* |
18 |
|
9 |
MSN |
13 |
10 |
Excite
France* |
16 |
|
10 |
HotBot
USA |
12 |
11 |
MSN |
13 |
|
11 |
Voila |
12 |
12 |
HotBot
USA |
12 |
|
12 |
Northern
Light |
10 |
13 |
Voila |
12 |
|
13 |
AltaVista
Belgique |
8 |
14 |
AltaVista
USA |
11 |
|
14 |
HotBot
France |
7 |
15 |
Northern
Light |
10 |
|
15 |
AltaVista
Canada |
6 |
16 |
AltaVista
Belgique |
8 |
|
16 |
AltaVista
USA |
3 |
17 |
HotBot
France |
7 |
18 |
AltaVista
Canada 2 |
6 |
19 |
AltaVista
USA 2 |
3 |
480=100
Le tableau en italique montre
le classement avant et après les changements d'AltaVista Canada
et USA. Vous remarquerez que le formulaire « Search Assistant
» d'AltaVista USA(#19) a été déclassé
par celui de l'accueil (#14). Aussi, AltaVista Canada a été
rétrogradé de la position #6 (l'ancien) à la position
#18 (le nouveau).
Le second tableau représente
les noms des automates qui seront utilisés tout au long de l'étude.
Excite Canada et Excite USA ont été unis parce que leurs
réponse sont identiques. Ainsi en est-il pour MSN qui représente
autant MSN Canada, que France et USA. |
Le degré
de pertinence d'un résultat de recherche dépend de la rédaction
de la question.
L'étude
a porté sur les formulaires des automates de recherche et non sur
leur langage. Or les formulaires de recherche sont différents
et ce classement tient compte de cette différence.
Par exemple,
le formulaire d'AltaVista USA est composé d'une case fixe et de
trois choix de recherche : All the words ;
Any
of the words ; Exact phrase ;
Boolean.
A moins de connaître le langage booléen, ce formulaire ne
permet pas l'agencement d'inclusion et d'exclusion de termes. Par
conséquent, AltaVista sera déclassé pour une question
comprenant cette stratégie de recherche si je ne suis pas féru
de recherche. D'autre part, AltaVista donnait des conseils de recherche
comme le font Lycos USA et Northern Light. Ces messages étaient
absents lors de l'interrogation et n'ont donc pas été pris
en compte. Cependant, ceux des autres automates ont été
utilisés au moment opportun.
Il en
est ainsi pour les recherches par domaine. Un automate peut permettre
la recherche par domaine comme MSN, mais ne pas donner la liste des domaines.
MSN aura plus de silence.
|
Autre
exemple, les automates qui ne reconnaissent pas les accents donneront plus
de bruit et moins de pertinence comme Google et Voila qui ne font aucune
différence entre une « ferme » - établissement
agricole - et « fermé ». Toutefois,
ils feront une différence entre « fermé » et
«
ferme ». Donc, pour avoir les fermes agricoles, il faudrait
soustraire le mot « fermé ». Mais si c'est deux
mots se retrouvent dans une page, cette page sera absente de la liste.
Voilà un dilemme qui ne se résoud qu'en tolérant le
bruit pour l'internaute. C'est aussi un défi pour les spécialistes.
La base
de donnée ou la sous-base de donnée utilisée influence
aussi la pertinence. Le cas le plus flagrant est celui de l'ancien
AltaVista Canada et le nouveau ; le premier comprenait des documents sur
le Canada ou écrits par des Canadiens, le second ne comprend que
les documents faisant partie de la zone « .ca ».
Enfin,
nous pouvons observer que Sympatico-Lycos Canada est en première
position grâce à AllTheWeb en association avec Direct Hit.
Classement selon la
page
Classement
selon la page
|
Classement
Page 1 |
|
|
|
Classement
Page 2 |
|
Rang |
Automates
|
% |
|
Rang |
Automates
|
% |
1 |
Northern
Light |
82% |
|
1 |
Google
français |
44% |
2 |
MSN |
79% |
|
2 |
Excite
Canada/USA* |
43% |
3 |
Lycos
France |
77% |
|
3 |
Voila |
42% |
4 |
AltaVista
USA |
76% |
|
4 |
HotBot
France |
41% |
5 |
HotBot
USA |
75% |
|
5 |
AltaVista
Belge |
35% |
6 |
Excite
France* |
75% |
|
6 |
AltaVista
Canada |
35% |
7 |
Lycos
Canada |
71% |
|
7 |
Lycos
USA |
34% |
8 |
AllTheWeb |
69% |
|
8 |
AltaVista
France |
33% |
9 |
AltaVista
France |
66% |
|
9 |
AllTheWeb |
32% |
10 |
Lycos
USA |
66% |
|
10 |
Lycos
Canada |
29% |
11 |
AltaVista
Canada |
65% |
|
11 |
HotBot
USA |
25% |
12 |
AltaVista
Belge |
65% |
|
12 |
Excite
France* |
25% |
13 |
HotBot
France |
59% |
|
13 |
AltaVista
USA |
24% |
14 |
Voila |
58% |
|
14 |
Lycos
France |
23% |
15 |
Excite
Canada/USA* |
57% |
|
15 |
MSN |
21% |
16 |
Google
français |
56% |
|
16 |
Northern
Light |
18% |
Ce pourcentage a été
établi selon le nombre de références pertinentes pour
chaque automate. |
La plupart
des études sur les « moteurs de recherche »
ne considèrent que la première page des résultats.
J'ai voulu vérifier où étaient la majorité
des documents pertinents. Ce classement est intéressant.
Nous pouvons
remarquer que Northern Light et AltaVista USA, qui ont un mauvais pourcentage
de pertinence global, arrivent parmi les premiers pour ce qui est de la
première page. Cela signifie qu'il est probable qu'ils arriveraient
en tête du classement de pertinence globale si toutes les capacités
de recherche étaient déployées.
La différence
entre les formulaires est patent avec Fast Search. Lycos France a
plus de documents pertinents en première page que AllTheWeb.
|
Autre
observation, si vous utilisez HotBot France, Voila, Excite Canada/USA ou
Google Canada/France, vous aurez avantage à paramètrer le
nombre de documents par page. D'un autre côté, ces sociétés
auraient peut-être intérêt à mettre 20 documents
par défaut... comme le fait la version américaine de Google.
Enfin,
si vous utilisez un métachercheur comme Copernic, je vous recommande
de faire ce même paramètrage à la lumière de
ce tableau.
Note:
Excite
USA n'a plus de formulaire, Excite Canada est fermé et Excite France
a une redirection vers Overture. Veuillez tenir compte de leur classement
à titre indicatif. ( retour )
|
|