Introduction
Le
protocole de recherche
Les critères
de classement
Le classement
des sites de recherche
|
Le protocole
de recherche
La recherche
a été administrée à partir des formulaires
en français, et en anglais lorsque le premier n’était pas
disponible. Le champ langue a été utilisé systématiquement
pour toutes les recherches. Les requêtes ont été
posées en français avec les accents et les majuscules.
Les questions
ont été inspirées de Excite Data Project et
de celles des internautes de Cybertrouvetout. Plusieurs questions
sont reliées au Québec, parti pris naturel. La
feuille de recherche comprend 12 sujets, chacun ayant 2 questions.
Selon le Excite Data Project, la majorité des internautes
ne consultent pas les réponses au-delà de 20. C’est
pourquoi chaque question a un potentiel de 20 réponses, soit 480
références. Ce dernier nombre a été utilisé
pour établir une moyenne sur 100.
La moyenne
sur cent n’est cependant pas suffisante pour apprécier un automate
de recherche. J’ai donc imaginé un indice de pertinence.
Cet indice de pertinence est basé sur le rapport entre le nombre
de références pertinentes et le nombre de réponses
potentielles (20). Lorsqu’il y avait moins de 20 réponses,
le rapport était ramené à 20.
Les automates
de recherche travaillent sur le code source et non sur la page visible.
Certains tiennent en compte les balises méta. Lorsque les
mots de la requête étaient absents de la page visible, le
code source était vérifié. Dans quelques cas,
la page a été consultée avec l’éditeur de texte
web Composer de Netscape afin de démasquer la page spamée.
Les automates
ont été mis à l’épreuve avec 7 difficultés
: la combinaison d’un mot et d’un nombre, les majuscules, les accents,
les homographes, le champ domaine, l’opérateur de proximité
immédiate « “ ” » et la recherche d’images. Pour
la recherche d’images, une autre difficulté a été
ajoutée en utilisant une demande enfantine, soit la recherche d’images
du lapin Bunny. Le lecteur comprendra qu’il s’agit de Bugs Bunny.
Au tiers
de l’analyse, la méthode de travail a été modifiée.
Au départ, la liste des URL n’a pas été conservée.
Cette liste l’a ensuite été afin de voir qu’elle est le pourcentage
de pages originales pour chaque site de recherche. D’autres analyses
pourront aussi être tirées de cette liste, telle que l’optimisation
d’une page web. Cette liste servira aussi de cliché comparatif
entre 2 périodes de recherche pour un même automate à
savoir s’il y a variation et, selon le cas, si elle est importante.
Par conséquent, les sites d’AltaVista et d’Excite seront revisités.
L’analyse tiendra compte ainsi des modifications qu’ont eu les pages de
ces deux sociétés.
|
|