Introduction
Le
protocole de recherche
Les critères
de classement
Le classement
des automates de recherche
|
Les critères
de classement
Onze critères
ont été retenus pour le pointage : le bruit, le champ sémantique,
le code d’erreur, le doublon, la dysfonction du logiciel de recherche,
la non-correspondance entre le terme recherché et la page de référence,
le rang du document pertinent, le silence et l’adresse URL inactive.
Notez que pour le pointage, l’adresse URL inactive et le code d’erreur
ont été mis en commun. Voici les définitions
retenues pour chacun des critères.
Bruit
: Le bruit découle d’une anomalie du traitement linguistique d’un
logiciel. Il est dû soit à l’homographie soit au dysfonctionnement
de l’opérateur de proximité notamment. Il est dû
aussi à la technique de référencement consistant
à mettre une liste de mots ne correspondant pas au sujet de la page.
Par exemple, mettre des mots au pluriel alors que le sujet est particulier,
mettre des faux synonymes, des paronymes ou des homonymes.
Champ
sémantique : Mot correspondant à la requête mais
non pertinent à la question.
Code
d’erreur : Tout code ne permettant pas l’affichage, notamment le code
404 (page introuvable).
Doublon
: Page ayant le même contenu quelle que soit la raison (site miroir
ou migration d’un site).
Dysfonction
: Dysfonction d’un champ, d’une fonction ou de toute autre élément
du langage de recherche, par exemple avoir une page en anglais alors que
la langue paramètrée est le français.
Non-correspondance
: Mot de la requête absent du texte. La non-correspondance
est le résultat des pages de nouvelles principalement ayant une
mise à jour régulière et d'une page ayant été
modifiée et non ré-indexée dans la base de données
de l'automate.
Pertinence
: Une réponse est pertinente lorsque la page est le sujet principal
quel que soit le point de vue, le corroborant ou l’infirmant. Un
indice de pertinence est attribué à chaque sous-question.
Cet indice est calculé sur 20, correspondant aux 20 réponses
pour chaque sous-question. L’indice de la question principale est
calculée sur 40 et l’ensemble des questions sur 480. Le pourcentage
de toutes les questions nous donne l’indice.
Pointage
: Le pointage est la somme des critères d’évaluation.
Les critères sont divisés en positif et négatif.
La pertinence de la réponse, sa position dans la liste, la présence
des termes de recherche dans la page (champ sémantique) et l’absence
de doublons déterminent le pointage positif. Le bruit, le
silence, les codes d’erreurs, les URL inactifs, l’absence des termes de
recherche dans la page, le doublon et les dysfonctions déterminent
le pointage négatif.
Silence
: Le silence est une référence pertinente qui se retrouve
au-delà des 20 réponses de la liste. Le silence correspond
à -20 points, soit le nombre de point correspondant à une
réponse pertinence se trouvant parmi les 5 premières références.
L’utilisation d’un lexique différent entre l’émetteur (le
rédacteur de la page web) et le récepteur (l’internaute)
est une cause du silence. Certaines questions ont été
soumises à ce test. Pour que ce test soit valable, une recherche
approfondie a été menée pour trouver un document qui
répondait le mieux à la question. Le silence était
pris en compte lorsque le document était présent dans la
base de données de l’automate, mais au-delà des 20 premières
références. Il n’était pas pris en compte lorsque
le document était absent. La recherche du document pertinent
a été faite après la compilation des notes.
Théorie
du 19 clics : La théorie du 19 clics suggère qu’un document
pertinent hyperlié est à une moyenne de 19 clics de la page
de départs. Ce critère a été ajouté
pour vérifier cette théorie. Il a été intégré
à l'indice de pertinence total.
URL
inactif : Toute adresse inactive lors de l’interrogation.
La présence
d’un code d’erreur, de non-correspondance des termes et d’une adresse URL
inactive sont un indice d’une mise à jour déficiente.
Cet indice est valable seulement entre deux périodes d’évaluation.
Il le deviendra lors de la prochaine mise à jour de cette
étude. Malgré cela, comparer cet indice entre les automates
peut être révélateur.
Le doublon
évalue la capacité du logiciel a repéré des
sites à contenu identique mais avec des adresses URL différentes.
Plusieurs sociétés prétendent pouvoir retirer les
doublons. Je tâcherai de vérifier cette assertion.
Le champ
sémantique est considéré par certains comme du bruit.
Mais on ne peut tenir rigueur au logiciel de travailler sur les chaînes
de caractères et non sur la signification du texte. C’est
pourquoi la présence des termes de recherche dans un document peu
pertinent a été retenu comme positif dans la mesure où
cette page peut contenir une piste de recherche pour un professionnel.
Pour que cette page soit retenue pour ce critère, il faut qu’il
n’y ait aucun lien menant vers une page pertinente. On peut aussi présumer
que moins il y a de pages uniques, plus il y aura de documents pertinents.
D’un autre côté, on peut penser que l’analyse des champs sémantiques
mesure la mauvaise conception d’une page web puisqu’elle n’a pas même
un lien menant à la page d’accueil. Delà, peut-on croire
que cette page n’a pas été rapatriée par un robot
indexeur, mais indexée par une personne. La place qu’occupe
une telle page dans le classement des références dans le
résultat peut donner un certain portrait de l’automate.
Tous les
professionnels savent qu’une page dans les premiers résultats de
recherche a potentiellement un hyperlien pouvant mener à une page
pertinente. C’est cet hyperlien qui fait dire à certains qu’une
page peut être mieux placer en tête de liste. En fait,
ce n’est pas la page qui est retenue, mais le lien. Voilà la raison
d’être du critère du 19 clics.
Toute
comparaison étant relative, il ne faudrait pas oublier que les automates
sont la vitrine technologique des sociétés spécialisées
dans les logiciels de recherche. En tant que démonstrateur,
ils n’auront jamais les capacités ni les fonctions de recherche
de leur logiciel en version professionnelle. Après tout,
un logiciel n’a de génie que celui dont le concepteur veut bien
y mettre.
Les logiciels
d'indexation sont aussi tributaires des rédacteurs de page web.
Si cette page n'a pas tous les champs nécessaires à une indexation
adéquate, ni la longueur, ou la taille, permettant une indexation
complète, ni des noms de fichiers (pdf, avi, mpeg, MP3, doc..) et
d'images (jpeg, gif, BMP...) compréhensibles, ni un vocabulaire
commun, alors cette page risque de demeurer silencieuse.
|
|