DSI. Classement des automates ou moteurs de recherche. 5. Les critères des requêtes

SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI

par Marc Duval, bibliothécaire

Classement
des automates de recherche

Les critères de classement des requêtes

Mise à jour: 2001-09-20

Introduction	Les répertoires	Les noms de domaines	Classement des sites de recherche
La nature du web	Les automates	Les bases de données	Actualités
Le mot-clé	Le langage de recherche	Formulaire de recherche web	Les brèves
Le web universitaire Partie 1 Les départements	Le web universitaire Partie 2 Les bibliothèques	Le palmarès des villes : un exemple de recherche	Accueil

Introduction

Le protocole de recherche

Les critères de classement

Les formulaires

- La grille d'évaluation

Les requêtes

- La liste

- Les critères

- La grille d'évaluation

Le classement des automates de recherche

Les critères de classement

Onze critères ont été retenus pour le pointage : le bruit, le champ sémantique, le code d’erreur, le doublon, la dysfonction du logiciel de recherche, la non-correspondance entre le terme recherché et la page de référence, le rang du document pertinent, le silence et l’adresse URL inactive. Notez que pour le pointage, l’adresse URL inactive et le code d’erreur ont été mis en commun. Voici les définitions retenues pour chacun des critères.

Bruit : Le bruit découle d’une anomalie du traitement linguistique d’un logiciel. Il est dû soit à l’homographie soit au dysfonctionnement de l’opérateur de proximité notamment. Il est dû aussi à la technique de référencement consistant à mettre une liste de mots ne correspondant pas au sujet de la page. Par exemple, mettre des mots au pluriel alors que le sujet est particulier, mettre des faux synonymes, des paronymes ou des homonymes.

Champ sémantique : Mot correspondant à la requête mais non pertinent à la question.

Code d’erreur : Tout code ne permettant pas l’affichage, notamment le code 404 (page introuvable).

Doublon : Page ayant le même contenu quelle que soit la raison (site miroir ou migration d’un site).

Dysfonction : Dysfonction d’un champ, d’une fonction ou de toute autre élément du langage de recherche, par exemple avoir une page en anglais alors que la langue paramètrée est le français.

Non-correspondance : Mot de la requête absent du texte. La non-correspondance est le résultat des pages de nouvelles principalement ayant une mise à jour régulière et d'une page ayant été modifiée et non ré-indexée dans la base de données de l'automate.

Pertinence : Une réponse est pertinente lorsque la page est le sujet principal quel que soit le point de vue, le corroborant ou l’infirmant. Un indice de pertinence est attribué à chaque sous-question. Cet indice est calculé sur 20, correspondant aux 20 réponses pour chaque sous-question. L’indice de la question principale est calculée sur 40 et l’ensemble des questions sur 480. Le pourcentage de toutes les questions nous donne l’indice.

Pointage : Le pointage est la somme des critères d’évaluation. Les critères sont divisés en positif et négatif. La pertinence de la réponse, sa position dans la liste, la présence des termes de recherche dans la page (champ sémantique) et l’absence de doublons déterminent le pointage positif. Le bruit, le silence, les codes d’erreurs, les URL inactifs, l’absence des termes de recherche dans la page, le doublon et les dysfonctions déterminent le pointage négatif.

Silence : Le silence est une référence pertinente qui se retrouve au-delà des 20 réponses de la liste. Le silence correspond à -20 points, soit le nombre de point correspondant à une réponse pertinence se trouvant parmi les 5 premières références. L’utilisation d’un lexique différent entre l’émetteur (le rédacteur de la page web) et le récepteur (l’internaute) est une cause du silence. Certaines questions ont été soumises à ce test. Pour que ce test soit valable, une recherche approfondie a été menée pour trouver un document qui répondait le mieux à la question. Le silence était pris en compte lorsque le document était présent dans la base de données de l’automate, mais au-delà des 20 premières références. Il n’était pas pris en compte lorsque le document était absent. La recherche du document pertinent a été faite après la compilation des notes.

Théorie du 19 clics : La théorie du 19 clics suggère qu’un document pertinent hyperlié est à une moyenne de 19 clics de la page de départs. Ce critère a été ajouté pour vérifier cette théorie. Il a été intégré à l'indice de pertinence total.

URL inactif : Toute adresse inactive lors de l’interrogation.

La présence d’un code d’erreur, de non-correspondance des termes et d’une adresse URL inactive sont un indice d’une mise à jour déficiente. Cet indice est valable seulement entre deux périodes d’évaluation. Il le deviendra lors de la prochaine mise à jour de cette étude. Malgré cela, comparer cet indice entre les automates peut être révélateur.

Le doublon évalue la capacité du logiciel a repéré des sites à contenu identique mais avec des adresses URL différentes. Plusieurs sociétés prétendent pouvoir retirer les doublons. Je tâcherai de vérifier cette assertion.

Le champ sémantique est considéré par certains comme du bruit. Mais on ne peut tenir rigueur au logiciel de travailler sur les chaînes de caractères et non sur la signification du texte. C’est pourquoi la présence des termes de recherche dans un document peu pertinent a été retenu comme positif dans la mesure où cette page peut contenir une piste de recherche pour un professionnel. Pour que cette page soit retenue pour ce critère, il faut qu’il n’y ait aucun lien menant vers une page pertinente. On peut aussi présumer que moins il y a de pages uniques, plus il y aura de documents pertinents. D’un autre côté, on peut penser que l’analyse des champs sémantiques mesure la mauvaise conception d’une page web puisqu’elle n’a pas même un lien menant à la page d’accueil. Delà, peut-on croire que cette page n’a pas été rapatriée par un robot indexeur, mais indexée par une personne. La place qu’occupe une telle page dans le classement des références dans le résultat peut donner un certain portrait de l’automate.

Tous les professionnels savent qu’une page dans les premiers résultats de recherche a potentiellement un hyperlien pouvant mener à une page pertinente. C’est cet hyperlien qui fait dire à certains qu’une page peut être mieux placer en tête de liste. En fait, ce n’est pas la page qui est retenue, mais le lien. Voilà la raison d’être du critère du 19 clics.

Toute comparaison étant relative, il ne faudrait pas oublier que les automates sont la vitrine technologique des sociétés spécialisées dans les logiciels de recherche. En tant que démonstrateur, ils n’auront jamais les capacités ni les fonctions de recherche de leur logiciel en version professionnelle. Après tout, un logiciel n’a de génie que celui dont le concepteur veut bien y mettre.

Les logiciels d'indexation sont aussi tributaires des rédacteurs de page web. Si cette page n'a pas tous les champs nécessaires à une indexation adéquate, ni la longueur, ou la taille, permettant une indexation complète, ni des noms de fichiers (pdf, avi, mpeg, MP3, doc..) et d'images (jpeg, gif, BMP...) compréhensibles, ni un vocabulaire commun, alors cette page risque de demeurer silencieuse.

Page précédente - La liste des requêtes

Page suivante - Requêtes - Grille d'évaluation

Page

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: marcduval@dsi-info.ca

Adresse de cette page : Marc Duval. (Page créée le 28 juillet 2001). « Classement des automates de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-requetes-criteres.html

Cette page a été éditée le 30 juillet 2001.

Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ; recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ; Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; moteurs de recherche ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil