Service de recherche documentaire
Service de recherche documentaire DSI

 
par Marc Duval, bibliothécaire

Le langage
des automates de recherche:

Le champ de recherche

Texte

Dernière mise à jour 2003-03-04

Introduction
Opérateurs  booléens
Opérateurs de proximité
Troncature
Champs de recherche
Requêtes complexes
Conclusion
Formulaire de recherche
Tableaux
Les opérateurs logiques
Les champs de recherche
Affichage et fonctions

.
Accueil DSI
Introduction
La nature du web
Le mot clé
Les automates de recherche
-Les fiches techniques
-Le langage de recherche
Le classement des automates de recherche
Les répertoires
Les banques de données
Le web universitaire
Le palmarès des villes: un exemple de recherche
Le carnet de recherche
Les actualités
Les brèves

Conseils
Lors de vos requêtes,
écrivez en minuscules.


Si vous recherchez un nom propre, écrivez-le avec les majuscules initiales même si elles sont reconnues par quelques moteurs.  Lorsque la casse sera reconnue, vous y  serez habitué.

Accentuez vos requêtes quel que soit l'automate.  Vous pouvez aussi ajouter le signe «+» qui représente à la fois l'opérateur logique «ET» et pour Google un opérateur de «contrainte»

La vérification orthographique est une règle d'or de la recherche.
N'hésitez pas à utiliser un dictionnaire comme Le Larousse ou Le Robert-Collins anglais-français.

Références
Dicorama
Yahoo! Encyclopédie
WebEncyclopédie



Champs et sites de recherche

    Les sites de recherche ont développé des préfixes de recherche comme nous l'avons vu avec AltaVista.  Le but de ce chapitre est d'identifier chacun de ces champs, leur utilisation et le préfixe correspondant utilisé par chacun des sites de recherche.
    Les champs de recherche sont aussi utilisés pour l'affichage.  C'est ce qui clora ce chapitre. En voici les parties:

1. - Les champs
     1.01    Champ Texte
        1.011    La casse
        1.012    Les signes diacritiques
        1.013    Le correcteur orthographique
        1.014    La taille du fichier
                    Tableau
    1.02    Champ Langue
    1.03    Champ Domaine géographique
    1.04    Champ Méta-titre
    1.05    Champ Méta-description
    1.06    Champ Meta Keywords (méta-mots)
    1.07    Champ URL
    1.08    Champ Serveur
    1.09    Champ Domaine de tête
    1.10    Champ Format de fichiers
    1.11    Champ Hyperlien
    1.12    Champ Dates [en préparation]

2. - Affichage
    2.01    Les formats d'affichage
    2.02    Le tri


1.01 Le champ Texte

    Tous les automates sauvegardent la page intégralement, c'est-à-dire la page visible et la page invisible comprenant les codes HTML.   Cependant, tous limitent leur indexation à une taille du fichier afin d'accélérer le traitement.  Quelques-uns tiennent comptent des métadonnées.
    Au cours des ans, des personnes peu scrupuleuses ont voulu tromper les automates en détournant l'usage des métadonnées et en dissimulant des requêtes et des liens populaires en utilisant la même couleur que fond.  Ces pages qui ne contiennent pas apparemment les mots de la requête constituent du bruit.   L
e champ «texte» a été créé afin de contrecarrer le bruit occasionné par ces pratiques malhonnêtes appelées «spamindexation».  Ce champ exclut le texte des hyperliens, des commentaires, des listes déroulantes et des textes alternatifs des images.
    Trois automates possèdent ce champ: AlltheWeb, AltaVista, Google et Inktomi/HotBot.  Le tableau ci-dessous détaillent ce champ.  L'utilisation du champ «texte» doit être faite en accord avec d'autres préfixes.
    Il est à noter que pour voir la page invisible avec Internet Explorer, il faut sélectionner «Affichage», puis «Source».  Avec Netscape, il faut sélectionner «Afficher», puis «Source de la page». La recherche à partir de mots est soumise à trois paramètres: la casse, le signe diacritique et à l'orthographe.


1.011    La casse

    La casse est l'usage de la majuscule et de la minuscule.  Aucun des automates n'en tient compte.  Pourtant, la casse est utile pour distinguer les noms communs des noms propres comme «atlas» et «Atlas», «corneille» et «Corneille», «pascal» et «Pascal», «paris» et «Paris».  HotBot France a bien la recherche «trouver une personne».  Toutefois, ce paramètre de recherche est inopérant.  Elle n'est plus sur le formulaire d'Inktomi sur le site de HotBot, ni sur celui de MSN.  Si les concepteurs des logiciels de recherche n'ont pas crû bon de mettre ce paramètre, c'est en raison de la pratique de plusieurs auteurs, surtout anglophones, qui mettent des majuscules à tous les mots principalement dans les titres (voir les actualités de Yahoo!).  Cela n'empêche pas que ces concepteurs pourraient inclure ce paramètre à l'aide d'opérateurs de «contrainte» comme le signe «+» (remplaçant aussi l'opérateur logique ET).


1.012     Les signes diacritiques

    Les signes diacritiques sont les accents, la cédille, le tilde et tout autre signe donnant une nouvelle valeur à une lettre.  La reconnaissance de ces signes est importante parce qu'elle réduit le bruit causé principalement par les homographes comme «cru» et «crû», «cote», «côte» et «côté», «Paris» et «Pâris».  AltaVista, Inktomi/HotBot, Teoma et WiseNut reconnaissent les diacritiques.
    Exalead et Google utilisent des opérateurs de contrainte. Exalead emploie les guillemets anglais et Google le signe «+» avec ses interfaces nationales.  Singulièrement,
Google a un comportement équivoque avec son interface «google.com».  Tantôt, il répond adéquatement au mot accentué, tantôt il retire l'accent selon qu'il reconnaît la langue du fureteur.
     Comparez la requête «Pâris» et «+Pâris» dans Google Canada.
    L'automate de Voila «Tout le web francophone» est insensible aux diacritiques bien qu'il soit spécialisé dans le web en français.


1.013     Le correcteur orthographique

    En 2000, lors de la première description des automates de recherche, seul AltaVista avait un correcteur orthographique.  Aujourd'hui, il est devenu un outil important.  Exalead, Google, MSN/Inktomi, Teoma et Tout le web francophone ont des vérificateurs d'orthographes.  Ces vérificateurs sont d'inégales valeurs.  Celui de Google ressort du lot.  Malheureusement, ils ne rivalisent pas encore avec le bon vieux dictionnaire.  C'est pourquoi certains d'entre eux conseillent de consulter un dictionnaire lorsqu'il n'y a aucune réponse.


1.014     La taille du fichier

    Tous les automates de recherche tronquent les fichiers afin de réduire le temps de recherche.  Cette troncation a pour résultat de soustraire de l'information.    Exalead est le roi de cette pratique en réduisant son champ de recherche à environ 23K.  La taille médiane des fichiers est de 110K.  AltaVista, Gigablast, Google, Teoma et WiseNut arrêtent leur indexation entre 100 et 130K.  Inktomi recherche jusqu'à 524K, OpenFind à 610K et AlltheWeb à 976K.  Toute le web francophone de Voila est le champion avec 1582K, le plus grand fichier trouvé.

Conclusion

    Lorsque l'on parle de web invisible, on fait référence aux pages que les automates ne peuvent indexer.  Il y a 2 ans, les fichiers «pdf» et ceux de microsoft faisaient partie de ce web invisible.  A cette époque, nous pouvions en atteindre par Inktomi mais ils n'étaient pas dans la liste des références.  Aujourd'hui, les fichiers autres que les pages web sont «recherchables» par quelques automates.  Mais le web invisible ne se trouve pas là où on le pense.  Il se trouve là, dans les entrailles des automates, au-delà des frontières qu'ils se sont données.  Il se trouve dans le bruit provoqué par l'absence de discrimination dans les mots, par l'absence des accents et des majuscules.  Plus les index des automates de recherche augmentent, plus ces automates devront trouver des moyens pour éliminer le bruit.  La reconnaissance de la casse et des signes diacritiques, un correcteur d'orthographe performant et la compression de données font partie des moyens pour atteindre l'optimisation de la pertinence.

Les automates
(Liste)
Texte visible
Casse
Signes diacritiques
Correcteur orthographique Taille
AlltheWeb
(Fast Search)
in the text
text:

Non
Non
Non
976K*
AltaVista
text:
Non
Oui
Oui
128K*
AntiSearch
Non
Non
Non
Non
129K*
Exalead
(AOL)
Non
Non
Oui
(avec guillemets)

Oui
23K (e)
Gigablast
Non
Non
Non
Non
101K*
Google
in the text of the page
intext:

Non
Oui
(précédé du signe +)
Oui
101K*
Google en français
dans le corps de la page
intext:
Non
Oui
(précédé du signe +)

Oui
101K*
Inktomi
(HotBot)
in the body
Non
Oui
Non
524K*
MSN Search
(Inktomi)
Non
Non
Non
Oui
524K (e)
Northern Light
Non
Non
Non
Non
1418K (e)
OpenFind
Non
Non
Non
Non
610K (e)
Teoma
Non
Non
Oui
Oui
115K (e)
Tout le web francophone
(Voila)
Non
Non
Non
Oui
1582K**
WiseNut
Non
Non
Oui
Non
120K (e)

* Taille donnée dans la référence.
** Plus grande taille trouvée.
(e) Taille estimée.


Page précédente: Les opérateurs de troncature
Retour au début de la page
Page suivante: Le champ Langue

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: info@dsi-info.ca
Adresse de cette page : Marc Duval. (Page créée le 1er août 2000).  «Langage de recherche: le champ texte». [En ligne]. Longueuil. Québec, ©2000-2002. http://www.dsi-info.ca/moteurs-de-recherche/langages/champ-de-recherche-texte.html
Cette page a été éditée le 1er août 2000.

Hit-Parade
©2000-2003. Marc Duval