Service de recherche documentaire
Service de recherche documentaire DSI
par Marc Duval, bibliothécaire

Les langages
des automates de recherche:

Les opérateurs logiques

Dernière mise à jour 2006-04-13

Google
 
Web www.dsi-info.ca
Introduction
Opérateurs  booléens
Opérateurs de proximité
Troncature
Champs de recherche
Requêtes complexes
Conclusion
Formulaire de recherche
Tableaux
Les opérateurs logiques
Les champs de recherche
Affichage et fonctions



.
Accueil
Introduction
La nature du web
Le mot clé
Les automates de recherche
-Les fiches techniques
-Le langage de recherche
Le classement des automates de recherche
Le web universitaire
Le palmarès des villes: un exemple de recherche
Le carnet de recherche
Les actualités
***
Pour un meilleur résultat,
utilisez un style télégraphique
***

Pour avoir les 2 mots dans le même document.
Utilisez la syntaxe
+mot +mot*
***
Pour soustraire un mot des documents, Utilisez la syntaxe
. +mot -mot
***


Les opérateurs logiques

    La recherche dans les bases de données est fondée sur la théorie des ensembles.  Un ensemble est le résultat d'une requête issu d'un mot ou d'un concept dans le cadre d'une recherche textuelle.  Dans une recherche simple, il y a trois possibilités : l'intersection (élément appartenant simultanément à l'ensemble A et à l'ensemble B), l'union (élément appartenant aux deux ensembles) et l'exclusion (élément de l'ensemble A n'appartenant pas à l'ensemble B). Ces trois notions sont représentées par des symboles qui sont des signes ou des mots. Par convention, l'intersection est représentée par ET et par + ; l'union est OU ; et l'exclusion par NON et par -.  Ces symboles s'appellent des opérateurs booléens - en l'honneur du mathématicien George Boole - ou opérateurs logiques.  Ces trois notions sont généralement présentées graphiquement comme ceci:

opérateurs logiques

    Dans l'exclusion, le «a rouge» comprend la partie bleue seulement.

    Voici trois exemples:

opérateur ET

    Dans le premier exemple, celui de l'intersection, il y  trois pages A, B et C.  Si je veux trouver des pages dont le sujet est le langage de recherche, j'aurais cette requête:

langage recherche

   J'obtiendrai alors les trois pages parce que les deux mots sont communs.  Je peux restreindre la recherche en ajoutant le mot «moteurs» pour avoir les pages qui traitent des moteurs de recherche.  La requête

langage moteurs recherche

donnera les pages B et C, mais pas A.  Cette requête peut aussi s'écrire:

+langage +moteurs +recherche

ou encore

langage AND moteurs AND recherche

    Vous remarquerez que le mot ajouté a été placé avant «recherche».  En général, les automates mettent en priorité les pages qui ont les mots dans l'ordre, puis les mots dans le désordre.  Les pages qui ont les mots les plus près entre eux seront classées parmi les premières.  Ceci est un facteur de classement.  D'autres interviennent.  Par exemple, si les mots sont dans le titre, la page sera peut-être mieux classée.  C'est l'ensemble des critères qui feront qu'une page sera parmi les 20 premières références.  Ce meilleur classement ne garantit pas que la page sera la plus pertinente,  mais qu'elle a été optimisée pour ressortir du lot.
    Vous noterez aussi que je n'utilise pas le terme «mot-clé».  Pour qu'un mot prenne ce nom, il faut impérativement qu'il soit commun à tous les documents.  Cet attribut est rare.  Dans l'exemple du langage des moteurs de recherche, il peut exister des documents pertinents qui utiliseront le pluriel de langage.  Il peut aussi y avoir un anglicisme comme «language».  Les sites de recherche qui utilisent des «mots-clés» sont les répertoires qui regroupent plusieurs sites sous un même thème même si ce thème est absent du site lui-même.  La Toile du Québec, mieux que Yahoo!, exploite ce concept.

* * *

opérateur OU

    Dans l'exemple de l'union, je recherche des pages traitant du répertoires ou des moteurs de recherche en France ou au Canada.  La requête serait:

répertoires OR (moteurs AND recherche).

    Cette requête apportera ce que l'on appelle du «bruit», c'est-à-dire des pages indésirables.  J'augmente la précision de la recherche avec cette requête:

répertoires OR "moteurs de recherche"

    Maintenant, je veux des pages dans lesquelles se trouvent Canada ou France.  La requête deviendrait :

(répertoires OR "moteurs de recherche")  AND (Canada OR France)

    J'obtiendrai les pages A, B et C.
    Dans Google, la requête s'écrirait ainsi:

répertoires OR "moteurs de recherche" Canada OR France.

* * *

opérateur SAUF

    Dans le troisième exemple, je recherche des pages dont le sujet est le référencement dans les moteurs de recherche sauf celles qui traitent du classement.
    La requête pourrait être celle-ci dans AltaVista:

(référencement AND "moteurs de recherche") NOT classement

    Elle pourrait aussi s'écrire plus simplement :

+référencement +"moteurs de recherche" -classement

    ou encore:

référencement & "moteurs de recherche" AND NOT classement

    Le résultat de cette requête serait la page C, mais pas la page A, ni la page B.

   Chacune des requêtes ci-dessus est une stratégie de recherche.  Ces stratégies sont formulées en fonction des automates de recherche.  La maîtrise des opérateurs booléens, la compréhension du web et celle du champ de recherche sont trois éléments clés qui apportent plus de raffinement à une stratégie, et souvent plus de succès.  Ce n'est pas tous les internautes qui ont le temps ni le goût d'approfondir ces trois aspects.  C'est pourquoi, plusieurs services de recherche d'informations ont inclus dans leur site un formulaire de recherche plus ou moins détaillé.

Les formulaires

    Les logiciels de recherche cachent les opérateurs logiques dans leur page d'accueil. Lorsque vous entrez deux mots dans la fenêtre de requête, le logiciel utilise en général l'opérateur d'intersection ET qui a la valeur «+».
   Lorsque vous ajoutez le signe « + » ( +motA +motB ), il affichera les documents qui comprennent les deux mots.  Chez Google, ce dernier signe sert aussi à forcer la recherche sur un mot de moins de 3 lettres.  Google utilise aussi le signe «+» pour forcer la reconnaissance d'un mot accentué ou avec un signe diacritique.  Utilisé avec une interface en anglais, ce signe remplace la recherche par langue.
  Lorsque vous utilisez le signe « - » (+motA -motB ) immédiatement devant le mot, le logiciel exclura le motB.  En ajoutant ces signes, vous augmentez vos chances d'obtenir l'information recherchée
.
    Lorsque vous utilisez un formulaire, vous recourez aussi aux opérateurs logiques.
   Deux types de formulaires se côtoient : le formulaire assisté et le formulaire avancé.  Tandis que le formulaire assisté est composé de libellés de recherche qui oriente l'internaute dans sa stratégie de recherche, le formulaire avancé est composé d'une case permettant d'écrire une stratégie élaborée comprenant opérateurs booléens et champs.  Parmi tous les automates, seuls AltaVista et AlltheWeb ont une case de recherche spécifique à la recherche avancée.  Il est à noter que les sites de recherche utilisent l'expression «recherche avancée» - Advanced Search - pour «recherche assistée».  WiseNut se particularise avec l'expression WiseSearch et Voila avec Recherche approfondie.

Le formulaire assisté

    Le formulaire assisté comprend les libellés des opérateurs logiques, de l'opérateur de proximité, des champs de recherche et des fonctions d'affichage et parfois de tri.


    Voici un exemple de libellés provenant de la page de recherche avancée de Google:

Libellé Opérateurs
tous les mots suivants et
au moins un des mots suivants ou
aucun des mots suivants sauf
cette expression exacte " "

Le formulaire avancé

    Pour la plupart des automates de recherche, le formulaire avancé est la même case de recherche que le formulaire de la page d'accueil.  Seul AltaVista et  AlltheWeb utilisent une case spéciale pour la recherche avancée.  La différence entre une recherche simple et une recherche avancée réside dans l'utilisation des parenthèses et des champs.
    La recherche avancée fait appel à la combinaison des trois notions de bases utilisant les parenthèses pour les distinguer. Habituellement, il y une hiérarchie de traitement qui constitue la syntaxe. Les ensembles unis sont traités en premier, puis les ensembles intersectés, enfin les ensembles exclus. Une stratégie de recherche peut prendre cet aspect
:

(motA OU motB) ET (motC OU motD) NON (motF OU motG)

    Compte tenu que la majorité des moteurs de recherche sont américains, les opérateurs logiques s'écrivent en général en anglais : AND (et),  OR (ou), AND NOT, NOT (sauf, non).  La plupart des logiciels de recherche acceptent les opérateurs en majuscules pour les distinguer des mots usuels.  Enfin, certains des automates ont aussi des opérateurs transcrits en symboles : & (et),  | (ou).

    Voici trois tableaux qui donnent succinctement la disponibilité des opérateurs pour onze automates de recherche.  AlltheWeb et AltaVista ont été acquis par la société Yahoo!.  Leur automate de recherche ont été remplacé par un Inktomi modifié.  HotBot France utilise l'Inktomi original. On y retrouve trois répertoires et cinq portails - AOL France ayant Exalead.  Les tableaux complets sont sur la page Tableaux des opérateurs de recherche (le chargement peut être lent).

Les automates de recherche

ET
OU
SAUF
Proximité/
Adjacence

Troncature / lemmatisation
Requête complexe
AlltheWeb
(Yahoo ! Search )
Oui
Oui
Oui Oui
 Non Oui
AltaVista
(Yahoo! Search)
Oui
Oui
Oui
Oui
Non
Oui
Ask
Oui
Non Oui Oui
Non
Oui
Exalead
Oui Oui Oui Oui Oui
Oui
Gigablast
Oui
Non
Oui
Oui
Non
Non
Google
Oui
Oui
Oui
Oui
Oui
Oui
HotBot.fr
(Inktomi)
Oui
Oui
Oui Oui
Oui
Oui
MSN Search
Oui
Oui
Oui
Oui
Non
Oui
Seekport
Oui
Oui Oui Oui Oui Oui
Tout le web francophone
(Voila)

Oui
Non
Oui
Oui
Non
Oui
WiseNut
Oui
Non
Oui
Oui
Non
Non

Les Répertoires

ET OU SAUF Proximité/
Adjacence

Troncature
Requête complexe
Nomade
Oui
Oui
Oui
Oui
Non
Non
La Toile du Québec
(Google)

Oui
Oui
Oui
Oui
Non
Oui
Yahoo
(Yahoo ! Search)

Oui
Oui
Oui
Oui
Non
Oui

Les portails

ET OU SAUF Proximité/
Adjacence

Troncature
Requête complexe
AOL
(Google)

Oui
Oui
Oui
Oui
Non
Oui
AOL France
(Exalead - web français)

Oui
Non
Oui
Oui
Non
Non
Excite France
(Yahoo! Search)

Oui
Oui
Oui
Oui
Non
Oui
GlobeTrotter
(Yahoo! Search)

Oui
Oui
Oui
Oui
Non
Oui
Lycos
(Inktomi)

Oui
Oui
Oui
Oui
Non
Oui
Sympatico
(MSN Search)

Oui
Oui
Oui
Oui
Non
Oui

    Enfin, la recherche avancée utilise des préfixes de recherche qui correspondent à des champs.  Une page web comprend plusieurs champs.  Les plus communs sont le titre, l'adresse URL, le domaine et le nom de domaine, et l'hyperlien.  C'est ce que nous verrons dans les prochains chapitres.


Page précédente: Introduction
Accueil
Page suivante: Les opérateurs de proximité


Service de recherche documentaire DSI. 1280-4, boulevard de Montarville Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: info@dsi-info.ca
Adresse de cette page : Marc Duval. (Page créée le 1er août 2000).  «Les opérateurs logiques». [En ligne]. Longueuil. Québec, ©2000-2002. http://www.dsi-info.ca/moteurs-de-recherche/langages/operateurs-logiques.html
Cette page a été éditée le 1er août 2000.
Mots clés :  Bibliothèques  (vedettes matières) : recherche sur Internet ; recherche de l'information ; recherche documentaire ; ouvrages de références  /  Nomade : recherche sur le Web  / ODP :  recherche sur le Net /  Toile du Québec :  Internet - Guides ; guides perfectionnement à la recherche  / Voila :  internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation

Hit-Parade
©2000-2006. Marc Duval