Les langages
des automates de recherche:

Les champs de recherche

Dernière mise à jour 2006-04-11

Introduction	Opérateurs booléens	Opérateurs de proximité	Troncature
Champs de recherche	Requêtes complexes	Conclusion	Formulaire de recherche
Tableaux	Les opérateurs logiques	Les champs de recherche	Affichage et fonctions

Note: Cette page utilise l'exemple d'AltaVista. Le site d'AltaVista n'héberge plus l'automate éponyme. Celui-ci a été remplacé par Yahoo!/Inktomi

Accueil DSI

Introduction

La nature du web

Le mot clé

Les automates de recherche

-Les fiches techniques

-Les langages de recherche

Le classement des automates de recherche

Le web universitaire

Le palmarès des villes: un exemple de recherche

Le carnet de recherche

Les actualités

Dans une banque de données structurée, les données sont entrées dans des champs ou des zones. Ces champs sont libellés d'après la donnée. Dans une banque de données documentaires, il y a 4 champs minimaux : le titre, l'auteur, les sujets et la source. La source peut être divisée en plusieurs champs, comme le lieux d'édition, la maison d'édition et la date. Pour plusieurs automates de recherche, le mot champ est remplacé par filtre. Dans une page web, il y a essentiellement deux parties importantes d'où proviennent les champs: les métadonnées et l'adresse URL.

Les méta-données

Les champs minimaux d'une page web se trouvent dans les métadonnées, soit le titre, les sujets (mots clés ) et la description. Les métadonnées sont des renseignements codés selon un langage normalisé pour créer une page HTML. Elles servent à l'indexation et à la recherche d'une page web dans une banque de données et à l'affichage dans une liste d'un résultat de recherche. Les métadonnées sont invisibles à l'internaute sauf s'il utilise la fonction d'affichage de la page source de son fureteur.

La plupart des logiciels de recherche web indexent les champs des métadonnées. Ces champs permettent de mieux cibler un document qu'une recherche libre. Ils font partie du formulaire Propriétés et couleur de la page dans Netscape Composer. Tout bon éditeur de textes HTML doit avoir un formulaire semblable, ou tout rédacteur doit insérer ces champs, ceux-ci étant tenus en compte par la plupart des moteurs de recherche. Voici l'adresse d'un formulaire qui code ces champs en langage HTML.

Andrew Daviel. (Page consultée le 2 janvier 2003). « The META Generator - an HTML META Tag Builder ». [En ligne]. http://vancouver-webpages.com/META/mk-metas.html

Il existe aussi un code pour normaliser la description d'un document : le Dublin Core. Cependant les métadonnées du Dublin Core n'ont pas été adoptées.

Des concepteurs et référenceurs de pages web détournent les méta-données de leur fin en insérant des mots qui ont peu rapport avec le contenu. Le champ «text» a été ajouté pour pallier ce détournement.

L'adresse URL

L'adresse URL est la principale source des champs. Elle remplace le méta-titre quand les méta-données n'ont pas été insérées dans la page web. D'elle découlent la recherche d'un serveur, d'un nom de domaine générique ou géographique, d'un sujet et d'un type de document. Elle est l'hyperlien qui fait voyager l'internaute d'un site à l'autre, qui nous informe sur la notoriété d'un site et sur les sites similaires, qui fait découvrir des images et autres documents.

Les préfixes de recherche

Pour qu'un champ devienne un «champ de recherche», il a besoin d'un identifiant qui est un préfixe. Chaque banque de données possède ses préfixes de recherche. Voici un exemple schématisé d'une page web avec ses champs et les principaux préfixes de recherche d'AltaVista.

[champ Méta-titre]DSI. Guide et analyse des moteurs de recherche par le Service de recherche documentaire DSI
[requête => title:"analyse des moteurs de recherche" ]

Adresse URL: www.dsi-info.ca/moteurs-de-recherche.pdf
[champ Serveur] dsi-info [requête => host:dsi-info] ]
[champ Domaine] ca [requête => domain:ca]
[champ URL] dsi-info.ca/moteurs-de-recherche.pdf [requête => url:"moteurs de recherche"]
[champ Type de document] pdf [requête => filetype:pdf]

[Page invisible]
Internet Explore. Cliquez sur «Affichage» puis sur «Source».
Netscape. Cliquez sur «Afficher» puis sur «Source de la page».

[Page visible]

Les automates de recherche

Les automates de recherche sont communément appelés «moteurs de recherche», calque de l'anglais «search engine».
[champ Texte] automates de recherche [requête => text:"automates de recherche"]

Ils font l'objet de plusieurs guides dont celui du Service de recherche documentaire DSI.
[champ Texte hyperlié] service de recherche documentaire DSI [requête sur Google =>allanchor:"service de recherche documentaire DSI"]

La notoriété de ce site est validée par le nombre de pages qui réfère l'adresse «www.dsi-info.ca».
[champ Hyperlien] www.dsi-info.ca [requête => link:www.dsi-info.ca]
[Note: le champ Hyperlien recherche aussi le lien mis dans un texte hyperlié].

La notoriété peut apporter l'utilisation d'images ou de logos non autorisés. Plusieurs sociétés en sont victimes. La vérification de l'usage est à considérer en autant que le fichier porte le nom du logo.
[champ Image] dsi [requête => recherche image:dsi]

Pour en connaître plus sur les automates de recherche, l'internaute pourra consulter les répertoires ou faire une recherche dans des pages similaires à celles du Service de recherche documentaire DSI en utilisant son URL «www.dsi-info.ca».
[champ Pages similaires] www.dsi-info.ca [requête => related:www.dsi-info.ca]

Champs et indexation

L'indexation d'un document se fait à l'intérieur des balises des méta-données. Elle prend tout son sens lorsqu'un thème est abordé par des périphrases, des synonymes et autres figures de rhétoriques. Ces figures sont nommées «signaux faibles». Par exemple, un texte peut comprendre les mots «restructuration», «globalisation», «concurrence», «fusion» sans que le mot «licenciement» y soit alors que tout le texte le sous-entend Dans ce contexte, «licenciement» est désigné comme un «concept». Le travail d'un indexeur est de trouver le concept à partir d'un ouvrage commun. Par exemple, s'il prend Yahoo!, il trouvera la rubrique «licenciements». En insérant ce mot dans les méta-données, il donnera une occasion supplémentaire à l'internaute d'étendre sa recherche aux automates et de trouver le texte. Malheureusement, beaucoup d'auteurs de pages web omettent le plus élémentaire des champs: le titre. C'est pourquoi des documents avec la mention «Untitle» ou «Sans titre» apparaissent dans un résultat de recherche. En fait, l'indexation des pages web est un travail négligé et méconnu qui est rarement fait par des professionnels de l'indexation que sont les bibliothécaires et les documentalistes.
Pour pallier l'absence d'indexation, les informaticiens essaient d'automatiser le processus. Des programmes de catégorisation et de suggestions de recherche à la volée sont leur réponse. AlltheWeb fait des regroupement (clusters) et affiche des requêtes similaires, AltaVista l'appelle AltaVista Prisma (disparu), Exalead affiche une dizaine de termes reliées sur les sites partenaires de AOL France et Google s'est muni d'un opérateur à sa liste le cinq août 2003: l'opérateur de synonymes. Tous ces programmes permettent de découvrir des documents ayant des «signaux faibles». Bien qu'ils ont l'ambition de classer le web, leurs tentatives demeurent de louables maladresses.

Champs et sites de recherche

Les sites de recherche ont développé des préfixes de recherche comme nous l'avons vu avec AltaVista et Google. Le but de ce chapitre est d'identifier chacun de ces champs, leur utilisation et le préfixe correspondant utilisé par chacun des sites de recherche.
Les champs de recherche sont aussi utilisés pour l'affichage. C'est ce qui clora ce chapitre. En voici les parties:

1. - Les champs
   1.01    Champ Texte
        1.011    La casse
        1.012    Les signes diacritiques
        1.013    Le correcteur orthographique
        1.014 La taille du fichier
Tableau
    1.02    Champ Langue
    1.03 Champ Domaine géographique
    1.04    Champ Méta-titre
    1.05    Champ Méta-description
    1.06    Champ Meta Keywords (méta-mots)
    1.07    Champ URL
    1.08    Champ Serveur
    1.09    Champ Domaine de tête
    1.10    Champ Format de fichiers
    1.11    Champ Hyperlien
    1.12    Champ Dates [en préparation]

2. - Affichage
    2.01    Les formats d'affichage
    2.02    Le tri

Page précédente: Les opérateurs de troncature

Retour au début

Page suivante: Le champ Texte

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: info[AT]dsi-info.ca

Adresse de cette page : Marc Duval. (Page créée le 1er août 2000). «Le langage des automates de recherche: le champ Texte». [En ligne]. Longueuil. Québec, ©2000-2002. http://www.dsi-info.ca/moteurs-de-recherche/langages/champs-de-recherche.html

Cette page a été éditée le 1er août 2000.

Les langages des automates de recherche: