Service de recherche documentaire
Service de recherche documentaire DSI
par Marc Duval, bibliothécaire

Les langages
des automates de recherche:

Les champs de recherche

Dernière mise à jour 2006-04-11

Introduction
Opérateurs  booléens
Opérateurs de proximité
Troncature
Champs de recherche
Requêtes complexes
Conclusion
Formulaire de recherche
Tableaux
Les opérateurs logiques
Les champs de recherche
Affichage et fonctions

 
Web www.dsi-info.ca
Note: Cette page utilise l'exemple d'AltaVista.  Le site d'AltaVista n'héberge plus l'automate éponyme.  Celui-ci a été remplacé par Yahoo!/Inktomi

.
Accueil DSI
Introduction
La nature du web
Le mot clé
Les automates de recherche
-Les fiches techniques
-Les langages de recherche
Le classement des automates de recherche
Le web universitaire
Le palmarès des villes: un exemple de recherche
Le carnet de recherche
Les actualités


Dans une banque de données structurée, les données sont entrées dans des champs ou des zones. Ces champs sont libellés d'après la donnée. Dans une banque de données documentaires, il y a 4 champs minimaux : le titre, l'auteur, les sujets et la source. La source peut être divisée en plusieurs champs, comme le lieux d'édition, la maison d'édition et la date.  Pour plusieurs automates de recherche, le mot champ est remplacé par filtre.  Dans une page web, il y a essentiellement deux parties importantes d'où proviennent les champs: les métadonnées et l'adresse URL.

Les méta-données

    Les champs minimaux d'une page web se trouvent dans les métadonnées, soit le titre,  les sujets (mots clés ) et la description.   Les métadonnées sont des renseignements codés selon un langage normalisé pour créer une page HTML.   Elles servent à l'indexation et à la recherche d'une page web dans une banque de données et à l'affichage dans une liste d'un résultat de recherche.  Les métadonnées sont invisibles à l'internaute sauf s'il utilise la fonction d'affichage de la page source de son fureteur.

    La plupart des logiciels de recherche web indexent les champs des métadonnées.  Ces champs permettent de mieux cibler un document qu'une recherche libre. Ils font partie du formulaire Propriétés et couleur de la page  dans Netscape Composer. Tout bon éditeur de textes HTML doit avoir un formulaire semblable, ou tout rédacteur doit insérer ces champs, ceux-ci étant tenus en compte par la plupart des moteurs de recherche. Voici l'adresse d'un formulaire qui code ces champs en langage HTML.

Andrew Daviel. (Page consultée le 2 janvier 2003). « The META Generator - an HTML META Tag Builder ». [En ligne]. http://vancouver-webpages.com/META/mk-metas.html

    Il existe aussi un code pour normaliser la description d'un document : le Dublin Core.  Cependant les métadonnées du Dublin Core n'ont pas été adoptées.

    Des concepteurs et référenceurs de pages web détournent les méta-données de leur fin en insérant des mots qui ont peu rapport avec le contenu.  Le champ «text» a été ajouté pour pallier ce détournement.

L'adresse URL

    L'adresse URL est la principale source des champs.  Elle remplace le méta-titre quand les méta-données n'ont pas été insérées dans la page web.  D'elle découlent la recherche d'un serveur, d'un nom de domaine générique ou géographique, d'un sujet et d'un type de document.  Elle est l'hyperlien qui fait voyager l'internaute d'un site à l'autre, qui nous informe sur la notoriété d'un site et sur les sites similaires, qui fait découvrir des images et autres documents.

Les préfixes de recherche

    Pour qu'un champ devienne un «champ de recherche», il a besoin d'un identifiant qui est un préfixe.  Chaque banque de données possède ses préfixes de recherche.  Voici un exemple schématisé d'une page web avec ses champs et les principaux préfixes de recherche d'AltaVista.

[champ Méta-titre]DSI. Guide et analyse des moteurs de recherche par le Service de recherche documentaire DSI
[requête => title:"analyse des moteurs de recherche" ]
Adresse URL: www.dsi-info.ca/moteurs-de-recherche.pdf
[champ Serveur] dsi-info [requête => host:dsi-info]  ]
[champ Domaine] ca [requête => domain:ca]
[champ URL] dsi-info.ca/moteurs-de-recherche.pdf [requête => url:"moteurs de recherche"]
[champ Type de document] pdf [requête => filetype:pdf]
[Page invisible]
Internet Explore. Cliquez sur «Affichage» puis sur «Source».
Netscape. Cliquez sur «Afficher» puis sur «Source de la page».
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="GENERATOR" content="Mozilla/4.75 [fr] (Win98; U) [Netscape]">
<title>DSI. Guide et analyse des moteurs de recherche par le Service de recherche documentaire DSI.</title>
<meta name="description" content="Guide et analyse des sites de recherche (moteurs de recherche et r&eacute;pertoires) par DSI, bureau de courtage en information et de soutien &agrave; la veille strat&eacute;gique(veille concurrentielle et veille technologique).">
<meta name="KeyWords" content="automates de recherche, classement des moteurs de recherche">
<meta name="Classification" content="recherche sur le web, recherche sur internet"
<meta name="Author" content="Marc Duval">
<meta name="robots" content="all">
<meta name="lang" content="fr">
<meta name="date" content="2005-06-01">
<meta name="copyright" content="Marc Duval. 2001-2005">
[Tous les automates de recherche lisent les méta-données - texte invisible d'une page web - dans un processus de recherche. Après le méta-titre, la méta-description est la plus utilisée.  Pour le démontrer, le mot «googel» a été inséré dans la méta-description d'une page. Requête => googel.   Les autres méta-données dépendent de l'intérêt des concepteurs à leur égard.]
[Page visible]

Les automates de recherche

Les automates de recherche sont communément appelés «moteurs de recherche», calque de l'anglais «search engine».
[champ Texte] automates de recherche [requête => text:"automates de recherche"]


Ils font l'objet de plusieurs guides dont celui du Service de recherche documentaire DSI.
[champ Texte hyperlié] service de recherche documentaire DSI [requête sur Google =>allanchor:"service de recherche documentaire DSI"]

La notoriété de ce site est validée par le nombre de pages qui réfère l'adresse «www.dsi-info.ca».
[champ Hyperlien] www.dsi-info.ca [requête => link:www.dsi-info.ca]
[Note: le champ Hyperlien recherche aussi le lien mis dans un texte hyperlié].

La notoriété peut apporter l'utilisation d'images ou de logos non autorisés.  Plusieurs sociétés en sont victimes.  La vérification de l'usage est à considérer en autant que le fichier porte le nom du logo.
[champ Image] dsi [requête => recherche image:dsi]

Pour en connaître plus sur les automates de recherche, l'internaute pourra consulter les répertoires ou faire une recherche dans des pages similaires à celles du Service de recherche documentaire DSI en utilisant son URL «www.dsi-info.ca».
[champ Pages similaires] www.dsi-info.ca [requête => related:www.dsi-info.ca]

Champs et indexation

    L'indexation d'un document se fait à l'intérieur des balises des méta-données.  Elle prend tout son sens lorsqu'un thème est abordé par des périphrases, des synonymes et autres figures de rhétoriques. Ces figures sont nommées «signaux faibles».   Par exemple, un texte peut comprendre les mots «restructuration», «globalisation», «concurrence», «fusion» sans que le mot «licenciement» y soit alors que tout le texte le sous-entend    Dans ce contexte, «licenciement» est désigné comme un «concept».  Le travail d'un indexeur est de trouver le concept à partir d'un ouvrage commun.  Par exemple, s'il prend Yahoo!, il trouvera la rubrique «licenciements».  En insérant ce mot dans les méta-données, il donnera une occasion supplémentaire à l'internaute d'étendre sa recherche aux automates et de trouver le texte.  Malheureusement, beaucoup d'auteurs de pages web omettent le plus élémentaire des champs: le titre.   C'est pourquoi des documents avec la mention «Untitle» ou «Sans titre» apparaissent dans un résultat de recherche.  En fait, l'indexation des pages web est un travail négligé et méconnu qui est rarement fait par des professionnels de l'indexation que sont les bibliothécaires et les documentalistes.
    Pour pallier l'absence d'indexation, les informaticiens essaient d'automatiser le processus.  Des programmes de catégorisation et de suggestions de recherche à la volée sont leur réponse.  AlltheWeb fait des regroupement (clusters) et affiche des requêtes similaires, AltaVista l'appelle AltaVista Prisma (disparu), Exalead affiche une dizaine de termes reliées sur les sites partenaires de AOL France et
Google s'est muni d'un opérateur à sa liste le cinq août 2003: l'opérateur de synonymes.  Tous ces programmes permettent de  découvrir des documents ayant des «signaux faibles».  Bien qu'ils ont l'ambition de classer le web, leurs tentatives demeurent de louables maladresses.

Champs et sites de recherche

    Les sites de recherche ont développé des préfixes de recherche comme nous l'avons vu avec AltaVista et Google.  Le but de ce chapitre est d'identifier chacun de ces champs, leur utilisation et le préfixe correspondant utilisé par chacun des sites de recherche.
    Les champs de recherche sont aussi utilisés pour l'affichage.  C'est ce qui clora ce chapitre. En voici les parties:

1. - Les champs
     1.01    Champ Texte
        1.011    La casse
        1.012    Les signes diacritiques
        1.013    Le correcteur orthographique
        1.014    La taille du fichier
                    Tableau
    1.02    Champ Langue
    1.03    Champ Domaine géographique
    1.04    Champ Méta-titre
    1.05    Champ Méta-description
    1.06    Champ Meta Keywords (méta-mots)
    1.07    Champ URL
    1.08    Champ Serveur
    1.09    Champ Domaine de tête
    1.10    Champ Format de fichiers
    1.11    Champ Hyperlien
    1.12    Champ Dates
[en préparation]

2. - Affichage
    2.01    Les formats d'affichage
    2.02    Le tri


Page précédente: Les opérateurs de troncature
Retour au début
Page suivante: Le champ Texte

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: info[AT]dsi-info.ca
Adresse de cette page : Marc Duval. (Page créée le 1er août 2000).  «Le langage des automates de recherche: le champ Texte». [En ligne]. Longueuil. Québec, ©2000-2002. http://www.dsi-info.ca/moteurs-de-recherche/langages/champs-de-recherche.html
Cette page a été éditée le 1er août 2000.

Hit-Parade
©2000-2005. Marc Duval