.
|
|
Dans
une banque de données structurée, les données sont
entrées dans des champs ou des zones. Ces champs sont
libellés
d'après la donnée. Dans une banque de données
documentaires,
il y a 4 champs minimaux : le titre, l'auteur, les sujets et la source.
La source peut être divisée en plusieurs champs, comme le
lieux
d'édition, la maison d'édition et la date. Pour
plusieurs
automates de recherche, le mot champ est
remplacé
par filtre. Dans une page web, il y a
essentiellement
deux parties importantes d'où proviennent les champs: les
métadonnées et l'adresse URL.
Les
méta-données
Les champs minimaux d'une page web se trouvent dans les
métadonnées, soit le titre, les sujets (mots
clés ) et la description. Les métadonnées
sont des renseignements codés selon un langage normalisé
pour créer une page HTML. Elles servent à
l'indexation et à la recherche d'une page web dans
une banque de données et à l'affichage dans une liste
d'un
résultat de recherche. Les métadonnées sont
invisibles
à l'internaute sauf s'il utilise la fonction d'affichage de la
page
source de son fureteur.
La plupart des logiciels de recherche web indexent les champs des
métadonnées. Ces champs permettent de mieux cibler
un document qu'une recherche libre. Ils font partie du formulaire Propriétés
et couleur de la page dans
Netscape Composer. Tout bon éditeur de textes HTML doit avoir un
formulaire semblable, ou tout rédacteur doit insérer ces
champs, ceux-ci étant tenus en compte par la plupart des moteurs
de recherche. Voici l'adresse d'un formulaire qui code ces champs en
langage HTML.
Andrew
Daviel. (Page consultée le 2 janvier 2003).
« The META Generator - an HTML META Tag Builder ». [En
ligne].
http://vancouver-webpages.com/META/mk-metas.html
Il existe aussi un code pour normaliser la description d'un document :
le Dublin Core. Cependant les métadonnées du
Dublin Core n'ont pas été adoptées.
Des concepteurs et référenceurs de pages web
détournent les méta-données de leur fin en
insérant des mots qui ont peu rapport avec le contenu. Le
champ «text» a été ajouté pour pallier
ce détournement.
L'adresse
URL
L'adresse URL est la principale source des champs. Elle remplace
le méta-titre quand les méta-données n'ont pas
été insérées dans la page web. D'elle
découlent la recherche d'un serveur, d'un nom de domaine
générique ou géographique, d'un
sujet et d'un type de document. Elle est l'hyperlien qui fait
voyager
l'internaute d'un site à l'autre, qui nous informe sur la
notoriété d'un site et sur les sites similaires, qui fait
découvrir des images et autres documents.
Les
préfixes de recherche
Pour qu'un champ devienne un «champ de recherche», il a
besoin d'un identifiant qui est un préfixe. Chaque banque
de données possède ses préfixes de recherche.
Voici un exemple schématisé
d'une page web avec ses champs et les principaux préfixes de
recherche
d'AltaVista.
[Page
invisible]
Internet Explore. Cliquez sur «Affichage» puis sur
«Source».
Netscape. Cliquez sur «Afficher» puis sur «Source de
la page».
|
<meta
http-equiv="Content-Type" content="text/html;
charset=iso-8859-1">
<meta
name="GENERATOR" content="Mozilla/4.75
[fr] (Win98; U) [Netscape]">
<title>DSI.
Guide et analyse des moteurs de recherche par le Service de recherche
documentaire DSI.</title>
<meta name="description"
content="Guide
et analyse des sites de recherche (moteurs de recherche et
répertoires)
par DSI, bureau de courtage en information et de soutien à
la
veille stratégique(veille concurrentielle et veille
technologique).">
<meta name="KeyWords"
content="automates de recherche,
classement des moteurs de recherche">
<meta name="Classification" content="recherche sur le web, recherche
sur internet"
<meta name="Author"
content="Marc Duval">
<meta name="robots"
content="all">
<meta
name="lang" content="fr">
<meta
name="date" content="2005-06-01">
<meta
name="copyright" content="Marc
Duval. 2001-2005">
[Tous
les automates de recherche lisent les méta-données -
texte invisible d'une page web - dans un processus de recherche.
Après le méta-titre, la méta-description est la
plus utilisée. Pour le démontrer, le mot
«googel» a été inséré dans la
méta-description d'une page. Requête => googel.
Les autres méta-données dépendent de
l'intérêt des concepteurs à leur égard.]
|
[Page visible]
Les automates de recherche
Les automates de recherche sont communément
appelés «moteurs de recherche», calque de l'anglais
«search engine».
[champ Texte] automates de recherche [requête
=> text:"automates
de recherche"]
Ils font l'objet de plusieurs guides dont celui du Service de recherche documentaire DSI.
[champ Texte hyperlié] service de
recherche documentaire DSI [requête sur Google
=>allanchor:"service
de recherche documentaire DSI"]
La notoriété de ce site est
validée par le nombre de pages qui réfère
l'adresse «www.dsi-info.ca».
[champ Hyperlien] www.dsi-info.ca
[requête => link:www.dsi-info.ca]
[Note: le champ Hyperlien recherche aussi le lien mis dans un texte
hyperlié].
La notoriété peut apporter
l'utilisation
d'images ou de logos non autorisés. Plusieurs
sociétés
en sont victimes. La vérification de l'usage est à
considérer en autant que le fichier porte le nom du logo.
[champ Image] dsi [requête => recherche
image:dsi]
Pour en connaître plus sur les automates de
recherche, l'internaute pourra consulter les répertoires ou
faire une recherche dans des pages similaires à celles du
Service de recherche documentaire DSI en utilisant son URL
«www.dsi-info.ca».
[champ Pages similaires] www.dsi-info.ca
[requête => related:www.dsi-info.ca]
|
|
Champs
et indexation
L'indexation d'un document se fait à l'intérieur des
balises des méta-données. Elle prend tout son sens
lorsqu'un thème est abordé
par des périphrases, des synonymes et autres figures de
rhétoriques. Ces figures sont nommées «signaux
faibles». Par exemple, un texte peut comprendre les mots
«restructuration», «globalisation»,
«concurrence», «fusion» sans que le mot
«licenciement» y soit alors que tout le texte le
sous-entend Dans ce contexte, «licenciement»
est désigné comme un «concept». Le
travail d'un indexeur est de trouver le concept à partir d'un
ouvrage commun. Par exemple, s'il prend Yahoo!, il trouvera la
rubrique «licenciements».
En insérant ce mot dans les méta-données, il
donnera une occasion supplémentaire à l'internaute
d'étendre sa recherche aux automates et de trouver le texte.
Malheureusement, beaucoup d'auteurs de pages web omettent le plus
élémentaire des champs: le titre. C'est pourquoi
des documents avec la mention «Untitle» ou «Sans
titre» apparaissent dans un résultat de recherche.
En fait, l'indexation des pages web est un travail
négligé et méconnu qui est rarement fait par des
professionnels de l'indexation que sont les bibliothécaires et
les documentalistes.
Pour pallier l'absence d'indexation, les
informaticiens
essaient d'automatiser le processus. Des programmes de
catégorisation
et de suggestions de recherche à la volée sont leur
réponse.
AlltheWeb fait des regroupement (clusters) et affiche des
requêtes
similaires, AltaVista l'appelle AltaVista Prisma (disparu), Exalead
affiche une
dizaine
de termes reliées sur les sites partenaires de AOL France et
Google s'est muni d'un opérateur à sa liste le cinq
août
2003: l'opérateur de synonymes. Tous ces programmes
permettent
de découvrir des documents ayant des «signaux
faibles».
Bien qu'ils ont l'ambition de classer le web, leurs tentatives
demeurent
de louables maladresses.
Champs
et sites de recherche
Les sites de recherche ont développé des préfixes
de recherche comme nous l'avons vu avec AltaVista et Google. Le
but de ce
chapitre est d'identifier chacun de ces champs, leur utilisation et le
préfixe correspondant utilisé par chacun des sites de
recherche.
Les champs de recherche sont aussi utilisés
pour l'affichage. C'est ce qui clora ce chapitre. En voici les
parties:
|