Avant-propos
Mot-clé,
mot passe-partout qui se retrouve aujourd'hui dans l'esprit de chaque
internaute. Moteur de la recherche dont la clé ouvre les
portes du web à la connaissance. Vedette de tant de
matières. Que de mots se cachent derrière lui ! Que
de mots écrit-on à son sujet ! Que de bruits et de
silence engendre-t-il ! Insaisissable, plus engin de torture que de
recherche ! Sans aucun doute, l'informatique est l'ossature
d'Internet, mais la clé de voûte du Réseau des
réseaux est le mot. La personne qui détient la
maîtrise des mots, détient la clé de la
Toile. Aucune erreur d'orthographe ni de sémantique n'est
permise. A la moindre erreur, la page web est perdue.
Insaisissable est-il dans son caractère, dans sa
définition. Qu'est-ce qu'un « mot-clé »
? C'est à cette question que nous répondrons
à travers le prisme du vocabulaire informatique et
bibliothéconomique, et de la rédaction d'une page web en
fonction de la recherche
Introduction
Dès le
début de l'Internet, on a associé le web à une
immense bibliothèque. Or, les bibliothèques
utilisent un catalogue dans lequel tous les documents sont
classés par «mots-clés», ou
«descripteurs». Cette caractéristique n'a pas
suivi cette association qui est demeurée superficielle chez la
plupart des internautes, éditeurs et référenceurs
de pages web. Malgré ses dix ans révolus - le web
est né en 1989, le web n'a pas encore atteint la maturité
du monde bibliothéconomique ni a su tirer partie de son
expertise. Ceci se reflète dans le terme
«mot-clé» qui a été et continue
d'être mal compris. L'incompréhension est née
de la confusion, surtout chez les néophytes de l'indexation,
entre le «mot représentant le document» et le
«mot recherché par l'internaute». La plupart
des référenceurs ignorent l'analyse documentaire.
Ils n'ont pas cherché à approfondir le sujet ni à
voir au-delà du présent. Ils essaient de se mettre
à la place de l'internaute et multiplie les synonymes et mots
apparentés. Certains emploient même des fautes
d'orthographes. Ce dossier propose d'aborder le mot-clé
dans son contexte bibliothéconomique et du web, et de voir s'il
est possible de concilier l'un et l'autre. Cette conciliation
sera traitée à travers ces différentes rubriques :
- Les définitions
- Définition
«informatique»
- Définition
«bibliothéconomique»
- Le
mot-clé et le web
- Le mot-clé et la recherche
web
- Le mot-clé et le
moteur de recherche
- Le mot-clé des
répertoires
- Les répertoires de
mots-clés
- Le répertoire des
vedettes-matières de Laval
- Les
annuaires téléphoniques
- Mot-clé, page web et les
champs de recherche
Les définitions
Le «mot
clé» est issu de deux secteurs d'activités
: l'informatique et la bibliothéconomie.
1) Définition
«informaticienne»
L'Office de la
langue française donne cette définition :
mot-clé
n m
Mot caractérisant le contenu d'un document ou
d'un fichier, servant de principal critère de recherche dans un
fichier ou dans un système de gestion de base de
donnée. (1)
Plus
explicitement, le Dictionnaire Universel Francophone En Ligne
nous apprend que l'expression «mot clé» provient du
domaine informatique. Le «Mot clé (est un mot)
associé à un contenu et ayant une signification
spécifique» (2).
2) Définition
«bibliothéconomique»
Le
Grand dictionnaire terminologique de l'Office de la langue
française donne cette
définition :
Mot ou
groupe de mots, éventuellement dans
une forme lexicographique normalisée, choisi dans le titre ou le
texte d'un document, caractérisant le contenu et permettant la
recherche de ce document.
En
bibliothéconomie,
le mot-clé est un terme connu provenant d'une fiche
décrivant un document. Le mot-clé est
réparti dans des zones ou champs «titre»,
«auteur», «sujet» et «description»
ou «note». Le mot-clé qui décrit un
document se nomme «descripteur» ou vedette-matière.
Ces mots-clés sont compilés dans un thésaurus ou
un répertoire des vedettes-matière qui donne leurs usages
: mot admis, mot rejeté, mot utilisé pour un autre mot,
mot spécifique, mot générique. Le thésaurus
est un recueil de mots-clés spécialisés
tandis que celui des «vedettes-matière» est plus
général. Par exemple, Statistique Canada utilise un thésaurus pour
décrire ses documents. Le
répertoire des vedettes-matière est utilisé dans
des bibliothèques comme dans celle de droit
de l'Université de Montréal.
Ainsi vous pouvez
connaître un livre intitulé La recherche sur Internet
par
les moteurs de recherche. Vous souhaitez connaître d'autres
livres du même sujet. Les mots clés seraient
«recherche», «Internet» et
«moteurs». Ces mots-clés seraient susceptibles de se
trouver dans plusieurs champs d'une fiche. Si vous voulez raffiner
votre recherche, vous choisiriez les mots qui font partie d'une
zone particulière et vous feriez cette recherche en
utilisant le mot associé au champ. (3)
Le mot-clé et le web
Le terme
«mot-clé» s'est imposé sur le web par
l'intermédiaire des fureteurs comme Netscape. Il est une
composante appelée «méta balise»
placée dans l'en-tête invisible d'une page HTML (4).
Il a été introduit dans les
propriétés de la page comme attribut avec le champ
«classification». Ces deux attributs proviennent du
vocabulaire bibliothéconomique, donnant à penser qu'ils
ont été choisis pour un usage professionnel.
Utilisés par des néophytes de
la documentation, ces mots
ont été pris dans leur sens général sans
aucun repère, donc en vocabulaire libre. C'est ainsi que
«mot-clé» réfère à une page et
n'a de référence qu'à cette page
rédigée par un auteur ayant décrit le contenu en
ses propres mots. Ceux-ci ne réfèrent pas à
un ensemble de pages de plusieurs auteurs ayant le même mot en
commun. Ce mot-clé n'est pas un mot
normalisé. La majorité des auteurs ne sont pas des
indexeurs professionnels et n'utilisent pas de thésaurus (5).
Lorsqu'ils en utilisent
un, celui-ci est analogue mais
primaire, aléatoire et en perpétuelle évolution :
le web par le truchement des logiciels de recherche..
Le « mot-clé » et la recherche web
Plusieurs
nomment le
«mot-clé», le mot utilisé pour la
recherche. Or ce mot fait partie du vocabulaire libre et non
normalisé. Parce qu'il est libre, il y a rarement
adéquation entre le «mot-clé» indexé
comme attribut ou méta-balise dans les propriétés
de la page web et le mot de la recherche. Qui plus est, des
moteurs de recherche ne tiennent pas compte de cet attribut.
Ainsi, le «mot-clé» ne réfère plus
à l'attribut, mais aux mots du texte.
Ne faisant
partie d'aucune
liste de mots déterminés, issu du langage naturel, il ne
réfère à aucune définition, sinon celle de
«mot écrit par des internautes lors de leurs
recherches». Un nom générique tel que
«automobile» n'est pas un «mot-clé»
parce que seul, il génère des milliers de pages.
Par contre, les mots précis ou rares peuvent être
considérés comme des «mots-clés»
comme «autopompe». Attention, aujourd'hui, ces
mots sont rares mais demain ils peuvent devenir populaires et amener
des milliers de documents. Le contraire est aussi vrai. Un
mot populaire peut devenir rare comme «an 2000» qui a fait
naître des sites et des pages éphémères par
milliers. D'autres mots en vogue comme
«Pokémon» ou évènementiels comme les
«jeux olympiques de Sydney» et «Boris Eltsine»
se raréfieront pour faire place aux «jeux olympiques
d'Athènes» et à «Vladimir Poutine».
Ainsi,
les noms
propres sont associés au «mot clé» parce
qu'en majorité, ils n'ont qu'un sens et peu de synonymes dans la
mesure où le logiciel de recherche reconnaît la
casse. AltaVista (recherche avancée) et Go acceptent la
casse donc les noms propres. Les sites Inktomi Canada.com, HotBot
et NBCi utilisent l'expression «la personne
identifiée» et «the person».
Utilisez cette caractéristique quel que soit le nom
propre. Pour les autres sites de recherche, encadrez le nom
propre de guillemets anglais s'il a plus d'un mot.
Les
«mots-clés» en tant que mot générant
un corpus de pages pertinentes sont donc :
- des noms de personne
- des noms géographiques
- des noms d'entreprises
- des marques de commerce
- des mots spécialisés
ou rares
- des mots de titre connu d'un
document (livre, article, rapport,
chansons.. ), d'une expression ou citation connue
Par exemple, si
nous avions
à retrouver une page web traitant de La recherche sur
Internet
par les moteurs de recherche, notre requête prendrait cette
forme
:
+recherche
+internet +"moteurs de recherche" |
ou
title:recherche
AND title:internet AND title:"moteurs de recherche" |
Plusieurs sites de recherche ont l'option d'affiner la recherche
à partir du corpus. AltaVista, Fast Search, Google,
Hotbot, Voilà font partie de ceux-là. Lorsque vous
recevez la liste des pages suite à votre requête,
cochez la case pour «la recherche dans le
résultat». Cette case est près de la
boîte de requête et souvent imprimée en petits
caractères. Consultez les premières pages pour
trouver les mots-clés à ajouter ou à soustraire de
votre recherche qui, rappelons-le, sont maintenant connus à
travers ces pages et poursuivez votre recherche.
Le mot-clé et le moteur de recherche
Les moteurs de recherche font des efforts louables pour orienter
l'internaute. AltaVista US propose une liste d'expression suivant
certaines requêtes. Mais elle est absente des
sites français et canadien. Certains sites Inktomi, comme
HotBot et Sprinks - nouveau
de mai 2000, affichent des «termes
reliés». A côté des moteurs de
recherche, des sociétés créent des
assistants à la recherche comme Guidebeam.
Avant de lister
des pages web, Guidebeam génère une liste de termes
provenant du moteur de recherche. Sur son site, Guidebeam assiste
Google et Yahoo.com l'a adopté. D'autres sites se
manifestent comme Pointcom.com,
métachercheur qui utilise
une liste de mots-clés populaires au lieu de la traditionnelle
boîte de recherche. Mais ces efforts ne semblent pas avoir
été concluants pour tous. A ses débuts, Excite
suggérait des termes. Cette caractéristique a
été délaissée depuis. En revanche,
Excite.com présente les requêtes in situ des
internautes avec son service «Voyeur». AltaVista.com
publie une liste des requêtes. Lycos US, Lycos Canada,
Lycos France, et Nomade publient aussi leur palmarès. Plusieurs
sites en anglais colligent les mots-clés des internautes - voir
ci-contre.
Le mot-clé des répertoires
Un index
dans un livre est constitué de « mots-clés
». Chacun renvoie à une page ou à un paragraphe. Le
mot est connu. Certains sites utilisent ce modèle (6) mais dans
le web, il n'y a aucun index formel. S'il y en existait un, nous
pourrions retrouver par exemple «an 2000 - informatique» et
«an 2000 - festivités». Tous les
internautes pourraient s'y référer pour la
recherche et pour l'indexation des pages web. Seuls les
répertoires comme Yahoo ont cette caractéristique en
partie, pas les logiciels de recherche. Pourtant beaucoup de
concepteurs de sites utilisent les listes des termes de recherche des
internautes publiées sur le site des moteurs de recherche pour
trouver les mots qui placeront leurs pages en première position.
L'usage d'utiliser les répertoires tels que
Yahoo pour rechercher des sites semblables à ceux
souhaités, d'utiliser les termes de classement, puis de
découvrir les mots-clés et l'introduction de la page, et
de les lister pour s'en servir dans une stratégie de recherche
pour les tester ne semble pas populaire auprès des concepteurs (7). Toute
leur
stratégie est centrée sur le
positionnement d'une page dans le résultat des moteurs de
recherche en fonction d'une recherche simple.
Les répertoires de mots-clés
« Ce que l'on
conçoit bien s'énonce clairement,
Et
les mots pour le dire arrivent aisément »
nous
dit Nicolas Boileau dans son Art poétique. Cette
citation
est là pour nous rappeler qu'il faut connaître son sujet
de recherche, réfléchir sur l'angle d'attaque. C'est
pourquoi un article encyclopédique ou journalistique ou tout
autre document est une source de compréhension... et de
mots-clés. Mais ce n'est pas suffisant. Deux
autres sources de mots-clés sont aussi disponibles : les
répertoires et les annuaires.
Contrairement à ce qui est
diffusé sur le web concernant la recherche, le mot-clé
n'existe pas parce que la recherche se fait en langage naturel par
termes ou phrase et non en langage normalisé qui lui utilise le
«mot-clé». Si nous cherchons une page traitant
des automobiles anciennes, nous devrions faire une liste de synonymes
comme «automobiles anciennes», «voitures
anciennes», «voitures antiques», «autos
anciennes» et «autos antiques». Il ne faudrait pas
oublier toutes les pages dont le sujet est une marque d'auto ancienne
qui ne s'identifie pas comme telles. Sans nul doute ne
trouverions-nous pas toutes les pages dont les auteurs n'ont pas cru
bon de reprendre l'une ou l'autre expression ou parce qu'ils ont commis
une faute d'orthographe. En fait, le mot-clé est
inapproprié parce qu'il s'agit d'une expression. S'il y
avait un mot-clé, toutes les pages semblables auraient le
même mot-clé. Si vous aviez à rédiger une
page, vous pourriez consulter un répertoire de mots-clés
qui vous dirait d'utiliser « voitures anciennes » au lieu
de « automobiles anciennes », « voitures antiques
», etc. Pourtant, ces répertoires existent :
ce sont les Yahoo, les Pages jaunes et le Répertoire
des vedettes-matière de Laval (8).
Pour qu’une recherche
arrive à terme, il faut qu’il y ait un langage commun entre le
chercheur et l’auteur. Ce langage peut être puisé
dans des répertoires comme Yahoo qui ont développé
une classification. Cette classification est une source
mésestimée de mots-clés. Pour classifier les
voitures anciennes, Yahoo a retenu l’expression «véhicules
de collection». Le même principe vaut pour les Pages
Jaunes, ouvrage ô! combien commun dans nos chaumières.
Imaginez tous les auteurs utilisant la même
expression pour
toutes les pages ayant le même sujet. Quelle grande
contribution feraient-ils pour la cause de la recherche!
Le répertoire des vedettes-matière de
Laval
Le Répertoire
des vedettes-matière de Laval n'est pas disponible
publiquement sur le web, mais par abonnement. Il faut recourir
à un autre moyen : les bibliothèques.
Toute bibliothèque peut être
utilisée. Pour l'exemple, nous consulterons celle de la
Bibliothèque nationale du Québec. Lorsque vous serez sur
la page, sélectionnez le bouton «Recherche locale»
pour accéder au formulaire de recherche. Dans la
fenêtre de recherche, entrez «automobiles anciennes»
puis dans le menu déroulant «sujet» et lancez la
recherche. Des références seront retournées. En
choisissant une référence, vous constaterez que le
terme retenu est «voitures anciennes» composé de
vedettes indirectes comme «Achat» et «Collectionneurs
et collections». Si votre page traite de l'histoire de
voitures anciennes, vous ajouterez le sujet «Automobiles -
Histoire». En appliquant les sujets de la notice à
la recherche web, nous n'aurions qu'à rechercher
«voitures anciennes» ou «Automobiles» et
«Histoire» pour avoir toutes les autres pages traitant de
ce sujet. C'est ce que l'on appelle «recherche par concept»
ou par «vedettes-matière». Voilà
pourquoi en matière de recherche sur le web, il est plus
approprié d'utiliser simplement «mot» ou mieux
«terme de recherche» ou en abrégé «
terme » (9) qui est
autant un mot
qu'une expression, ou
«méta-mot» plutôt que «mot
clé».
Les annuaires téléphoniques
Le Répertoire
de vedettes-matière de Laval n'est pas à la
portée de tous, malheureusement. Cependant, il peut
être remplacé avantageusement par les pages jaunes de
l'annuaire téléphonique. «Les Pages Jaunes»
est l'outil de recherche universel le plus mésestimé par
l'internaute. On y retrouve un index alphabétique
semblable au Répertoire des vedettes-matière
comportant des mots-clés et des renvois. Recherche-t-on
une «voiture antique» ? L'index nous signale de voir
à «Automobiles anciennes et classiques». Ou un
service d'investissement ? L'index nous orientera vers
«courtiers en valeurs mobilières» ,
«placement-valeurs», «placement-autres» et
«placement-conseillers». En consultant chacune des
ces sections, nous pouvons affiner notre recherche à travers les
annonces. Outre d'être un outil inégalé, il est un
réservoir d'adresses électroniques et de pages web.
Pour nous, ces entreprises deviennent des références nous
permettant de les trouver dans des répertoires
électroniques comme Yahoo ou la Toile du Québec, et les
pages jaunes électroniques évidemment, et ce faisant de
trouver leurs concurrents. Les annuaires imprimés nous
donnent aussi accès à une partie du web invisible si
l'entreprise n'a pas encore été
référencée sur le web. Malheureusement, les
sociétés comme Bell ActiMedia ont inclus seulement les
rubriques normalisées, excluant les renvois si pratiques.
Les entreprises auraient intérêt a
utilisé comme mot-clés les rubriques sous lesquelles
leurs concurrents ou elles-mêmes sont listées dans Yahoo!,
les annuaires pages jaunes, commerciaux et professionnels comme le
Répertoire Scott ou celui du CRIQ. Vous pouvez constater
l'efficacité de cette méthode avec Altavista (Power
Search - All the word) et Lycos en
utilisant la rubrique
«renseignements-service» des Pages Jaunes de
Montréal et Boucherville.
Si vous n'avez pas d'annuaire
téléphonique principalement des grandes villes,
demandez-en un ancien à une secrétaire, à un amie
ou à toute autre personne... par annonces sur le web.
Mot-clé, page web et les champs de recherche
Cela
dit, une page web contient des champs de recherche comme dans une
notice bibliographique. Ces champs ont deux formes : Les champs fixes
et les champs flottants.
Les champs fixes sont définis comme
des champs communs à toutes les pages. Ce sont:
- L'adresse URL
- Le nom de domaine
- Le titre de la page
- La description
- Le texte
- Le nom du serveur
Les
champs flottants sont définis comme des champs pouvant
être ajoutés lors de la rédaction d'une page web.
Certains de ces champs sont pris en compte par des chercheurs comme
Altavista. Ce sont :
- La date de création
- L'hyperlien
- Le nom de l'hyperlien
- L'image
- Le son
- L'applet
Lors de
la rédaction d'une page web, il est important de tenir compte
des champs fixes notamment ceux de l'adresse, du titre et du texte,
principalement l'introduction. La première phrase ou mieux les
cent-quarante-huit (148) caractères environ - espace compris -
de l'introduction doivent être répétés dans
la méta-description pour s'assurer que les logiciels de cherche
soient en mesure d'indexer la page. Ces champs doivent être
le plus explicites possible.
Les rédacteurs devraient tenir compte des
principes de la rédaction classique, soit l'introduction, le
développement et la conclusion pour chaque page.
Lorsqu'un site est composé de pages
dépendantes, chacune de ces pages devraient avoir un
résumé visible, ou invisible en utilisant le code HTML de
commentaire (10), bien que ce code ne soit
pas lu par les moteurs de
recherche, il peut être utile pour l'internaute. Hélas!
voit-on souvent des sites ayant des pages continues
rédigées comme un imprimé.
Les auteurs n'ont pas compris la nature du web dans
laquelle chaque page est considérée par les logiciels de
recherche comme un document unique. Ce sont ces pages
inappropriées, entre autres, qui augmentent le nombre de
réponses non pertinentes dans une requête, ce qui est
appelé le «bruit». Afin de contrer ce
phénomène, il est impératif qu'une page ait un
sujet et au moins un qualificatif ou un déterminatif. Par
exemple, donner la requête «automobile» à un
index de recherche est inutile, il faut ajouter un qualificatif comme
« ancienne », ou un déterminatif comme
«d'occasion». Pour un commerce, le
déterminatif de lieu peut être déterminant.
En termes linguistiques, il faut rédiger un syntagme
descriptif. Ce syntagme doit se retrouver dans l'adresse de la
page, dans le titre et dans l'introduction. Il est inutile de
vouloir tout mettre sur une page. Si vous avez des articles
à présenter, utilisez le principe du diaporama : un
article ou un sujet par page. Et pour chaque page, mettez un
index d'une part pour faciliter la consultation du site et d'autre part
pour augmenter votre présence sur le web. En effet,
certains robots repéreront les index de vos pages et afficheront
toutes vos pages dans lesquelles votre sujet sera identifié.
Connaissant les particularités d'une page
web, nous pouvons les utiliser pour nos fins. En effet, lorsque l'on
trouve une page pertinente nous pouvons afficher les méta
balises en utilisant la fonction «Affichage de la
Source» des fureteurs Internet Explorer et Netscape. Cet
affichage nous permet de voir les «méta mots» et de
les utiliser afin de poursuivre la recherche. C'est
particulièrement utile pour un site commercial en autant que les
concepteurs aient fait un bon travail. Par exemple, en consultant les
méta balises de la compagnie Virgin, nous y trouvons tous les
noms des compagnies sous le label Virgin et les «
méta-mots » communs. Les concepteurs du site ont donc
optimisé la recherche. Nous pouvons la poursuivre en utilisant
cette liste de mots.
Conclusion
En sachant
utiliser les «méta-mots» dans la rédaction
d'une page web et dans la recherche sur le web, nous pouvons optimiser
les résultats d'une requête. Mais le bon usage des
«méta-mots» n'est pas encore courant. Beaucoup de
spécialistes analysent les pages en fonction de leur
«ergonomie» (11) (vitesse d'affichage, couleur,
graphisme,
polices de caractères, etc.) en oubliant le plus important : la
capacité de trouver le site par les « méta-mots
», la «méta description» et la description du
site ou de la page par le commentaire HTML. Si une révolution du
web doit avoir lieu, elle le sera à l'aide d'un
répertoire tel que Yahoo!, l'annuaire des pages jaunes, ou celui
des vedettes-matière comme celui de l'Université Laval et
non par le cybercommerce comme les «gourous» du Net le
proclament. En fait, l'avenir de la recherche est dans les
mains de chaque internaute : dans le rapprochement entre chercheurs,
référenceurs et éditeurs de pages web à
l'aide d'un répertoire de mots-clés communs.
|