Service de recherche documentaire
Service de recherche documentaire DSI 
par Marc Duval, bibliothécaire

Le langage
des automates de recherche:

Le champ de recherche Serveur
2004-02-12

Introduction
Opérateurs  booléens
Opérateurs de proximité
Troncature
Champs de recherche
Requêtes complexes
Conclusion
Formulaire de recherche
Tableaux
Les opérateurs logiques
Les champs de recherche
Affichage et fonctions

.
Accueil DSI
Introduction
La nature du web
Le mot clé
Les automates de recherche
-Les fiches techniques
-Le langage de recherche
Le classement des automates de recherche
Les répertoires
Les banques de données
Le web universitaire
Le palmarès des villes: un exemple de recherche
Le carnet de recherche
Les actualités
Les brèves



Champs et sites de recherche

    Les sites de recherche ont développé des préfixes de recherche comme nous l'avons vu avec AltaVista.  Le but de ce chapitre est d'identifier chacun de ces champs, leur utilisation et le préfixe correspondant utilisé par chacun des sites de recherche.
    Les champs de recherche sont aussi utilisés pour l'affichage.  C'est ce qui clora ce chapitre. En voici les parties:

1. - Les champs
     1.01    Champ Texte
        1.011    La casse
        1.012    Les signes diacritiques
        1.013    Le correcteur orthographique
        1.014    La taille du fichier
                    Tableau
    1.02    Champ Langue
    1.03    Champ Domaine géographique
    1.04    Champ Méta-titre
    1.05    Champ Méta-description
    1.06    Champ Meta Keywords (méta-mots)
    1.07    Champ URL
    1.08    Champ Serveur
    1.09    Champ Domaine de tête
    1.10    Champ Format de fichiers
    1.11    Champ Hyperlien
    1.12    Champ Dates
[en préparation]

2. - Affichage
    2.01    Les formats d'affichage
    2.02    Le tri


1.08    Champ Serveur

    Le nom de domaine est le nom du site.  Il remplace l’adresse IP (Internet Protocol) numérique qui permet à deux ordinateurs de communiquer.  Il est constitué habituellement de trois parties: l’indicatif, le nom et le domaine.  L’indicatif est généralement les trois w pour le web.  Il est de plus en plus absent de l’adresse et remplacé par un mot.  Le nom est un mot représentant une activité, une société, une personne, etc. et le domaine de tête représentant une catégorie ou une organisation (com, org, etc.) ou un pays.  Chacune des parties est divisée par un point.
    Les automates étudiés sont AlltheWeb, AltaVista, Exalead, Gigablast, Google, Inktomi, Teoma et Voila.  Inktomi est représenté par HotBot, HotBot.fr et MSN.
    Le préfixe de recherche a été testé sur la page d’accueil pour tous et dans la case de recherche booléenne d’AlltheWeb et d’AltaVista.
    Nous avons l’habitude de faire correspondre le nombre de pages affichées avec celui du site.  En fait, le nombre de pages affiché correspont au nombre de pages indexées mais pas à celui de pages actives.  Plusieurs d’entre elles ont été soit retirées du web, soit déménagées vers une nouvelle adresse.  C’est pourquoi nous employons notice ou référence pour désigner la page.
    Les sites ont été testés avec et sans les trois w pour voir comment réagissent les automates.
    La majorité des automates de recherche exploite la recherche par nom de domaine.  Ce mode de recherche est utilisé pour faire une recherche dans un site.  Pour les webmestres, il permet de connaître le nombre de pages indexées dans la banque de données des automates.
    Alors que le préfixe privilégié est site:, AltaVista a préféré le préfixe host:.
    Le préfixe s’utilise seulement avec le nom de domaine qui est la première partie d’une adresse URL.  Par exemple, le nom de domaine d’AlltheWeb est www.alltheweb.com.  La stratégie de recherche consiste à mettre la recherche par domaine avant le terme de recherche comme ceci:  site:www.dsi-info.ca “nom de domaine”.
    Certains sites de recherche ont adopté l’usage du préfixe sans terme de recherche pour faciliter le décompte des pages  indexées d’un site.   AlltheWeb, Altavista, Gigablast et Google ont suivi ce modèle.  Google l’a adopté en janvier 2004 au grand plaisir des webmestres.  Auparavant, il avait choisi le modèle du préfixe et un terme de recherche.  Ce dernier modèle est utilisé par Inktomi - avec le formulaire de recherche -, par Teoma et ExaleadVoila est ambivalent par un usage des deux formats pour son automate Tout le web francophone: le préfixe seul en mode de recherche booléenne et le nom de domaine et un terme de recherche avec le formulaire.
    Le résultat de la recherche par nom de domaine est inconstant  Cette inconstance provient de deux facteurs: les modes de recherche et l’usage des w.  Chez AlltheWeb, le résultat de recherche varie selon que la requête est posée dans la case de recherche d’accueil, le formulaire et la recherche booléenne.  Le test a montré que le nombre de notices augmente de la page d’accueil au formulaire et à la case de recherche booléenne pour la plupart des requêtes.
    Tout le web francophone de Voila a les deux modes de recherche par site.  La recherche avec le formulaire exige un mot supplémentaire tandis que le préfixe peut être utilisé seul.

AlltheWeb

    AlltheWeb utilise le formulaire et le préfixe de recherche.  Le libellé de la recherche par domaine dans son formulaire de recherche est Domain Filters - Filter results from specific domains (com, gov, dell.com, etc.) [...] Include results from.  Le préfixe de recherche est site:.
    AlltheWeb a développé deux opérateurs pour sa recherche par sites.  Le premier est l’accent circonflexe.  Placé devant le nom, il recherche le domaine exact.  Le second est l’astérisque, un opérateur de troncature.  Placé après le nom, il recherche toutes les variantes d’un domaine de tête incluant les domaines géographiques.  Par exemple, site:^google* trouvera tous les sites qui commencent par
http://google.

L’usage des www

    Une requête avec et sans les w ne donnent pas toujours le même résultat.  Voici quelques exemples: La requête site:www2.faa.gov en page d’accueil a donné 21 442 notices, site:faa.gov en page d’accueil aussi, 43,147.   Les deux mêmes requêtes avec le formulaire ont apporté respectivement 22,382 et  44,946.  Enfin, les deux requêtes ont donné 22,708 et 45,903 dans la recherche booléenne.  Alors que la première requête restreint la recherche au site précis, la seconde l’élargit au réseau que forme la Federal Aviation Administration.
    Peut-on conclure que l’usage des 3w restreint la recherche à un site en particulier alors que le retrait des w l’élargit à un réseau?
    La requête site:www.celinedion.com a donné 15 références; celle-ci -  site:celinedion.com aucune. Le retrait des w aurait dû apporter au moins le même nombre de références.  En comparaison, les requêtes site:www.rongeurs.net et site:rongeurs.net ont donné le même nombre de notices.

    En général, la recherche est élargie au réseau d’un site en retirant les w.  En contrepartie, la recherche avec l’adresse exacte d’un site la restreint uniquement au site.   L’usage des opérateurs apporte un résultat plus précis.

AltaVista

    AltaVista utilise le formulaire et le préfixe de recherche.  Le libellé de la recherche par domaine dans son formulaire de recherche est Emplacement : [] Seulement ce domaine ou cette URL:   http://.  Le préfixe de recherche est host:.
    Chez AltaVista, la recherche par domaine doit être accompagnée d’un mot lorsque nous utilisons le formulaire de recherche.  La recherche avec le préfixe de recherche host: peut être faite seul autant en page d’accueil que dans la case de recherche booléenne.
    Le résultat de la recherche d’AltaVista peut être trompeur si nous utilisons le formulaire.  AltaVista affiche une ou deux pages par défaut.  Pour voir toutes les notices d’un site, il faut désactiver l’option de groupement de pages dans le formulaire ou cliquer sur Plus de pages avec.  D’autre part, AltaVista affiche toutes les notices en recherche booléenne.
    AltaVista ne recherche pas exactement le site donné.  La requête  host:www.celinedion.com a donné le site brésilien  www.celinedion.com.br.  Il faut retiré le site indésirable pour avoir seulement celui recherché par le retrait du site soit avec le préfixe host: soit avec le préfixe domain:.
    Tout comme AlltheWeb, AltaVista a son opérateur de troncature: l’astérisque.

Exalead

    Exalead est utilisé par AOL France sur son site et sur celui de Netscape France.  Exalead  utilise le formulaire et le préfixe site: accompagné d'un mot pour la recherche des pages d'un site.  Le formulaire à la zone Rechercher sur un site.  Celle-ci comprend deux cases libellées ainsi: Rechercher et Sur le site.
    Exalead n’a fait aucune différence notable entre la recherche avec les w et sans les w.
    Il est à noter qu’Exalead est appliqué au web français et non au web mondial dévolu à Google.

Gigablast

    Gigablast possède la recherche de nom de domaines dans son formulaire et par préfixe.    Le libellé de la recherche par domaine dans son formulaire de recherche est Restrict to this Site.  Le préfixe de recherche est site:.
    La page du résultat de recherche comprend l’option de recherche dans l’ensemble : Search [site].  Cette option est  immédiatement sous la case de recherche en haut de la page.  Elle permet soit de poursuivre la recherche dans le site soit de commencer une nouvelle recherche
    La recherche se fait soit avec le nom de domaine seul, soit avec un terme de recherche.  Il donne le même résultat quel que soit son mode de recherche, mais avec un bémol.  Tantôt la requête avec les w et sans les w d’un site unique donne le même résultat, tantôt seule la première apporte son lot de références.  Par exemple, la requête site:www.hc-sc.gc.ca donne toutes les références du site unique.  La même requête sans les w n’en donne aucune.  En comparaison, les requêtes site:www.saphirnet.info et site:saphirnet.info ont le même résultat pour une adresse unique.
    Si le site est fédérateur comme celui de la Federal Aviation Administration, le retrait des w affiche tous les notices quelque soit la chaîne de caractères les remplaçant.
    Gigablast a une caractéristique intéressante.  Il a affiché la page d’accueil en premier pour tous les sites testés, même pour les sites en réseau comme celui de la Federal Aviation Association.  Dans certains cas, les notices ont le lien [ More results from this site ] pour développer le site.

Google

    Google a la recherche par sites dans son formulaire et par préfixe. Le libellé de la recherche par domaine dans son formulaire de recherche est Domaines [ ] Pages du site ou du domaine.  Le préfixe de recherche est site:.
    La recherche se fait soit avec le nom de domaine seul, soit avec un terme de recherche.  Google distingue les adresses avec et sans les w.   Si le site est fédérateur comme celui de la Federal Aviation Administration, le retrait des w affiche toutes les notices quelque soit la chaîne de caractères les remplaçant.

Inktomi (Hotbot.com, Hotbot.fr, MSN.com)

    Inktomi a la recherche par site uniquement dans son formulaire. Le libellé de la recherche par domaine dans son formulaire de recherche est Domain/Site  Include pour HotBot,  Nom de Domaine Les résultats doivent appartenir à pour HotBot France et Domaine : pour MSN.  La recherche se fait avec le nom de domaine et un terme de recherche.
    Nous aurions pu croire que tous les sites auraient donné le même résultat.  Il s’avère qu’Hotbot France donne légèrement plus de sites que MSN et Hotbot.com.
    Les trois sites sur lesquels est déployé Inktomi ont le même défaut.  Le nombre de notices trouvées changent à chaque page du résultat de recherche.  Par conséquent, il devient difficile d’obtenir le nombre exact de pages indexées par le robot.  Il faut paramétrer le nombre de notices affichées à 50 pour contourner ce problème en ce qui concerne des petits sites.
    HotBot France donne par défaut la meilleure page unique.  Il faut paramétrer les Résultats Maximum par Serveur à Toutes les pages du formulaire de recherche pour que toutes les notices soient affichées.  Enfin, il est sage de paramétrer le champ langue à Toutes les langues et le champ Pays à Indéterminé.

Teoma

    Teoma a la recherche par sites dans son formulaire et par préfixe. Le libellé de la recherche par domaine dans son formulaire de recherche est  Domain or site et son préfixe de recherche est site:.
    La recherche se fait seulement avec le nom de domaine et un terme de recherche.  Teoma distingue les adresses avec et sans les w quelque soit le mode de recherche.   Si le site est fédérateur comme celui de la Federal Aviation Administration, le retrait des w affiche toutes les notices quelque soit la chaîne de caractères les remplaçant.

Tout le web francophone de Voila

    Tout le web francophone de Voila a la recherche par sites dans son formulaire et par préfixe. Le libellé de la recherche par domaine dans son formulaire de recherche est Dans le domaine : et son préfixe est site:.
    La recherche se fait avec le nom de domaine et un terme de recherche pour le formulaire tandis que la recherche par préfixe se fait seule.
    Tout le web francophone de Voila ne distingue pas les adresses avec et sans les w quand la recherche est exécutée à partir du formulaire tandis qu’il fait la distinction avec la recherche par préfixe.  Cependant, la recherche par préfixe s’est révélée déficiente en donnant des notices provenant de plusieurs sites quelque soit le domaine de tête lorsque le site n’est pas dans la banque de données.  Tout le web francophone retire les domaines de tête.  Par exemple, la requête faa.gov ne donne aucun résultat avec le formulaire, mais plus de 270 avec le préfixe provenant de tous les sites ayant faa dans le nom de domaine.

Conclusion

    Plusieurs webmestres déclinent leur site en plusieurs sous-domaines.  Avec AlltheWeb, nous avons avantage à utiliser les préfixes dans la case de la recherche booléenne.  AltaVista est moins fiable en ne donnant pas le nom de domaine exact.  Inktomi donne de bons résultat avec une faiblesse dans le nombre de notices, peu fiable pour connaître le nombre exact de pages indexées.  Exalead, Gigablast, Google et Teoma, tous de la même génération, sont de valeur égale.  Enfin, Tout le web francophone de Voila est déficient en donnant n’importe quelle page de domaines similaires quand le site n’est pas indéxé.
    Il faut porter une attention à AltaVista et Gigablast qui font des groupements de notices.  Si l’on n’y prend garde, nous pouvons croire qu’il n’y a que deux ou trois pages indexées.  De même pour HotBot France qui met par défaut la meilleure page unique afin de réduire le nombre de notices.
    Enfin, AltaVista et Teoma assimilent les noms de domaine ayant ou non les w.  AlltheWeb, Exalead, Gigablast, Google et Teoma les distinguent.  Si l’on ne connaît pas un site, il est préférable de retirer les w pour avoir toutes les notices.  En contre-partie, il faut mettre le nom de domaine exact du site si la recherche porte sur un sous-domaine.  En tout état cause, une recherche dans un site se fait en utilisant le nom de domaine en conjonction avec un terme de recherche.  Par conséquent, les w ont peu d’importance, sauf si l’on établit des statistiques de nom de domaine.



Tableau des automates de recherche et du champ serveur ou nom de domaine

Automates Libellé Préfixe Préfixe seul
AlltheWeb Include results from site: Oui
AltaVista Seulement ce domaine ou cette URL host: Oui
Exalead Sur le site site: Non
Gigablast Restrict to this site site: Oui
Google Pages du site ou du domaine site: Oui
Inktomi / Hotbot Domain/site S.O. Non
Inktomi / Hotbot France Les résultats doivent appartenir à S.O. Non
Inktomi / MSN Canada Domaine S.O. Non
Teoma Domain or site site: Non
Voila Dans le domaine site: Non/Oui


Page précédente: Le champ URL
Retour au début de la page
Page suivante: Le champ Domaine de tête

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: info@dsi-info.ca
Adresse de cette page : Marc Duval. (Page créée le 1er août 2000).  «Langage de recherche: le champ keywords». [En ligne]. Longueuil. Québec, ©2000-2003. http://www.dsi-info.ca/moteurs-de-recherche/langages/champ-serveur.html
Cette page a été éditée le 1er août 2000.


Hit-Parade
©2000-2004. Marc Duval