Service de recherche documentaire
Service de recherche documentaire DSI 
par Marc Duval, bibliothécaire

Le langage
des automates de recherche:

Le champ de recherche Domaine de tête
2005-03-28

Introduction
Opérateurs  booléens
Opérateurs de proximité
Troncature
Champs de recherche
Requêtes complexes
Conclusion
Formulaire de recherche
Tableaux
Les opérateurs logiques
Les champs de recherche
Affichage et fonctions
Note: L'automate de recherche Inktomi identifié par le nom de HotBot a été retiré du site de recherche HotBot en février 2005 par Yahoo! Inc.  Aussi, le site de recherche MSN a été doté d'un nouvel automate en février.  Par conséquent, veuillez ne plus tenir compte de l'analyse et des commentaires les concernant.










.
Accueil DSI
Introduction
La nature du web
Le mot clé
Les automates de recherche
-Les fiches techniques
-Le langage de recherche
Le classement des automates de recherche
Les répertoires
Le web universitaire
Le palmarès des villes: un exemple de recherche
Le carnet de recherche
Les actualités
Les brèves



Champs et sites de recherche

    Les sites de recherche ont développé des préfixes de recherche comme nous l'avons vu avec AltaVista.  Le but de ce chapitre est d'identifier chacun de ces champs, leur utilisation et le préfixe correspondant utilisé par chacun des sites de recherche.
    Les champs de recherche sont aussi utilisés pour l'affichage.  C'est ce qui clora ce chapitre. En voici les parties:


1. - Les champs
     1.01    Champ Texte
        1.011    La casse
        1.012    Les signes diacritiques
        1.013    Le correcteur orthographique
        1.014    La taille du fichier
                    Tableau
    1.02    Champ Langue
    1.03    Champ Domaine géographique
    1.04    Champ Méta-titre
    1.05    Champ Méta-description
    1.06    Champ Meta Keywords (méta-mots)
    1.07    Champ URL
    1.08    Champ Serveur
    1.09    Champ Domaine de tête
    1.10    Champ Format de fichiers
    1.11    Champ Hyperlien
    1.12    Champ Dates
[en préparation]

2. - Affichage
    2.01    Les formats d'affichage
    2.02    Le tri


1.09    Champ Domaine de tête

    Internet s'est développé aux États-Unis, en milieu fermé.  Le cyberespace avait été divisé en six domaines: trois domaines exclusifs pour les États-Unis et trois domaines génériques.  Les trois domaines exclusifs recouvrent les principales institutions étatsuniennes : le gouvernement (gov), les universités (edu pour education) et l'armée (mil pour military).  Les domaines génériques recouvrent les organisations (org), les réseaux (net) et le commerce (com).  Le domaine .com a été utilisé largement sans égard à sa dénomination d'origine ni aux pays.  Il a été un fourre-tout.

    Internet n'a pas été conçu pour une utilisation internationale.  Les trois domaines principaux ne peuvent pas être utilisés pour une recherche en dehors des États-Unis.  C'est là une des difficultés dans la recherche.  Aucun site de recherche ne propose une recherche dans les universités hors des États-Unis.  Aucun site de recherche ne propose une recherche dans les sites gouvernementaux hors des États-Unis.  Aucun site de recherche ne propose de recherches dans les sites militaires hors des États-Unis.  Tous les sites de recherche ont failli à leur tâche en ne proposant pas une solution.   Pour contourner ce problème, plusieurs pays ont adopté des sous-domaines.  Le .co suivi du suffixe de pays est utilisé pour identifier les commerces.  Les commerces britanniques ont .co.uk, ceux japonais ont .co.jp, les commerces australiens .co.au, etc.  Cependant, plusieurs pays comme le Canada et la France n'ont de domaines pour les entreprises.

   A la décharge du Canada, l'Autorité canadienne pour les enregistrements Internet, l'ACEI, prévoit offrir les noms de domaines de premier niveau génériques de trois lettres.  Voici le paragraphe 3.3 de ses Politiques, règles et procédures :
3.3 Noms réservés. L'ACEI établira une liste de noms réservés ne pouvant faire l'objet d'un enregistrement dans le registre de l'ACEI. Cette liste comprendra, notamment : a) les noms de domaine .ca canadiens de premier niveau de codes (.ca ccTLD) et tous les noms de domaine de premier niveau génériques de trois lettres (gTLD) existants (y compris .com.ca, .org.ca, .net.ca, .edu.ca, .gov.ca, .int.ca et .mil.ca). L'ACEI réservera le nom de domaine .mil.ca au ministère de la Défense nationale du Canada et l'enregistrera à son nom;

Source: Autorité canadienne pour les enregistrements Internet. (document consulté le 4 novembre 204). Politiques, règles et procédures de l'ACEI. Règles générales en matière d'enregistrement Version 3.4. [En ligne]. Ottawa, ACEI, 2004. p.17
http://www.cira.ca/fr/documents/2004/q3/GeneralRegistrationRules-3.4.pdf

Les préfixes de recherche

    Les sites de recherche ne se sont pas préoccupés de cette lacune.

    La majorité des sites de recherches permettent des requêtes par domaine générique de niveaux supérieurs (com, edu, gov, mil, net, org) et de zones géographiques (codes de pays).  Le domaine restreint une recherche à une entreprise, à une institution éducative, gouvernementale ou militaire, à un site dit « réseau », à une organisation et à un pays.  Parmi les noms de domaines de tête les plus communs, le « .mil » et le « .net » sont les moins utilisés dans une recherche générale.  Depuis, le 9 septembre 2001, le domaine .mil a repris du service.  Il est fort utilisé pour obtenir des informations sur le terrorisme et les guerres en Irak et en Afghanistan du point du vue des militaires étatsuniens.

Les formulaires de recherche

    Le formulaire de recherche est la porte d'entrer pour faciliter une recherche.  Il doit permettre à l'internaute d'élaborer efficacement sa stratégie de recherche.  Le champ domaine est un bon baromètre pour évaluer un formulaire.

    Le tableau ci-dessous donne les caractéristique des formulaires des principaux sites de recherche.  Nous remarquons que:

  • Tous les sites de recherche n'ont aucune liste des domaines.  Celles d'AltaVista n'étant pas facilement accessibles, elles sont considérées absentes.
  • Aucun site n'informe l'internaute des nouveaux noms de domaine dont fait partie .museum.
  • La majorité offre la recherche dans un domaine à l'exception d'AOL/Exalead.
  • L'exclusion du domaine est permis sur AlltheWeb, Exalead, Google et HotBot.
  • L'exclusion du domaine n'est pas permis sur AOL/Exalead, AltaVista, AntiSearch, Ask Jeeves / Teoma, Gigablast, MSN, Voila et Yahoo.
  • La liste des pays est disponible sur Exalead, HotBot France et Yahoo.
  • AntiSearch s'est spécialisé dans l'espace francophone.
  • HotBot donne accès aux domaines de têtes mais pas aux pays.  Son choix s'est porté sur les régions comme AlltheWeb.
  • Yahoo! est le seul site qui adapte le formulaire à sa clientèle.
Sites de recherche Liste des domaines
Domaine
Pays .com .edu .gov .mil .net .org .museum


Inclure Exclure







AOL / Exalead Non Non Non Non Non Non Non Non Non Non Non
AlltheWeb Non Oui Oui Partiel Non Non Non Non Non Non Non
AltaVista Oui Oui Non Non Non Non Non Non Non Non Non
AntiSearch Non Oui Non Oui Oui Non Oui Non Oui Oui Non
Ask Jeeves/Teoma Non Oui Non Non Non Non Non Non Non Non Non
Exalead Non Oui Oui Oui Non Non Non Non Non Non Non
Gigablast Non Oui Non Non Non Non Non Non Non Non Non
Google Non Oui Oui Non Non Non Non Non Non Non Non
HotBot Oui Oui Oui Non Oui Oui Oui Oui Oui Oui Non
HotBot.fr Non Oui Oui Oui Non Non Non Non Non Non Non
MSN Non Oui Non Non Non Non Non Non Non Non Non
Voila Non Oui Non Non Non Non Non Non Non Non Non
Yahoo Non Oui Non Oui Oui Oui Oui Non Non Oui Non
Yahoo Canada Non Oui Non Oui Oui Non Non Non Oui Oui Non
Yahoo France Non Oui Non Oui Oui Oui Oui Non Non Oui Non
Note:
AlltheWeb affiche le Canada et le Royaume Uni dans sa liste déroulante des régions.
Yahoo Canada affiche le domaine .ca dans sa liste.
Yahoo France affiche le domaine .fr dans sa liste.

    HotBot offre le meilleur formulaire pour la recherche par domaines dans les circonstances.  Il ne lui manque que la liste des pays pourtant affichée sur HotBot France. En définitive, aucune société de recherche ne peut prétendre aider l'internaute moyen à trouver l'information à partir des noms de domaines.  En une décennie de recherche, elles ont fait du sur-place.  Yahoo! a fait un bel effort, mais partiel.  Quel est l'intérêt dans la recherche des .net dans le formulaire de Yahoo! Canada, de la recherche dans les .edu et .gov - domaines exclusifs aux universités et au gouvernement des États-Unis -  dans le formulaire de Yahoo! France.  N'aurait-il pas été préférable une recherche dans le site du gouvernement canadien avec son domaine gc.ca et du gouvernement français avec son domaine gouv.fr ?

 

    Trois préfixes sont utilisés pour le champ domaine de tête.  Ces trois préfixes sont: domain:, site: et suburl:.  Voici le tableau des automates, des sites de recherche les utilisant et leur préfixe.  Il est à noter que le préfixe de Voila est inopérant malgré qu'il soit dans son guide d'utilisation.

Automates de recherche Sites de recherche Préfixes
Inktomi/Yahoo
domain:

Alltheweb

AltaVista

HotBot

MSN

Yahoo!
AntiSearch
Non disponible
Exalead
site:

AOL France

Exalead

Netscape France

Gigablast
suburl:

Gigablast
Google
site:

AOL

Google
Teoma
site:

Ask Jeeves

Teoma
Voila/Tout le web francophone



Voila
domain:

    Dans une recherche avancée, un domaine peut être choisi afin de trouver des documents à plus grande valeur informationnelle.  C'est pourquoi AOL/Exalead, AltaVista, AntiSearch, Ask Jeeves / Teoma, Gigablast, MSN, Voila et Yahoo ont privilégié cette approche.  Le retrait d'un domaine dans une stratégie de recherche est aussi un moyen d'atteindre ces documents.  S'ils ne peuvent être cherchés à l'aide d'un formulaire, ils le peuvent avec les préfixes de recherche.  Parmi les automates de recherche, seul Gigablast fait défaut dans l'exclusion des noms de domaines.

    Voici deux exemples de stratégie de recherche:

    1er exemple : La recherche sur le port du casque à bicyclette au Canada avec Yahoo! Canada.

    Yahoo! Canada - tout comme les autres interfaces de Yahoo! - a l'option de rechercher dans le pays hôte.

    La requête +casque +bicyclette -domain:com retire une grande partie des sites vendant ou fabriquant des casques de bicyclettes au Canada.

    Comparez ces trois requêtes.  La première requête fait une recherche en sélectionnant le web sans le domaine .com; la deuxième en soustrayant le domaine .com avec la sélection web et la dernière avec la sélection Canada.

    Le signe + est à titre indicatif.  Il est généralement l'opérateur par défaut.

+casque +bicyclette
+casque +bicyclette -domain:com (web) +casque +bicyclette -domain:com (Canada)
8 050 notices
3 300 notices 783 notices
(2 novembre 2004)

    La stratégie de recherche peut être raffinée jusqu'à l'atteinte du document pertinent.

    2ème exemple.  Recherche sur le commerce électronique.

    L'usage du champ domaine permet de restreindre une recherche en cherchant dans un domaine de tête ou en éliminant une.  Les deux domaines génériques les plus utiles pour la recherche son .com pour les sociétés et le .edu pour l'éducation.

    Pour rechercher des documents sur le commerce électronique avec Yahoo! Recherche, il est préférable de soustraire les entreprises qui font un tel commerce ou encore de restreindre la recherche aux universités étatsuniennes.  Comparez les trois requêtes:

"commerce électronique" "commerce électronique" -domain:com "commerce électronique" domain:edu
520 000 notices 293 000 notices 436 notices
"commerce électronique" originurlextension:pdf -domain:com
11 000 notices
(2 novembre 2004)

    La soustraction du domaine .com alliée à la recherche de documents pdf apporte une plus grande ampleur en englobant plus de documents que ne l'aurait fait le choix du domaine .edu qui, rappelons-le, est le domaine des universités étatsuniennes principalement.  Cela ne veut pas dire qu'il faut écarter ce dernier dans sa stratégie de recherche.

Conclusion

    Internet demeure la chasse gardée des États-Unis en ce qui concerne la diffusion de l’information de haut savoir.  Il est plus facile d’obtenir de l’information en provenance des institutions étatsuniennes que d’autres pays.  Même Google est en retard dans le développement de ce type de recherches au regard du vénérable Hotbot.  Aucun site de recherche généraliste n'a tenté d'offrir une solution pour donner le pendant au domaine .edu, .gov et .mil.  Il est surprenant que les universités hors des États-Unis n'aient pas fait de pressions pour qu'il y ait un nom de domaine qui leur soit propre.  Heureusement qu'il y a Scirus pour les recherches savantes.  Il est tout aussi étonnant que les pays tels que le Canada n’aient pas encore  réagi à l'hégémonie étatsunienne.  L'ACEI propose de remédier à cette situation.  Est-ce qu'elle aura suffisamment d'ascendant pour faire adopter les nouveaux noms de domaine génériques de trois lettres ?


Page précédente: Le champ URL
Retour au début de la page
Page suivante: Le champ Format de fichiers

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: info[AT]dsi-info.ca
Adresse de cette page : Marc Duval. (Page créée le 1er août 2000).  «Langage de recherche: le champ Domaine de tête». [En ligne]. Longueuil. Québec, ©2000-2004. http://www.dsi-info.ca/moteurs-de-recherche/langages/champ-domaine.html
Cette page a été éditée le 1er août 2000.
Hit-Parade
©2000-2004. Marc Duval