Service de recherche documentaire
Service de recherche documentaire DSI

par Marc Duval, bibliothécaire

Le langage
des automates de recherche:

Le champ de recherche URL
2003-12-01

Introduction
Opérateurs  booléens
Opérateurs de proximité
Troncature
Champs de recherche
Requêtes complexes
Conclusion
Formulaire de recherche
Tableaux
Les opérateurs logiques
Les champs de recherche
Affichage et fonctions

.
Accueil DSI
Introduction
La nature du web
Le mot clé
Les automates de recherche
-Les fiches techniques
-Le langage de recherche
Le classement des automates de recherche
Les répertoires
Les banques de données
Le web universitaire
Le palmarès des villes: un exemple de recherche
Le carnet de recherche
Les actualités
Les brèves



Champs et sites de recherche

    Les sites de recherche ont développé des préfixes de recherche comme nous l'avons vu avec AltaVista.  Le but de ce chapitre est d'identifier chacun de ces champs, leur utilisation et le préfixe correspondant utilisé par chacun des sites de recherche.
    Les champs de recherche sont aussi utilisés pour l'affichage.  C'est ce qui clora ce chapitre. En voici les parties:


1. - Les champs
     1.01    Champ Texte
        1.011    La casse
        1.012    Les signes diacritiques
        1.013    Le correcteur orthographique
        1.014    La taille du fichier
                    Tableau
    1.02    Champ Langue
    1.03    Champ Domaine géographique
    1.04    Champ Méta-titre
    1.05    Champ Méta-description
    1.06    Champ Meta Keywords (méta-mots)
    1.07    Champ URL
    1.08    Champ Serveur
    1.09    Champ Domaine de tête
    1.10    Champ Format de fichiers
    1.11    Champ Hyperlien
    1.12    Champ Dates
[en préparation]

2. - Affichage
    2.01    Les formats d'affichage
    2.02    Le tri


1.07    Champ URL

    Tous les automates de recherche majeurs se servent de l'adresse URL pour classer les pages. Chacun lui porte une importance propre dans leur algorithme de classement.  La plupart d'entre eux permettent la recherche dans l'URL.   Ainsi, l'adresse URL est aussi important que le méta-titre dans le cadre d'une recherche web.   C'est pourquoi elle doit correspondre au sujet de la page.

La recherche dans l'URL

    L'usage d'un préfixe de recherche ou de la recherche dans l'URL n'est pas uniforme.  Dix automates ont été soumis à un test portant sur la recherche à l'aide du formulaire et avec les préfixes de recherche.  Ces automates sont: AlltheWeb, AltaVista, AntiSearch, AOL/Exalead, Gigablast, Google, Inktomi/MSN, Teoma, Tout le web francophone de Voila et WiseNut.  Parmi ces automates, ni AntiSearch, ni AOL/Exalead, ni Inktomi/MSN, ni WiseNut n'exploitent la recherche par URL.

    D'autre part, ni AltaVista, ni Gigablast n'ont de recherche dans l'URL dans leur formulaire, mais avec préfixe de recherche.

La performance de la recherche dans l'URL

    La performance de la recherche dans l'URL est variable.  Google, Teoma et Voila ont révélé une faiblesse dans leur résultat de recherche en laissant passer des URL sans les mots de la requête pour les deux premiers et en désactivant cette recherche à la page suivante pour Tout le Web francophone de Voila.  Le problème de Voila est résolu partiellement en paramètrant les préférences à 100 références par page.  Voila a une autre particularité: il intègre des adresses de son répertoire à la recherche par URL entre autres.

L'interface de recherche

    L'interface de recherche a aussi une influence sur l'efficacité de la recherche.  AlltheWeb et AltaVista ont une case spécifique pour l'utilisation des préfixes: la recherche avec l'expression booléenne.  La recherche à l'aide des libellés d'AlltheWeb apporte moins de références que celle avec le préfixe de recherche.  De plus, la recherche de préfixes à partir de la page d'accueil est moins performante pour les deux sites de recherche.

Les règles d'écriture

    La syntaxe ou les règles d'écriture sont différentes d'un automate à l'autre.  Le trait de soulignement est accepté par AltaVista, Gigablast, Teoma et Voila, mais pas par AlltheWeb ni par Google.  Pour avoir une recherche globale sur ces deux derniers automates, il faut faire deux recherches séparées: l'une avec une requête normale et la seconde avec le trait de soulignement comme ceci avec Google: 1ère requête -> allinurl: moteurs recherche; 2ème requête -> inurl:moteur_recherche.  L'opérateur d'union OR ne fonctionne pas avec une requête composée de deux mots du même champ URL.

Tableaux

    Les deux tableaux ci-dessous donnent la performance de chacun des automates de recherche pour la recherche dans le champ URL.


Tableau de la syntaxe du champ URL.

AlltheWeb AltaVista Gigablast Google Teoma Voila
Formulaire de recherche Oui Non Non Oui Oui Oui
Préfixes de recherche url: url: suburl: inurl: / allinurl: inurl: url:
Espace Oui Oui Oui Oui Oui Oui
Plus (+) Oui Oui Oui Oui Oui Oui
Point et virgule Oui Oui Oui Oui Oui Oui
Trait de soulignement Non Oui Oui Non Oui Oui
Trait d'union Oui Oui Oui Oui Oui Oui
Requête dans l'URL
Oui
Oui
Oui
Non
Non
Oui

Sites de recherche n'exploitant pas le champ URL

AntiSearch
AOL/Exalead
Inktomi (Hotbot, MSN)
WiseNut

Palmarès des logiciels de recherche selon la performance du champ URL

Position
Automates de recherche
1er
Gigablast
2ème
AltaVista
3ème
AlltheWeb
4ème
Voila
5ème
Google
6ème
Teoma
7ème
AntiSearch / Exalead (AOL)/ Inktomi(Hotbot-MSN) / WiseNut

Conclusion:

    Le seul automate de recherche qui répond bien à la recherche dans le champ URL est Gigablast.  Il recherche les mots quelque soit la syntaxe utilisée.  Cet automate n'est pas exempt de critiques.  Il aurait besoin de deux améliorations: la recherche dans l'URL dans son formulaire de recherche et la recherche d'un terme manquant dans la page entière.  En effet, Gigablast divise son résultat de recherche en deux parties.  La première partie est constituée du résultat répondant à la requête, la seconde partie comprend les résultats qui ont l'un ou l'autre terme de recherche. Dans la recherche dans l'URL, Gigablast aurait avantage à reformuler la requête en mettant le terme absent dans l'URL dans la recherche de la page.  AlltheWeb a une fonction de reformulation pour les requêtes simples et Google dans une moindre mesure.

    Le défaut d'AltaVista et des automates suivants résident dans l'interface d'interrogation.  Leur case de recherche d'accueil semble avoir un algorithme différent de celui de leur formulaire de recherche.  C'est plus évident chez AlltheWeb dont le nombre de références augmente avec le formulaire et davantage avec le préfixe de recherche.  Ce phénomène n'a pas d'incidence lorsque le nombre de références retourné est supérieur à 100, nombre de références maximum par pages. Cela devient inquiétant lorsqu'il est inférieur à 100.  Une page pertinente pourrait être absente d'une recherche de base dans l'URL.

    Google, le roi de la recherche simple, demeure indigent pour la recherche avancée.  En plus de pas reconnaître les termes unis par un souligné, il retourne des URL dans lesquelles il n'y a pas les termes de recherche, sans doute une influence néfaste de son PageRank.

    Teoma, qui a une filiation avec Google, accentue le retour d'URL sans mots de la requête.

    Gigablast est à surveiller.  Il s'annonce être le vrai challenger de Google en autant que le concepteur sache s'entourer aussi bien de MM. Page et Brin.



Page précédente: Le champ Méta-keyword
Retour au début de la page
Page suivante: Le champ Serveur

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: info@dsi-info.ca
Adresse de cette page : Marc Duval. (Page créée le 1er août 2000).  «Langage de recherche: le champ keywords». [En ligne]. Longueuil. Québec, ©2000-2003. http://www.dsi-info.ca/moteurs-de-recherche/langages/champ-url.html
Cette page a été éditée le 1er août 2000.


Hit-Parade
©2000-2003. Marc Duval