DSI. Le langage de recherche: le champ de recherche

Les sites de recherche ont développé des préfixes de recherche comme nous l'avons vu avec AltaVista. Le but de ce chapitre est d'identifier chacun de ces champs, leur utilisation et le préfixe correspondant utilisé par chacun des sites de recherche.
Les champs de recherche sont aussi utilisés pour l'affichage. C'est ce qui clora ce chapitre. En voici les parties:

1.07 Champ URL

Tous les automates de recherche majeurs se servent de l'adresse URL pour classer les pages. Chacun lui porte une importance propre dans leur algorithme de classement. La plupart d'entre eux permettent la recherche dans l'URL. Ainsi, l'adresse URL est aussi important que le méta-titre dans le cadre d'une recherche web. C'est pourquoi elle doit correspondre au sujet de la page.

La recherche dans l'URL

L'usage d'un préfixe de recherche ou de la recherche dans l'URL n'est pas uniforme. Dix automates ont été soumis à un test portant sur la recherche à l'aide du formulaire et avec les préfixes de recherche. Ces automates sont: AlltheWeb, AltaVista, AntiSearch, AOL/Exalead, Gigablast, Google, Inktomi/MSN, Teoma, Tout le web francophone de Voila et WiseNut. Parmi ces automates, ni AntiSearch, ni AOL/Exalead, ni Inktomi/MSN, ni WiseNut n'exploitent la recherche par URL.

D'autre part, ni AltaVista, ni Gigablast n'ont de recherche dans l'URL dans leur formulaire, mais avec préfixe de recherche.

La performance de la recherche dans l'URL

La performance de la recherche dans l'URL est variable. Google, Teoma et Voila ont révélé une faiblesse dans leur résultat de recherche en laissant passer des URL sans les mots de la requête pour les deux premiers et en désactivant cette recherche à la page suivante pour Tout le Web francophone de Voila. Le problème de Voila est résolu partiellement en paramètrant les préférences à 100 références par page. Voila a une autre particularité: il intègre des adresses de son répertoire à la recherche par URL entre autres.

L'interface de recherche

L'interface de recherche a aussi une influence sur l'efficacité de la recherche. AlltheWeb et AltaVista ont une case spécifique pour l'utilisation des préfixes: la recherche avec l'expression booléenne. La recherche à l'aide des libellés d'AlltheWeb apporte moins de références que celle avec le préfixe de recherche. De plus, la recherche de préfixes à partir de la page d'accueil est moins performante pour les deux sites de recherche.

Les règles d'écriture

La syntaxe ou les règles d'écriture sont différentes d'un automate à l'autre. Le trait de soulignement est accepté par AltaVista, Gigablast, Teoma et Voila, mais pas par AlltheWeb ni par Google. Pour avoir une recherche globale sur ces deux derniers automates, il faut faire deux recherches séparées: l'une avec une requête normale et la seconde avec le trait de soulignement comme ceci avec Google: 1ère requête -> allinurl: moteurs recherche; 2ème requête -> inurl:moteur_recherche. L'opérateur d'union OR ne fonctionne pas avec une requête composée de deux mots du même champ URL.

Tableaux

Les deux tableaux ci-dessous donnent la performance de chacun des automates de recherche pour la recherche dans le champ URL.

Tableau de la syntaxe du champ URL.

	AlltheWeb	AltaVista	Gigablast	Google	Teoma	Voila
Formulaire de recherche	Oui	Non	Non	Oui	Oui	Oui
Préfixes de recherche	url:	url:	suburl:	inurl: / allinurl:	inurl:	url:
Espace	Oui	Oui	Oui	Oui	Oui	Oui
Plus (+)	Oui	Oui	Oui	Oui	Oui	Oui
Point et virgule	Oui	Oui	Oui	Oui	Oui	Oui
Trait de soulignement	Non	Oui	Oui	Non	Oui	Oui
Trait d'union	Oui	Oui	Oui	Oui	Oui	Oui
Requête dans l'URL	Oui	Oui	Oui	Non	Non	Oui

Sites de recherche n'exploitant pas le champ URL

AntiSearch

AOL/Exalead

Inktomi (Hotbot, MSN)

WiseNut

Palmarès des logiciels de recherche selon la performance du champ URL

Position	Automates de recherche
1er	Gigablast
2ème	AltaVista
3ème	AlltheWeb
4ème	Voila
5ème	Google
6ème	Teoma
7ème	AntiSearch / Exalead (AOL)/ Inktomi(Hotbot-MSN) / WiseNut

Conclusion:

Le seul automate de recherche qui répond bien à la recherche dans le champ URL est Gigablast. Il recherche les mots quelque soit la syntaxe utilisée. Cet automate n'est pas exempt de critiques. Il aurait besoin de deux améliorations: la recherche dans l'URL dans son formulaire de recherche et la recherche d'un terme manquant dans la page entière. En effet, Gigablast divise son résultat de recherche en deux parties. La première partie est constituée du résultat répondant à la requête, la seconde partie comprend les résultats qui ont l'un ou l'autre terme de recherche. Dans la recherche dans l'URL, Gigablast aurait avantage à reformuler la requête en mettant le terme absent dans l'URL dans la recherche de la page. AlltheWeb a une fonction de reformulation pour les requêtes simples et Google dans une moindre mesure.

Le défaut d'AltaVista et des automates suivants résident dans l'interface d'interrogation. Leur case de recherche d'accueil semble avoir un algorithme différent de celui de leur formulaire de recherche. C'est plus évident chez AlltheWeb dont le nombre de références augmente avec le formulaire et davantage avec le préfixe de recherche. Ce phénomène n'a pas d'incidence lorsque le nombre de références retourné est supérieur à 100, nombre de références maximum par pages. Cela devient inquiétant lorsqu'il est inférieur à 100. Une page pertinente pourrait être absente d'une recherche de base dans l'URL.

Google, le roi de la recherche simple, demeure indigent pour la recherche avancée. En plus de pas reconnaître les termes unis par un souligné, il retourne des URL dans lesquelles il n'y a pas les termes de recherche, sans doute une influence néfaste de son PageRank.

Teoma, qui a une filiation avec Google, accentue le retour d'URL sans mots de la requête.

Gigablast est à surveiller. Il s'annonce être le vrai challenger de Google en autant que le concepteur sache s'entourer aussi bien de MM. Page et Brin.

Introduction	Opérateurs booléens	Opérateurs de proximité	Troncature
Champs de recherche	Requêtes complexes	Conclusion	Formulaire de recherche
Tableaux	Les opérateurs logiques	Les champs de recherche	Affichage et fonctions

Le langage
des automates de recherche:

Champs et sites de recherche

1.07 Champ URL

La recherche dans l'URL

La performance de la recherche dans l'URL

L'interface de recherche

Les règles d'écriture

Tableaux

Conclusion:

Le langage des automates de recherche:

Champs et sites de recherche

1.07 Champ URL

La recherche dans l'URL

La performance de la recherche dans l'URL

L'interface de recherche

Les règles d'écriture

Tableaux

Conclusion:

Le langage
des automates de recherche: