Service de recherche documentaire

par Marc Duval, bibliothécaire

Les automates de recherche

Dernière mise à jour 2004-06-05

Introduction	Opérateurs booléens	Opérateurs de proximité	Troncature
Champs de recherche	Requêtes complexes	Conclusion	Formulaire de recherche
Tableaux	Les opérateurs logiques	Les champs de recherche	Affichage et fonctions

Accueil

Introduction

La nature du web

Le mot clé

Les automates de recherche

Le classement des automates de recherche

Les répertoires

Les banques de données

Le web universitaire

Le palmarès des villes: un exemple de recherche

Le carnet de recherche

Les actualités

Les brèves

A découvrir

[dsi]

Searchspider, une araignée qui tronque énormément

Dipsie, en développement

Ujiko, Yahoo! avec une mémoire d'éléphant

Mooter, un automate dans les lymbes

ZapMeta, un meta chercheur. Tri et vignettes au menu

Fazzle, un supermétamoteur

Gigablast, encore un peu bêta

Turbo10, un métamoteur britannique

MapStanSearch, un métamoteur avec mémoire

Yuntis, un prototype bientôt sur vos écrans

Gripe, un chercheur de forums en bêta

Rolist fait tourner les têtes... de liste

PicSearch recherche des images

Bonnetoile, l'actualité revue

Lookle, le nouveau venu d'Australie

Teoma, le cousin de NorthernLight

Vivisimo, méta nouveau

Search4science, un site de recherche en sciences

Ithaki, métachercheur

Kartoo, un nouveau métachercheur

Un fureteur 3D

alabi, un répertoire de recherche belge

Eclairnet , un index de la France, comprend une liste de 28 mots-clés thématiques

Subjex dialogue avec vous.

FermiVista! Une bdd d'articles scientifiques.

Rank, un nouveau répertoire

Fossick, un nouveau répertoire de sites de recherche

Scirus, un site de recherche en sciences.

Singingfish, un site légal de recherche de musique.

meta360, un métachercheur qui coupe les coins ronds

Bledo!, un répertoire français avec une ambition internationale

SearchHound, un nouveau limier

Guidebeam, une interface à Google proposant de vrais mots-clés !

Metor, un métachercheur

A découvrir

Search Online, un supermétamoteur

Gigablast, encore un peu bêta

Turbo10, un métamoteur britannique

MapStanSearch, un métamoteur avec mémoire

Yuntis, un prototype bientôt sur vos écrans

Gripe, un chercheur de forums en bêta

Rolist fait tourner les têtes... de liste

PicSearch recherche des images

Bonnetoile, l'actualité revue

Lookle, le nouveau venu d'Australie

Teoma, le cousin de NorthernLight

Vivisimo, méta nouveau

Search4science, un site de recherche en sciences

Ithaki, métachercheur

Kartoo, un nouveau métachercheur

Un fureteur 3D

alabi, un répertoire de recherche belge

Eclairnet , un index de la France, comprend une liste de 28 mots-clés thématiques

Subjex dialogue avec vous.

FermiVista! Une bdd d'articles scientifiques.

Rank, un nouveau répertoire

Fossick, un nouveau répertoire de sites de recherche

Scirius, un site de recherche en sciences

Singingfish, un site légal de recherche de musique

meta360, un métachercheur qui coupe les coins ronds

Bledo!un répertoire français avec une ambition internationale

SearchHound, un nouveau limier

Guidebeam, une interface à Google proposant de vrais mots-clés !

Metor, un métachercheur

AVANT-PROPOS

Ce chapitre est en révision. C'est pourquoi vous y trouverez des liens qui ne sont pas encore actifs, d'autres qui réfèrent à d'anciennes pages ou encore des liens inactifs. Je vous invite à revenir régulièrement afin de mettre à jour sur les dernières nouveautés des automates de recherche.

La recherche sur Internet, et plus spécifiquement sur le web, est exécutée à partir de sites de recherche. Ces sites sont constitués de trois parties: une ou des banques de données, des logiciels qui parcourent le web - appelés «robot», et d'un logiciel d'interrogation. D'autres logiciels compagnons peuvent s'y greffer pour optimiser les recherches. En plus des «robots», les banques de données sont alimentées par des référenceurs. Ces sites sont communément appelés «moteurs de recherche» ou «engins de recherche» - les «search engines» états-uniens ou familièrement SE qui sont en fait des index. Parce que ces banques de données sont alimentées automatiquement, le terme le plus approprié est «automates de recherche». Les sociétés propriétaires des automates de recherche sont des fournisseurs d'information.

Certaines banques de données ont leur propre logiciel d'interrogation, comme Google, alors que d'autres sites utilisent un logiciel et une banque de données d'un tiers comme HotBot avec Inktomi (1). Afin d'amortir leur coût de développement, les fournisseurs d'information louent par contrat leur service à des répertoires ou des portails ou vendent leur logiciel. Par exemple, la société Google inc. loue sa banque de données Google au portail AOL. Tous ces sites ont des interfaces graphiques qui permettent l'interrogation de leur banque de données. Ces interfaces graphiques ont soit une fenêtre d'interrogation, soit un formulaire, soit une combinaison des deux formes précédentes. Quelle que soit la recherche, l'interrogation demeure fondamentalement la même. Cependant, certains sites ont un langage simple alors que d'autres plus évolué.

Tout compte fait, l'important est le résultat. Or, les résultats d'une recherche ne correspondent pas toujours à la requête. La première raison tient à la rédaction d'une page web et la seconde au moment de l'indexation. Bien que la plupart des sites de recherche ont un robot parcourant le web, le temps de rafraîchissement est souvent long. Il peut s'écouler plusieurs semaines, voire plusieurs mois, avant que le logiciel robot indexe de nouveau une page (2). Entre-temps, le contenu de la page peut avoir été modifié ou la page déplacée ou retirée. De là viennent l'inadéquation entre une requête et un document trouvé, et les pages d'erreurs telles que le notoire code 404 (page introuvable). Lors d'une modification, c'est au webmestre de soumettre de nouveau ces pages aux automates de recherche.

D'autre part, la majorité des sites d'automates de recherche ont ajouté des répertoires et vice-versa. Pour confondre davantage les internautes, des liens commandités apparaissent selon la requête. Les uns et les autres s'entremêlent. Dans le résultat d'une recherche, les premières références sont celles généralement des liens commandités, puis viennent celles du répertoire identifiés par la rubrique, enfin les références des automates. Certains sites divisent clairement le résultat provenant des liens commandités, du répertoire et de l'automate de recherche. Dans la plupart des cas, l'utilisation d'un langage évolué différencie un répertoire d'un automate de recherche. Le répertoire et l'automate de Yahoo! sont des exemples; chacun ayant leur propre langage de recherche.

A côté des automates traditionnels, une autre catégorie se dessine : l'automate «de notoriété» avec Google et Teoma. L'automate envoie ses robots parcourir le web d'hyperliens en hyperliens, ici rien de nouveau. La nouveauté vient du traitement que fait le logiciel de recherche qui utilise la page citée comme premier critère de classement. Une relation statistique est ainsi établie entre les hyperliens. Plus une page fait référence par hyperlien à un site notoire (ex.: Yahoo, AltaVista), mieux peut-elle être positionnée. Mais contrairement à ce que l'on peut penser, la page pertinente n'est pas toujours celle apparaissant dans le résultat mais celle mise en hyperlien qui peut être absente de la banque de données de l'automate. Il peut s'ensuivre une apparence de non pertinence lorsque l'hyperlien est caché, se trouve dans un long texte ou est utilisé à mauvais escient. Le jeu de Google Bombing profite de cette faille. L'exemple le plus spectaculaire a pour sujet Microsoft et la requête «go to hell» (3).

Une page n'ayant aucune référence et n'étant référencée sur aucune autre page par hyperlien, bref une page orpheline demeurera inconnue de l'automate. Ces pages font partie du web invisible. Jusqu'à maintenant, Google inc. est la seule société à prendre pleinement profit de cette méthode de recherche : l'analyse des hyperliens. Notez que plusieurs auteurs confondent les «liens de notoriété» et les «liens de popularité». Les liens de popularité sont des liens «cliqués» par les internautes puis compilés par le site de recherche. Le plus célèbre est le défunt Direct Hit qui établissait des statistiques sur les pages consultées.

Aujourd'hui, la plupart des automates ont intégré dans leur logiciel de recherche le lien de notoriété sans tambours ni trompettes. Ils intègrent maintenant une technologie qui évalue les liens de notoriété et de popularité.

Du côté de Google, nous pouvons observer un rapprochement avec les logiciels traditionnels. Il ajoute de plus en plus de recherche par champs et par fonctions. Son programme Page Rank qui est le noyau de son système de classement de pages, est de plus en plus critiqué. Régulièrement, Google réagit aux critiques en modifiant son programme informatique.

L'analyse des automates de recherche aux États-Unis est bien documentée ; ceux en français le sont peu. Bien que beaucoup de sites mettent en tableau les principales fonctions des automates de recherche, ils sont avares d'explications. Ce qui l'est encore moins est leurs fonctions de recherche avancées sous la forme d'un tableau clair et pratique. Ce dossier n'a pas la prétention de répondre à cette lacune, mais d'ajouter une pierre à l'édification de la recherche sur le web. C'est à vous d'en juger.

Ce document est divisé en 10 parties :

Les fiches techniques
1.Les opérateurs logiques
2.Les opérateurs de proximité
3. Les requêtes complexes (en révision)
4. La troncature
5. La recherche par champs
    5.1 Le champ « texte »
    5.2 La casse (majuscule et minuscule)
    5.3 Les signes diacritiques
    5.4 Le correcteur orthographique
5.5 La taille du fichier
6. Le champ « langue »
    6.03 Champ Domaine géographique
    6.04    Champ Méta-titre
    6.05    Champ Méta-description
    6.06    Champ Meta Keywords (méta-mots)
    6.07    Champ URL
    6.08    Champ Serveur
    6.09    Champ Domaine de tête
    6.10    Champ Type de document (en révision)
    6.11    Autres champs (en révision)
7. La fonction d'affichage (en révision)
8. La fonction de tri et la pertinence des résultats (en révision)
9. Les champs divers et recherche de documents multimédia (en révision)
10. Le formulaire de recherche web. (en révision)
Les tableaux
Les opérateurs de recherche
Les champs Texte et URL
Les champs divers
Affichage et fonctions

Classement des automates de recherche

La dseptième partie est un formulaire de recherche adapté au web. La huitième, les tableaux, est consultable en sélectionnant l'onglet du menu en exergue ou le titre du tableau ci-dessus.

Des hyperliens relient chaque titre à son chapitre. Inversement, chaque titre de chapitre est «hyperlié» au menu. Des hyperliens ont été aussi insérés dans les tableaux pour relier chaque automate de recherche à son propre tableau, à l'adresse de son site et à l'adresse de la page d'aide. Enfin des hyperliens de chaque page permettent de feuilleter aisément le dossier.

Vingt sites de recherche et leur pendant en français lorsqu'il est disponible et différent du site original, font l'objet des tableaux. Lorsque l'interface en français existe pour plusieurs pays, c'est celle du Canada qui est privilégiée. Ainsi ont été ajoutés AltaVista Canada, Google Canada et Yahoo! Canada en français. Enfin, d'autres automates pourront s'ajouter dans l'avenir et même être retranchés. Les tableaux seront publiés en format pdf pour qu'ils puissent être imprimés sur une feuille de format standard. Les prochaines mises à jour intégreront les nouvelles fonctions de plusieurs automates de recherche.

Voici le tableau des sites de recherche. La lettre [Y] représente Yahoo :


Les automates de recherche		AlltheWeb (Inktomi [Y])	AltaVista [(Inktomi [Y])	AOL (Exalead / Google)
Gigablast	Google	HotBot (Inktomi [Y])	MSN Search (Inktomi [Y])	Northern Light
Teoma	Tout le web francophone (Voila)	WiseNut		Yahoo! Search

Les répertoires

Nomade
(Inktomi [Y])

La Toile du Québec
(Google)

Yahoo! Répertoire


Les portails	AOL (Google)	Excite France (Inktomi [Y])	GlobeTrotter (Inktomi [Y])	Lycos (Inktomi [Y])	Sympatico (Inktomi [Y]

En 1999, les automates de recherche ont été portés par la vague des portails et de leur rapprochement avec les répertoires. En 2000, ils reviennent à leur essence grâce à l'émulation du benjamin : Google. En 2001, Google a poursuivi son développement tout azimut et AllTheWeb son développement tranquille. Dans la conquête des portails, Fast Search et Google se partagent les sites. En 2002, nous voyons la résurgence d'AltaVista et son achat par Overture qui acquiert aussi AlltheWeb. Yahoo! participe aux acquisitions en devenat propriétaire d'Inktomi. En 2003, Yahoo! poursuit sa stratégie en absorbant Overture, recevant dans sa besace AlltheWeb et AltaVista. En 2004, Yahoo! remplace Google par un nouveau service de recherche issu d'Inktomi renommé Yahoo! Search Technlogy. Tous les sites ayant AlltheWeb l'ont remplacé par la suite par Inktomi mais avec des variantes dans la dimension de l'index et leurs langages de recherche.

Chaque mois nous amène modifications et améliorations tant et si bien qu'il devient difficile de les suivre avec des mises à jours régulières. La personnalisation de la recherche, les alertes, les barres d'outils et les raccourcis ont pris de l'ampleur. C'est pourquoi les actualités et un carnet sur les sites de recherche ont été introduits en les attendant.

Marc Duval

Bibliothécaire professionnel

Inktomi Corporation.(Page consultée le 18 novembre 2002). «Web search OEM partners». [En ligne].© 2000. http://www.inktomi.com/products/web_search/partners.html (Haut)
Martijn Koster. (Page consultée le 18 novembre 2002). «The Web Robots Pages». [En ligne]. © 1995?. http://www.robotstxt.org/.(Haut)
John Lettice. (Page consultée le 18 novembre 2002) «Microsoft tops Google hell search rankings» in The Register, 18 septembre 2002. http://www.theregister.co.uk/content/28/27179.html

Pour en savoir plus, un dossier sur les automates de recherche :

Clifford Lynch. «La recherche d'informations : Les bibliothécaires devront s’allier aux informaticiens pour que cesse l’anarchie qui règne sur l’Internet» [En ligne] in Pour La science, N° 235, mai 1997. © Pour la Science (1997) (Page consultée le 18 novembre 2002).
http://www.pour-la-science.com/numeros/pls-235/internet/lynch.htm


Accueil	Retour au début	Les opérateurs de recherche

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel info[AT]dsi-info.ca

Adresse de cette page : Marc Duval. (Page créée le 12 février 2000, mise à jour le 18 novembre 2002). «Le langage des automates de recherche». [En ligne]. Boucherville. Québec, ©2000, 2002. http://www.dsi-info/moteurs-de-recherche.html

Cette page a été éditée le 12 février 2000. Dernière modification : 18 novembre. 2002. Première date de publication : 14 février 2000.
©2000-2002. Marc Duval.

Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet ; recherche de l'information ; recherche documentaire ; ouvrages de références / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation