Amazon : Livres sur la recherche web


DSI. Le carnet des sites de recherche

par Marc Duval, bibliothécaire prof.
Service de recherche documentaire DSI
Boucherville. Québec. Canada

Contrat Creative Commons
Mise à disposition sous un contrat Creative Commons.

Index abrégé du site de DSI : Les actualités des sites de recherche
Les fiches techniques: AlltheWeb, AltaVista, AntiSearch, Google, HotBot, MSN Search, Northern Light, Voila - Tout le web francophone
/ Chronique de la recherche / Classement des automates de recherche / Les langages des automates de recherche
/ Le mot-clé / La nature du web / Le nom de domaine

Descripteurs : Bibliothèques ; (vedettes matières) : recherche sur Internet ; recherche de l'information ; recherche documentaire ; ouvrages de références ; gestion de l'information / Nomade : recherche sur le Web ; blogs / ODP : recherche sur le Net ; weblogs / Toile du Québec : gestion de l'information ; Internet - Guides ; guides perfectionnement à la recherche ; blogues / Voila : internet - recherche d'info sur le web ; blogues / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation ; blogs / Pages jaunes: renseignements-service Longueuil / Identificateurs : moteurs de recherche ; moteur de recherche ; répertoires de recherche ; répertoire de recherche ; annuaires de recherche ; annuaire de recherche

Ancien site ( dernier message  [2005-05-24] MSN sur les traces de Google Maps)
[Atom] /
Description, analyse et commentaire sur les sites de recherche.

Google
 
Web www.dsi-info.ca
Actualités des sites de recherche avec http://www.wikio.fr/high-tech/internet/moteurs_de_recherche.

2007-02-09

 

Le tri par pertinence est-il fiable?


Le tri par pertinence est-il fiable? -- Il se publie sur le web des articles de sites suffisamment réputés pour que l'on ne les remette pas en doute. C'est le cas de Technaute de Cyberpresse, site d'informations du groupe Gesca possédant entre autres les grands journaux La Presse de Montréal et Le Soleil de Québec. Voici la chronique intitulée Le tri par pertinence est-il fiable ? apparemment sans reproche pour tout lecteur dans la section Conseil de pros.

Examinons quelques affirmations. Selon l'auteur, « il
existe plusieurs milliers de moteurs de recherche, dont une centaine de principaux. ». Le lien mène vers l'article en anglais «Search Engine » de Wikipedia. Un lien vers l'article en français aurait été tout aussi bien. En fait, il y a en quatre principaux : Ask, Google, Microsoft Live Search et Yahoo! Search, et deux secondaires : Exalead et Gigablast. Les autres sont des acteurs mineurs.

Selon l'auteur, les «moteurs de recherche» «s'appuient sur des algorithmes sémantiques pour indexer chacun des documents présents dans la base de données.» Les algorithmes ne sont pas sémantiques, ils sont statistiques et ils se basent sur les champs d'une page web (titre, URL, domaine, etc.), la position des mots entre eux et dans la page, leurs formats (sous-titre, casse, l'apparence de la police - gras, italique, etc. -, hyperliens... ), l'analyse des hyperliens entrants et sortants... , comme l'auteur l'écrit d'ailleurs! Les algorithmes sémantiques sont encore dans les laboratoires. Powerset est le logiciel de recherche web en préparation utilisant la recherche sémantique. Parmi les sites de recherche majeurs, Google donne un avant-gout avec son opérateur de synonyme (le tilde ~ ). Mais ce n'est pas encore de la recherche sémantique. Du côté européen, le projet allemand Theseus a pour but d'en développer un.

L'auteur semble ne pas maitriser ni la recherche sémantique, ni la recherche statistique, ni les concepts de moteur de recherche et de métachercheur tout comme Wikipedia en français dont Gigablast est identifié à un métachercheur alors qu'il est un automate de recherche (mais pas dans l'article en anglais de Wikipedia).

D'après l'auteur, certains «moteurs de recherche» privilégient les sites d'entreprises et d'autres non avec un exemple à l'appui sur Altavista.fr (qui n'est pas un «moteur de recherche» mais un «site de recherche» utilisant Yahoo! Search.) et Google.fr. Dans son exemple, il y a une erreur de méthodologie de recherche dans la comparaison. Sur AltaVista.fr, la recherche est limitée à la France ; sur Google.fr aux pages francophones. En limitant la recherche à la France sur Google, le résultat est similaire.

Il est heureux qu'il n'y ait pas de référence à DSI-info. Je serais gêné d'être cité.

Cela étant écrit, nul n'est sans tache.

En complément de lecture :

La ?cherche? se cherche? - L?approche technologique, Transnets (carnet Web de Francis Pisani), 23 janvier 2007

Libellés : , ,


[Atom] /

<< Home

Bienvenue au Carnet des sites de recherche. Vous trouverez dans ce carnet mes observations sur les sites de recherche autant états-uniens, canadiens que français. Si vous découvrez quoi que ce soit sur l'un ou l'autre site, n'hésitez pas à me contacter. Je me ferais un plaisir d'ajouter votre contribution.