Le tri par pertinence est-il fiable? -- Il se publie sur le web des articles de sites suffisamment réputés pour que l'on ne les remette pas en doute. C'est le cas de Technaute de Cyberpresse, site d'informations du groupe Gesca possédant entre autres les grands journaux La Presse de Montréal et Le Soleil de Québec. Voici la chronique intitulée Le tri par pertinence est-il fiable ? apparemment sans reproche pour tout lecteur dans la section Conseil de pros.
Examinons quelques affirmations. Selon l'auteur, « il existe plusieurs milliers de moteurs de recherche, dont une centaine de principaux. ». Le lien mène vers l'article en anglais «Search Engine » de
Wikipedia. Un lien vers l'article en français aurait été tout aussi bien. En fait, il y a en quatre principaux :
Ask,
Google,
Microsoft Live Search et
Yahoo! Search, et deux secondaires :
Exalead et
Gigablast. Les autres sont des acteurs mineurs.
Selon l'auteur, les «moteurs de recherche» «s'appuient sur des algorithmes sémantiques pour indexer chacun des documents présents dans la base de données.» Les algorithmes ne sont pas sémantiques, ils sont statistiques et ils se basent sur les champs d'une page web (titre, URL, domaine, etc.), la position des mots entre eux et dans la page, leurs formats (sous-titre, casse, l'apparence de la police - gras, italique, etc. -, hyperliens... ), l'analyse des hyperliens entrants et sortants... , comme l'auteur l'écrit d'ailleurs! Les algorithmes sémantiques sont encore dans les laboratoires.
Powerset est le logiciel de recherche web en préparation utilisant la recherche sémantique. Parmi les sites de recherche majeurs,
Google donne un avant-gout avec son opérateur de synonyme (le tilde ~ ). Mais ce n'est pas encore de la recherche sémantique. Du côté européen, le projet allemand
Theseus a pour but d'en développer un.
L'auteur semble ne pas maitriser ni la recherche sémantique, ni la recherche statistique, ni les concepts de
moteur de recherche et de
métachercheur tout comme
Wikipedia en français dont
Gigablast est identifié à un
métachercheur alors qu'il est un automate de recherche (mais pas dans l'article en anglais de
Wikipedia).
D'après l'auteur, certains «moteurs de recherche» privilégient les sites d'entreprises et d'autres non avec un exemple à l'appui sur
Altavista.fr (qui n'est pas un «moteur de recherche» mais un «site de recherche» utilisant
Yahoo! Search.) et
Google.fr. Dans son exemple, il y a une erreur de méthodologie de recherche dans la comparaison. Sur
AltaVista.fr, la recherche est limitée à la France ; sur
Google.fr aux pages francophones. En limitant la recherche à la France sur
Google, le résultat est similaire.
Il est heureux qu'il n'y ait pas de référence à DSI-info. Je serais gêné d'être cité.
Cela étant écrit, nul n'est sans tache.
En complément de lecture :
La ?cherche? se cherche? - L?approche technologique, Transnets (carnet Web de Francis Pisani), 23 janvier 2007