DSI. Le carnet des sites de recherche

par Marc Duval, bibliothécaire prof.
Service de recherche documentaire DSI
Boucherville. Québec


Index abrégé du site de DSI : Les actualités des sites de recherche
Les fiches techniques: AlltheWeb, AltaVista, AntiSearch, Google, HotBot, MSN Search, Northern Light, Voila - Tout le web francophone
/ Chronique de la recherche / Classement des automates de recherche / Les langages des automates de recherche
/ Le mot-clé / La nature du web / Le nom de domaine
Descripteurs : Bibliothèques ; (vedettes matières) : recherche sur Internet ; recherche de l'information ; recherche documentaire ; ouvrages de références ; gestion de l'information / Nomade : recherche sur le Web ; blogs / ODP : recherche sur le Net ; weblogs / Toile du Québec : gestion de l'information ; Internet - Guides ; guides perfectionnement à la recherche ; blogues / Voila : internet - recherche d'info sur le web ; blogues / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation ; blogs / Pages jaunes: renseignements-service Longueuil / Identificateurs : moteurs de recherche ; moteur de recherche ; répertoires de recherche ; répertoire de recherche ; annuaires de recherche ; annuaire de recherche

[Archives] / [Atom] / [RSS]

2003-10-31



Google dans la mire de MSN
Au mois d'août , Microsoft aurait été en pourparler avec Google inc. pour son acquisition selon le New York Times - voir sur GainesVille Sun.  Google inc. aurait décliné l'offre pour se concentrer sur son entrée en bourse.  Malgré ce refus, Microsoft est prêt à poursuivre les discussions après l'entrée en bourse de Google.
Ces pourparlers de Microsoft ressemblent à un ultimatum au même titre que la venue de Internet Explorer face à Netscape.  En intégrant son automate de recherche à son futur système d'exploitation prénommé Longhorn, Microsoft aura une arme plus redoutable que la barre d'outils de Google.
Et si Microsoft achetait des actions de Google...

posté par Marc Duval, #référence - 11:06

2003-10-30



Fêtons l'halloweeb (sic)
Si vous faites un détour du côté de Google, vous y verrez fantôme et citrouille de l'halloween.
Chez Ask, le majordome Frankestein cache loup-garou, vampire et fantôme.
Voila vous invite à faire des emplettes de décorations, de costumes et de friandises.
Yahoo! France salue l'halloween par des émoticons de circonstances pour son Messenger.

posté par Marc Duval, #référence - 23:30

2003-10-29



Google, cyberlibraire
Selon Publisher Weekly, Google courtiserait des éditeurs afin d'inclure leurs publications électroniques dans sa base de données.  Le fonds aurait environ 60,000 titres.  La façon d'aborder le contenu des livres n'est pas encore définie.  Tout porte à croire que la recherche se ferait en plein texte et un lien ferait basculer la page trouvée vers le résumé du livre.  L'internaute devra acheter le livre pour consulter la page.  Sans nulle doute, la fonction de copie cachée serait désactivée.  Le but avoué de Google est d'accroître l'efficacité de la recherche; le but caché est d'accroître ses revenus.
Déjà, les livres d'Amazon se retrouvent dans Google comme cet exemple du livre Encyclopaedia of Scientific Units, Weights and Measures.  Si Google se tourne vers ce service, est-ce que les notices seront identifiées comme étant commerciales puisque le livre sera en vente par son intermédiaire.  L'accès à des produits commerciaux payants est assimiliable aux liens publicitaires.  Il vaudra sûrement des réprimandes de la Federal Trade Commission.  Il constitue une source de frustration pour l'internaute au même titre que les «publiliens». Source:
Steven Zeitchik.  «The Amazoning of Google? Search Firm Looks for Book Content» in PW NewsLine, 28 octobre

posté par Marc Duval, #référence - 22:51



Google en Slovaquie
Google vient d'octroyer à la république de Slovaquie une interface en langues slovaque et magyar.

posté par Marc Duval, #référence - 22:16

2003-10-23



Recherche plein texte pour Amazon
Le cyberlibraire Jeff Bezos d'Amazon a annoncé ce 23 octobre la sortie de son module de recherche plein texte Look inside the book.  Le dépôt comprend plus de 120 milles livres représentant plus de 33 millions de pages.
La fiche du livre faisant partie du programme est identifiée par le label «Search inside».  Certaine fiche trouvée comprend l'extrait dans lequel se trouvent le terme de recherche et le numéro de la page.  Ce numéro est lié à la page citée.  L'internaute doit être enregistré pour consulter la page.  En plus de pouvoir consulter la page, l'internaute peut naviguer à l'intérieur du livre grâce à des flèches et des liens vers la couverture, la table des matières, l'index et le dos.  La page comprend une loupe (zoom) pour voir les détails.
Seuls les livres qui ont reçu l'imprimatur des éditeurs sont disponibles pour ce programme.

posté par Marc Duval, #référence - 22:31



2004 verra la recherche sémantique
Selon l'article The Web: Search engines still evolving, nous pourrions voir arriver sur le web un automate de recherche sémantique.  Ce développement est propulsé par des intérêts commerciaux comme le montre le nouveau développement de Yahoo! avec son nouveau formulaire de recherche surnommé Smartsort.  L'internaute est amené a ciblé son sujet de recherche.  Les produits commerciaux ont déjà des données structurées facilement repérable par les logiciels de recherche.
Voir aussi : The Future of Human Knowledge: The Semantic Web

posté par Marc Duval, #référence - 22:00



Google considère une entrée en bourse aux enchères
Selon le Financial Times, Google considère la tenue d'une vente aux enchères en ligne d'actions d'une valeur de plus de 15 milliards de dollars.   L'entrée en bourse se ferait en début d'année.  Cette façon de faire aurait pour but d'économiser sur les honoraires de banquiers et d'éviter des fraudes.
Selon une appréciation, Google aurait des profits de l'ordre de 150 millions de dollars US sur des revenus d'environ 500 millions de dollars US.
Wall Street juge que la vente d'actions en ligne pourrait être dangereuse en raison de l'engouement que suscite Google.  Il pourrait ne pas avoir suffisamment de réserve pour satisfaire la demande.
Autre nouvelle:
Financial Times Exclusive: Google Considers Launching Online IPO; Could Value Company at $15 Billion

posté par Marc Duval, #référence - 21:16

2003-10-20



Des définitions pour Google
Lorsque vous faites une recherche en anglais, Google met un lien des mots de la requête vers le site The Dictionary comme dans cette requête « search engine ».  Or The Dictionary s'est associé à Ask Jeeves.  Par exemple, en cherchant la définition de « search engine », un lien est créé vers Ask Jeeves sous cette forme «See the Top 10 Ask Jeeves results for "search engine"».  Google tente de contourner cet irritant en créant un raccourci de définition.  La requête define "search engine" appelle  une définition puis le résultat de recherche.  Google a ajouté le lien «more definitions» qui affichera toutes les autres définitions qu'il trouvera sur le web. En ajoutant deux points devant le raccourci ( define:search engine ), Google affiche directement la page des définitions.
Ce mode de recherche de définition se fie exclusivement au web qui est loin de satisfaire.  Par exemple, Google ne pourra aider des ingénieurs qui recherchent ATM (acronyme, entre autres, de «automated telled machines») qui ne donnera que «Asynchronous Transfer Mode».
Ce raccourci correspond à la sortie de Google Glossary de son laboratoire.   

posté par Marc Duval, #référence - 19:04



Un formulaire de recherche pour Ask
Le site de recherche Ask Jeeves utilise depuis quelque temps son propre automate de recherche Teoma.  Ask vient d'inclure le formulaire et les préfixes de recherche de Teoma.

posté par Marc Duval, #référence - 19:01



Intasys devient Mamma
La société montréalaise Intasys a annoncé le 15 octobre son intention de changer de nom  afin de mieux s'identifier à son méta-chercheur Mamma.   Ce changement de nom donnera plus de visibilité au méta-chercheur et une reconnaissance de Mamma auprès de l'industrie.  Ce changement s'accompagne d'une mise à jour du site de recherche.  La page d'accueil est devenue sobre avec seulement une case de recherche.  Mamma a amélioré ses préférences de recherche de son formulaire Power Search qui peuvent être sauvegardées.  Il est prévu que les préférences soient aussi actives sur la page d'accueil.  La mise en valeur des termes de recherche et le nombre de notices par page (10, 15, 20, 25, 50 et 100) ont été ajoutés.  Les symboles des opérateurs booléens ( + et -, et l'opérateur de  proximité « " " ») sont disponibles à la fois sur la case de recherche de la page d'accueil que sur le formulaire de recherche.  Le filtre parental a été amélioré.  D'autres améliorations sont en préparation, selon Mamma.com.
Il est à noter que Mamma comprend une fonction de suggestions de recherche disponible seulement pour la recherche en anglais.  Et pour cause: Mamma est un métachercheur destiné au marché anglophone nord-américain.
Source: Mamma.com

posté par Marc Duval, #référence - 13:22

2003-10-15



Rien ne va plus pour Google
Les déconvenus de Google s'accumulent.  The Register rapporte que les carnets web vont avoir raison de la pertinence de Google.  Ce qui est visé est la «blogosphère» de langue anglaise qui a développé un système d'auto-citation nommé TrackBack.  Le journal donne cette requête en exemple : OS X Panther Discussion. Les adresses URL renvoient à des pages sans contenus.  Google essaie de résoudre ce problème en désactivant son système de classement PageRank et en le remplaçant par des filtres de fortune.
Le catalogue web n'est pas le seul à faillir.  Même les «News» perdent le nord.  A la requête «"web search"», la nouvelle « Start-up targets more personal search - ZDNet.co.uk » daté du 11 août avec un délai de 20 heures au 15 octobre était affichée avant le 13 octobre avec le tri par dates.  Cherchez l'erreur.
A chaque semaine, une tuile tombe sur le plus populaire des sites de recherche.  Toutes ces tuiles tombent bien mal alors que la course pour rattraper Google est bien entamée.  Elles pourraient même freiner son entrée en bourse qui devient pressant pour les investisseurs de Google selon un article du journal The Barron's.  Pour l'instant, Google demeure le roi incontesté.  Cet automne et l'hiver prochain seront cruciaux pour la société.  Google tombera-t-il dans la disgrâce en 2004?
Source:Andrew Orlowski. « Blog noise achieves Google KO» in The Register, 14 octobre
Eric Savitz. « Waiting For the Big One Why a Google IPO appears likely by April, at the latest » in The Barron's, 13 octobre

posté par Marc Duval, #référence - 00:32

2003-10-13



Un bracelet pour Google
Un internaute prénommé Seth Finkelstien a relevé une anomalie chez Google en lisant une liste du résultat du jeu appelé GoogleWhack.  Ce jeu consiste à appareiller deux mots afin d'obtenir le plus petit score en termes de pages indexées par Google.  Il a remarqué que le duo «keybord bracelet»  donnait environ 47 000 adresses URL mais Google n'en affichait moins d'une douzaine (aujourd'hui le nombre à augmenter).  Après quelques essais d'interrogation, il en est venu à la conclusion que Google bloquait une adresse. Ce faisant, il bloquait toutes les autres.  En retirant les sites «.com», le résultat de recherche était déverrouillé.
Le  phénomène n'est pas unique aux recherches en anglais.  La requête «vacances ext:ppt» donne le même résultat pour une recherche en français.  Dans la recherche francophone, la liste s'arrête à la 253e adresse (ou environ) sur 475.  Dans la recherche au Canada, la liste s'arrête à 55e URL et en France à la 149e URL sur 221.  Rare sont les internautes qui se rendent jusque là.  Mais certaines requêtes plus anodines pourraient avoir une liste tronquée au début comme dans l'exemple du bracelet.
La question que l'on peut se poser est: En bloquant des URLs, est-ce que Google endigue des pages potentiellement pertinentes?

posté par Marc Duval, #référence - 16:44



Gigablast chez les geeks
Depuis quelques temps, l'automate de recherche Gigablast remet à jour les métadonnées.  Le 11 octobre, leur affichage a été ajouté.  Cette nouvelle option d'affichage n'a pas été intégrée au formulaire de recherche.  Les nouveaux paramètres s'attachent à l'adresse URL de la recherche.  Il faut ajouter à la suite de l'adresse les paramètres sous cette forme: &dt=[balise méta]+[balise méta]:xx.  où dt est le type de données, [balise méta] est author, keywords ou date... et xx le nombre de caractères à afficher.  Loin d'être inintéressant, l'affichage des métadonnées de Gigablast s'adresse davantage aux mordus d'Internet qu'à l'internaute moyen tant qu'il ne sera pas dans le formulaire de recherche... et encore.

posté par Marc Duval, #référence - 13:06



MSN Search: un automate en devenir
Il est notoire que MSN Search travaille sur son propre automate de recherche.  Comment sera-t-il?  Nous avons deux éléments qui pourraient être des précurseurs à ce nouvel automate:  MSN Search Preview et SharePoint.
MSN Search Preview fait partie du module de recherche d'Internet Explorer depuis 2002.  Il affiche les 6 premières vignettes reliées au résultat de recherche.  Il est aussi sur le web sous cette forme « http://search.msn.ca/preview.aspx?q=dsi+automates ».  La nouvelle recherche se fait en changeant la requête «dsi automates».  Il n'y encore aucune option de prévisualisation sur le site de recherche MSN Search.
SharePoint est un logiciel intranet ayant des modules de gestion de l'information et de recherche.  Son module de recherche classe automatique les documents sous une taxinomie déterminée contrairement à certains automates qui ont une classification à la volée.
Au lieu d'avoir une liste de recherche par types de documents, nous pourrions avoir une liste les regroupant et une option de prévisualisation pour les pages web et pour d'autres documents en commençant par les powerpoint et cie... dans la lignée d'Exalead sur AOL France qui intègre les documents multimédia aux pages web.

posté par Marc Duval, #référence - 12:13



Lycos donne un second avis avec Sidesearch
Lycos US a modifié une fonction de résultat de recherche: «Fast forward».  On la retrouve sous le nom «volet d'exploration» sur Lycos France.  Elle s'affiche à droite du titre.  En cliquant sur «Fast forward», le volet d'exploration donnant le résultat de recherche s'ouvre en même temps que la page web dans la fenêtre principale.  Le résultat de recherche du volet reprend la liste des titres avec la description dans une bulle.  «Fast forward» est devenue «Sidesearch» au début de l'été, elle a reçu une mise à jour la semaine dernière.  On pourrait voir cette nouvelle fonction sur Lycos France.
Le principe de Sidesearch est similaire à «Fast forward» sauf qu'il s'agit maintenant d'un petit logiciel à télécharger uniquement pour Internet Explorer.  En le téléchargeant, Sidesearch est installé sur le bureau et dans la liste des programmes.  Il sera placé aussi dans la barre des boutons d'Internet Explorer.  Lorsque Sidesearch est lancé à partir du bureau,  il remplace par défaut la fonction de recherche de IE.  Attention, Lycos US n'aime pas les logiciels coupe-feu comme Zone Alarm - à moins d'en modifier les paramètres.
Sidesearch travaille de deux façons.  En l'activant à partir du bureau, Sidesearch ouvre IE, remplace sa fonction de recherche dans le volet et affiche la page d'accueil de recherche comprenant le répertoire de l'Open Directory Project.  La recherche est effectuée dans deux bases de données: celles de Fast (AlltheWeb) pour la recherche de la page d'accueil et d'Inktomi pour la recherche à partir du volet d'exploration de Sidesearch.
En travaillant à partir de la page d'accueil de recherche de Sidesearch, chaque titre de la notice de la liste du résultat de recherche de Fast reçoit la mention «sidesearch» à droite du titre.  En cliquant sur «sidesearch», la liste de Fast est affichée dans le volet soit sous le format de titre avec bulle de la description, soit sous le format de titre et description tout comme l'ancien «fast forward».  Sidesearch continuera d'utiliser Fast pour les recherches suivantes à moins de cliquer sur le bouton  Sidesearch.
Lorsque la recherche est lancée dans le volet d'exploration de Sidesearch, Sidesearch puise dans la base de données d'Inktomi.
Lorsque Internet Explorer est ouvert en premier, Sidesearch doit être activé en cliquant sur l'icône.
Sidesearch est considéré par plusieurs comme un «hijack», c'est-à-dire un logiciel qui remplace définitivement une fonction du logiciel «piraté».  Sidesearch ne remplace pas le volet d'exploration de recherche d'Internet Explorer; il devient un complément... inutile à l'extérieur de Lycos.

posté par Marc Duval, #référence - 11:01

2003-10-10



A la recherche de Lysanne
Durant la semaine du 6 octobre, le ministre de la Justice du Québec Marc Bellemare a eu à répondre du mode de vie de sa fille Lysanne, danseuse nue dans la région de Québec. Mlle Bellemare avait fait une entrevue parue dans le magazine Modem, aujourd'hui retirée du site.   Existe-t-il un moyen de retrouver l'information?  Oui.  Par Google?  Pas tout à fait.  La requête Lysanne modem nous apporte bien l'adresse URL.  La page est en cache, mais les images sont absentes.  Google Images devrait nous les donner.  Pourtant non.  AlltheWeb a aussi la recherche d'images. La même requête - Lysanne modem - dans le catalogue d'images d'AlltheWeb nous donne ce qu'il manquait à Google.
Comme quoi les automates de recherche ne sont pas toujours des compétiteurs mais complémentaires.

Cette recherche apporte sa part de surprise.  La propriété de l'image indique que la photo ne vient pas du catalogue d'AlltheWeb, mais d'AltaVista!  Le rapprochement entre les catalogues des deux sites de recherche sont en voie d'accomplissement.  Auront-ils bientôt une destinée commune ou liée?

posté par Marc Duval, #référence - 14:22

2003-10-07



Sites de recherche: Nouveautés

Les sites de recherche ont proliféré sur Yahoo! en septembre avec 8 nouveaux sites répartis en 3 répertoires et 5 automates dont un sous deux noms et un dernier encore en gestation.  Le 1er octobre, Yahoo! a intégré deux répertoires commerciaux.  En marge de Yahoo!, une société s'essaie dans le merveilleux monde des automates de recherche.  Voici la liste:

11 septembre
ChoiceX: Répertoire commercial
Nutch : Automate à code source ouvert (n'est pas encore opérationnel)
15 septembre
Multimedia Educational Resource for Learning and Online Teaching (MERLOT) Répertoire de sites à caractère pédagogique.
Sootle: Automate à visage humain!
UniXL: Répertoire spécialisé en éducation.
17 septembre
Search Mega: Automate de recherche avec liens commerciaux «paie par clic».
SurfWolf.com : Automate de recherche avec liens commerciaux «paie par clic», proche parent de Search Mega.
19 septembre
TopiaSearch : Automate incluant l'Open Directory et des liens commerciaux.

1er octobre
2 nouveaux sites sont arrivés sur Yahoo!
000search.com: Répertoire commercial
Pocketflier: Répertoire commercial

Autre:
Your Web : Automate en rodage.

posté par Marc Duval, #référence - 00:26

2003-10-06



Des plus et des moins pour Google
Google devient de plus en plus inquiétant.
En début d'année, plusieurs observateurs ont remarqué que Google avait un comportement anormal.  La semaine dernière, Google a atteint officieusement les 6 milliards d'URL.  Quelques jours plus tard, il descendait sous la barre des 2 milliards pour remonter tranquillement.
Google inc. semble se moquer des internautes avec ses essais en ligne pour quelques privilégiés alors qu'il a une page conçue à cet effet: Google Labs.   Pendant quelques semaines, il a affiché une nouvelle fonction appelée «spectrum» (cache de Google) sur les ordinateurs de 1% de sa clientèle*.  Cette fonction est un compteur de requêtes actionné par un fichier-témoin.  Cette page n'était plus disponible le 4 octobre donnant un message 404.
Aussi, il y a quinze jours, la fonction de suggestions de recherche (related searches) était divulguée sur le forum Webmaster World.**  Depuis, plus rien.  Silence complet dans son Labo.
Enfin, du spamindexing primaire a été observé: le texte caché.  Google connaît cette technique de référencement.  Il la donne dans son guide de rédaction de page web.  Nous pourrions croire que Google a un filtre pour éliminer ces pages.  Il semble qu'il n'en est rien ou bien son filtre est déficient.  En effet, la requête Fleuristeriem appelle la page incriminée.  En plus du texte caché, Google a laissé entrer la même page sous trois noms de domaines différents.  Ils apparaissent en cliquant sur le lien Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées.
Google n'est pas le seul à faiblir.  Ni Inktomi ni AlltheWeb n'ont filtré cette page.
Trêve de mauvaises nouvelles, voici un baume: le plus de Google.  Gregg Notes** a remarqué que Google forçait automatiquement la reconnaissance du signe «+» comme chaîne de caractères cherchables. Ce «forçage» permet de rechercher le langage de programmation C+ et certaines formules chimiques comme Cl+.  Cette reconnaissance est limitée aux lettres.  Par exemple, Al3+ est recherchable mais non Al 3+ ( un malencontreux espace fera échoué la recherche).  Google s'est arrêté là.  Il reconnaît les ions positifs mais non les ions négatifs.  Cette reconnaissance s'applique à quelques sites comme ceux de Google et de Yahoo, mais pas sur HotBot.
Source:
*Lisa Napoli.  «Frequent Search Engine Users, Google Is Watching and Counting» in New York Times, 6 octobre 2003
**Brett_Tabke. Google Tests Related Links in Webmaster World, 30 septembre (Note: le message peut être bloqué par un mot de passe.  Voir une citation d'un «représentant» anonyme de Google).
***Gregg Notes. «Punctuation at Google and Minor Site Updates» in Search engine showdown, 1er octobre 2003

posté par Marc Duval, #référence - 00:01

2003-10-02



Google à 6 milliards
Google vient de doubler officieusement sa base de données dépassant la barre de 6 milliards d'adresses, soit environ 6,240 milliards.  Malgré ses difficultés à gérer une grande masse d'informations, Google poursuit sa progression pour atteindre les 10 milliards promis par Sergey Brin en décembre 2002.
Source:  Jefferson Graham. On the Web, forget the A-list: It's the 'G' list that matters in USA Today, 17 décembre 2002.

posté par Marc Duval, #référence - 10:40

2003-10-01



Êtes-vous Googlemane?
Utilisez-vous Google plusieurs fois par jour avant même l'annuaire téléphonique, le dictionnaire ou les journaux?  Google offre un compteur qui vous donnera le nombre de recherche effectué par jour.  Le compteur est ré-initialisé après 100 recherches.
Ce compteur de recherches est en essai.  Il n'est pas disponible pour tous.
Sources:
Search Engine Showdown
Vishal Shah, The curious weblog (voir l'image du compteur de l'article du 17 septembre )

posté par Marc Duval, #référence - 12:06


This page is powered by Blogger. Isn't yours?
Bienvenue au Carnet des sites de recherche. Vous trouverez dans ce carnet mes observations sur les sites de recherche autant états-uniens, canadiens que français. Si vous découvrez quoi que ce soit sur l'un ou l'autre site, n'hésitez pas à me contacter. Je me ferais un plaisir d'ajouter votre contribution.