DSI. Le carnet des sites de recherche

par Marc Duval, bibliothécaire prof.
Service de recherche documentaire DSI
Boucherville. Québec


Index abrégé du site de DSI : Les actualités des sites de recherche
Les fiches techniques: AlltheWeb, AltaVista, AntiSearch, Google, HotBot, MSN Search, Northern Light, Voila - Tout le web francophone
/ Chronique de la recherche / Classement des automates de recherche / Les langages des automates de recherche
/ Le mot-clé / La nature du web / Le nom de domaine
Descripteurs : Bibliothèques ; (vedettes matières) : recherche sur Internet ; recherche de l'information ; recherche documentaire ; ouvrages de références ; gestion de l'information / Nomade : recherche sur le Web ; blogs / ODP : recherche sur le Net ; weblogs / Toile du Québec : gestion de l'information ; Internet - Guides ; guides perfectionnement à la recherche ; blogues / Voila : internet - recherche d'info sur le web ; blogues / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation ; blogs / Pages jaunes: renseignements-service Longueuil / Identificateurs : moteurs de recherche ; moteur de recherche ; répertoires de recherche ; répertoire de recherche ; annuaires de recherche ; annuaire de recherche

[Archives] / [Atom] / [RSS]

2003-02-28



Kartoo: mise à jour. Version 3

La version 3 de Kartoo a été mise en ligne. L'aspect le plus visible est la modification de sa page d'accueil.  La page est composée d'une présentation du métachercheur, de son module de recherche comprenant la recherche dans les pages francophones et le web mondial et le choix entre le mode de recherche simple et le mode expert.  Enfin, un module détecte la version FlashPlayer.  Si la version 5 ou supérieure n'est pas détectée, un message invite l'internaute à mettre à jour le FlashPlayer.
La présentation du résultat de recherche est modifiée.  La page est divisée en trois parties.  La première partie décline les 10 sites trouvés par groupe de cinq, puis suivent les thèmes.  La deuxième partie est la carte des pages.  Enfin la troisième partie comprend les flèches de navigation
La présentation du résultat de recherche est offerte en trois formats: la liste classique, la carte unidimensionnelle et la carte en relief.  A l'extrême droite un bouton développe les barres d'options horizontales et verticales.
En faisant parcourir le curseur sur les icônes, un texte s'affiche en bas de l'écran.  La page est demeurée bleue.  Tous les icônes sont dans le même ton.  Les caractères des fontes ont gardés leur petitesse.  Pour bien profiter de ce métamoteur, il est nécessaire d'avoir au moins un écran de 17 pouces.
Une recherche m'a permis de constater que Kartoo pourrait être amélioré. La requête est «symposium veille».  Cette requête devrait faire ressortir la page vers laquelle se réfèrent tous les autres, en l'occurrence le site de Competia.  Or la sphère représentant la page de Competia est plus petite.  Il est à noter qu'aucun site de recherche ne passe le test de la page de référence.
Mise à jour: le communiqué de KartOO

posté par Marc Duval, #référence - 23:04

2003-02-27



Blogger... de vive voix.

Blogger vient d'intégrer l'audio à ses services: AudioBlogger.  Le carnetier pourra laisser un message parlé en téléphonant à Blogger.  Le message sera d'une durée maximale de 2 minutes en fichier MP3.  Le coût du services sera de 3$US par mois.   Il n'est pas loin le temps où Google offrira un service de recherche pour les fichiers audio.  C'est d'ailleurs ce qui manque à Google News.
posté par Marc Duval, #référence - 22:17



Google et la publicité contextuelle

Google a inauguré un service de publicité lié au contenu qui est une extension de Google AdWords.  L'acquisition de Blogger fait partie de sa stratégie publicitaire.  Les annonces seraient intégrées aux pages des carnets web... sans que les membres de la communauté Blogger n'en soient avertis.
posté par Marc Duval, #référence - 22:14

2003-02-25



AlltheWeb acquis par Overture

Coup de théâtre, Overture vient d'acquérir AlltheWeb après AltaVista - communiqué de Fast Search & transfer.  AltaVista serait utilisé pour le développement de produits commerciaux et AlltheWeb pour le développement de l'algorithme de recherche web.  AlltheWeb pourrait bénéficier de l'algorithme d'AltaVista et surtout de ses brevets.  La transaction est de l'ordre de 70 millions$US payés comptant et de 30 millions$US échelonnés sur trois ans.  Avec cette transaction, Overture entre de plein pied dans les grands portails tels que Lycos. Une fois l'intégration accomplie, Google aura un adversaire de taille.
posté par Marc Duval, #référence - 13:07



A l'abri des Big Google

Dans la foulée des indiscrétions de Google, j'ai découvert un site qui exploite ce filon: Google Watch. Google Watch est un site à ne pas manquer.  Il est composé d'un module de recherche anonyme pour Google et AlltheWeb et de six articles dont l'un sur les effets pervers de «PageRank».  Selon cet article, PageRank n'est pas seulement utilisé pour classer les pages, mais aussi pour déterminer lesquelles seront indexées en premier et sur quelle fréquence.  En 2001, cette pratique avait été clairement utilisée pour les sites d'actualités dans son catalogue principal.  Ce qui était moins connu était son utilisation à grande échelle.
AlltheWeb n'est pas en reste avec une page contenant une lettre modèle d'une plainte adressée à The Data Inspectorate en Norvège.

posté par Marc Duval, #référence - 09:22

2003-02-24



Une nouvelle façon de chercher

La CBC a rapporté dans un article du 18 février une nouvelle façon de chercher par la fréquence de mots durant une période de temps.  Cette méthode statistique correspond aux palmarès des termes de recherche comme celui présenté par Google. Cette méthode pourrait être appliquée aux carnets web pour déterminer les tendances durant une semaine.  Elle a été dévoilée par M. Jon Kleinberg à la réunion annuelle de l'Association américaine pour l'avancement des sciences tenue à Denver.
posté par Marc Duval, #référence - 11:40

2003-02-23



Google/Blogger

Le chat est sorti du sac hier.  Un journaliste de Wired a rencontré un employé d'une firme de logiciel qui a travaillé chez Pyra jusqu'en janvier 2003.  Selon lui, Google aurait acheté Blogger pour mieux comprendre son fonctionnement et ainsi améliorer son algorithme de recherche.  Google table sur les carnets des journalistes professionnels pour les primeurs et sur la structure plus simple de diffusion de ce qui est appelé RSS utilisant le format XML.  Ce format est plus facile à lire par Google.
posté par Marc Duval, #référence - 13:06



AltaVista, labo d'Overture

Dans le communiqué conjoint AltaVista et Overture, il est question de l'utilisation d'AltaVista comme laboratoire par Overture.  En janvier, Overture a fait l'achat du logiciel Keylime.  Ce logiciel a pour but de recueillir des renseignements sur les internautes par l'intermédiaire des fichiers témoins, de les analyser et de préparer des rapports pour les clients.  L'achat de ce logiciel nous fait comprendre celui d'AltaVista.  Si vous avions été plus perspicace, nous aurions pu prévoir l'achat de l'automate.  Autre signe du sérieux d'Overture est l'engagement de chercheurs réputés comme David Pennock, chercheur à NEC Research, qui a été engagé en janvier 2003.  Il a publié un article intitulé « Winners don't take all: Characterizing the competition for links on the web» dans lequel sont étudiés les liens dans un contexte de compétition.
D'autre part, il met en lumière une autre nouvelle sur les indiscrétions de Google qui recueille de tels renseignements.  Plusieurs s'inquiètent du comportement de Google.  Or Google porte deux chapeaux : celui d'automate de recherche et celui de service publicitaire comme le sera AltaVista,  comme l'est probablement LookSmart avec WiseNut. Sans doute, tous nous suivent déjà à la trace si nous n'y prenons garde. Cette filature est d'autant plus sournoise qu'elle peut se faire par l'intermédiaire des «préférences» qui fixent l'interface linguistique, la configuration du formulaire et du résultat de recherche à l'aide de fichiers témoins.
Yahoo! a aussi des liens commandités dans son répertoires.  Nous pouvons prévoir que Yahoo! étendra cette activité dans le marché des automates avec Inktomi.  Après tout, Yahoo! a créé ses concurrents qui ont profité de sa suprématie.  Présentement, les liens commandités de Yahoo! dans un résultat de recherche se retrouvent dans son espace publicitaire et dans le résultat de recherche sans qu'il y soit identifié comme lien commandité comme le cas de cette société de pièces d'automobiles. Espérons que l'achat d'Inktomi clarifiera la position de Yahoo!

posté par Marc Duval, #référence - 11:06

2003-02-21



divine inc. en faillite

La société divine inc. songerait à se mettre sous la loi états-unienne de la faillite selon Le monde informatique.  Si c'est le cas, Northern Light pourrait devenir une bonne affaire.
 Faisons le point.
LookSmart a acquis WiseNut; Ask Jeeves, Teoma; Yahoo!, Inktomi et Overture,  AltaVista.  Parmi les acteurs majeurs, il reste Open Directory Project et Espotting.  ODP est du côté de Netscape qui est un allié de Google par AOL.  Il reste Espotting.  Son concurrent Overture a acheté AltaVista pour une bouchée de pain.  Northern Light serait une superbe aubaine si divine était en difficulté.  Bien que NL n'aie pas eu d'améliorations, il demeure un automate de recherche d'avant-garde en étant le premier à développer la catégorisation des références.  Il lui faudrait un nouveau formulaire de recherche et la mise à jour de sa banque de données.  Une équipe dynamique pourrait facilement le remettre sur pied en remettant en service sa collection spéciale.  Il pourrait s'associer à des services comme Dow Jones.  Northern Light a tout ce qu'il faut pour cibler le marché d'entreprises et le public en général.

posté par Marc Duval, #référence - 21:44

2003-02-18



AltaVista acquis par Overture

Overture a acquis tous les actifs d'AltaVista, brevets compris, pour 180$US millions nous informe un communiqué commun.
AltaVista est l'un des premiers automates de recherche.  Il est issu d'un projet de recherche dans les laboratoires de la société informatique Digital Equipment Corporation (DEC) en 1995 et lancé publiquement en octobre.   En 1998,  Compaq achète DEC et par conséquent AltaVista.   En 1999, CMGI prend une participation majoritaire dans AltaVista.  AltaVista se transforme peu à peu en portail. En 2000, il introduit la recherche multimédia, un formulaire de recherche détaillé nommé Power Search et Raging Search, interface pour concurrencer Google.  En 2001, AltaVista revient à sa présentation antérieure, Power Search et Raging Search disparaissent; l'aventure se termine.  La même année, il ajoute la recherche d'actualités en collaboration avec Morever.  En 2002, AltaVista termine son recentrage vers la recherche en se départissant de son service de courriel.  Il augmente la couverture de ses catalogues, introduit Prisma, une fonctionnalité de suggestions, change son interface et met en ligne un formulaire de recherche contenant la recherche de documents «pdf».
Overture a un index de liens commandités.  Il utilise Inktomi sur son site pour la recherche web.  Overture offre ses liens à des sites de recherche.  Parmi ses clients, notons Yahoo! Or, Yahoo! a acheté Inktomi en janvier dernier.  Overture devenait  donc un client de Yahoo!  En achetant AltaVista, Overture se libérera de Yahoo!  Il deviendra un autre concurrent qu'un Yahoo! a hébergé et fait prospérer comme Google.  Dans ce ballet, Yahoo! devient le dindon de la farce, le naïf de service.  La revanche de Yahoo! se révèlera-t-il avec la mise en place d'un service de liens commandités pour rendre la monnaie de leur pièce à Google et Overture?

posté par Marc Duval, #référence - 21:45



AlltheWeb et Google géolocalisent

Selon l'article de JDNet «Du nouveau dans la recherche d'informations localisée», AlltheWeb et Google plancheraient sur la recherche géographique, c'est-à-dire sur un module de recherche pour recueillir de l'information (adresse civique,numéros de téléphone, adresses de courriel, horaire, etc.) et l'afficher dans un résultat de recherche.  
Deux initiatives ont vu le jour.  La première est l'élaboration de nouvelles balises à insérer dans une page web, la seconde est l'extraction des coordonnées d'une page web.
Le projet de nouvelles balises s'appelle SMBmeta pour Small and Medium-sized Business metadata.  Voici un exemple de balise : <hours day="all" open="1130" close="2130" timezone="local"/>.  Le projet est décrit dans le site SMBmeta.  Il comprend de la documentation et un carnet.
La seconde initiative provient de Metamend, une société canadienne.  Elle vient de dévoiler son logiciel de géolocalisation qui extrait des adresses des pages web.  Une fois extraite, l'adresse est convertie en longitude et en latitude.
Northern Light a été le premier automate à offrir une recherche géographique.  Ce type de recherche a disparu du site.  A la lumière des récents développements, Northern Light était en avance.

posté par Marc Duval, #référence - 12:57

2003-02-16



Symposium de veille

Competia organisera son troisième Symposium international Competia 2003 à Montréal du 2 au 4 juin 2003.  Un programme en français a été préparé: La planification en fonction de votre compétition: Lorsque la veille concurrentielle et la stratégie se rejoignent.  Pour plus d'informations, rendez-vous sur le site du programme de Competia.  Les interventions en français y sont décrites.
posté par Marc Duval, #référence - 23:52



Blogger Google

Après avoir acquis Deja.com, le site de groupes de discussion, Google vient d'acheter Blogger selon Dan Gillmor de SilliconValley.
Blogger a été fondé par M. Evan Williams de la société Pyra en 2000.  Il a été appuyé par O'Reilly & Associates, Advance Publications (Condé Nast), Jerry Michalski, The Accelerator Group et d'autres investisseurs privés. Blogger compte plus 1 millions d'abonnés répartis en membres internes et externes.  Les membres internes ont leurs carnets sur Blogspot qui est un service gratuit et sur Blogger pro, le service payant.  C'est ce service que Google convoite et accessoirement la communauté de Blogger qui lui donnera l'occasion d'augmenter sa couverture.   Google recense environ 377,000 pages de Blogspot, ce qui comprend la page courante et les pages d'archives.  Les pages d'archives peuvent être hebdomadaires ou mensuelles.  Les membres externes ont leur carnet sur un serveur à l'extérieur de celui de Blogspot comme le mien.

Quel intérêt peut-on avoir dans un carnet?  C'est la facilité de publication.  L'auteur n'a pas besoin de connaître le HTML ni d'être à son ordinateur.  Il peut publier son information de n'importe où, n'importe quand en se connectant sur le site Blogger par exemple.  Il y a dans le carnet une souplesse incomparable.  Plusieurs de mes publications sur mon carnet ont été faites à chaud alors que j'y accédais de l'extérieur.  La force des carnets sont les hyperliens, plus précisément les mots hyperliés plus nombreux que dans une page normale.  Le mot hyperlié est une plus-value pour les automates de recherche surtout chez Google.

Pour montrer la facilité de publication, la page de rédaction est divisée en deux parties horizontales. La première partie sert à rédiger. Elle comprend trois boutons de base: l'hyperlien, le «gras» et l'«italique». Le premier jet terminé, un bouton «Post» publie le texte dans la partie du bas, ce qui permet à l'auteur de vérifier la mise en page et les liens. Le texte peut être corrigé en tout temps. Si l'auteur est satisfait, il publie son texte sur le web à l'aide d'un bouton qui génèrera la page soit sur le serveur de Blogger soit sur le serveur de l'auteur avec un lien FTP.
La page du carnet peut être de base, comme celle-ci, où plus habillée. Blogger offre des modèles.
Dans la version payante, l'auteur accède à plus de fonctionnalités, par exemple un vérificateur orthographique. La version payante est dangereuse pour l'accès à l'information. Dans quelques années, il serait prévisible que des carnets de Blogger deviennent privés. Il faut bien que quelqu'un paie, soit les internautes, soit un commenditaire.

Si Blogger est ajouté au côté des autres catalogues et non dans celui du web, je ne serais pas étonné que le nombre de pages total augmente sans égard aux duplicata.  Dans le cas où les pages de Blogger sont intégrées au catalogue web, la couverture ne devrait pas augmenter sensiblement. Au courant de l'année, nous pourrions voir apparaître un catalogue Blogs avec une adresse comme celle-ci: http://blogger.google.com ; ce qui lui permettrait d'augmenter artificiellement sa couverture.

posté par Marc Duval, #référence - 23:34



Google: un petit jeu

Google a été l'objet de jeux comme le Googlewhack qui consiste à trouver une référence unique à partir d'un terme de recherche.  Je vous en propose un autre.  Présentement, Google a la plus grande banque de données des automates de recherche (3 milliards d'URL).  Le jeu se joue sur HotBot.  Il consiste à trouver la référence qui est dans un index d'un des automates (AlltheWeb, Inktomi et Teoma) sauf dans celui de Google.  C'est possible, j'en ai trouvé au moins un! Mieux, seul Inktomi l'avait.  A vous de jouer!
posté par Marc Duval, #référence - 23:30



Pêle-Mêle

Le page de test d'essai de MSN.  Le formulaire a maintenant la recherche par type de documents soit HTML, PDF/Adobe Acrobat, Microsoft PowerPoint, Microsoft Word et Microsoft Excel.  Ce qui constitue une mise à niveau sur ses concurrents.  En fait, il n'y a pas de changement, il y a autant de liens commandités qu'auparavant, contrairement à ma première impression. La frontière entre les liens commandités et le résultat web n'est pas encore nettement tranchée.

Gigablast m'inquiète un peu.  En décembre, son index comptait plus de 150 millions d'URL et depuis il a baissé à 146 millions.

Google a fêté la Saint-Valentin avec un nouveau logo qui n'apparaît pas encore dans sa page.  Le voici pour le plaisir de tous.  En Cliquant sur le logo, la recherche sur l'origine de cette fête était amorcée.

Ask Jeeves a aussi souligné la Saint-Valentin: le majordome présentait des fleurs au passage du curseur.

Au hasard de mes lectures sur le web, j'ai trouvé une discussion sur la pertinence d'un automate de recherche.  Je suis toujours étonné de voir que des gens discutent sur la pertinence d'un seul mot commun d'une requête.  Dans ce cas, la pertinence n'existe pas.  Rappelons-nous que le logiciel recherche une chaîne de caractères qui n'a aucun sens pour lui.  C'est le chercheur qui lui en donne.  La pertinence existe dans un contexte.  C'est pourquoi les logiciels de recherche sont accompagnés d'aides comme les suggestions et la catégorisation.

posté par Marc Duval, #référence - 23:26

2003-02-13



HotBot: un formulaire pour Teoma

Teoma vient d'ajouter son formulaire de recherche à HotBot.  Le formulaire comprend la recherche par langues, par régions et par dates.  Le filtre pour le contenu offensant est aussi introduit.
Les libellés des opérateurs booléens sont absents du formulaire.
posté par Marc Duval, #référence - 14:55

2003-02-12



Nouvelles interfaces de Google

Google vient d'ajouter la Gambie, le Tchad et la Hongrie à son tableau des interfaces nationales des outils linguistiques.
posté par Marc Duval, #référence - 07:23



Teoma limite l'indexation

Tout comme Google limite l'indexation à 101 ko, Teoma la limite à 111 ko.  Cette limitation dans la taille des fichiers est un handicap pour de la recherche en profondeur.  Le «web invisible» n'est pas là où on le pense.
posté par Marc Duval, #référence - 07:23

2003-02-07



Formats d'affichage des sites de recherche

Depuis près de 2 ans, nous voyons apparaître des formats d'affichage d'une page web provenant des sites de recherche. Je viens de publier une nouvelle chronique qui en fait le point.  Je les ai regroupés en trois catégories: l'affichage externe avec l'ouverture d'une nouvelle fenêtre du navigateur, l'affichage interne avec l'ouverture d'une fenêtre dans le navigateur et l'affichage imbriqué dans la liste du résultat.  Comme l'affichage imbriqué favorise Internet Explorer, j'ai ajouté les options d'affichage de Netscape qui fait contrepoids.  La chronique est intitulée A l'affiche sur vos écrans.
posté par Marc Duval, #référence - 09:33

2003-02-03



Des normes pour les métadonnées

La majorité des documents sur le web ont des métadonnées.  Le plus courant est le métatitre que vous retrouvez dans une liste d'une recherche ou dans la barre de titre de votre fureteur.  Un projet de norme de l'Organisation internationale de normalisation (ISO) vient de franchir une étape importante le 23 janvier:  The Dublin core metadata element set sous le numéro ISO/DIS 15836.  Voici deux textes sur le Dublin core: Le guide d'utilisation du Dublin Core et Les métadonnées: où en est-on?
Les métadonnées courantes, notamment les «identificateurs» (keywords) et la «description», ont été l'objet de spameurs.  Pour contrer la «spamindexation», de nouvelles données doivent être inscrites.  Il serait envisageable que le nom de l'auteur, l'éditeur et autres éléments pourraient être couplés pour juger de la qualité d'un document par un automate de recherche.  Un document sans un de ses éléments pourrait être classé après les documents suivant la norme par l'automate.  D'autre part, une communauté pourrait s'entendre sur un ensemble d'éléments communs pour favoriser le repérage. Il pourrait y avoir convergence entre un automate généraliste comme Google et un spécialisé comme Spinoo qui introduira progressivement la norme (voir la note Les métadonnées: où en est-on? ).  Ce dossier est à suivre.

posté par Marc Duval, #référence - 20:01

2003-02-02



Un formulaire pour Netscape

Un formulaire est apparu sur Netscape France.  Il s'est dissimulé sous «options».   Le formulaire a des libellés des opérateurs booléens originaux.  L'opérateur d'intersection (le ET) est «recherche» et «En privilégiant les documents contenant», l'opérateur d'union est «Avec les synonymes» et l'opérateur d'exclusion est  «Et en excluant».  La recherche par type de document, celle des pages liées et similaires sont reprises de Google.
posté par Marc Duval, #référence - 16:08



Cure pour Francité

Francité a subi une cure d'amaigrissement radical.  Sa page d'accueil était placardée d'annonces publicitaires et de services.   Maintenant, elle est devenue modeste avec peu de publicité.  Tous ses services ont fondu pour se retrouver dans un bandeau et dans un tableau.  Francité est revenu à ses origines et met de l'avant son répertoire composé sobrement des rubriques sans aucune image.  Sa page de recherche n'existe plus; elle est remplacée vers un lien vers DeepIndex.  Les temps semblent durs pour Francité.
posté par Marc Duval, #référence - 16:07


This page is powered by Blogger. Isn't yours?
Bienvenue au Carnet des sites de recherche. Vous trouverez dans ce carnet mes observations sur les sites de recherche autant états-uniens, canadiens que français. Si vous découvrez quoi que ce soit sur l'un ou l'autre site, n'hésitez pas à me contacter. Je me ferais un plaisir d'ajouter votre contribution.