Descripteurs : Bibliothèques ; (vedettes matières) : recherche sur Internet ; recherche de l'information ; recherche documentaire ; ouvrages de références ; gestion de l'information / Nomade : recherche sur le Web ; blogs / ODP : recherche sur le Net ; weblogs / Toile du Québec : gestion de l'information ; Internet - Guides ; guides perfectionnement à la recherche ; blogues / Voila : internet - recherche d'info sur le web ; blogues / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation ; blogs / Pages jaunes: renseignements-service Longueuil / Identificateurs : moteurs de recherche ; moteur de recherche ; répertoires de recherche ; répertoire de recherche ; annuaires de recherche ; annuaire de recherche |
Google et la publicité contextuelle
Google a inauguré un service de publicité lié au contenu qui est une extension de Google AdWords. L'acquisition de Blogger fait partie de sa stratégie publicitaire. Les annonces
seraient intégrées aux pages des carnets web... sans que les membres de la communauté Blogger n'en soient avertis.
posté par Marc Duval, #référence - 22:14
A l'abri des Big Google
Dans la foulée des indiscrétions de Google, j'ai découvert un site qui exploite ce filon: Google Watch. Google Watch est un site à ne pas manquer. Il est composé d'un module de recherche anonyme pour Google et AlltheWeb et de six articles dont l'un sur les effets pervers de «PageRank». Selon cet article, PageRank n'est pas seulement utilisé pour classer les pages, mais aussi pour déterminer lesquelles seront indexées
en premier et sur quelle fréquence. En 2001, cette pratique avait été clairement utilisée pour les sites d'actualités
dans son catalogue principal. Ce qui était moins connu était son utilisation à grande échelle.
AlltheWeb n'est pas en reste avec une page contenant une lettre modèle d'une plainte adressée à The Data Inspectorate en Norvège.
posté par Marc Duval, #référence - 09:22
AltaVista, labo d'Overture
Dans le communiqué conjoint AltaVista et Overture, il est question de l'utilisation d'AltaVista comme laboratoire par Overture. En janvier, Overture a fait l'achat du logiciel Keylime. Ce logiciel a pour but de recueillir des renseignements sur les internautes par l'intermédiaire des fichiers témoins, de les analyser et de préparer des rapports pour les clients. L'achat de ce logiciel nous fait comprendre celui d'AltaVista. Si vous avions été
plus perspicace, nous aurions pu prévoir l'achat de l'automate. Autre signe du sérieux d'Overture est l'engagement de chercheurs réputés comme David Pennock, chercheur à NEC Research, qui a été engagé en janvier 2003. Il a publié un article intitulé « Winners don't take all: Characterizing the competition for links on the web» dans lequel sont étudiés les liens dans un contexte de compétition.
D'autre part, il met en lumière une autre nouvelle sur les indiscrétions de Google qui recueille de tels renseignements. Plusieurs s'inquiètent du comportement de Google. Or Google porte deux chapeaux : celui d'automate
de recherche et celui de service publicitaire comme le sera AltaVista, comme l'est probablement LookSmart avec WiseNut. Sans doute, tous nous suivent déjà à la trace si nous n'y prenons garde. Cette filature est d'autant plus sournoise qu'elle peut se faire par l'intermédiaire des «préférences» qui fixent l'interface linguistique, la configuration du formulaire et du résultat de recherche à l'aide de fichiers témoins.
Yahoo! a aussi des liens commandités dans son répertoires. Nous pouvons prévoir que Yahoo! étendra cette activité dans le marché des automates avec Inktomi. Après tout, Yahoo! a créé ses concurrents qui ont profité de sa suprématie.
Présentement, les liens commandités de Yahoo! dans un résultat de recherche se retrouvent dans son espace publicitaire et dans le résultat de recherche sans qu'il y soit identifié comme lien commandité comme le cas de cette société de pièces d'automobiles. Espérons que l'achat d'Inktomi clarifiera la position de Yahoo!
posté par Marc Duval, #référence - 11:06
AlltheWeb et Google géolocalisent
Selon l'article de JDNet «Du nouveau dans la recherche d'informations localisée», AlltheWeb et Google plancheraient sur la recherche géographique, c'est-à-dire sur un module de recherche pour recueillir de l'information (adresse civique,numéros de téléphone, adresses de courriel, horaire, etc.) et l'afficher dans un résultat de recherche.
Deux initiatives ont vu le jour. La première est l'élaboration de nouvelles balises à insérer dans une page web, la seconde est l'extraction des coordonnées d'une page web.
Le projet de nouvelles balises s'appelle SMBmeta pour Small and Medium-sized Business metadata. Voici un exemple de balise : <hours day="all" open="1130" close="2130" timezone="local"/>. Le projet est décrit dans le site SMBmeta. Il comprend de la documentation et un carnet.
La seconde initiative provient de Metamend, une société canadienne. Elle vient de dévoiler son logiciel de géolocalisation qui extrait des adresses des pages web. Une fois extraite, l'adresse est convertie en longitude et en latitude.
Northern Light a été le premier automate à offrir une recherche géographique. Ce type de recherche a disparu du site. A la lumière des récents développements, Northern Light était en avance.
posté par Marc Duval, #référence - 12:57
Blogger Google
Après avoir acquis Deja.com, le site de groupes de discussion, Google vient d'acheter Blogger selon Dan Gillmor de SilliconValley.
Blogger a été fondé par M. Evan Williams de la société Pyra en 2000. Il a été appuyé par O'Reilly & Associates, Advance Publications (Condé Nast), Jerry Michalski, The
Accelerator Group et d'autres investisseurs privés. Blogger compte plus 1 millions d'abonnés répartis en membres internes et externes. Les membres internes ont leurs carnets sur Blogspot qui est un service gratuit et sur Blogger pro, le service payant. C'est ce service que Google convoite et accessoirement la communauté de Blogger qui lui donnera l'occasion d'augmenter sa couverture. Google recense environ 377,000 pages de Blogspot, ce qui comprend la page courante et les pages d'archives. Les pages d'archives peuvent être hebdomadaires ou mensuelles. Les membres externes ont leur carnet sur un serveur à l'extérieur de celui de Blogspot comme le mien.
Quel intérêt peut-on avoir dans un carnet? C'est la facilité de publication. L'auteur n'a pas besoin de connaître le HTML ni d'être à son ordinateur. Il peut publier son information de n'importe où, n'importe quand en se connectant sur le site Blogger par exemple. Il y a dans le carnet une souplesse incomparable. Plusieurs de mes publications sur mon carnet ont été faites à chaud alors que j'y accédais de l'extérieur. La force des carnets sont les hyperliens, plus précisément les mots hyperliés plus nombreux que dans une page normale. Le mot hyperlié est une plus-value pour les automates de recherche surtout chez Google.
Pour montrer la facilité de publication, la page de rédaction est divisée en deux parties horizontales. La première partie sert à rédiger. Elle comprend trois boutons de base: l'hyperlien, le «gras» et l'«italique». Le premier jet terminé, un bouton «Post» publie le texte dans la partie du bas, ce qui permet à l'auteur de vérifier la mise en page et les liens. Le texte peut être corrigé en tout temps. Si l'auteur est satisfait, il publie son texte sur le web à l'aide d'un bouton qui génèrera la page soit sur le serveur de Blogger soit sur le serveur de l'auteur avec un lien FTP.
La page du carnet peut être de base, comme celle-ci, où plus habillée. Blogger offre des modèles.
Dans la version payante, l'auteur accède à plus de fonctionnalités, par exemple un vérificateur orthographique. La version payante est dangereuse pour l'accès à l'information. Dans quelques années, il serait prévisible que des carnets de Blogger deviennent privés. Il faut bien que quelqu'un paie, soit les internautes, soit un commenditaire.
Si Blogger est ajouté au côté des autres catalogues et non dans celui du web, je ne serais pas étonné que le nombre de pages total augmente sans égard aux duplicata. Dans le cas où les pages de Blogger sont intégrées au catalogue web, la couverture ne devrait pas augmenter sensiblement. Au courant de l'année, nous pourrions voir apparaître un catalogue Blogs avec une adresse comme celle-ci: http://blogger.google.com ; ce qui lui permettrait d'augmenter artificiellement sa couverture.
posté par Marc Duval, #référence - 23:34
Google: un petit jeu
Google a été l'objet de jeux comme le Googlewhack qui consiste à trouver une référence unique à partir d'un terme de recherche. Je vous en propose un autre. Présentement, Google a la plus grande banque de données des automates de recherche (3 milliards d'URL). Le jeu se joue sur HotBot. Il consiste à trouver la référence qui est dans un index d'un des automates (AlltheWeb, Inktomi et Teoma) sauf dans celui de Google. C'est possible, j'en ai trouvé au moins un! Mieux, seul Inktomi l'avait. A vous de jouer!
posté par Marc Duval, #référence - 23:30
Pêle-Mêle
Le page de test d'essai de MSN. Le formulaire a maintenant la recherche par type de documents soit HTML, PDF/Adobe Acrobat, Microsoft PowerPoint, Microsoft Word et Microsoft
Excel. Ce qui constitue une mise à niveau sur ses concurrents. En fait, il n'y a pas de changement, il y a autant de liens commandités qu'auparavant, contrairement à ma première impression. La frontière entre les liens commandités et le résultat web n'est pas encore nettement tranchée.
Gigablast m'inquiète un peu. En décembre, son index comptait plus de 150 millions d'URL et depuis il a baissé à 146 millions.
Google a fêté la Saint-Valentin avec un nouveau logo qui n'apparaît pas encore dans sa page. Le voici pour le plaisir de tous. En Cliquant sur le logo, la recherche sur l'origine de cette fête était amorcée.
Ask Jeeves a aussi souligné la Saint-Valentin: le majordome présentait des fleurs au passage du curseur.
Au hasard de mes lectures sur le web, j'ai trouvé une discussion sur la pertinence d'un automate de recherche. Je suis toujours étonné de voir que des gens discutent sur la pertinence d'un seul mot commun d'une requête. Dans ce cas, la pertinence n'existe pas. Rappelons-nous que le logiciel recherche une chaîne de caractères qui n'a aucun sens pour lui. C'est le chercheur qui lui en donne. La pertinence existe dans un contexte. C'est pourquoi les logiciels de recherche sont accompagnés d'aides comme les suggestions et la catégorisation.
posté par Marc Duval, #référence - 23:26
Teoma limite l'indexation
Tout comme Google limite l'indexation à 101 ko, Teoma la limite à 111 ko. Cette limitation dans la taille des fichiers est un handicap pour de la recherche en profondeur. Le «web invisible» n'est pas là où on le pense.
posté par Marc Duval, #référence - 07:23
Cure pour Francité
Francité a subi une cure d'amaigrissement radical. Sa page d'accueil était placardée d'annonces publicitaires et de services. Maintenant, elle est devenue modeste avec peu de publicité. Tous ses services ont fondu pour se retrouver dans un bandeau et dans un tableau. Francité est revenu à ses origines et met de l'avant son répertoire composé sobrement des rubriques sans aucune image. Sa page de recherche n'existe plus; elle est remplacée vers un lien vers DeepIndex. Les temps semblent durs pour Francité.
posté par Marc Duval, #référence - 16:07
Bienvenue au Carnet des sites de recherche. Vous trouverez dans ce carnet mes observations sur les sites de recherche autant états-uniens, canadiens que français. Si vous découvrez quoi que ce soit sur l'un
ou l'autre site, n'hésitez pas à me contacter. Je me ferais un plaisir d'ajouter votre contribution.