DSI. Le carnet des sites de recherche
par Marc Duval, bibliothécaire prof.
Service de recherche documentaire DSI
Boucherville. Québec
Index abrégé du site de DSI :
Les actualités des sites de recherche
Les fiches techniques: AlltheWeb,
AltaVista,
AntiSearch,
Google,
HotBot,
MSN Search,
Northern Light,
Voila - Tout le web francophone
/ Chronique de la recherche
/ Classement des automates de recherche
/ Les langages des automates de recherche
/ Le mot-clé / La nature du web / Le nom de domaine
| Descripteurs : Bibliothèques ; (vedettes matières) : recherche sur Internet ; recherche de l'information ; recherche documentaire ; ouvrages de références ; gestion de l'information / Nomade : recherche sur le Web ; blogs / ODP : recherche sur le Net ; weblogs / Toile du Québec : gestion de l'information ; Internet - Guides ; guides perfectionnement à la recherche ; blogues / Voila : internet - recherche d'info sur le web ; blogues / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation ; blogs / Pages jaunes: renseignements-service Longueuil / Identificateurs : moteurs de recherche ; moteur de recherche ; répertoires de recherche ; répertoire de recherche ; annuaires de recherche ; annuaire de recherche
|
[Archives] / [Atom] / [RSS]
2003-05-28
AlltheWeb corrige
Depuis quelques temps, AlltheWeb annonce coup sur coup des améliorations. Aujourd'hui, le site vient de se doter d'un correcteur d'orthographe qui est introduit par le National Spelling Bee, un concours d'orthographe annuel des États-Unis qui se tient cette année le 28 et le 29 mai.
En entrant une requête, AlltheWeb vérifie les termes de recherche. Si AlltheWeb détecte une faute d'orthographe dans la requête, une correction d'orthographe suggérée est affichée au sommet de la
page du résultat.
Bien que le correcteur soit pour l'anglais, il fonctionne aussi bien en français. AlltheWeb rejoint ainsi Google et Teoma. Son correcteur d'orthographe semble être aussi performant que celui de Google, à croire qu'ils ont la même origine. Celui de Teoma est encore en test et ne semble pas avoir atteint la maturité.
posté par Marc Duval, #référence - 18:42
Google au Congo
Google s'aventure aujourd'hui dans quatre autres pays: la Colombie, la République dominicaine, les Îles Fidji et la République du Congo. Parmi les nouvelles interfaces, seule la Colombie est utile pour la recherche. Ni la République dominicaine ni le Congo n'ont de l'intérêt pour avoir un espace sur le web, selon Google. Enfin, Google continue sur le sentier du ridicule en allant des Îles Pitcairn (59 habitants) aux Îles Fidji (800 000 habitants). J'ai hâte de voir Tuvalu et les Îles de Cocos qui ont vendu leur nom de domaines au plus offrant. Ces quatre petits nouveaux portent le nombre à 74.
posté par Marc Duval, #référence - 07:20
2003-05-27
Le Cyberlivre du Canada
Le Gouvernement du Canada vient de mettre en ligne l'Annuaire du Canada 2001 renommé le Cyberlivre du Canada. La version électronique de l'Annuaire du Canada est riche en tableaux (graphiques et cartes), en texte, en photos et en extraits sonores. Le Cyberlivre comprend quatre parties: le terriroire, la société, l'économie et l'état. Il regroupe les données fondamentales sur le Canada provenant autant de Statistiques Canada que d'organismes canadiens. C'est la première source à consulter sur le Canada avec celles recensées par Yahoo! Canada.
posté par Marc Duval, #référence - 15:22
2003-05-26
Google: des carnets dans les actualités
La semaine dernière Dan Gillmor a fait une visite au Googleplex. Il rapporte que des primeurs en provenance de carnets web pourraient apparaître dans Google News. Google inc. fera-t-il la même erreur qu'avec les communiqués de presse? Les «blogs» seront-ils identifiés comme tels?
D'autre part, Sergei Brin ne prévoit pas créer un catalogue spécifique aux carnets contrairement à ce qu'avait rapporté Reuters en citant Eric Schmidt. Peut-être faudrait-il que Google inc. ait un porte-parole unique.
posté par Marc Duval, #référence - 15:08
Palmarès
du web canadien-français
Le palmarès des sites canadiens
les plus fréquentés par les Canadiens français pour avril vient de sortir. Trois portails viennent demeurent en tête malgré qu'ils soient en basse en comparaison avec le mois de février: MSN (2554M), Sympatico (1982M) et Canoe (1914M). Google vient en troisième place (1708) suivi par la Toile du Québec (1439), les deux étant en progression
En terme d'automates de recherche, Inktomi est associé à MSN, Google à Canoe, la Toile et Sympatico. Nous pouvons présumer que Google serait en tête si nous avions à les départager.
Yahoo Canada est passé de la 11e place (964M) à la 13e place (931M) et Globetrotter/AlltheWeb de la 17e place (550M) à la 19e.
Au total, 4,2M de Canadiens français se sont branchés sur Internet en avril pour une moyenne de 26 heures par internaute nous apprend Infopresse.
posté par Marc Duval, #référence - 15:06
2003-05-25
Northern Light de retour
Un communiqué a été publié sur le site Northern Light annonçant son retour. Présentement, l'automate de recherche a été retiré du site. Northern Light partirait
de bon pied en étant déjà profitable selon David Seuss, le nouveau - et ancien PDG avant l'achat de Divine inc. La nouvelle a été reprise par le Boston Business Journal. David Seuss a racheté de la société Divine inc. en faillite, la division Northern Light pour 81,000$US. Divine inc.
avait laissé péricliter le site de recherche peu de mois après son acquisition.
Northern Light avait été le premier site de recherche à faire de la catégorisation et à identifier les sites (commerce, organisation....). Il a été le premier, et il le demeure, à avoir greffé à son site une section d'actualités unique.
Il est étonnant que ce ne soit pas Microsoft ou une autre société impliquée dans la recherche web qui n'est pas repris le flambeau. David Seuss est à la recherche de partenaires pour réanimer le site. Quels lapins sortira-t-il de son chapeau?
posté par Marc Duval, #référence - 10:22
2003-05-20
Recherche internautes adeptes du voyeurisme
Les sites de recherche ont voulu très tôt profiter du côté «voyeur» des internautes en mettant des judas à leur disposition. La Chronique de la recherche de mai profite du printemps pour relever le voile de l'indiscrétion. Cette chronique est consacrée aux requêtes des internautes enregistrés par des sites de recherche et aussi de référencement.
La chronique de juin est en préparation. Elle sera consacrée au formulaire de recherche de Google sur les sites de quelques-uns de ses partenaires: Un Google à redécouvrir.
posté par Marc Duval, #référence - 11:01
2003-05-19
Google et la recherche contextuelle
Une nouvelle étude mettant en relation le classement PageRank et le contexte de la recherche vient d'être publiée: Topic-Sensitive PageRank: A Context-Sensitive Ranking Algorithm for Web Search (Sensibilité de PageRank au sujet : un algorithme de classement contextuel pour la recherche web.) . Les auteurs proposent d'établir un classement en fonction du contexte. Plusieurs contextes sont examinés
en rapport au temps de traitement et au matériel informatique nécessaire. Les contextes sont ceux associés aux signets, aux pages caches des fureteurs, à un dossier «profil», à la page
consultée par le chercheur, d'un répertoire comme Open Directory Project et au regroupement thématique des pages (catégorisation). L'index inversé
et l'indexation de sous ensembles sont aussi mis à contribution. Le meilleur «contexte» est celui qui fait appel aux ressources de l'internaute, mais il ne peut être envisagé compte tenu de l'aspect confidentiel de l'information.
Note: La catégorisation est déjà appliquée par Teoma et AlltheWeb pour les automates et par Vivisimo entre autres pour les métachercheurs. L'acquisition de Applied Semantics correspond à l'application de cette étude.
posté par Marc Duval, #référence - 23:06
2003-05-16
googleLoi, requêtes et confidentialité
Les sociétés de recherche web comme Google
utilisent les requêtes des internautes afin de les étudier pour en tirer des applications, des améliorations du service et des statistiques. ZDNet France
rapporte un procès mettant en cause la société de marketing Pharmatrak aux États-Unis. Cette société récoltait entre autres les adresses URL des internautes lors d'une session de recherche afin d'étudier les requêtes. Lors d'une recherche sur Google par exemple, la requête est envoyée à Google dans l'adresse URL comme celle-ci: http://www.google.ca/search?hl=fr&ie=UTF-8&oe=UTF-8&q=confidentialite...
Les évènements du 11 septembre avaient été le prétexte du gouvernement pour surveiller les recherches sur Internet.
La cour d'Appel des États-Unis a reconnu que les requêtes des internautes étaient de l'information à protéger. Cet arrêt pourrait avoir des répercussions notamment sur la publicité utilisant les requêtes pour afficher des liens publicitaires correspondants. Si c'était appliqué, les programmes comme celui d'Adwords de Google pourraient être touchés. Google inc. subirait une baisse de revenus et serait obligé d'aller en bourse. Les conséquences seraient donc importantes autant technologiquement que
financièrement.
posté par Marc Duval, #référence - 12:51
2003-05-15
AlltheWeb: nouveaux préfixes de recherche
AlltheWeb poursuit son développement avec de nouveaux préfixes de recherche.
convert: fait la conversion d'unités de mesure. Ex.: convert:10*C (notez l'astérisque pour le signe du degré et la lettre majuscule)
web: recherche dans le catalogue web. Ex.: web:sras
news: recherche dans le catalogue des actualités. Ex.: news:Québec
pics: images: image: recherche dans le catalogue Images. Ex.: image:"bonhomme carnaval"
video: recherche dans le catalogue video. Ex. video:Canada
audio: mp3: recherche dans le catalogue. Ex.: Audio:celine dion
ftp: recherche dans le catalogue des fichiers FTP. Ex.: ftp:netscape
Une «signet magique» vous permet d'ajouter l'URL investigator à votre fureteur en glissant ce lien dans votre barre d'outils ou dans vos signets: AlltheWeb Page Info
Enfin, la catégorisation améliorée du résultat de recherche, les questions similaires et la mention de documents mutimédia apparaissent en bas de page.
posté par Marc Duval, #référence - 20:55
AlltheWeb convertit
Plus tôt, Greg Notess avait mis à jour les fonctions arithmétiques d'AlltheWeb. AlltheWeb vient d'être muni d'un convertisseur d'unités de mesure.
Il peut convertir les unités de longueur, de temps, de vitesse, de température, de poids, de surface, de volume générale et de cuisine. A quand le convertisseur de monnaies?
La conversion est effectuée avec le préfixe «convert:» suivi de l'unité. Vous voulez déguster un filet de sole garni mais la recette est en mesure métrique alors que vous êtes encore aux unités anglo-saxonnes. Qu'à cela ne tienne! AlltheWeb vous convertira les 60 ml, les 200 g de champignons et les 25 cl de crème qu'il vous faut. Le convertisseur a un petit oubli: il ne fait pas la conversion des centilitres!
posté par Marc Duval, #référence - 19:39
Google cherche ingénieurs passionnés
Il y a quelques temps, Google inc. affichait dans sa page «laboratoire»
une offre d'embauche. Aujourd'hui, l'offre est précisée. Si vous êtes passionné par un de ces sujets, alors les portes du Googleplex vous sont peut-être ouvertes: algorithmes ; algorithmes génétiques ; architecture d'ordinateur ; compression de données ; conception de système de fichiers ;
conception d'interface utilisateur ; étude de machine ; extraction de données ; infographie ; intelligence artificielle ; optimisation de compilateur ; recherche documentaire ; recherche documentaire web ; robotique ; systèmes d'exploitation ; traitement de langage naturel ; traitement de texte.
posté par Marc Duval, #référence - 19:37
2003-05-14
Gigablast chez Agence virtuelle
La société Agence virtuelle a ajouté Gigablast dans son offre. Le communiqué de presse me laisse songeur. Selon cette agence, Gigablast a 275 millions de
pages. Il y a quelques semaines, Gigablast avait arrêté son indexation à 140 millions de pages environ. Depuis, il l'a repris. Aujourd'hui, il est rendu à 187 millions et sa progression est rapide. Dans quelques semaines, il pourrait atteindre ce nombre. Une autre affirmation m'ennuie. HotBot aurait «freiné
sa mise à jour et l'intégration de nouvelles solutions». Or le site de HotBot a été repensé. Le site n'héberge plus seulement Inktomi, mais aussi AlltheWeb, Google et Teoma.
posté par Marc Duval, #référence - 22:46
Google en langage naturel
Dans l'article Thinking Global, Google News Goes Local, Susan Feldman, analyste à IDC à Framingham, Mass., pense que Google pourrait utiliser bientôt les techniques propres à la recherche en langage naturel avec l'acquisition de Applied Semantics. D'autre part, la section des actualités de Google pourrait être plus qu'un développement d'un secteur particulier. La catégorisation déployée dans les actualités pourrait être appliquée à l'ensemble des services de recherche et plus particulièrement à son catalogue «web».
posté par Marc Duval, #référence - 22:34
2003-05-13
Google au Lesotho
Google vient de faire entrer 2 pays africains - le Lesotho et Djibouti - et le Vietnam. L'ajout de ces trois pays porte à 70 le nombre de sites nationaux et territoriaux.
posté par Marc Duval, #référence - 23:25
AlltheWeb et Teoma égalent Google
Forbes a publié une partie de son numéro du 26 mai dans lequel il y a un article de fond sur Google intitulé All eyes on Google. Article dominant que je n'avais pas eu le temps de parcourir. C'est fait.
Deux affirmation ressortent de cet article:
1ère affirmation déjà connue: Microsoft travaillerait sur un automate de recherche. L'article précise que Microsoft et Overture ont des relations étroites et participeraient à son élaboration. Microsoft pourrait être tentée d'acquérir Overture ou bien LookSmart. Faut-il croire que le moribond Northern Light ne soit pas une cible de choix pour Microsoft!
2ème affirmation: Les programmeurs de Google admettent que les algorithmes d'AlltheWeb et Teoma sont d'égales valeurs.
La force virtuelle de Google provient de la taille de sa banque de données. Mais quantité n'égale pas qualité.
posté par Marc Duval, #référence - 12:55
2003-05-12
Google héberge les actualités canadians
Google vient d'ajouter les actualités canadiennes anglaises.
Cette section puise dans les sites de journaux nationaux (Globe and Mail, Financial Post) et provinciaux (The Toronto Star, Ottawa Citizen, Calgary Sun...). Aussi, nous retrouvons pour le Québec The Montreal Gazette et CBC Montreal. De plus, sont mis à contribution des portails (Canoe, Canada.com... ), les fils de presse (Canadian Press par
l'intermédiaire des journaux) et les communiqués de presse (Canadian News Wire) tant décriés identifiés par «press release». De plus, les publications étrangères (Forbes, Bloomberg, Japan Today, AP...) ayant comme sujet le Canada y sont représentées.
Canada News a reçu l'héritage de la disposition des rubriques de «USA News». Il arrive fort à propos avec sa rubrique sur la santé et le SRAS qui inquiète tant le Monde.
Enfin, Google a mis en ligne en même temps les actualités australiennes, indiennes, néo-zélandaises et britanniques.
posté par Marc Duval, #référence - 07:41
2003-05-07
Les actualités en français sur Google
Google a enfin imité AlltheWeb en intégrant un fil d'actualités en français à son résultat de recherche, nous apprend le site Abondance. Un maximum de 3 titres apparaît selon la requête sur toutes les interfaces nationales et territoriales de langue française et sur l'interface linguistique en français.
Google n'a pas encore personnalisé le nombre de titres à afficher comme le fait AlltheWeb.
posté par Marc Duval, #référence - 23:21
Copernic... de 6 à 6.1
Ce n'est pas son score sur 10 bien que cela pourrait l'être. Le logiciel Copernic Agent Professional a eu des améliorations intéressantes à première vue. Ces améliorations touchent la gestion de l'information après la recherche. Les champs de recherche dans le résultat sont améliorés
avec l'affichage selon le type de fichier (pdf, fichiers Microsoft, texte) et selon le pays. La surveillance de page a reçu la fonction «montrer des changements». L'une de mes pages test qui ne montrait pas les changements les identifie maintenant. Cette amélioration devra être confirmée.
posté par Marc Duval, #référence - 23:20
2003-05-06
Google bloguera
Google va mettre en ligne un module de recherche pour les carnets web, selon Reuters. Ce module était prévisible bien qu'il recense déjà des carnets. Il faudra vérifier s'il ne doublera pas ses 494,000 pages de Blogspot, le service d'hébergement de Blogger entre autres pour gonfler artificiellement sa banque de données. Cette annonce correspond aux modifications qui seront apportées à Blogger dont l'ajout d'une ligne de commande pour les fils RSS dans le projet Dano. D'ailleurs, c'est ce que j'avais rapporté antérieurement.
Eric Schmidt, le directeur général, a réaffirmé la décision de Google inc. de ne pas entrer en bourse. Cette déclaration suit la rumeur apportée par l'embauche de Mme Lyse Buyer, analyste financière.
Enfin, M. Schmidt fait une prédiction délirante. «Pour Schmidt, la personnalisation sera la prochaine grande
étape technologique et plus particulièrement l'aptitude à cibler la personne qui se trouve devant la radio, la télévision ou quoi que ce soit d'autre", rapporte Reuters. Et encore: «Schmidt pense également que d'ici 2008 tout un chacun disposera d'une connexion mobile et permanente à Internet».
posté par Marc Duval, #référence - 09:55
2003-05-05
Le «meilleur moteur de recherche»
Notre ami de Microdoc News - anciennement Google Village - s'est amusé à demander à Ask Jeeves quel était le «best engine search». Sa réponse est Google. Il a posé la même question à Google, Yahoo, MSN, AOL, Overture, InfoSpace, NetScape, AltaVista, Lycos, EarthLink, LookSmart et AllTheWeb. Le choix des sites de recherche est spécieux compte tenu que Yahoo, AOL, Netscape, EarthLink sont des partenaires de Google. Lycos est associé à AlltheWeb. De plus, notre cher Dr Elwyn Jenkins compare des oranges avec des pommes avec MSN/Inktomi ; la réponse de MSN (MSN) provient de son répertoire et non de son automate de recherche. La réponse pour les pages web est Google. Pour Overture, il est encore dans le champ. Sa première réponse (Dogpile) est un lien commandité et celle provenant d'Inktomi est Google. Pour Looksmart, il n'a pas pris la première réponse qui est un lien commandité, mais la première des pages web, comme avec Lycos. Tiens donc? Aurait-il un parti pris? Enfin, pour AltaVista, la première réponse web est une page de Search Engine Watch - la première de toutes est un lien commandité - (Le Dr Jenkins prétend que c'est son article!).
Notre ami de Microdoc devrait changer d'activité. Il a sauté rapidement aux conclusions sans lire attentivement la liste des réponses. Il a tout mélangé tant son dévouement à Google les aveugle... et c'est un euphémisme.
Maintenant, quel est le «meilleur moteur de recherche» selon Google? Il n'y en a aucun, sa réponse est la page ayant le titre: Quel est le meilleur traitement du syndrome de fatigue chronique ... Selon AlltheWeb? Astalatechno - vous connaissez? (Note: le filtre parental est activé par défaut). Pour Lycos France/AlltheWeb, la réponse est un site porno (Note: le filtre parental est désactivé par défaut - même réponse qu'AlltheWeb avec filtre activé). Selon Hotbot France/Inktomi, c'est un obscur portail (web mondial) ou une page du site d'Abondance (web français). Pour AltaVista, le meilleur moteur de recherche est celui d'un site web. Pour la pertinence de Google avec cette question en français, on repassera. Pour la question en anglais, il est trop facile de tromper Google en mettant un des mots en hyperlien avec Google comme Google Search.
posté par Marc Duval, #référence - 18:51
Jeeves fête le Cinco de Mayo
Jeeves a revêtu son costume mexicain pour fêter le Cinco de Mayo commémorant la bataille et la victoire de Puebla sur l'armée francaise en 1862.
posté par Marc Duval, #référence - 15:42
Nouvelles de Google
Le dernier numéro du bulletin de Google
est sorti la semaine dernière. On apprend que Google utilisera les logiciels d'Applied Semantics pour la publicité contextuelle - ce qui a été largement repris - et aussi pour la recherche web - ce que j'avais mis de l'avant mais oublié par la plupart des commentateurs.
D'autre part, Google et ses associés revendiquent plus de 200 millions de requêtes par jour. Si vous avez raté les logos commémoratifs de mars, vous y trouverez Michel Ange et Albert Einstein. Du côté
de la publicité, Google dépasse maintenant les 100 mille marques de commerce. Aussi Google parraine Le championnat d'énigmes américain. Pour cette occasion, il donne en pâture aux internautes trois énigmes. Les énigmes font appel à l'arithmétique. Je vous suggère d'utiliser AlltheWeb pour les résoudre. Enfin, vous pouvez poser des questions à M. Krishna Bharat, le concepteur de la division Actualités. The Register en a profité. Nous aurons peut-être les réponses dans le prochain numéro.
posté par Marc Duval, #référence - 10:13
Les nouveautés de Yahoo!
28 avril - Blogwise - Répertoire de carnets web.
30 avril - Wotbot - automate de recherche britannique qui a l'ambition de devenir le leader technologique du marché des sites de recherche. Il compte à ce jour 6,587,560 pages.
posté par Marc Duval, #référence - 08:21
Les Prix Webby
Les Webby Awards est un évènement qui récompense les meilleurs sites web de langue anglaise dans 30 catégories. Google est représenté dans les actualités avec Google News et dans les technologies. AlltheWeb
est parmi les finalistes de la catégorie Sciences avec Scirus. Enfin, Yahoo! est en nomination dans les catégories Finance et Sport. L'année dernière, Google avait mérité le prix dans la catégorie «Best Practice» et Yahoo! dans «Finance». Le vote se termine le 23 mai et les gagnants seront divulgués le 5 juin lors du 7ème gala.
posté par Marc Duval, #référence - 08:08
2003-05-02
Des maths pour AlltheWeb
Greg Notess de Search Engine Showdown nous apprend qu'AlltheWeb a un calculateur.
Il y a les quatre opérations de base [+, -,*,/] plus le calcul de la puissance et le groupement par parenthèses. AlltheWeb a aussi ses petits secrets.
posté par Marc Duval, #référence - 00:28
Bienvenue au Carnet des sites de recherche. Vous trouverez dans ce carnet mes observations sur les sites de recherche autant états-uniens, canadiens que français. Si vous découvrez quoi que ce soit sur l'un
ou l'autre site, n'hésitez pas à me contacter. Je me ferais un plaisir d'ajouter votre contribution.