DSI. Le carnet des sites de recherche
par
Marc Duval, bibliothécaire prof.
Service de recherche documentaire DSI
Boucherville. Québec
Index abrégé du site de DSI : Les actualités
des sites de recherche
Les fiches techniques: AlltheWeb,
AltaVista,
AntiSearch,
Google,
HotBot,
MSN
Search,
Northern
Light,
Voila
- Tout le web francophone
/ Chronique
de la recherche / Classement
des automates de recherche / Les langages
des automates de recherche
/ Le mot-clé
/ La nature du web
/ Le nom de
domaine
| Descripteurs
: Bibliothèques ; (vedettes matières) : recherche sur
Internet ; recherche de l'information ; recherche documentaire ;
ouvrages de références ; gestion de l'information / Nomade
: recherche sur le Web ; blogs / ODP : recherche sur le Net ;
weblogs / Toile du Québec : gestion de l'information ;
Internet - Guides ; guides perfectionnement à la recherche ;
blogues / Voila : internet - recherche d'info sur le web ;
blogues / Yahoo : recherche sur le Net ; recherche sur le Web ;
recherche et traitement de l'information ; internet - information et
documentation ; blogs / Pages jaunes: renseignements-service
Longueuil / Identificateurs : moteurs de recherche ; moteur de
recherche ; répertoires de recherche ; répertoire de
recherche ; annuaires de recherche ; annuaire de recherche
|
[Archives] / [Atom] / [RSS]
2004-07-31
Google: «
pet lemur dietary needs » ne répond plus
«
pet lemur
dietary needs » est l'exemple donné par Google
pour sa fonction de lemmatisation ( troncature automatique )
disponible dans sa version en anglais. Google l'a introduite
durant la dernière semaine de novembre 2003 ( voir Google
lemmatise ). Selon Google, si vous cherchez pet
lemur dietary needs, Google trouvera pet lemur diet
needs et ses variantes. Dès le début de
l'introduction de la lemmatisation, cette fonction a
été intermittente. Depuis tout le mois de
juin, pet lemur dietary needs ne trouve plus pet
lemur diet needs et ses variantes. Qu'arrive-t-il à Google
inc. ? La société est-elle si
préoccupée par son entrée en bourse, par son
carnet web, par la concurrence, par GMail et ses autres projets de
services qu'elle en oublie d'améliorer son programme ? A
courir trop de lièvres à la fois, Google risque de
s'affaiblir.
Note: Publié le 4 juillet. Cette nouvelle date est un test de
positionnement
2004-09-12. Test de positionnement en ajoutant Google dans le titre
posté par Marc Duval, #référence
- 11:10
2004-07-29
Microsoft lance sa recherche globale
Microsoft
multiplie les dévoilements d'annonces sur la recherche web
à l'approche de l'entrée en bourse de Google.
Après l'achat de Lookout et l'implantation de MSN Newsbot
sur MSNBC, Microsoft a fait la
démonstration de son logiciel de recherche globale,
rapporte Reuters et ZDNet. Microsoft
a démontré que son logiciel de recherche globale
pouvait afficher des courriels et leurs fichiers joints, des documents,
des images et le résultat d'une recherche web. Le module
de recherche est intégré à la barre d'outils
de MSN. Ainsi, le logiciel de recherche est
indépendant du futur système d'exploitation. Il
pourra être lancé avant Longhorn, c'est-à-dire
cette année ou en 2005, Longhorn étant prévu pour
2006. Microsoft n'a qu'à attendre le moment propice pour
le lancement du logiciel.
Sources:
Microsoft
Demonstrates New Hard Drive Search Tool, Reuters, 30 juillet
Microsoft puts
multisearch tool on show, ZDNet, 29 juillet
posté par Marc Duval, #référence
- 22:18
3 interfaces de plus pour Google
La
petite folie boursière de GOOG et le virulent passage de
MyDoom sur les automates de recherche ayant
terminé d'alimenter les tribunes web, passons aux choses
sérieuses. Google vient de mettre en ligne trois
nouvelles interfaces linguistiques: l'arménien, le laotien et le sindhi. Ces ajouts
portent à 104 les interfaces
linguistiques du « gériaphobe » Google.
posté par Marc Duval, #référence
- 00:09
2004-07-27
Internet censuré
L'organisme
Reporters sans frontières a publié le rapport Internet sous
surveillance 2004. Les entraves à la circulation de
l'information sur le réseau. RSF rapporte la censure
de Yahoo! et de Google en Chine et celle
présente dans plusieurs autres pays.
Voici un extrait tiré du chapitre sur le Canada:
«Auparavant, seuls des juges français et australiens
avaient accepté de se prononcer sur des contenus en ligne qui
n'étaient pas hébergés dans leur pays. Cette
décision ajoute donc au flou juridique dans le domaine. En
effet, une information diffusée sur un site Web touche
obligatoirement tous les pays connectés au Réseau. Cela
veut-il dire qu'un éditeur de site peut être
traîné en justice dans n'importe quel pays du monde ?
Cette décision est dangereuse parce qu'elle pourrait pousser
à l'autocensure les responsables de publications en ligne, par
peur de poursuites judiciaires à l'étranger.»
Ce paragraphe, tout le rapport et ce qui en découle soit les
sites de recherche, est important. Sommes-nous sûrs de
l'information que nous lisons sur le web ? Sommes-nous sûrs
de ce que les automates de recherche nous livrent ? Leurs
programmes informatiques ne peuvent-ils pas créer de la censure
malgré eux comme Google qui classent les pages selon une
douteuse popularité ? ou avec la complicité des
autorités comme en Chine? Les programmeurs des automates
de recherche sont-ils en mesure de prendre leur responsabilité
lorsqu'une faille ou même une apparence de faille est
décelée ? Pouvons-nous avoir confiance en elles
? Toute la question réside dans la responsabilité
des sociétés oeuvrant dans la recherche web.
posté par Marc Duval, #référence
- 20:45
Web sémantique: enfin les
bibliothécaires reconnus
Le
journaliste Michel Dumais du journal Le Devoir a
publié un article de vulgarisation sur le web
sémantique sous le titre Technologie: Le
Web de l'avenir, être ou ne pas être sémantique.
Voici la citation :
«Bref, vous aurez compris que la réalisation de ce Web
de demain passe nécessairement par l'humain. Et les premiers qui
auront à réaliser ce Web, une fois les problèmes
techniques surmontés et les normes mises en place, seront entre
autres ces spécialistes de l'information que sont les
bibliothécaires.»
Dans la plupart des cas, le web sémantique est
abordé par l'intelligence artificielle. Peu
d'articles de vulgarisation mettent de l'avant le catalogage
fait par des professionnels de l'information. C'est peut
être la faute des bibliothécaires qui n'ont pas
réussi à investir le web ou n'ont pas su s'y
imposer. Cependant, il existe un répertoire connu qui fait
du web sémantique. Du moins, est-ce un embryon. Il
s'agit de la Toile du Québec.
Certaines notices du répertoire reçoivent des
métadonnées, des descripteurs invisibles. Yahoo! a tous les atouts pour rendre
le web sémantique, mais les créateurs du
célèbre répertoire n'ont pas su en tirer parti.
posté par Marc Duval, #référence
- 18:20
2004-07-26
MSN Actualités ajoute 8 [9] interfaces
[Mise
à jour du 27 juillet] -- MSN a ajouté 6 pays, une langue
régionale [espagnol plus l'anglais] aux
États-Unis et deux langues nationales en Suisse la semaine
dernière à son service de recherche d'actualités.
Ces pays sont :
Les
États-Unis (en anglais) ne sont pas encore inclus dans la liste.
Mise à jour du 27 juillet: MSN vient d'ajouter les
États-Unis à sa liste. Cette nouvelle destination a
été implantée sur MSNBC News.
En terme de recherche, MSN Actualités est
supérieur à Google
Actualités en gardant les requêtes
antérieures bien en vue et les articles consultés dans un
dossier. Il est à noter que les articles consultés
peuvent être supprimés. Cependant, MSN
Actualités a deux lacunes: il n'a ni alertes ni tri
dans l'affichage des notices. MSN Actualités
s'appuient sur le service Moreover.
Ces ajouts portent à 17 interfaces
[maintenant 18] pour MSN Actualités. En
comparaison, Google Actualités couvre 10 pays (
Allemagne - Australie - Canada - Espagne - États-Unis - France -
Inde - Italie - Nouvelle Zélande -Royaume-Uni).
Les deux services demeurent complémentaires pour la
recherche. Cependant, MSN Actualités est à
privilégier pour une utilisation régulière qui n'a
besoin ni d'alertes ni de tri.
posté par Marc Duval, #référence
- 09:08
2004-07-25
Yahoo! recherche par régions
Le formulaire de recherche de
Yahoo! n'a pas de recherche par régions mais par
pays. Il n'y a pas non plus de préfixes de
recherche par régions dans la page
d'aide de Yahoo! Pourtant, la recherche par régions est
effective. Son préfixe de recherche est region:.
Les régions sont:
- africa (Yahoo!
7,850,000 / Yahoo! Canada en
français 7,870,000 / Yahoo!
France 7,820,000)
- centralamerica
(2,660,000 / 2,650,000 / 2,500,000)
- downunder (Pacifique) (48,500,000 / 48,100,000 /
47,400,000)
- europe (896,000,000 / 906,000,000 / 874,000,000 )
- mediterranean (7,570,000 / 7,670,000 / 7,420,000 )
- mideast (11,700,000 / 11,700,000 / 11,600,000)
- northamerica (2,470,000,000 / 2,050,000,000 /
2,350,000,000)
- southamerica (63,000,000 / 63,500,000 / 62,300,000)
- southeastasia (9,340,000 / 9,410,000 / 8,640,000)
Par
exemple, une requête pourrait être region:africa.
Il faudra faire attention à ce préfixe parce que certains
pays ont vendu leur nom de domaine comme le Tonga (to) et le Tuvalu
(tv).
En utilisant cet indicateur, on peut évaluer le nombre de pages
enregistrées à environ 3,5 milliards. On
notera un phénomène paradoxal. Il y a davantage de
pages de l'Amérique du Nord dans Yahoo! France que dans Yahoo!
Canada en français. A l'inverse, il a plus de
pages européennes dans Yahoo! Canada en français
que dans Yahoo! France. Le nombre de pages dans chacun
des catalogues est variable selon les mises à jour, par
conséquent ces nombres sont sujets à caution.
La recherche par région est une caractéristique d'Inktomi,
racheté par Yahoo! Elle est disponible sur MSN
et HotBot. La recherche par région n'est pas
offerte par Google.
posté par Marc Duval, #référence
- 22:39
2004-07-22
Google, Picasa et la messagerie
instantanée
Peu de gens ont remarqué un petit icône dans le
coin inférieur droit du logiciel Picasa Send Hello.
Hello est un logiciel de
partage d'images poste à poste. Non seulement, il permet
de partager les images, il est aussi une messagerie
instantanée. En achetant Picasa
le 13 juillet 2004, Google a mis la main sur Hello.
Hello pourrait devenir le concurrent de Yahoo! Messenger,
de MSN Messenger et de AOL Messenger. Deux jours
plus tard, le magazine ZDNet France titre Messagerie
instantanée : Microsoft décroche
l'interopérabilité avec AOL et Yahoo. Le jour
suivant, Google fait la promotion du logiciel Picasa en
l'offrant gratuitement. Coïncidence?
La relation entre Google et Picasa ne date pas
d'hier. Le 10 mai, Picasa émettait le
communiqué Picasa Brings
Instant Photo Publishing to Blogger [pdf] Blogger Users Can Add
Pictures to their Blogs With Picasa's Hello Software. Grâce
à BloggerBot,
Hello aide l'internaute à publier des photos sur Blogger,
le site d'édition de carnets web acquis en février 2003
par Google. Google n'est pas entrée seulement
dans la gestion d'images sur disque dur en acquérant Picasa.
La société est entrée aussi dans la messagerie
instantanée avec le logiciel Hello de Picasa.
Le même jour, Google
améliore le service Blogger. Coïncidence ?
Google a un catalogue
d'images. Son service de courriel GMail avec 1Go a la
capacité d'en accueillir. Picasa a une fonction
d'envoi par courriel. Il est raisonnable de croire à une
intégration de tous ses outils. Picasa gère
les images sur disque dur et les fait partager grâce à la
messagerie instantanée Hello. Une fonction de
recherche web permettrait d'être directement reliée
à Google
Images.
Imaginons ces deux scénarios:
L'internaute fait une recherche dans Google Images.
Il en importe une sur son disque dur. Il ouvre Picasa et
il envoie l'image par courriel en utilisant son adresse GMail.
La photo est expédiée à un correspond
abonné à un service concurrent et elle est
partagée avec les internautes reliés par Hello.
La photo est ensuite stockée dans un album sur GMail.
Imaginons que l'internaute a la barre
d'outils de Google. Cette barre a la recherche d'images
et donne accès à Blogger. Picasa
serait intégrée à la barre d'outils.
L'internaute fait une recherche à travers la barre d'outils
de Google. Il trouve une image. Il l'exporte sur son
disque dur ou dans son album GMail. Il ouvre Picasa
à partir de la barre d'outils, envoie la photo par GMail
ou par Hello. Ne pourrait-on pas voir dans la barre
d'outils de Google le point d'ancrage de tous les services de Google,
y compris la gestion de documents sur disque dur? N'oublions pas
que la barre d'outils de Google a été
conçue pour Internet Explorer qui possède plus de
90% du marché. Enfin, la barre d'outils bien
installée, Google pourrait l'utiliser comme porte
d'entrée pour son fureteur Google Deskbar.
Google se rapproche tranquillement de Yahoo! avec ses
services. Google, site de recherche ? En apparence.
Portail de recherche? Il le devient. Gestionnaire d'information?
Il y tend avec le projet Puffin.
Google PC ? Pourquoi pas ? Google a déjà
une base pour lancer son propre PC avec son Google Search Appliance.
Enfin, quand le modèle d'affaires de Google basé sur la
publicité périclitera, Google pourra intégrer
progressivement la facturation. N'est-ce pas le chemin qu'ont
suivi Yahoo! et consort ?
posté par Marc Duval, #référence
- 14:51
2004-07-20
Fichiers témoins sur AOL France
Les
vignettes des pages web sont arrivées sur AOL France avec son lot de fichiers
témoins [censuré] pour la recherche en français.
Si vous utilisez Internet Explorer, ne vous inquiétez pas, il
est reconnu pour être le meilleur fureteur sur le marché.
Si vous avez un gestionnaire de fichiers témoins,
désactivez-le ou ... [autre conseil censuré].
Attention! Ce message sera détruit dans un semaine ;-)
posté par Marc Duval, #référence
- 22:42
Blinkx, une évaluation
Blinkx est un logiciel de recherche
globale pour Internet Explorer. Il indexe les fichiers PowerPoint,
Word, Excel, Outlook, Eudora, Acrobat
et texte sur le disque dur en arrière-plan et recherche
sur le web avec son propre catalogue de plus de 60 millions de pages.
Les documents peuvent être recherchés sur disque dur par
types de fichiers. Ils peuvent être classés par
types de fichiers et par titres. Les courriels peuvent être
classés par dates, par expéditeurs et par destinataires,
et par sujets.
La recherche sur Internet a deux supports: le logiciel et le site
web. La section de la recherche web du logiciel est
divisée en actualités, web, produits, vidéos de la
BBC et carnets web. La recherche sur le site web est
amorcée en cliquant sur la loupe près de la case de la
requête. Il n'y a aucune recherche booléenne.
La recherche à partir du site web a les mêmes sources
qu'à partir du logiciel, incluant la recherche sur le disque
dur. Il offre aussi la représentation graphique du
résultat de recherche.
Bien que Blinkx semble avoir impressionné plusieurs, il
est une curiosité. Il recherche bien les fichiers
adoptés. Donc, il ne faut pas s'attendre à ce qu'il
indexe tout le disque dur pour le moment. Le plus
inquiétant est de voir s'afficher les documents de son disque
dur sur un site web, que cette inquiétude soit fondée ou
non.
Il est encore loin du regretté AltaVista Discovery.
Blinkx a été désinstallé
après cette rapide évaluation.
Source: Is
the search over for the new Google?, The Times, 11 juillet
posté par Marc Duval, #référence
- 16:37
Revue de la semaine du 11 au 17 juillet
La
semaine du 11 au 17 juillet a été
mouvementée. Voici une revue de la semaine (voir les
références sur la page des Actualités).
Le 12 juillet
- Un
employé de nationalité française travaillant sur
l'automate de recherche de Microsoft aurait dérobé le
code source d'AltaVista.
- La
société québécoise Copernic met en
évaluation son logiciel de recherche globale (disque dur et
internet): Copernic Indexation Desktop.
- La
société Yahoo! acquiert Oddpost pour son logiciel de
gestion de courriers et de lecteur de contenus RSS.
13
juillet
- Google
utiliserait la bourse électronique Nasdaq plutôt que le
New York Stock Exchange.
- Google
annonce l'achat de la société Picasa et met la main sur
son logiciel de recherche et de retouche d'images. Google invite
les internautes à
télécharger gratuitement le logiciel sur ses interfaces
en anglais.
- Annonce
du nouvel automate de recherche de notoriété
Kosoru. La société a recruté le co-fondateur
d'Ask Jeeves à son conseil d'administration.
- Le
nouveau site de recherche 100.com apparu en mai 2004 s'associe à
LookSmart.
14
juillet
- HighBeam
a ajouté 20 outils de références tels que
encyclopédies, dictionnaires, almanachs et dictionnaires de
synonymes.
- Mme
Tara Calishain lance son livre Web Search Garage, l'ultime livre sur la
recherche internet.
- Google
ajoute la recherche par noms dans sa barre d'outils.
15
juillet
- Google
inc. soumet son projet d'indexer les fichiers audio et vidéo.
- Blinkx,
le nouveau logiciel de recherche global, est
révélé.
16
juillet
- Yahoo
pourrait rattraper Google en début de 2005 selon une
étude de Forrester.
- Microsoft
achète la société Lookout et son logiciel de
gestion de courrier.
- La
société chinoise Baidu nie que Google inc. ait pris une
part importante dans ses actifs.
posté par Marc Duval, #référence
- 12:47
2004-07-16
Téléchargez
Picasa sur Google
Le
13 juillet, Google
inc. acquerrait la société Picasa.
Trois jours plus tard Google
offre aux internautes de télécharger le logiciel
de gestion de photos Picasa
sur les interfaces en anglais. Sauf erreur, c'est la première
fois que Google se sent si presser d'intégrer une
société acquise en si peu de temps tant et si bien que Picasa
n'est pas encore intégrée à son répertoire
des services. Même le logiciel
n'est pas encore identifié à Google. Ce qui est le plus
étonnant est que Picasa ne fait que la recherche sur le
disque local. Google n'a pas encore intégré la
recherche d'images dans son catalogue web. Ce qui ne devrait pas tarder
compte tenu que la mention " power by Google " est
déjà sur la page de Picasa. Picasa ne
gère pas que les photos, mais tout ce qui est image,
vidéo ompris. Picasa ajoute une fiche descriptive pour
chaque fichier et permet d'y ajouter des identificateurs ( keywords )
afin de faciliter la recherche. Note: Google a
amélioré Blogger pour faciliter la
rédaction et l'ajout d'images. Picasa serait un bon
outil pour Blogger.
posté par Marc Duval, #référence
- 07:37
2004-07-15
La recherche audio et vidéo sur Google
Selon
le New York Post
du 13 juillet, Google
inc. aurait l'intention d'ajouter la recherche audio et vidéo.
AltaVista (et AlltheWeb) , AOL / Netscape ( Singingfish /
Exalead ) ont des catalogues pour l'audio et le vidéo.
Jusqu'à maintenant, des considérations légales ont
freiné l'offre de la recherche multimédia de Google.
La forme que prendra le catalogue n'est pas encore
déterminée. Il pourrait s'aligner sur un catalogue
traditionnel de recherche web, sur un modèle commercial ou sur
un modèle hybride (les fichiers gratuits sur le web pourraient
être liés à une offre commerciale).
Google inc. a déjà eu des
démêlés avec des éditeurs pour son service
d'actualités. L'ajout de ces deux services est
cornélien. D'un côté, le catalogue
traditionnel - avec ses liens commerciaux - correspond à
l'idéal de Google inc. De l'autre, le
modèle commercial pourra rapporter des revenues dont il a
besoin pour concurrencer Yahoo! et Microsoft qui ont
davantage de ressources. Enfin, le modèle hybride coupe la
poire en deux, mais sera moins lucratif.
Comment pourraient être les catalogues?
Chez AltaVista, les onglets des catalogues MP3 / Audio et Video sont bien
visibles. L'internaute peut choisir le type de fichiers (pour l'audio:
MP3, WAV, WindowsMedia, Real, AIFF et
Autre; pour le vidéo: MPEG, Avi, Quicktime, Windows
Media, Real et Autre) et la durée du fichier (plus
ou moins d'une minute). Il n'y a aucun formulaire de
recherche. Chez AlltheWeb,
le catalogue vidéo
a un formulaire de recherche comprenant le type de fichiers, le choix
du chargement des fichiers et un filtre parental. Le catalogue audio n'a pas de
formulaire de recherche.
AOL a une page d'accueil qui
ne met pas la recherche en avant plan. Il faut se rendre en bas
de page et sélectionner AOL Search.
AOL a choisi une interface unique pour le multimédia
sur son site états-unien. Son catalogue est
alimenté par l'automate de recherche Singingfish.
Son formulaire de recherche comprend le choix du médium, le
choix du thème (Finance, Musique, Films, Actualités,
Radio, Sports, Télévision et Autre). AOL France s'est allié
à Exalead pour son catalogue en français. Exalead
a préféré intégrer les fichiers
multimédia aux notices web. Il n'y a pas de formulaire
propre à la recherche multimédia. AOL France
n'a pas de catalogue multimédia internationale.
On peut espérer que Google offrira un formulaire plus
détaillé comprenant la recherche par auteurs et par
titres. La notice pourrait avoir une ouverture vers une page
intermédiaire sur le modèle de son catalogue
d'images. Il ne serait pas étonnant de voir un avis
comme celui-ci : This audio file may be subject to copyright et
un filtre parental. Maintenant, attendons quelle surprise nous
réserve Google si cette nouvelle est avérée.
Source: Hooly M. Sanders et Tim Arango. Advanced search -
Google plans upgrade to find video, audio. New York
Post. New York, N.Y.. 13 juillet 2004. pg. 033
posté par Marc Duval, #référence
- 11:01
2004-07-13
Sensis, un automate de recherche clé en main
L'Australie
semble être devenue la terre promise des automates de
recherche. Il y a Mooter,
100.com - automate de recherche
minimaliste avec un catalogue d'actualités -, voila Sensis, le
tout nouvel automate de recherche australien.
Dès sa sortie, il est équipé d'un formulaire de
recherche, de préfixes, de raccourcis qu'un Google a pris
plusieurs années à avoir.
Le formulaire comprend:
- quatre
cases de recherche habituelles plus une additionnelle pour l'Australie.
- trois
sources d'information: pages web, pages blanches et pages jaunes.
- le
choix entre 36 langues dont le français
- les
cinq formats de fichiers courants
- la
recherche par site et par domaine
- le
filtre parental
- trois
choix d'affichage pour les pages du résultat de recherche.
- le
choix de 10, 20 ou 30 notices par pages.
Sensis
n'est pas sensible à la casse et soustrait les mots les plus
communs de la requête.
Sensis utilise les opérateurs courants:
Sensis
possède quatre préfixes de recherche:
- site:
- domain:
- filetype:
- language:
et
trois raccourcis pour la recherche dans les pages jaunes, les pages
blanches et le web:
Enfin,
Sensis a la troncature (*) réservée pour la
recherche dans les pages blanches.
Selon le communiqué
de Sensis, la société cible les internautes de 18
à 45 ans au lieu de 18 à 25 ans divulgué dans
l'article Sensis
to re-launch de News.com.au. Nul doute que Sensis sera un
choix à considérer pour les Australiens.
posté par Marc Duval, #référence
- 15:00
Kosoru inc. à la poursuite de Google
Une
nouvelle entreprise, Kosoru inc., a entrepris
d'améliorer le classement de notoriété de Google.
Google a été le premier à introduire le
classement de notoriété avec PageRank. Le
défaut de PageRank a été de
considérer qu'une page le plus souvent citée devait
être notoire. Ce qui est vrai dans une base de
données contrôlée est faux dans une base de
données non structurée comme celles des automates de
recherche actuels. Au fil du temps, le classement de
notoriété de Google est devenu un classement par
popularité, diminuant ainsi sa pertinence. Kosoru inc.
a l'intention de fonder son classement de notoriété sur
une politique éditoriale. Les sites de
notoriété feront partie en quelque sorte d'une sous-base
de données comme les ouvrages de référence dans
une bibliothèque. Les
encyclopédies, les dictionnaires, les sites d'actualités,
par exemple, seront évalués comme étant plus
crédibles que les carnets web.
Un prototype est prévu pour 2005.
Source: Taking
on search engine giants, Kansas City Star, 13 juillet
posté par Marc Duval, #référence
- 12:27
2004-07-12
Localiser des livres sur Yahoo!
L'OCLC (Online Computer
Library Center, Inc.) est une coopérative internationale de
bibliothèque sans but lucrative. Elle offre des services
de localisation, d'acquisition, de catalogage, de prêt et de
préservation de matériel de bibliothèque. La
mise en commun des catalogues des bibliothèques a fait
naître le catalogue collectif WorldCat qui
compte plus de 54 millions de notices de documents variés.
L'OCLC vient de terminer un projet
pilote de localisation Open WorldCat qui a duré un an de
juin 2003 à juin 2004. Le projet pilote avait pour but de
mettre des notices de livres et leur localisation à la
disposition des internautes en intégrant des notices
bibliographiques dans les bases de données web. Google
inc. a été le premier automate de recherche d'envergure
à joindre le projet en 2003. Yahoo! a été le
second à y adhérer en mai 2004. Le projet avait
été limité à 2 millions de notices.
En moins de deux mois Yahoo! les a enregistrées, se rendant
même jusqu'à plus de 3,7 millions de notices alors que
Google compte un peu plus de 500 mille. (Selon Quick
facts about the Open WorldCat pilot, Google aurait
intégré 100% des notices!).
La notice trouvée dans les automates de recherche a deux
éléments distinctifs. Le titre de chacune d'entre
elles commence par Find in a library et l'adresse du site
commence par http://www.worldcatlibraries.org.
L'internaute a plusieurs voies d'entrée, du
général au spécifique:
- par
le titre (avec les guillemets anglais)
- par
l'auteur (avec les guillemets anglais)
- par
l'ISBN (sans traits d'union)
- par
la requête find in a library [mot]
- par
la requête site:worldcatlibraries.org [mot] pour
Yahoo! et site:www.worldcatlibraries.org [mot]
La
recherche se fait dans la fiche bibliographique, mais c'est la fiche de
localisation qui est présentée. La fiche de
localisation comprend les données bibliographiques de bases et
une case de localisation par l'entrée du code postal, de la
ville, de la province, de l'état ou du pays. Bien que le
marché visé par le projet soit les États-Unis, le
projet WorldCat inclut des bibliothèques canadiennes dont celles
de l'Université de Montréal et de l'Université
McGill.
On trouvera aussi sur plusieurs fiches un lien vers le
résumé fourni par la Bibliothèque du
Congrès. Les bibliothèques qui ont leur catalogue sur le
web sont aussi hyperliés, ce qui permet de connaître la
politique de prêt-entres-bibliothèques. Un
troisième lien est affiché pour l'horaire de la
bibliothèque. Pour plus de détails, lire How
the Open WorldCat pilot works.
Avec ce projet, Yahoo! vient de démontrer hors de tout doute
qu'il est supérieur à Google pour l'enregistrement de
données provenant de sources extérieures. Il ouvre
aussi à la porte aux bibliothèques individuelles et
à d'autres organismes.
WorldCat est un projet intéressant qui a besoin d'être
amélioré. Ce qui lui manque est un véritable
raccourci. Yahoo! semble intéressé à
l'inclure dans un projet de personnalisation de la recherche. Le
temps n'est pas encore venu pour une utilisation valable.
L'internaute a tout intérêt à utiliser les catalogues
des bibliothèques.
Source:
Yahoo!
Search Joins OCLC Open WorldCat Project, Information Today,
7 juillet
posté par Marc Duval, #référence
- 16:22
2004-07-07
Netscape France : des fichiers témoins sortent
du résultat de recherche
Message censuré.
posté par Marc Duval, #référence
- 14:06
2004-07-06
Sensis, un automate de recherche pour les 15-28 ans
Le 13
juillet prochain, la société australienne Sensis, filiale de Telstra annoncera le
lancement d'un nouvel automate de recherche. L'automate
de recherche de Sensis est destiné au marché
des jeunes adultes australiens âgés de 15 à 28 ans.
L'automate de recherche servira de locomotive à ses
services d'annuaires téléphoniques et de petites annonces
de la société. Sensis commercialise quatre
services d'annuaires - des annuaires résidentiels et
commerciaux, l'annuaire urbain CitySearch, le service
cartographique Whereis - et le service de petites annonces Trading
Post. L'union de ces services créera un automate de
recherche de proximité avec personnalisation et peut-être
d'historisation pour suivre la tendance.
Sensis est entrée sur le marché des sites de
recherche en acquérant des actifs de la filiale australienne de Looksmart.
Cette incursion est pour se protéger en tant que régie
publicitaire contre Yahoo! et Google.
Source: Sensis
to re-launch,AAP - News.co. au,
5 juillet
posté par Marc Duval, #référence
- 09:15
2004-07-04
Yahoo: Revue des nouveautés
Yahoo
a indexé peu de sites de recherche dans son répertoire
durant le deuxième trimestre. Voici ceux qui sont apparus :
- 7
avril. SmartGenie, une
barre d'outils axée sur les services de Yahoo!
- 8
avril. NewsMap,
représentation « TreeMap » des actualités de
Google. Les actualités sont divisées en
thème. Les articles sont représentés par des
rectangles. Plus un rectangle est grand, plus il est jugé
important. La carte d'accueil est synoptique. Chaque pays et
chaque thème peut être vue séparément.
Un calendrier horaire affiche les archives. ( Pour en savoir plus sur
la représentation TreeMap: Treemaps for
space-constrained visualization of hierarchies ).
- 16
avril. A9.com, site de recherche
web d'Amazon. Le site A9.com utilise Google couplée à Alexa ( logiciel d'information sur
la page web et de classement des
pages web par popularité - propriété
d'Amazon ) et à A9 ( le 9 représente les 9 lettres d'
« algorithm » ), le programme de personnalisation et
d'historisation des requêtes. » Note: A9 ne profite
pas des vignettes des pages web d'Alexa.
- 28
avril. ThumbShots Ranking.
Site de comparaison de classement de requêtes unitermes parmi
AlltheWeb, AltaVista, Google, MSN Search, Teoma, WiseNut et Yahoo! Les
requêtes peuvent aussi être comparées entre eux sur
un même automate de recherche. La comparaison est
représentée par deux lignes parallèles ( les deux
résultats de recherche de chaque automate de recherche ou de
deux requêtes sur le même automate de recherche ) et les
pages par des points avec vignettes sous-jacentes, les mêmes
pages étant reliées ( Internet Explorer requis ).
- 5
mai. MediaStudies.
Répertoire de liens de qualité en actualité
internationale et en études sur les médias
destinés aux éducateurs, aux étudiants et aux
chercheurs.
- 3
juin. MoreGoogle.
Logiciel ajoutant les vignettes de pages web provenant d'Alexa au résultat de recherche
de Google. ( Note: Alexa utilise aussi Google ).
Autre
site:
- 22
juin NewsLookUp. Tara Calishain du site ResearchBuzz souligne le
site d'actualités en anglais NewsLookUp . Voir la description
ci-dessous.
posté par Marc Duval, #référence
- 09:31
NewsLookUp agrège des d'actualités
Tara
Calishain du site ResearchBuzz a souligne le site d'actualités
NewsLookUp en anglais - d'autres langues sont prévus le 22
juin. La présentation du site est utilitaire et sans
images.
NewsLookUp a plusieurs caractéristiques de recherche
intéressantes.
- NewsLookUp
supporte la recherche booléenne complexe (avec
parenthèses).
- Il
a six sources: Internet (actualités officieuses), les revues,
les agences de presse, les journaux, la radio et la
télévision. Il couvre 5 pays - Australie, Canada,
États-Unis, Nouvelle-Zélande et le Royaume-Uni - et 5
régions - l'Amérique latine, l'Asie, les Caraïbes,
l'Europe, le Moyen-orient et le Pacifique.
- Les
manchettes sont classées par pays et par sources. Le
Canada a quatre sources: CBC News, CTV, National Post (Canada.com) et
le Globe and Mail. Les États-Unis en ont cinq: Les
dépêches de Associatied Press publiées dans le New
York Post, Sun Sentinel ( Floride ), Dallas Morning News (Texas), USA
Today et le Washington Times. Il n'y a qu'une rubrique
thématique: la technologie.
- La
recherche porte sur le document entier, le corps, le titre, les balises
de description et de mots-clés.
- Le
résultat de recherche peut être classé par sites et
trié par pertinence et par dates. Le nombre de notices par
page est échelonné à 10, 20 et 50.
- La
notice est dans le format d'affichage kwic. Elle comprend le
titre, un extrait, l'url, la copie de la page indexée, la taille
du fichier, le format du fichier, la date et l'heure, les premiers 100
à 110 caractères des balises de description et de
mots-clés, et le nombre de pages. Elle peut être
affichée en trois autres formats: long (sans les balises), court
(sans balises ni extrait) et url.
- Le
temps d'archive est de 31 jours.
Le
développement du site NewsLoopUp est à surveiller.
posté par Marc Duval, #référence
- 09:08
2004-07-02
Citation de la semaine
« Je pense que les moteurs de recherche sont un
mal nécessaires ( sic ) pour le moment, mais qu'ils sont
appelés à disparaître au fur et à mesure que
les sites Internet deviendront adaptés à leur
clientèle », soutient Louis Duhamel, de Secor Conseil
et auteur du livre Les 10 e-commandements des affaires
électroniques paru récemment aux Éditions
Transcontinental.
« Google
et les moteurs de recherche sont appelés à
disparaître », Journal Les Affaires, 2 juillet
Traduction: les « moteurs de recherche »
deviendront inutiles pour le commerce... parce que les sites
commerciaux deviendront inadaptés aux « moteurs de
recherche ». Il n'y a pas que le commerce dans la vie!
M. Duhamel ne doute de rien. Ah! si sa prédiction pouvait se
réaliser!
posté par Marc Duval, #référence
- 17:05
Yahoo!: nouvelle page pour le résultat de
recherche
Yahoo!
met à l'essai une nouvelle
page pour le résultat de recherche. Suivant la
tendance, Yahoo! a adouci ses lignes et ses couleurs, et les liens vers
ses services de recherche sont plus discrets.
Les liens publicitaires sont dans un cadre vert pastel.
Le lien vers la page des raccourcis ( Shorcuts ) qui a
été redessinée a été ajouté.
Il ne semble y avoir aucun changement quant à la
présentation des notices.
posté par Marc Duval, #référence
- 12:47
Google: 4 nouvelles langues
Quatre
nouvelles langues ont été ajoutées au tableau des
interfaces linguistiques de Google. Il s'agit du kurde,
du mongol, du somali et du uighur ( ouighour
ou ouïgour ). Le ouighour est une
langue turque de l'Asie centrale parlée en Chine, au
Kazakhstan, au Kirgizistan, en Ouzbékistan, au Tadjikistan et en
Afghanistan ( source: Encarta
).
Remarque: La requête ouighour apporte plusieurs
pages sur la répression que subissent les Ouighours
en Chine ( province autonome de Xinjiang Uyghur ) dont celle d'Amnistie
Internationale ( CHINE :
Un historien ouighour derrière les barreaux ). Il
est intéressant de noter que Google
a ajouté l'interface en langue ouighour après avoir
essayé de séduire les Chinois le 26 juin dernier par
l'addition d'un dictionnaire et d'un service météo ( Google
Launches Chinese Search Services ). Ces services ont
été retirés [ temporairement?] de l'interface en chinois simplifié
(l'interface en chinois
traditionnel [Taïwan] n'a pas ces services) au moment de
sa consultation.
posté par Marc Duval, #référence
- 11:06
2004-07-01
MSN Search en phase bêta
Parallèlement
au remodelage de l'interface de recherche de MSN Search, MSN
a mis temporairement en ligne son automate de recherche MSN Search
Bêta ( copie
d'écran de la page d'accueil ) afin de recueillir des
commentaires des internautes à partir de liens en haut et en bas
des pages et sous forme d'un trait coloré à la droite de
l'URL d'une notice.
Il est singulier que Microsoft s'est senti obliger de
préciser le nom de son outil de recherche - « moteur
de recherche algorithmique » - signifiant
l'ambiguïté de l'expression « moteur de recherche
».
Microsoft prend soin d'écrire cette mise en garde(
Copie
d'écran ) :
- L'index
compte actuellement environ 1 milliard de pages (ce chiffre va
augmenter rapidement).
- Le site peut parfois se montrer lent. De même,
il est également possible que vous vous aperceviez que certaines
fonctions sont incomplètes ou manquantes, que les
résultats ne correspondent pas à votre recherche. Si vous
remarquez des problèmes, dites-nous ce qui n'a pas
fonctionné.
- Le logiciel fourni dans cette version bêta n'est
pas officiellement supporté et Microsoft ne fournit
aucun support technique.
MSN Search bêta est disponible en 28 sites
mondiaux. A remarquer: MSN s'est mis à l'heure de
Google en soulignant la fête
du Canada avec une requête hyperliée vers l'automate
de recherche.
Les essais ont été faits sur Internet Explorer.
Voici quelques commentaires:
- MSN
Search Bêta n'a pas de formulaire de recherche.
- Deux
préfixes de recherche sont disponibles: site:( site:harvard.edu
) et domain: ( domain:museum
). Les préfixes url:, title:, link: et des variantes ont
été vérifiés sans succès.
- Les
pages sont indexées jusqu'à 150k.
- Son
temps de réponse a été lent durant l'essai tel que
prévu par l'avertissement de MSN.
- Les
requêtes donnent de meilleurs résultats si elles sont
segmentées en concepts plutôt que formulées en
phrase. MSN Search Bêta reconnaît les accents
mais n'est pas sensible aux capitales ( la casse ).
- Les
opérateurs booléens sont AND / + (par
défaut), NOT / - et OR.
- Le
signe + ne force pas le mot tel qu'écrit. (+paris
ne recherche pas seulement le mot en minuscules).
- Il
ne semble pas y avoir de troncature ni de lemmatisation.
Plusieurs symboles de troncatures ont été testés
sans résultats.
- Enfin,
il n'y a ni d'aide à la recherche ni de vignettes.
Micosoft
aurait dû acquérir Gigablast
supérieur à MSN Search bêta. Il
aurait eu une base pour développer rapidement un automate de
recherche. Peut-être que M. Matt Wells a
décliné l'offre.
posté par Marc Duval, #référence
- 10:49
MSN Search redessiné
MSN
Search a modifié sa page d'accueil pour la de
recherche. « Le nouveau MSN Search est
arrivé » est-il écrit sur MSN France. En fait, c'est un
changement esthétique qu'a reçu MSN Search.
La page d'accueil pour la recherche est dans la lignée des
interfaces épurées. Son module de recherche
comprend une liste déroulante comprenant quatre services de
recherche: la recherche web, les actualités, le
« shopping » et l'encyclopédie Encarta.
La recherche web provient encore d'Inktomi / Yahoo.
Les actualités sont recherchées sur des sites web (recherche
dans la base de données de MSN Newsbot) et non fournies par
des agences de presse. Les articles de fond d'Encarta sont
réservés aux abonnés.
Le formulaire
de recherche avancée et les Préférences
n'ont subi aucun changement.
MSN Search offre sept services: Hotmail, Messenger, les Actualités à
travers les dépêches ( MSN Newsbot est
demeuré en phase d'essai), le Shopping, Encarta, les Cartes & itinéraires
et les Groupes de discussion.
La page du résultat de recherche comporte quatre parties
distinctes: les liens publicitaires ( sponsorisés ) dans un
encadré vert, les actualités reliées à la
requête et les services de MSN reliés aussi à la
requête identifiés par « Au coeur de MSN
» comme le « shopping », le Guide web et les pages
web. Des suggestions de recherche accompagnent certaines requêtes.
Les versions en anglais ont en plus la recherche dans un dictionnaire,
des cotes boursières et des films. Un lien vers Encarta
donne les évènements du jour. Ils ont aussi
gardé le correcteur orthographique.
Auparavant, les recherches sur les chanteurs par exemple apportaient
une photo et des liens vers des sites et des extraits audio. Les
quelques recherches entreprises n'ont pas fait ressortir cette
présentation.
Selon l'article MSN
launches revamped search engine de ZDNet Australia, MSN
a épuré le résultat de recherche d'Inktomi
/ Yahoo en retirant - pour le moment - les pages
utilisant le programme d'inclusion payante. L'affichage serait
plus rapide que ses concurrents. Finalement, l'automate de
recherche arrivera probablement cet automne à moins
d'imprévus.(Ajout: il est présentement en essai sur MSN Search bêta
- voir l'article suivant).
Lire aussi Microsoft
Rolls Out Revamped Web Search Service de Reuters.
posté par Marc Duval, #référence
- 02:15
Bienvenue au Carnet des sites de recherche. Vous trouverez dans ce
carnet mes observations sur les sites de recherche autant
états-uniens, canadiens que français. Si vous
découvrez quoi que ce soit sur l'un
ou l'autre site, n'hésitez pas à me contacter. Je me ferais un
plaisir d'ajouter votre contribution.