|
DSI
|
Tout comme
notre univers, Internet est en expansion et plus particulièrement
le Web. Mais contrairement à celui-là, le désordre
règne. Pour y remédier, des gens ont créé
des répertoires et des index associés à des logiciels
de recherche : les chercheurs ou moteurs de recherche. Malgré
leur bonne volonté à ordonner ce cyberespace, ce dernier
croît plus rapidement. Les Yahoo et les Altavista ne
suffisent plus à la tâche ; ils sont débordés.
Pour mieux comprendre ce phénomène, vous trouverez ici des
textes qui vous éclaireront, du moins je l’espère, sur le
Web. Sont abordés:
|
-
La structure
d'Internet
-
L'étendue
du web
-
Les chiffres
-
La cartographie
-
Le web
invisible
-
La recherche
-
Les sites
de recherche
La structure
d'Internet
Une histoire
d'Internet veut que le Réseau ait été créé
pour prévenir une attaque nucléaire. Reprise par plusieurs
auteurs, elle fait partie des légendes urbaines. Le concept
est effectivement relié à la défense militaire (il
est apparu dans le rapport Rand et des auteurs sérieux écrivent
ce fait au conditionnel), mais sa réalisation est on ne peut plus
pacifique (1). Si Internet
avait été créé par les militaires, le Réseau
serait sécuritaire. Or, « [les] États-Unis s'inquiètent
de leur vulnérabilité informatique » selon une
dépêche de Reuters (2).
Prosaïquement, Internet est né du besoin d'échange entre
les chercheurs universitaires et l'armée américaine par l'intermédiaire
d'ordinateurs.
Essentiellement,
l'information transite à travers 5 canaux ou protocoles: le courrier
électronique (1972), le ftp - transfert de fichiers (1973), le Telnet
- interrogation d'un ordinateur distant (1974), le Usenet - groupes de
discussion (1979), l'Internet Relay Chat - communication en temps réel
(1988) et le web - communication hypertexte graphique (1989) (3).
Un sixième « canal » s'est ajouté
en 2000 avec l'échange de données au pair (peer-to-peer)
avec l'aide de logiciel comme Napster, Gnutella et Pointera.
Au fur
et à mesure que le web s'est imposé, les différents
canaux y ont été intégrés. Le courrier
électronique est disponible à travers les Yahoo et les HotMail,
le ftp à travers les Tucows et les C/Net, le Telnet par la page
graphique donnant accès aux bases de données des bibliothèques
et des entreprises comme Dialog ou Dow Jones, le Usenet par l'intermédiaire
des Deja.com, l'IRC par les Yahoo Bavardage,
enfin l'échange de fichiers au pair par les gnutella.it
ou SongCrawler .
Dans un
proche avenir, il est probable que les échanges de données
au pair et les messageries instantanées prennent le pas sur le courrier
électronique comme le prévoit Microsoft.
L'arrimage
des différents canaux au web a amené un effet de métonymie
faisant en sorte que pour beaucoup le web est synonyme d'Internet.
Cette métonymie se reflète dans l'expression «web invisible» dans laquelle plusieurs auteurs
incluent les bases de données textuelles comme celles diffusées
par Dialog . C'est pourquoi
il est bon de se rappeler la définition du web telle que donnée
par l'Office de la langue française :
Web n
m
-
Système
basé sur l'utilisation de l'hypertexte, qui permet la recherche
d'information dans Internet, l'accès à cette information
et sa visualisation. (4)
.
L'étendue
du web
Les chiffres
Depuis
plusieurs années, des auteurs ont publié des études
sur l'étendue du web.
Le 8 juillet
1999, MM. Steve Lawrence et C. Lee Giles annoncent que le web public a
800 millions de pages dans la revue Nature(5).
Le 18
janvier 2000, Inktomi et NEC Research Institute publient une étude
selon laquelle le web compterait 1 milliard de pages web (6).
Le 11
juillet 2000, la société Cyveillance évalue à
plus de 2 milliards de pages web. Pour suivre le développement
du web, elle avait placé sur sa page
d'accueil un compteur donnant au 1er janvier 2001 plus de 3 milliards
de page (7).
Durant
le même mois, la société BrightPlanet révèle
que le web contiendrait environ 500 milliards, pas de pages web mais de
documents (8). Coup publicitaire
s'il en est : les 500 milliards de documents se transformant en 500
milliards de pages web, mettant en doute la capacité des moteurs
de recherche. Mais rendons à César..., dans son rapport,
la Société souligne bien que ces documents sont disponibles
sur Internet et non sur le web. De plus, elle n'utilise pas l'expression
«web invisible» que plusieurs lui prêtent, mais le
«web profond». Les seules critiques à lui faire
sont d'avoir semé la confusion avec son «web profond»
et de prétendre avoir «révélé» au
monde les bases de données ! Il appert que l'expression
«deep web» a été imaginée au regard du site
concurrent InvisibleWeb.com
.
Le 16
octobre 2000, une autre étude est publiée par la Online Computer
Library Center ( OCLC ).
Cette étude se base sur le nombre de sites. Selon celle-ci,
la progression du nombre de sites est: 1,570,000 en 1997, 2,851,000 en 1998,
4,882,000 en 1999 et 7,399,000 en 2000. Elle divise le web en trois parties
: le web public, le web privé et le web provisoire. Le web public
est libre d'accès. Le web privé demande aux visiteurs
un mot de passe. Enfin le web provisoire comprend des sites «en
construction», au contenu non défini, vide de sens ou superficiel.
Selon les statistiques de cette étude, il y aurait 7,1 millions de
sites uniques. En terme de pourcentage, le web public représente
41%, le web privé, 21%, le web provisoire 37% et le web «adulte»
1%. Or, selon l’étude de 1999, les principaux moteurs de recherche
couvrent 60% du web public.
Malgré
les différences méthodologiques, les moteurs de recherche,
tous confondus, indexent en grande partie le web public.(9).
Malgré
ces tentatives, il est illusoire de vouloir chiffrer le web ; personne
ne peut dire combien il y a de pages web. Nous pouvons tenter de
l'évaluer, mais il y a tant de pages qui apparaissent et disparaissent,
et tant de sites miroirs que cette évaluation est faussée
dès le départ. Pour l'instant, le seul élément
valable pour tenter de circonscrire l'étendue du web est celui de
la progression du nombre d'adresses IP. Dans l'avenir, un système
de publication pourrait être envisagé à l'instar de
l'International standard book number (ISBN) ou de l'International standard
series number (ISSN) afin de comptabiliser, si ce n'est les pages webs,
du moins les publications.
La cartographie
A côté des études chiffrées, des tentatives de
cartographier le web sont apparues. Les deux plus célèbres
«représentations» sont celles du «19 clics »
et du « noeud papillon ».
Selon
MM. Réka Albert, Hawoong Jeong et Albert-László Barabási,
la distance moyenne entre 2 pages web est de «19 clics»,
suggérant que le web a la forme d'une bande (10).
Prenant le contre-pied de cette étude, des chercheurs des sociétés
AltaVista, IBM et de Compaq ont représenté le web comme un
noeud papillon ayant des branches sans issues, une bande reliant les ailes
et contournant le noyau, et des îlots (11).
Dans le
même ordre d'idées, M. Martin Dodge, l'auteur du site , publie
des cartes du web allant de représentations radar à des représentations
en faisceaux (12).
Il existe
aussi des sites de recherche cartographiant qui le web comme Map.net
pour Open Directory Project, qui une partie du web comme Newsmaps
ou SmartMoney
et qui les résultats de recherche tels que Umap
, un multichercheur.
Le web
invisible
Le web
dit invisible est entré dans le vocabulaire de bon nombre de spécialistes
de l'information. Ils entendent par cette expression les bases de
données. Les bases de données auxquelles ils se réfèrent
n'ont pourtant aucun document web. Elles ont été créées
bien avant 1989 en langage ASCII. Elles sont interrogées par
un logiciel Telnet fonctionnant en mode textuel. C'est le cas des
bases de données de la société Dialog avec son logiciel
DialogLink. Lorsque ces banques de données sont consultables
sur le web, c'est par par l'intermédaire d'une interface en
langage HTML.
Le web
invisible est tout autre ; il est constitué de pages web qui ne
sont pas indexés par les AltaVista. Comme en d'autres domaines,
le web est composé d'espaces public et privés. Par
exemple, le site du magazine The Economist
réserve des articles à ses abonnés, alors que le quotidien
La
Presse a développé un riche site public. Ce dernier
est d'autant exemplaire qu'AltaVista et Google recensent chacun une seule
page du site au premier janvier 2001. A sa décharge, admettons
que ce site existe depuis le 26 novembre 2000. Ceci pour souligner
qu'il faut attendre un certain temps pour voir apparaître des pages
d'un nouveau site dans un index. Pourtant, plusieurs pages de sites
publics plus anciens demeurent invisibles aux robots comme celui de Radio-Canada
dont AltaVista recense moins de 14% de ses 95 000 pages.
Une page
peut demeurer invisible aux moteurs de recherche de différentes
façons. Le site d'Altavista énumère plusieurs moyens
de restreindre l'accès aux pages en répondant à cette
question : « Mes pages sont privées et je ne veux pas qu'elles
soient répertoriées sur AltaVista Canada. Qu'est-ce
que je peux faire pour l'empêcher ? »
Le meilleur
moyen, lit-on, est de créer un fichier robots.txt et de le placer
en tête de la hiérarchie des documents WEB. Le moteur robot
comprendra et respectera ces instructions. Sinon, nous [AltaVista] n'avons
aucun moyen de savoir ce que vous considérez "privé".
Si votre
serveur est du type "usage interne seulement", vous pouvez bloquer l'accès
au Web avec le répartiteur, à l'aide d'un pare-feu ou d'un
écran. Vous pouvez aussi faire un blocage sur votre serveur en délimitant
l'accès au numéro IP ou au réseau secondaire. Une
autre alternative consiste à établir un service "public"
sur un point de connexion et un service "privé" sur un autre à
l'aide des règles d'adresses IP. Cette méthode bloque tous
les accès, pas seulement les robots, elle est donc plus fiable quand
il s'agit de protéger des documents sensibles ou confidentiels.
» (13)
Le web
invisible, c'est aussi toutes ces pages isolées parce qu'elles n'ont
été indexées ni par un automate de recherche ni dans
un répertoire. Ou ces pages aux multiples fautes d'orthographes.
Ou ces pages sans titres, sans adresses URL, sans méta-données,
sans mots signifiants. Ou encore ces pages comportant dans l'URL
des signes incompréhensibles pour les robots. Le web invisible,
c'est aussi des éléments de la page web qui ne sont pas tous
pris en compte par les robots. Mais cette frontière recule
de plus en plus. AltaVista, Inktomi, Google indexent de plus en plus
de types de fichiers (PDF, images, audio, vidéo) et autres éléments.
Ils sont pleinement indexés lorsqu'ils sont accompagnés d'un
fichier descriptif HTML et d'un URL signifiant.
La recherche
Pour bien
comprendre le fonctionnement de recherche du web, il faut savoir que les
automates de recherche comme Altavista ont trois composantes : un logiciel
d'indexation, un logiciel de recherche et un index. Le logiciel d'indexation,
ou les robots, parcourt le web et collige les pages. Certains
sites permettent aux internautes d'ajouter leur site ou leurs pages directement
à la base de données dans laquelle se fera la recherche.
La requête n'est donc pas faite sur le web mais dans l'index.
Les répertoires
se distinguent des automates en ce qu'ils font appel à des indexeurs
ou « documentalistes ». Ceux-ci classent
les sites web qui leur sont soumis par thèmes. Au fil des
ans, les répertoires ont développé leurs rubriques
et les ont modifiées. Si vous mettez l'hyperlien d'une rubrique
dans vos signets ou vos favoris, vous devrez faire une vérification
périodique pour vous assurez qu'il n'a pas été changé.
M. Jean-Pierre
Cloutier est journaliste. Sa notoriété dépasse
les frontières québécoises avec sa chronique Cybérie.
M. Cloutier a rédigé un texte de vulgarisation intitulé
« Moteurs, transmissions,
parcours » (14).
Le texte a été publié le 26 avril 1998 et demeure
d'actualité notamment pour la recherche par mots-clés et
pour la vérification des pages périmées. De
plus, il est représentatif de la mouvance du web en ce que des liens
sont aujourd’hui inactifs.
La recherche
dans le web est inconstante malgré les efforts déployés
par les concepteurs des automates. Mme Maureen Martyn démontre
dans l'article « Des faits peu connus à propos des moteurs
de recherche d'Internet » qu’avec une même requête, les
réponses diffèrent d’un automate à l’autre et même
d’une période d’interrogation à l’autre
(15).
Un organisme,
le CREPUQ, a publié un guide. Le chapitre 3 du guide est consacré
à la recherche. Il comprend une rubrique qui décrit et évalue
des outils de recherche. Voici un extrait de cette page qui mérite
que nous nous y attardions :
-
«On
compte certainement plus d'une vingtaine d'outils de recherche généraux
sur Internet. Une même recherche lancée sur ces divers outils
ne donnera pas les mêmes résultats. D'un jour à l'autre
aussi les résultats seront différents. On peut avoir l'impression,
en utilisant ces "engins" de lancer une bouteille à la mer
avec sa question encapsulée dans un formulaire. On obtient la plupart
du temps un résultat, parfois quelques éléments s'avèrent
pertinents, mais on n'a pas un bon contrôle de sa stratégie
de recherche. Ce n'est pas la performance informatique de ces outils qui
est en cause, mais bien leur performance au point de vue documentaire.
-
En sciences
de l'information, on juge une recherche performante lorsqu'elle nous procure
tous les documents recherchés et que les documents recherchés.
Selon ces critères, la recherche sur Internet comporte un tel taux
de silence (on ne trouve pas tous les documents pertinents) et de bruit
(on récolte souvent une multitude de documents non pertinents) qu'on
ne peut la qualifier de performante. L'investissement en temps requis pour
la recherche et le dépouillement des résultats est souvent
considérable pour un bénéfice moins que satisfaisant.»
(16)
Les sites
de recherche
Nonobstant
les considérations ci-dessus, les sites de recherche sont nécessaires
: l'intérêt qu'on leur porte en témoigne. A chaque
étude du web, la capacité des automates de recherche généralistes
à couvrir le web est mise en doute. Elle est mise en doute
parce que ces études étendent leur champ au-delà du
web. Elle est mise en doute parce que l'on oublie que les automates
de recherche ont pour fonction principale d'indexer les pages web.
Elle est mise en doute parce que l'on pense non en terme de « site
de recherche », mais en terme de « moteur de recherche ».
Mais AltaVista n'est plus un automate de recherche, mais un site de recherche
composé d'une base de données de documents web, d'une base
de données d'images, d'une autre de documents audio et d'un dernier
de documents vidéos. De plus, celles de page web comprend
un langage d'interrogation puissant grâce à sa recherche par
champs et par l'exploitation de la recherche par les
domaines
éducatifs et gouvernementaux.
A cela s'ajoutent les bases de données partenaires d'AltaVista pour
l'actualité avec Reuter's, les entreprises avec Hoover's, et son
association avec le répertoire Looksmart. Aussi, la base de
données web est assistée par d'autres bases de données
satellites comme RealNames, Foxsports.com, Cars.com. Elle complète
sa couverture du web avec ses sites nationaux qui ne contiennent pas nécessairement
les mêmes pages web. De la même façon, le site
de recherche iWon
est alimentée par la base de données web et d'actualité
d'Inktomi, les bases de Fact City et de RealNames, les répertoires
Looksmart et Direct Hit. Autre exemple, Northern
Light s'est orienté vers l'information d'affaires s'associant
aux bases Investext et à ses multiples partenaires
avec sa collection « Special Edition ». Lycos, Fast Search,
Excite, Voilà... suivent le même modèle selon la clientèle
visée.
Les sites
de recherche généralistes ne sont pas seuls mais s'ils veulent
croître, ils vont devoir accentuer leur collaboration avec des moteurs,
des répertoires et des sites spécialisés. Ces
outils de références sont classés dans des sites comme
Search
Engine Colossus , Beaucoup!
, Tous
les outils de recherche en une page, ou All-in
one search page . Ils devront aussi améliorer l'indexation
de tous les éléments d'une page web.
Enfin,
parce que chaque site de recherche recense une partie du web, des méta-chercheurs
ont pour mission de mettre à contribution les automates de recherche.
Dogpile, Mamma, SavvySearch, MetaCrawler en sont. Mais ils ne suffisent
pas. C'est pourquoi des logiciels résidents comme BullsEyes,
Copernic et Strategic Finder vont chercher des pages web dans les profondeurs
des sites et même au-delà en consultant des bases de données
textuelles.
Dernièrement,
un méta-chercheur web de deuxième génération
est apparu : Profusion d'Intelliseek, le chaînon entre les
méta-chercheurs web et résidents.
Conclusion
Malgré
le caractère chaotique d’Internet, le réseau des réseaux
est venu bouleverser non pas seulement la recherche mais surtout l'accessibilité
de l’information. L'avènement du web est venu changer notre
rapport à l'information en offrant non plus seulement du texte mais
une copie électronique d'un document enrichi d'hyperliens.
Rapports d'entreprises, formulaires et documents gouvernementaux,
articles, plans de métro, normes, brevets, transactions commerciales...
tant de documents que nous devions attendre, maintenant devant notre
écran prêts à être imprimés ou sauvegardés.
Maintenant,
le web est à un carrefour : soit qu’il continue à vivre et
à croître in muros, soit qu’il sorte davantage de son univers
électronique pour entrer dans le monde réel en semant les
adresses à tout vent. Quant aux automates de recherche, ils
auront à optimiser l'indexation des pages web et les auteurs à
s'adapter aux nouvelles fonctions de ceux-là.
Note :
Il est recommandé de sauvegarder l'article qui vous intéresse
avant qu'il ne soit retiré du web.
-
Dan
Miller. (Page consultée le 2 janvier 2001). « The Birth of
the Internet » [En ligne]. PCWorld.com , 28 oct. 1999. http://www.pcworld.com/resource/article.asp?aid=13531&pg=10
. PCWorld magazine, déc. 1999.
Walt
Howe. (Page consultée le 2 janvier 2001). « A Brief History
of the Internet ». [En ligne]. Delphi Forums . Dernière
mise à jour : 16 nov. 2000. http://www0.delphi.com/navnet/history.html
(Retour)
-
Jim
Wolf (Reuters). (Page consultée le 2 janvier 2001). « Les
Etats-Unis s'inquiètent de leur vulnérabilité informatique
» [En ligne]. Yahoo! Actualités France, 26 décembre
2000. http://fr.news.yahoo.com/001226/2/szke.html
(Retour)
-
Robert
H'obbes' Zakon. (Page consultée le 2 janvier 2001). Hobbes'
Internet Timeline v5.2.(Hobbes' Internet Timeline - the definitive
Internet history) [En ligne] Dernière mise à jour : 19 November
2000. http://info.isoc.org/guest/zakon/Internet/History/HIT.html
(Retour)
-
Québec
(Province). Office de la langue française. (Page consultée
le 2 janvier 2001). Terminologie d'Internet . [En ligne].
Office de la langue française ©2000. http://www.olf.gouv.qc.ca/ressources/internet/fiches/2075076.htm
(Retour)
-
Steve
Lawrence and Lee Giles. (Page consultée le 2 janvier 2001).
« Accessibility and Distribution of Information on the Web
».[En ligne]
in Nature, vol. 400, p. 107-109,
1999. Disponible gratuitement à cette adresse : http://www.wwwmetrics.com/
(Retour) ( Résumé
)
-
Inktomi.
(Page consultée le 2 janvier 2001). «Web Surpasses One Billion
Documents » [En ligne]. Intomi Corporation , 18 janv.
2000. http://www.inktomi.com/new/press/2000/billion.html
(Retour)
-
Cyveillance.(Page
consultée le 2 janvier 2001). « Internet Exceeds 2 Billion
Pages. Cyveillance Study Projects Internet Will Double in Size by Early
» [En ligne]. Cyveillance - Leading Provider of e-Business Intelligence
, 10 juillet 2000. http://www.cyveillance.com/newsroom/pressr/000710.asp
N.B. Le compteur de pages web a été retiré lors de la vérification
du 4 janvier 2001.(Retour)
-
Edouard
Launet. (Page consultée le 2 janvier 2001). « 500 milliards
de pages oubliées dans les abysses du Web » [En ligne] in
Libération,
13 décembre 2000. http://www.liberation.fr/multi/actu/20001211/20001213merzb.html
(Retour)
-
Online
Computer Library Center. (Page consultée le 2 janvier 2001). «
OCLC News Releases / 2000 October / OCLC Researchers Measure The World
Wide Web » [En ligne]. OCLC, 16 oct. 2000. http://www.oclc.org/oclc/press/20001016a.htm
Online
Computer Library Center. (Page consultée le 2 janvier 2001). «
Web Characterization Project. Web statistics » [En ligne].
OCLC, (2000). http://wcp.oclc.org/stats.htm
(Retour)
-
Réka
Albert, Hawoong Jeong et Albert-László Barabási. (Page
consultée le 2 janvier 2001). « Diameter of the world-wide
world
» [En ligne] in Nature, vol. 401, 9 septembre 1999,
p. 130. http://www.nd.edu/~networks/Papers/401130A0.pdf
(Retour)
-
Declan
Butler. (Page consultée le 2 janvier 2001). « "Bow Tie" Theory
». [En ligne] in Nature , vol. 405, no 6783, 11 mai
2000, page 113. http://www.nature.com/cgi-taf/DynaPage.taf?file=/nature/journal
/v405/n6783/full/405113a0_fs.html
Communiqué
d'IBM : http://www.almaden.ibm.com/almaden/webmap_press.html
(Retour)
-
Martin
Dodge. (Page consultée le 2 janvier 2001). Cybergeography
[En ligne].
http://www.cybergeography.org/
(Retour)
-
AltaVista.(Page
consultée le 2 janvier 2001). « AltaVista Canada - Aide -
FAQ ». [En ligne]. Altavista. http://www.altavista.ca/fr/help/faq.html#private
(Retour)
-
Jean-Pierre
Cloutier. (Page consultée le 2 janvier 2001). « Moteurs,
transmissions, parcours » [En ligne]. Mise à jour : 26 août
1998. http://www.cyberie.qc.ca/jpc/lbq.html
(Retour)
-
Maureen
Martyn. Canada. Conseil des bibliothèques du gouvernement fédéral.
(Page consultée le 2 janvier 2001) « Des faits peu connus
à propos des moteurs de recherche d'Internet » in Liaison,
janvier-février 1998, n° 98-1. [En ligne]. http://www.nlc-bnc.ca/cfl-cbgf/liaison/1998/98-1/9801-4f.htm.
N.B. Cette page n'est plus disponible à l'adresse original mais à celle-ci: http://www.dsi-info/moteurs-de-recherche/liaison-9801-4f.html
(Retour)
-
CREPUQ.
(Page consultée le 2 janvier 2001). « 3.6 Les outils de recherche
généraux dans Internet» in GIRI - Guide d'initiation
à la recherche dans Internet [En ligne]. Édition du 1er juin
2000 http://www.unites.uqam.ca/bib/GIRI/mod3/3ex1.htm
(Retour)
|
|