|
Introduction
Un doublon
est une page ayant le même contenu qu'une autre page avec un nom
de domaine différent. Sa présence est un indice de
déficience dans sa gestion par l'automate de recherche. Pour
le moins, l'automate de recherche devrait avoir un programme de comparaison
d'URL afin d'éliminer celles qui ont le même sous-répertoire
et le même nom adjacent.
Essentiellement,
il y a 4 types de doublons : 1) le site miroir qui a pour but
d'augmenter la rapidité de téléchargement ; 2) le
site miroir qui a pour but de multiplier la présence d'une entreprise
dans les banques de données d'un site de recherche ; 3) la page
qui est en migration vers un autre nom de domaine ; 4) le dysfonctionnement
de l’automate de recherche.
1) Rapidité
de téléchargement
Le doublon
est une façon pratique d'augmenter la rapidité de téléchargement
ou de contourner un arrêt de service d'une partie d'Internet.
Par exemple, le site Virtual Library
a des sites miroirs en Grande-Bretagne, en Suisse et en Argentine.
Les grands
sites de recherche web utilisent aussi cette méthode en disposant
des centres de données près de leur clientèle comme
Inktomi qui alimente HotBot et MSN à partir de centres de données
européen (en Grande-Bretagne nommé Eurocluster -110M Documents),
asiatique -(Asia Pacific cluster 55M documents) et américains -
Best of Web cluster (110M Documents et GEN3™ 500 M documents). (1)
2) Présence
multiple
Certains
sites sont réticulaires et publient le même article sur chacun
de ses sites affiliés. Le cas extrême a été
rencontré sur HotBot. Un texte sur la greffe d'organe a été
publié 11 fois sur des adresses différentes mais contenant
les mêmes répertoires. De ces 11 adresses différentes,
3 ont été retirées quelques semaines plus tard :
http://www.optimaonline.ch/sante/conseils/psy/greffes.html
http://www.bilan.ch/sante/conseils/psy/greffes.html
http://www.basket.ch/sante/conseils/psy/greffes.html
http://www.formule1.ch/sante/conseils/psy/greffes.html
http://www.encheres.ch/sante/conseils/psy/greffes.html
http://www.tvguide.ch/sante/conseils/psy/greffes.html
http://www.foot.ch/sante/conseils/psy/greffes.html
http://www.hockey.ch/sante/conseils/psy/greffes.html
Il est
évident que Inktomi n'a pas fait son travail pour éliminer
les doublons de la banque de données de HotBot.
Tableau
selon la présence des doublons
Rang |
Automates |
%
|
1 |
AltaVista
Canada |
0,00% |
2 |
AltaVista
Belgique |
0,63% |
3 |
Excite
Canada/USA * |
0,63% |
4 |
Northern
Light |
1,67% |
5 |
AltaVista
USA |
1,88% |
6 |
HotBot
France |
2,08% |
7 |
Excite
France * |
2,08% |
8 |
AltaVista
France |
2,29% |
9 |
Google
français |
2,92% |
10 |
Voila |
3,75% |
11 |
Lycos
Canada |
3,96% |
12 |
MSN |
4,17% |
15 |
HotBot
USA |
4,58% |
13 |
AllTheWeb |
5,00% |
14 |
Lycos
USA |
5,63% |
16 |
Lycos
France |
7,29% |
480=100
*Les
sites Excite Canada et Excite France ont disparu en décembre 2001.
Excite USA a retiré son formulaire avancé. |
3) Migration
La migration
des pages est courante dans le cas des doublons. En général,
elle se rencontre lorsqu'un site personnel migre vers un site ayant son
adresse plus officielle.
Par exemple,
au moment du test, l'Association française du syndrome de Rett changeait
d'adresse.
http://www.orpha.net/associations/AFSR/caract.htm
http://ourworld.compuserve.com/homepages/AFSR/caract.htm
(Pages
consultées le 26 novembre 2001)
Cependant,
si ces doublons sont encore présents dans 1 an, cela signifiera
que l'automate les gère mal au cours de sa mise à jour, du
moins les pages qui ont une adresse semblable.
D'autre
part, certains auteurs de pages web laissent à dessein le contenu
sans avertir du changement d'adresse.
4) Le
dysfonctionnement
Les automates
de recherche ne sont pas à l'abri du dysfonctionnement. Lycos
France en a été l'objet à deux occasions en doublant
les 10 premières réponses.
|
Le test
La moyenne
des doublons acceptable semble être de 2%. Ce qui est négligeable.
Le test a montré que seul AllTheWeb (Lycos compris) a eu de la difficulté
à gérer les doublons bien qu'il prétend avoir la mise
à jour de sa banque de données la plus rapide. Ce qui
est surprenant est la bonne place qu'occupe AltaVista ; certains observateurs
des sites de recherche soutiennant que sa gestion des doublons est déficiente.
Conclusion
La présence
de doublon est nécessaire dans les cas précis d'améliorer
le téléchargement d'une page et de migration d'un site.
Cependant, elle devient du bruit sinon du spam lorsque la page est diffusée
sur plusieurs sites et qu'un avis de changement d'adresse n'est pas affiché.
En général, ces pages doublées ont des adresses similaires.
Au risque de perdre des pages au contenu différent mais avec les
mêmes quasi-adresses, les automates devraient être en mesure
de comparer les adresses et d'éliminer celles qui ont la même
terminaison.
Heureusement,
les doublons ne pullulent pas, même s'ils demeurent un phénomène
aussi irritants que le spam.
1.
Inktomi Corp. (Page consultée le 27 novembre 2001). « Inktomi
Web Search » [En ligne].
http://www.inktomi.com/products/search/web.html
(Retour)
|
|