|
Le
langage
|
Le champ de recherche Format
de fichiers |
|
Champs et sites de recherche
Les sites de recherche ont développé des préfixes
de recherche comme nous l'avons vu avec AltaVista. Le
but de ce chapitre est d'identifier chacun de ces champs, leur
utilisation et le préfixe correspondant utilisé
par chacun des sites de recherche.
1.10 Champ Format de fichierChaque logiciel qui enregistre un fichier a son format. Les pages hypertextes affichées par un navigateur Web ont un format HTML représenté par les suffixes .html et .htm. Le format du traitement de texte Microsoft Word est .doc. Le logiciel de présentation Microsoft PowerPoint génère deux formats l’un pour le format standard (.ppt) et l’autre pour les diaporamas (.pps pour PowerPoint Show) et le tableur Microsoft Excel a pour format .xls. Les documents enregistrés par le logiciel Adobe d’Acrobat ou par un des ses substituts sont en format .pdf.
La société de recherche web Inktomi a
été la première à offrir la recherche par
formats de fichiers. Sa méthode de recherche était
indirecte parce que le logiciel recherchait les pages web dans
lesquelles se
trouvaient ces fichiers. Son index public était
composé de documents HTML. L’internaute
devait consulter
la page web pour afficher le document .pdf ou tout autre
document.
Google Inc. a fait un pas supplémentaire en intégrant tous les fichiers disponibles sur le web public à son index et en les affichant dans le résultat de recherche. Afin de trouver ces fichiers et de les afficher directement, la société a ajouté dans son formulaire la recherche par formats et un préfixe de recherche. AltaVista et AlltheWeb ont suivi. Lorsque Yahoo ! Inc. a acquis Inktomi, AltaVista et Alltheweb, la société a intégré la recherche directe au programme d’Inktomi pour créer un nouvel automate de recherche. Ni Ask Jeeves/Teoma, ni MSN Recherche, ni Voila n’incluent cette commande. Présentation des différents formats de fichiers Exalead, Google et
le groupe Yahoo ! - comprenant Yahoo !, Inktomi sur
HotBot
France, AlltheWeb et AltaVista entre autres -
offrent la
recherche par formats de fichiers dans leur formulaire. Gigablast
est seul à ne pas l’offrir sous cette forme. En revanche,
tous les quatre ont un préfixe de recherche.
La recherche par formats de fichiersLa recherche par formats de fichiers est facile chez Exalead. Elle se fait autant par l’identification claire dans le résultat de recherche qu’à travers le formulaire de recherche. En effet, Exalead exploite deux identifications avec son affichage de vignettes par défaut. La première est l’identification textuelle dans la colonne de gauche du résultat de recherche, la seconde est une vignette à droite de la notice.
L’internaute peut afficher un format de fichiers en le
sélectionnant dans la liste de la colonne de gauche.
Exalead est le seul à offrir cette facilité
de
choisir le format de fichier à même la page du
résultat de recherche.
Gigablast n’a pas de
recherche de formats de fichiers dans son formulaire. Il faut
utiliser le préfixe type:. Cependant, il se
démarque en identifiant clairement le format de fichiers dans un
rectangle rouge comme ceci à gauche du titre de la notice. La
consultation du document est possible en HTML en cliquant sur archived
copy ou stripped. La recherche de
document texte - type:text - prend en compte tous les
documents en ASCII et ANSI quelles que soient leurs extensions.
Google est plus modeste en mettant l’extension entre
crochets au début du titre comme ceci : [PDF] avec la
note Format de fichier: PDF/Adobe Acrobat. La plupart
des
documents des principaux formats de fichiers ont leur Version HTML
ou la version texte pour le format de fichier d’Adobe PostScript.
En plus des six principaux formats, Google en identifie
quelques-uns tels Shockwave Flash [FLASH] et Corel
WordPerfect [WPD]. Google affichera la note Format
de fichier: Inconnu - Version HTML pour certains formats. A contrario, Yahoo ! Recherche identifie le format de fichier entre parenthèses et en long (MICROSOFT POWERPOINT) à la fin du titre. Il a la délicatesse d’avertir l’internaute : Votre recherche a été restreinte à "Adobe PDF (.pdf)". Pour plus de résultats, faites une recherche sur tous les formats de fichier. Comme Google, Yahoo ! propose d’Afficher en HTML les documents PDF, Microsoft PowerPoint, Microsoft Word, et d’Afficher en XML les documents en format RSS.
Yahoo ! recherche aussi les documents en
format texte (.txt). L'automate de recherche ne se
restreint pas à cette extension. Il inclut tous les
documents en format texte ayant d’autres extensions tels que .LOG
que ce soit à l'aide du formulaire ou du préfixe.
Enfin, AltaVista identifie seulement les
fichiers en PDF par Format de fichier: PDF et ajoute : Télécharger
un logiciel de lecture PDF. Ainsi, AltaVista est le seul site
de recherche qui propose un lecteur. Voilà sa
particularité. L'automate n'a aucune autre aide à
la lecture des autres fichiers. La recherche de document PowerPoint
est identique à Yahoo !
Nous pouvons remarquer que chaque logiciel a son affichage
propre. Exalead saisit le nom du fichier pour le titre
mais ne donne aucune façon de consulter le document;
l'internaute doit avoir le lecteur approprié. Gigablast
attribue un numéro au titre avec lecture en HTML. Google
et Yahoo! mettent le titre du document avec lecture en HTML
aussi. Beaucoup de
documents PDF n'ont pas été adaptés aux
caractéristiques du web. C'est pourquoi la recherche par
titres est la moins appropriée en raison de la difficulté
pour les automates de recherche de les afficher, principalement chez Gigablast.
Cette remarque vaut pour la plupart des documents autres que HTML, bien
qu'une partie de documents HTML souffrent de cette lacune.
Lorsque la recherche par titres est infructueuse, mieux vaut retirer
cette restriction. Les préfixes de recherche
Exalead et Google utilisent le préfixe de
recherche filetype:. Google ajoute ext:. Le
groupe de Yahoo ! emprunte le préfixe
rébarbatif d’Inktomi originurlextension:. Quant
à Gigablast, il a opté pour la simplicité
avec type:. Contrairement à ces concurrents qui
utilisent l’extension .txt pour la recherche de document en
texte (ASCII ou ANSI), Gigablast a choisi d’utiliser text.
L'extension suit le préfixe sans le point. Le tableau
ci-dessus liste les formats de fichiers et leur
représentation dans le résultat de recherche. ConclusionParmi les formats de fichiers offerts, quatre ressortent: PDF, Microsoft Excel, PowerPoint et XML/RSS.
Les documents PDF sont reconnus pour être
«sérieux». Les fichiers PDF sont les
supports utilisés pour des rapports d’entreprises, des documents
scientifiques et techniques, des articles... Yahoo !
Recherche semble être le site à privilégier
selon quelques tests (2).
Les documents en Microsoft Excel sont des tableurs
utilisés pour classer des données, telles que des
listes. Ils sont prisés par des internautes en quête
de renseignements privés que des webmestres imprudents ont
laissés en consultation libre. Par exemple, la requête visa
filetype:xls 100..1000 trouvera des listes en .XLS
comprenant le mot visa et des numéros compris entre 100
et 1000. Google est le site à privilégier
en raison de son opérateur d'intervalles numériques. Les documents PowerPoint
sont utilisés pour des présentations, le plus souvent
didactiques. Exalead est à considérer parce
qu’il recherche les documents avec les suffixes .ppt et .pps.
Notons aussi la présence de la recherche de documents MacroMedia
Flash dans le formulaire.
Yahoo ! se caractérise avec la recherche
de sites avec syndication de contenu XML/RSS. Ni AltaVista,
ni AlltheWeb n’ont cet avantage ni aucun autre
particulier. De plus, Yahoo ! semble avoir plus de documents
Enfin, tous les sites de recherche ne sont pas confinés à
la recherche de formats définis dans leur formulaire. Les
internautes avertis n’hésitent pas à utiliser les
préfixes de recherche pour découvrir des fichiers
particuliers ou «sensibles» comme ceux de banques de
données contenant des renseignements privés. Il ne
faut pas oublier que la meilleure stratégie est de rechercher
avec plus d'un site de recherche. (1). L’ancien AlltheWeb avait ce format dans sa liste. (retour) (2). Comparez les requêtes : Google => +a filetype:pdf = 70 300 000 ; Yahoo! => a originurlextension:pdf = 122 000 000 |
Page précédente: Le
champ Domaine de tête |
Retour
au début de la page |
Page
suivante: Le champ Hyperlien |
|
|
|
|