Service de recherche documentaire
Service de recherche documentaire DSI 
par Marc Duval, bibliothécaire

Le langage
des automates de recherche:

Le champ de recherche Format de fichiers
2005-03-28

Introduction
Opérateurs  booléens
Opérateurs de proximité
Troncature
Champs de recherche
Requêtes complexes
Conclusion
Formulaire de recherche
Tableaux
Les opérateurs logiques
Les champs de recherche
Affichage et fonctions

Accueil DSI
Introduction
La nature du web
Le mot clé
Les automates de recherche
-Les fiches techniques
-Le langage de recherche
Le classement des automates de recherche
Le web universitaire
Le palmarès des villes: un exemple de recherche
Le carnet de recherche
Les actualités
Tableau des extensions de fichiers pour Google et les autres services de recherche



Champs et sites de recherche

    Les sites de recherche ont développé des préfixes de recherche comme nous l'avons vu avec AltaVista.  Le but de ce chapitre est d'identifier chacun de ces champs, leur utilisation et le préfixe correspondant utilisé par chacun des sites de recherche.
    Les champs de recherche sont aussi utilisés pour l'affichage.  C'est ce qui clora ce chapitre. En voici les parties:

1. - Les champs
     1.01    Champ Texte
        1.011    La casse
        1.012    Les signes diacritiques
        1.013    Le correcteur orthographique
        1.014    La taille du fichier
                    Tableau
    1.02    Champ Langue
    1.03    Champ Domaine géographique
    1.04    Champ Méta-titre
    1.05    Champ Méta-description
    1.06    Champ Meta Keywords (méta-mots)
    1.07    Champ URL
    1.08    Champ Serveur
    1.09    Champ Domaine de tête
    1.10    Champ Format de fichiers
    1.11    Champ Hyperlien
    1.12    Champ Dates
[en préparation]

2. - Affichage
    2.01    Les formats d'affichage
    2.02    Le tri


1.10    Champ Format de fichier

    Chaque logiciel qui enregistre un fichier a son format. Les pages hypertextes affichées par un navigateur Web ont un format HTML représenté par les suffixes .html et .htm.  Le format du traitement de texte Microsoft Word est .doc.  Le logiciel de présentation Microsoft PowerPoint génère deux formats l’un pour le format standard (.ppt) et l’autre pour les diaporamas (.pps pour PowerPoint Show) et le tableur Microsoft Excel a pour format .xls.  Les documents enregistrés par le logiciel Adobe d’Acrobat ou par un des ses substituts sont en format .pdf.

    La société de recherche web Inktomi a été la première à offrir la recherche par formats de fichiers.  Sa méthode de recherche était indirecte parce que le logiciel recherchait les pages web dans lesquelles se trouvaient ces fichiers.  Son index public était composé de documents HTML.   L’internaute devait consulter la page web pour afficher le document .pdf ou tout autre document.
    Google Inc. a fait un pas supplémentaire en intégrant tous les fichiers disponibles sur le web public à son index et en les affichant dans le résultat de recherche.   Afin de trouver ces fichiers et de les afficher directement, la société a ajouté dans son formulaire la recherche par formats et un préfixe de recherche.  AltaVista et AlltheWeb ont suivi.  Lorsque Yahoo ! Inc. a acquis Inktomi, AltaVista et Alltheweb, la société a intégré la recherche directe au programme d’Inktomi pour créer un nouvel automate de recherche.  Ni Ask Jeeves/Teoma, ni MSN Recherche, ni Voila n’incluent cette commande.

Présentation des différents formats de fichiers

    Exalead, Google et le groupe Yahoo ! - comprenant Yahoo !, Inktomi sur HotBot France, AlltheWeb et AltaVista entre autres - offrent la recherche par formats de fichiers dans leur formulaire.  Gigablast est seul à ne pas l’offrir sous cette forme.  En revanche, tous les quatre ont un préfixe de recherche.
    Exalead, Google et le groupe Yahoo ! présentent dans leur formulaire la recherche de documents d’Adobe ( .PDF ), de Microsoft Excel (.xls), de Microsoft PowerPoint (.ppt) et de Microsoft Word (.doc).  Le groupe Yahoo ! et Exalead proposent la recherche de documents HTML non ceux en .rtf.  A l’inverse, Google présente le format en .rtf mais non en HTML.
   
Exalead se distingue en offrant la recherche en format Corel WordPerfect et en MacroMedia Flash (1); Google, en adoptant les documents d’Adobe postcript (.ps) et Yahoo ! Recherche les documents en format XML/RSS.
    La recherche du format «texte», c'est-à-dire un texte brut sans mise en page et sans images écrit en ASCII et en ANSI, est dans le formulaire d'Exalead et de Yahoo.  Bien que les documents en format «texte» aient l'extension .txt, ce format regroupe tous les documents en texte brut.  Seul le formulaire peut constituer ce regroupement.  A l'inverse, Gigablast n'a pas cette recherche dans son formulaire, mais le terme type:text fait le regroupement.  Google

Liste des formats de fichier et représentation dans le résultat de recherche
Formulaire Exalead Gigablast**
Google** Yahoo




Votre recherche a été restreinte...
Adobe Acrobat (pdf) Oui*
Non

[PDF] (PDF)
Adobe postcript (ps) Non
Non

[PS] Non
HTML Oui
s.o.
Non
Non Oui
Microsoft Word (.doc) Oui Non

[DOC] (MICROSOFT WORD)
Microsoft Excel (.xls) Oui
Non

[XLS] (MICROSOFT EXCEL)
Microsoft PowerPoint (.ppt) Oui
Non

[PPT] (MICROSOFT POWERPOINT)
Rich text Format (.rtf) Oui
Non
[RTF] Non
Texte (ANSI / ASCII)
Oui s.o. Non type:text
Non Oui
XML/RSS Non
Non
Non RSS: Afficher en XML
Corel Wordperfect Document [.wpd]
Oui
Non
Non**  [WPD] Non
MacroMedia Flash document [.swf]
Oui
Non
Non** [SWF] Non

Préfixes de recherche filetype: type:
filetype:
ext:
originurlextension:
Les préfixes de recherche permettent de trouver des documents d'autres formats de fichiers que ceux inclus dans le formulaire. En général, ces autres formats sont  identifiés seulement par l'extension de fichier dans l'URL.
MSN Recherche, Antisearch, Ask Jeeves/Teoma et Voila n'ont pas la recherche par formats de fichiers bien que leurs banques de données les contiennent et les affichent.  MSN Recherche identifie les fichiers PDF par PDF File à la fin de l'adresse URL et Ask Jeeves/Teoma à droite du titre par [PDF File]Utilisez le préfixe du champ URL inurl: pour Ask Jeeves/Teoma.
Note : Lorsqu'il n'y a aucune indication, le format de fichier n'est pas identifié dans le résultat de recherche.
*Exalead n'intègre  pas l'identification du format de fichier dans la notice.  C'est pourquoi elle est absente dans le format d'affichage en texte seulement.
**Gigablast n'a pas de choix de formats dans son formulaire.
*** Google recherche et identifie d'autres formats que ceux de son formulaire.


Formulaire Altavista AlltheWeb HotBot.fr AOL / Exalead / Google*

Ces trois sites de recherche utilisent l'automate de recherche Inktomi/Yahoo.

Adobe Acrobat (.pdf) Type de fichier:PDF [Adobe PDF] Oui Oui
Adobe postcript (.ps) Non Non
Non Oui**
HTML Oui Oui Oui Non
Microsoft Word (.doc) Oui [Microsoft Word] Oui Oui
Microsoft Excel (.xls) Oui [Microsoft Excel] Oui Oui
Microsoft PowerPoint (.ppt) Oui [Microsoft Powerpoint] Oui Oui
Rich text Format (.rtf) Non Non Non Oui
Texte (ANSI / ASCII)
Oui Oui Oui Non
XML/RSS Non Non Non Non
Corel Wordperfect Document [.wpd]
Non Non Non Non
MacroMedia Flash document [.swf]
Non Non Non Non

Préfixes de recherche originurlextension: originurlextension: originurlextension: filetype:***
Note : Lorsqu'il n'y a aucune indication, le format de fichier n'est pas identifié dans le résultat de recherche.
* AOL France utilise Exalead pour la recherche dans le Web français et Google dans le Web mondial.
** Exalead a jouté Adobe postcript à la liste des formats afin de s'intégrer à la recherche avec Google.  Ce format est absent du formulaire du site d'Exalead, néanmoins peut être néanmoins chercher à l'aide du préfixe.
*** Utilisez le préfixe commun filetype:.

La recherche par formats de fichiers

    La recherche par formats de fichiers est facile chez Exalead.  Elle se fait autant  par l’identification claire dans le résultat de recherche qu’à travers le formulaire de recherche.  En effet, Exalead exploite deux identifications avec son affichage de vignettes par défaut.  La première est l’identification textuelle dans la colonne de gauche du résultat de recherche, la seconde est une vignette à droite de la notice.


[notice]

    L’internaute peut afficher un format de fichiers en le sélectionnant dans la liste de la colonne de gauche.   Exalead est le seul à offrir cette facilité de choisir le format de fichier à même la page du résultat de recherche.
    Exalead a deux autres formats d’affichage : le format textuel et le format vignettes. Malheureusement, le format textuel n’identifie par le format du document si ce n'est l'adresse URL.
    Enfin, Exalead excelle dans la recherche de documents de présentation Microsoft PowerPoint.  Ces documents sont identifiés par deux extensions : .ppt et .ppsExalead les recherche également tandis que ces concurrents ignorent les documents .pps à moins d’utiliser les préfixes de recherche.  Exalead n'offre aucune aide à la lecture des fichiers.



    Gigablast n’a pas de recherche de formats de fichiers dans son formulaire.  Il faut utiliser le préfixe type:.  Cependant, il se démarque en identifiant clairement le format de fichiers dans un rectangle rouge comme ceci  à gauche du titre de la notice.  La consultation du document est possible en HTML en cliquant sur archived copy ou stripped.  La recherche de document texte - type:text - prend en compte tous les documents en ASCII et ANSI quelles que soient leurs extensions.


    Google est plus modeste en mettant l’extension entre crochets au début du titre comme ceci : [PDF] avec la note Format de fichier: PDF/Adobe Acrobat.


  La plupart des documents des principaux formats de fichiers ont leur Version HTML ou la version texte pour le format de fichier d’Adobe PostScript.  En plus des six principaux formats, Google en identifie quelques-uns tels Shockwave Flash [FLASH] et Corel WordPerfect [WPD].  Google affichera la note Format de fichier: Inconnu - Version HTML pour certains formats.
    Google recherche précisément ce qui est demandé.  Ce qui a pour effet que le formulaire trouvera seulement les documents Microsoft PowerPoint ayant l’extension .ppt laissant de côté ceux ayant l’extension .pps.  L’internaute doit ajouter OR filetype:pps à la requête pour trouver tous les documents de ce format.

    A contrario, Yahoo ! Recherche identifie le format de fichier entre parenthèses et en long (MICROSOFT POWERPOINT) à la fin du titre.  Il a la délicatesse d’avertir l’internaute : Votre recherche a été restreinte à "Adobe PDF (.pdf)". Pour plus de résultats, faites une recherche sur tous les formats de fichier. Comme Google, Yahoo ! propose d’Afficher en HTML les documents PDF, Microsoft PowerPoint, Microsoft Word, et d’Afficher en XML les documents en format RSS.


    Yahoo ! recherche aussi les documents en format texte (.txt).  L'automate de recherche ne se restreint pas à cette extension.  Il inclut tous les documents en format texte ayant d’autres extensions tels que .LOG que ce soit à l'aide du formulaire ou du préfixe.
   
Cependant, Yahoo ! n’a pas suivi cette démarche pour les deux formats de Microsoft PowerPoint.  Il est plus difficile de chercher le format .pps parce que Yahoo ! n’affiche pas son préfixe de recherche de format dans la case de recherche après le lancement de la requête comme Google.  Il faut la réécrire suivant cette syntaxe : terme (originurlextension:pps OR originurlextension:ppt).
    AlltheWeb se différencie en mettant le format entre crochets et en minuscules comme ceci : [Microsoft PowerPoint].  Là s’arrête sa spécificité.  Il n’y a aucune aide à la lecture.  Étant une émanation de Yahoo !, il faut reprendre l’écriture de la requête - voir ci-haut - pour trouver tous les documents PowerPoint.


    Enfin, AltaVista identifie seulement les fichiers en PDF par Format de fichier: PDF et ajoute : Télécharger un logiciel de lecture PDF.  Ainsi, AltaVista est le seul site de recherche qui propose un lecteur. Voilà sa particularité.  L'automate n'a aucune autre aide à la lecture des autres fichiers.  La recherche de document PowerPoint est identique à Yahoo !


    Nous pouvons remarquer que chaque logiciel a son affichage propre.  Exalead saisit le nom du fichier pour le titre mais ne donne aucune façon de consulter le document; l'internaute doit avoir le lecteur approprié. Gigablast attribue un numéro au titre avec lecture en HTML.  Google et Yahoo! mettent le titre du document avec lecture en HTML aussi.  Beaucoup de documents PDF n'ont pas été adaptés aux caractéristiques du web.  C'est pourquoi la recherche par titres est la moins appropriée en raison de la difficulté pour les automates de recherche de les afficher, principalement chez Gigablast.  Cette remarque vaut pour la plupart des documents autres que HTML, bien qu'une partie de documents HTML souffrent de cette lacune.  Lorsque la recherche par titres est infructueuse, mieux vaut retirer cette restriction.

Les préfixes de recherche

    Exalead et Google utilisent le préfixe de recherche filetype:.  Google ajoute ext:.  Le groupe de Yahoo ! emprunte le préfixe rébarbatif d’Inktomi originurlextension:.  Quant à Gigablast, il a opté pour la simplicité avec type:.  Contrairement à ces concurrents qui utilisent l’extension .txt pour la recherche de document en texte (ASCII ou ANSI), Gigablast a choisi d’utiliser text.  L'extension suit le préfixe sans le point.  Le tableau ci-dessus liste les formats de fichiers et leur représentation dans le résultat de recherche.

Conclusion

    Parmi les formats de fichiers offerts, quatre ressortent: PDF, Microsoft Excel, PowerPoint et XML/RSS.

    Les documents PDF sont reconnus pour être «sérieux».  Les fichiers PDF sont les supports utilisés pour des rapports d’entreprises, des documents scientifiques et techniques, des articles...  Yahoo ! Recherche semble être le site à privilégier selon quelques tests (2).

    Les documents en Microsoft Excel sont des tableurs utilisés pour classer des données, telles que des listes.  Ils sont prisés par des internautes en quête de renseignements privés que des webmestres imprudents ont laissés en consultation libre. Par exemple, la requête visa filetype:xls 100..1000 trouvera des listes en .XLS comprenant le mot visa et des numéros compris entre 100 et 1000.  Google est le site à privilégier en raison de son opérateur d'intervalles numériques.

    Les documents PowerPoint sont utilisés pour des présentations, le plus souvent didactiques.  Exalead est à considérer parce qu’il recherche les documents avec les suffixes .ppt et .pps.  Notons aussi la présence de la recherche de documents MacroMedia Flash dans le formulaire.

    Yahoo ! se caractérise avec la recherche de sites avec syndication de contenu XML/RSS.  Ni AltaVista, ni AlltheWeb n’ont cet avantage ni aucun autre particulier.  De plus, Yahoo ! semble avoir plus de documents

    Enfin, tous les sites de recherche ne sont pas confinés à la recherche de formats définis dans leur formulaire.  Les internautes avertis n’hésitent pas à utiliser les préfixes de recherche pour découvrir des fichiers particuliers ou «sensibles» comme ceux de banques de données contenant des renseignements privés.  Il ne faut pas oublier que la meilleure stratégie est de rechercher avec plus d'un site de recherche.


(1).  L’ancien AlltheWeb avait ce format dans sa liste. (retour)
(2). Comparez les requêtes : Google => +a filetype:pdf = 70 300 000 ; Yahoo! => a originurlextension:pdf =  122 000 000

Page précédente: Le champ Domaine de tête
Retour au début de la page
Page suivante: Le champ Hyperlien

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: info[AT]dsi-info.ca
Adresse de cette page : Marc Duval. (Page créée le 28 mars 2005).  «Langage de recherche: le champ Format de fichiers». [En ligne]. Longueuil. Québec, ©2000-2005. http://www.dsi-info.ca/moteurs-de-recherche/langages/champ-format-fichiers.html
Cette page a été éditée le 28 mars 2005

Hit-Parade
©2000-2005. Marc Duval