Service de recherche documentaire
Service de recherche documentaire DSI 
par Marc Duval, bibliothécaire

Le langage
des automates de recherche:

Le champ de recherche Date
ou
La recherche par intervalles de dates
Contrat Creative Commons
Cette création est mise à disposition
 sous un contrat Creative Commons.
2005-06-06

Introduction
Opérateurs  booléens
Opérateurs de proximité
Troncature
Champs de recherche
Requêtes complexes
Conclusion
Formulaire de recherche
Tableaux
Les opérateurs logiques
Les champs de recherche
Affichage et fonctions

Accueil DSI
Introduction
La nature du web
Le mot clé
Les automates de recherche
-Les fiches techniques
-Le langage de recherche
Le classement des automates de recherche
Le web universitaire
Le palmarès des villes: un exemple de recherche
Le carnet de recherche
Les actualités



Champs et sites de recherche

    Les sites de recherche ont développé des préfixes de recherche comme nous l'avons vu avec AltaVista.  Le but de ce chapitre est d'identifier chacun de ces champs, leur utilisation et le préfixe correspondant utilisé par chacun des sites de recherche.
    Les champs de recherche sont aussi utilisés pour l'affichage.  C'est ce qui clora ce chapitre. En voici les parties:

1. - Les champs
     1.01    Champ Texte
        1.011    La casse
        1.012    Les signes diacritiques
        1.013    Le correcteur orthographique
        1.014    La taille du fichier
                    Tableau
    1.02    Champ Langue
    1.03    Champ Domaine géographique
    1.04    Champ Méta-titre
    1.05    Champ Méta-description
    1.06    Champ Meta Keywords (méta-mots)
    1.07    Champ URL
    1.08    Champ Serveur
    1.09    Champ Domaine de tête
    1.10    Champ Format de fichiers
    1.11    Champ Hyperlien
    1.12    Champ Date


2. - Affichage
    2.01    Les formats d'affichage
    2.02    Le tri


1.12    Le champ Date

    Lorsque nous travaillons avec des banques de données structurées, la date du document est celle de sa publication.  Les documents publiés sur le web sont de toute autre nature.  Nous  y retrouvons autant des documents datés que des documents sans dates.  Même les documents datés recèlent les écueils du format de dates non normalisé et de dates multiples.

    D’un côté, nous avons des documents datés de style soutenu comme les articles journalistiques, des textes universitaires, des rapports, des comptes rendus etc.   Les formats de dates de ces documents sont variables.  Par exemple, nous trouvons des dates écrites ainsi : 2005-01-01 ; 01-01-2005 ; 05-01-01 ; 2005.01.01 ; 2005/01/01 ; 20050501 ; 1er janvier 2005.
    De l’autre, nous avons les documents multi-datés que sont les forums et les carnets web.

    Les documents sans dates comprennent des pages personnelles, de sites commerciaux et les sites de recherche eux-mêmes.  Par exemple, les pages d'aide de Google ont seulement l'année de copyright.

    Trois solutions ont été adoptées pour dater un document : la métadonnée date, la date de publication sur le web et celle de l’indexation.  Les sites de recherche qui ont été visités pour illustrer le champ date sont AltaVista, AlltheWeb, Exalead, Gigablast, Google, Google/HotBotHotBot France, MSN Recherche et Yahoo! Recherche.

    Les métadonnées sont des éléments (champs, balises ou tags) descriptifs inclus dans la page source d'un document.  Les automates de recherche s'appuient en partie sur elles pour l'indexation.  Elles représentent les éléments les plus fiables du document.   La métadonnée date est la meilleure solution parce qu'elle est la date réelle du document... en autant que cet élément soit présent.  Par conséquent, elle offre la meilleure pertinence.   Pourtant, cette méthode de recherche est peu populaire.    Gigablast est l'automate qui préconise leur utilisation (1) dont l'élément date.  Mais cet automate semble ne pas le maîtriser.

    La date de publication ou de création sur le web est celle qui se rapproche le plus de la date réelle du document.  Seul Exalead a choisi ce chemin.

    Ask Jeeves, Google et Yahoo! ont opté pour la date moins précise de l’indexation.   Si vous faites la recherche irak "copyright 2002" -2003 -2004 -2005 sur Google en choisissant une recherche sur l'année en cours, il ne devrait avoir aucun document.  Pourtant, Google, par exemple, a plus de 21 000 notices pour 2005.  Ces 21 000 notices ne sont pas  pertinentes.  Elles représentent les 21 000 pages que Google a visitées et indexées durant les cinq premiers mois de 2005 tel que cet exemple-ci le montre :

Page cache de Google.

    Le même phénomène peut être constaté sur Ask Jeeves (environ 625 notices) et Yahoo!(environ 10 000 notices).

    Bien qu'Exalead se fie sur la date de publication ou de création, il n'est pas exempte d'inéquation entre l'année de copyright et la période de temps couverte avec un écart entre les deux d'une quinzaine de notices avec cette requête similaire : irak "copyright 2002" -2003 -2004 -2005 date:"01/01/2005".   Comparativement à Google, la taille de l'index est d'au moins 8 pour 1 mais le taux entre les notices est de 1000 pour 1.  C'est pourquoi cela nous porte à penser qu'Exalead est apparemment plus efficace que Google.

    La recherche par dates prend deux formes, soit la limitation sur un ou deux ans, soit sur une intervalle de dates.  Parmi les quatre chefs de file, Ask Jeeves est le seul à cumuler les deux formes de recherche. AltaVistaAsk Jeeves/Teoma et Google/Hotbot cumulent les deux.  Ni Google et ni Yahoo! n'ont ces deux formes.  Pourtant, ils pourraient l'inclure comme ces deux formes le sont sur AltaVista (propriété de Yahoo!) et sur le site de HotBot pour Google. Cela signifie que l'un comme l'autre pourraient améliorer leur formulaire.  Enfin, Gigablast n'a pas inclus la recherche par dates dans son formulaires ; ce qui le prive d'un avantage sur ces concurrents.

   Du côté des préfixes, Gigablast, Ask Jeeves/Teoma et Exalead sont les seuls à les offrir, et Ask Jeeves/Teoma le seul à en avoir développé quatre: last:, afterdate:, beforedate: et betweendate:Gigablast et Exalead ont privilégié la simplicité avec le préfixe date:Google a bien le préfixe daterange: mais il verse dans l'obscurantisme en utilisant le calendrier Julien et non notre calendrier grégorien.  Enfin, Yahoo! aurait pu intégrer les préfixes d'Inktomi after=, before= et within= d'Inktomi, mais il n'a pas crû bon de le faire.

    Puisque la recherche par dates n'est pas exacte chez la majorité des automates de recherche, quelle est son utilité ?  La recherche par dates est utile pour trouver des nouvelles pages et des pages mises à jour.  Pour qu'elle soit efficace, la requête doit être précise et générée moins de cent notices, soit le nombre maximal de notices affichées, au mieux moins de vingt cinq.  Google a l'avantage d'offrir une alerte web pour les nouvelles pages.

AltaVista

    AltaVista  et Ask Jeeves ont la plus petite période de temps de tous les sites de recherche, soit la semaine.  Les deux sont adéquats pour trouver de nouvelles pages et des pages mises à jour au courant de la semaine.  La même requête avec la recherche internationale - AltaVista n'a pas de recherche par pays ou géographique - et par dates donnera un résultat et un classement des notices identiques pour AltaVista Canada, AltaVista France et AltaVista États-Unis.   La période est facilement modifiable - comme la requête entière - parce que le formulaire est affiché au bas de la page du résultat de recherche.   AltaVista couvre les années 1980 à aujourd'hui.  La recherche par périodes permet la mise en veille avec l'URL de la requête.

Champ date d'AltaVista

AlltheWeb

    AlltheWeb n'a pas de recherche par périodes.  La recherche par dates se fait par plages avec les commandes à sélectionner after (après) et before (avant).   Il faut cocher ces deux cases et choisir ses dates pour la recherche d'intervalles.  La recherche de nouvelles pages et de pages modifiée se fait en cochant la commande after et en sélectionnant la date appropriée.  AlltheWeb couvre les années 1980 à aujourd'hui.  Bien que plus souple, cette méthode ne permet pas de mettre en veille avec l'URL de la requête.

Champ date d'AlltheWeb

Ask Jeeves

    Ask Jeeves et AltaVista ont la plus petite période de temps de tous les sites de recherche, soit la semaine.  Les deux sont adéquats pour trouver de nouvelles pages et des pages mises à jour au courant de la semaine.  Entre les deux, Ask Jeeves a l'avantage d'être le plus développé.  Ask Jeeves couvre les années 1980 à aujourd'hui.  La recherche par périodes permet sa mise en veille avec l'URL de la requête.

Champ Date de Ask Jeeves,

Exalead

    L'opérateur (sic) date permet de restreindre une recherche suivant la date de dernière modification ou de création d'un document.» est-il écrit dans la page d'aide d'Exalead.  Si l'on en croit cette note et à l'usage, Exalead apporte le plus de pertinence parmi les automates de recherche.  Bien qu'Exalead ait cet avantage, il n'en retire pas les bénéfices en développant la recherche par dates.  En choisissant seulement la recherche par postériorité, il se coupe de la possibilité de la recherche par périodes pour la mise en veille de la recherche et par intervalles de dates.  Une alerte pourrait remédier à cette lacune.

[Formulaire de recherche]

Champ Date d'Exalead

Gigablast

    Gigablast est le seul automate de recherche qui utilise la métadonnée date:.  Bien que prometteur, l'expérience de Gigablast n'est pas à la hauteur des attentes.

    Le format de l'élément date n'est pas uniforme.  L'organisme W3C propose d'utiliser la norme ISO 8601 (2). Le format de la date normalisé s'écrit AAAA-MM-JJ où AAAA est l'année dans le calendrier grégorien, MM  le mois de l'année entre 01 (janvier) et 12 (décembre), et JJ est le jour du mois entre 01 et 31.

    La balise date se rencontre sous deux format :

Format courant:
<meta name="date" content="AAAA-MM-JJ">

Format proposé par le Dublin Core :
<meta name="DC.date.created" content="AAAA-MM-JJ">

Le format proposé par le Dublin Core a plusieurs variantes comme celle-ci :
<meta name="DC.date.modified" content="AAAA-MM-JJ">

    La recherche par la métadonnée date: n'est valable que si l'auteur de la page web l'a insérée.  Elle est un gage de fiabilité.  Il demeure que Gigablast est l'automate de recherche le plus pertinent en cette matière.

Google

    Chez Google, la validation de la requête avec la recherche par dates amène l'affichage  de la case de recherche par dates entre la case de recherche générale et le bouton de validation.  La même requête avec la recherche internationale - Google n'a pas de recherche par pays ou géographique - et par dates donnera un résultat et un classement des notices identiques pour Google Canada et Google France, mais différent pour Google États-Unis qui privilégiera les notices en anglais.  La recherche par périodes permet de mettre en veille avec l'URL de la requête.  Là où Google se distingue est l'alerte web.

    Google propose le préfixe de recherche daterange: dans sa page Google Web Apis.   L'usage de ce préfixe est rébarbatif pour l'internaute moyen.  Il est nécessaire d'avoir un convertisseur de dates du calendrier grégorien au calendrier julien tel que celui disponible sur le site de Cactus 2000.  Le formulaire Google Ultimage Interface du site Fagan Finder offre la recherche par intervalles de dates.

[Formulaire de recherche]

Champ Date de Google.
Affichage de la case Date.

    Google a des périodes de temps plus développées sur le site de recherche HotBot allant de la dernière semaine à deux ans et couvrant 1994 à l'année en cours.  Par conséquent, Google/HotBot facilite plus la recherche historique que le site de Google.

Champ Date de Google HotBot.


HotBot France

    HotBot France utilise l'automate de recherche Inktomi.  En fait, il s'agit de Yahoo! Recherche, un avatar d'Inktomi.  Comme illustré ci-après, Yahoo/Inktomi n'a pas de recherche par périodes comme Yahoo! France.  En contrepartie, HotBot France couvre les années 1980 à aujourd'hui.

    Les préfixes de recherche d'Inktomi after=, before= et within= sont inopérants.

Champ Date de HotBot France

MSN

    MSN n'a pas de recherche par dates orthodoxe.  Il utilise un système de classement afin de trouver les pages nouvellement indexées ou modifiées.  L'internaute doit ouvrir le formulaire en sélectionnant affiner votre recherche, puis ouvrir la section Classement des résultats, enfin déplacer le curseur de Mises à jour récemment vers le haut.

Recherche Date de MSN

    MSN a placé un lien de diffusion RSS à la fin de la page du résultat de recherche.  Ce lien placé dans un lecteur RSS permet d'afficher toutes les nouveautés ou les pages modifiées.  MSN propose cinq lecteurs :   NewsGator (plug-in Outlook) ;  RSS Bandit (pour Windows) ;  Bloglines (sur le Web) ; Feedster (sur le Web) et NetNewsWire (pour Mac OS X).

Yahoo !

    Chez Yahoo!, la validation de la requête avec la recherche par dates amène l'affichage de la case de recherche par dates sous la case de recherche générale.  La même requête avec la recherche par pays et par dates donnera un résultat et un classement des notices différents.

[Formulaire de recherche]

Champ Date de Yahoo
Case de recherche Date de Yahoo!

Conclusion

    Les concepteurs des automates de recherche ont suivi la voie de la facilité en donnant l'accès sans distinction aux nouvelles pages et aux pages modifiées  à leur clientèle.  Leur défi n'est pas d'ajouter des raccourcis et des gestionnaires de recherche.  Leur défi est d'améliorer la pertinence, plus particulièrement celle de la date de publication des documents. L'utilisation des métadonnées est une piste à suivre.  Gigablast en est le précurseur mais son application est imparfaite.    Exalead a choisi d'indexer pour la recherche la date de création et de modification ; ce qui est la meilleure méthode à ce jour.  Un second défi est d'indiquer clairement les nouveaux documents et ceux modifés, et de les trier.  Google et Yahoo! le permettent dans leurs actualités.  Certaines notices de Google et de MSN Recherche sont datées.  Gigablast identifie clairement l'un comme l'autre, mais il n'y a pas de tri.  L'amélioration de la pertinence par dates et le classement des notices dans leur catalogue web ne sont donc pas un travail herculien pour les concepteurs.  Il leur suffit d'un petit effort.


Tableau de représentation du champ de recherche date parmi les automates de recherche.

Sites de recherche Formulaire Préfixes de recherche Exemples
Par périodes
Par plages
AlltheWeb Non disponible Only find results updated
 []after
 []before
 [01][january][1980]...
[01][january][2005]
Aucun [X] after [20][march][2003]
[28][june][2004]
Altavista par délai/bloc de temps [N'importe quand
 Semaine
 2 semaines
 Mois
 4 mois
 8 mois
 1 an]
 par période
 [01][janvier][1980]...
 [01janvier][2005]
Aucun
Ask Jeeves Date page was modified [Anytime
 Last week
 Last 2 weeks
 Last month
 Last 3 months
 Last 6 months
 Last year
 Last 2 years] ;
 [][Before]
 [][After]
 [january][1][1980]
 [] Between
 [january][1][1980] and [january][1][2005]
last:week, 2weeks, month, 3months, 6months, year, 2years ;
afterdate:
yyyymmdd
beforedate:
yyyymmdd
betweendate:yyyymmdd,yyyymmdd
afterdate:20010911
AOL / Exalead Non disponible Non disponible Non disponible
Exalead Ne garder que les documents postérieurs à : [JJ/MM/AAAA] Non disponible date>=AAAA/MM/JJ
date<=AAAA/MM/JJ
date>=2001/09/11
Gigablast Non disponible Non disponible date:AAAA date:2001
Google Lister les pages Web mises à jour pendant la période spécifiée :
  [Date indifferente
   les 3 derniers mois
   les six derniers mois
   365 derniers jours]
Non disponible daterange:[date julienne]-[date julienne] daterange:
2452719-2453185
[le terme est une seule chaîne.]
Google (Hotbot) [Anytime
 in the last week
 in the last 2 weeks
 in the last month
 in the last 3 months
 in the last 6 months
 in the last year
 in the last 2 years]
  [][Before / After]
 [Month][1][1994]
daterange:[date julienne]-[date julienne] daterange:
2452719-2453185
[le terme est une seule chaîne.]
HotBot.fr Non disponible  []après
 []avant
 [01][janvier][1980]...
 [01janvier][2005]
Non disponible
MSN Recherche Non disponible Non disponible Non disponible
Yahoo Update:
 [anytime
 within the past 3 months
 within the past 6 months
 within the year]
Non disponible Non disponible


Pages à consulter

(1) Matt Wells. (Page consultée le 2 juin 2005). « Rants and raves : Bring Me Your Meta Tags - 11 octobre 2003». [En ligne].  Gigablast, [2002-2004].   http://gigablast.com/rants.html (Retour)   
(2) Christophe Jacquet. (Page consultée le 2 juin 2005).  «Métadonnées et Dublin Core». [En ligne].  OpenWeb, 2 juin 2003.  http://openweb.eu.org/articles/dublin_core/?set=original (Retour)

Page précédente: Le champ Hyperlien
Retour au début de la page
Page suivante: Les formats d'affichage

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: info[AT]dsi-info.ca
Adresse de cette page : Marc Duval. (Page créée le ).  «Langage de recherche: le champ Date». [En ligne]. Longueuil. Québec, ©2000-2005. http://www.dsi-info.ca/moteurs-de-recherche/langages/champ-dates.html
Cette page a été éditée le 6 juin 2005

Hit-Parade
©2000-2005. Marc Duval