Nul ne sait si la LSI, non encore adoptée, sera reprise dans les mêmes termes lors de la prochaine législature. Mais la BNF, comme l'INA, deux des organismes qui gèrent le dépôt légal, s'apprêtent à répondre au défi posé. Toutes deux semblent cependant jouer leur propre partition, même si des structures de coordination ont été prévues.
UN MILLIARD DE PAGES
La BNF s'est rapprochée de l'Institut national pour la recherche en informatique et automatique (Inria) et de la start-up Xylème, qui en est issue. Xylème dispose en effet de nombreux outils pour sonder le Web. Elle a procédé à une évaluation de sa partie française à partir d'un échantillon d'un milliard de pages. Les sites ".fr" représentent 1 à 2 % de la Toile, mais les "crawlers" (automates) ont constaté que 40 % d'entre eux étaient inaccessibles de façon automatique. Soit parce que les robots butent sur des barrières (robot.txt), soit parce qu'il faut remplir des formulaires, soit enfin parce qu'ils sont désorientés par des langages (java scripts) engendrant des adresses dynamiques.
Le tout-automatique est donc exclu. Pas seulement pour des raisons techniques. "Le Web est une grande poubelle à ciel ouvert : archiver une poubelle n'a pas très grand sens, commente Serge Abiteboule, directeur de recherche à l'Inria et cofondateur de Xylème. Il faut savoir détecter l'importance de ce que l'on retient, mais aussi être capable d'indexer le contenu." Après avoir étudié les expériences étrangères, la BNF préconise une double approche.
Une collecte automatisée, proche de celle réalisée par les moteurs de recherche, qui hiérarchisent les sites en fonction du nombre de liens qui pointent vers eux. Et une collecte individualisée, "tournée vers les sites de qualité inaccessibles aux robots", précise Julien Masanès, conservateur à la BNF. Une trentaine d'entre eux ont déjà été "approchés", pour étudier la meilleure façon de transférer leurs contenus. En juin, la BNF prévoit de "crawler" l'ensemble du web en ".fr", soit 148 000 sites.
L'INA fait pour sa part valoir son expertise dans l'archivage de médias de flux, télévision et radio, dont Internet se rapproche de plus en plus. Mais aussi son expérience face à l'évolution, toujours plus rapide, des technologies. "Aspirer le Web n'est pas le plus difficile, avance Jean-Michel Rodes, directeur de l'Inathèque. Mais renormaliser les contenus pour pouvoir les lire dans cinquante ans est plus délicat."
L'INA a lancé un partenariat avec une équipe de l'Ecole normale supérieure (ENS), dirigée par le physicien Dominique Pignon. Elle aussi a entrepris de "crawler" tout ce qui concerne les élections. Les questions en suspens sont identiques. "Les sites sont de plus en plus dynamiques, constate Dominique Pignon. A-t-on affaire à une ou dix éditions ? Doit-on prendre des instantanés, ou faut-il rapatrier directement la base de données qui les génère ?" Pour le chercheur, l'enjeu n'est pas tant "l'accumulation que la façon dont on pourra utiliser ces données". Reste à définir les relations avec les fournisseurs de contenu et d'accès dont la collaboration est indispensable.
Le dépôt légal ne deviendra obligatoire que trois ans après la promulgation de la LSI. La BNF et l'INA ont donc le temps de peaufiner leur stratégie. Mais les deux institutions sont persuadées qu'il faut commencer à stocker au plus vite, car des pans entiers sombrent chaque jour dans l'oubli.
H. M.
* ARTICLE PARU DANS L'EDITION DU 06.04.02
Articles recommandés
|
Recommandez la lecture de cet article aux internautes du monde.fr
|
|
|
Droits de reproduction et de diffusion réservés © Le Monde 2002 Usage strictement personnel. L'utilisateur du site reconnaît avoir pris connaissance de la licence de droits d'usage, en accepter et en respecter les dispositions. Politique de confidentialité du site. Besoin d'aide ? faq.lemonde.fr |