Les Echos, Janvier 2006, Jacques Henno

Le Web, une mine d'informations encore mal exploit�e

Des �équipes de l'Inria, de la BNF et de Google tentent d'analyser les milliards de documents pr�ésents sur la Toile.

Le Web? Quelque 6 milliards de documents (textes, images, vid�éos, sons...) en libre accè�s. Une masse de donné�es que les entreprises, les chercheurs mais aussi les Etats voudraient explorer. C'est tout l'enjeu des projets de Web s�émantique mené�s en Europe et outre-Atlantique. � Les industriels sont tr�è�s inté�ressé�s par la surveillance technique et commerciale : d�étecter de nouvelles tendances de consommation, faire de la veille �économique, mais aussi repé�rer d'�éventuels risques industriels. Les Etats se focalisent plus sur les débouch�és s�écuritaires, comme la lutte contre le terrorisme �, r�ésume Serge Abiteboul. Ce directeur de recherche � l'Inria (Institut national de recherche en informatique et en automatique) est membre du programme WebContent, dont � le but est de dé�couvrir, comprendre et structurer de mani�è�re automatique l'information sous toutes ses formes �. Soutenu par l'ANR (Agence nationale de la recherche), ce projet regroupe treize �équipes universitaires franç�aises et des industriels tels que Thales, EADS ou Bongrain. Les difficult�és rencontr�ées sont de cinq ordres : la taille des donn�ées disponibles sur le Net, leur h�été�rogé�né�ité�, les langues utilis�ées, l'évolution constante du Web et la visualisation des r�ésultats obtenus...

voir Les Echos