Les petites cases

Du Web sémantique au web de données, 1ère partie

Si le Web sémantique atteint aujourd'hui le grand public, au point que Techcrunch repris par Internet Actu se demande quelle en sera la killer application, il reste une notion souvent mal comprise, objet de méprises voire de fantasmes. Et, pour cause, le Web sémantique est à la rencontre de domaines diverses : l'intelligence artificielle, la linguistique, les sciences de l'information et le Web pour ne citer que les principaux. Cette interdisciplinarité en a constitué à la fois la force et la faiblesse. De ce point de vue, l'article de Tim Berners-Lee, Ora Lassila et Jim Hendler dans Scientific American en 2001 en est un symbole, constituant un premier essai de synthèse entre les apports des différentes disciplines. Pour passer de la théorie à la pratique, sept années auront été nécessaires. Sept années qui ont vu les usages du Web changer, les concepts se préciser, les technologies se mettre en place. Si, aujourd'hui, la synthèse semble en bonne voie d'achèvement, il me semble utile d'en étudier la genèse et l'évolution pour préciser le concept de Web sémantique et ses applications possibles.

Genèse

La première Working draft publique de RDF date du 2 octobre 1997, celle de RDF schéma du 9 avril 1998 et on retrouve dans les notes personnelles de Tim Berners-Lee une feuille de route pour le Web sémantique dont la première version date de septembre 1998.

Ce dernier texte est intéressant à plus d'un titre. Tim Berners-Lee y pose les bases de la réflexion à la fois du point de vue des objectifs, des notions et de l'architecture. Dans sa vision, l'échange des informations sur le Web ne doit pas se limiter aux humains et être accessible aux machines. C'est pourquoi l'approche du Web sémantique vise à développer des langages pour exprimer des informations dans une forme accessible aux machines. Ainsi, le Web sémantique est comparable à une base de données globale:

«The Semantic Web is a web of data, in some ways like a global database»

Pour parvenir à cette objectif, Tim Berners-Lee esquisse une architecture composée de:

  • Un modèle commun de déclarations d'une grande généralité qu'il souhaite minimaliste, c'est RDF (Ressource description Framework);
  • A l'image des DTD pour XML, une couche de schéma pour partager des cadres communs, c'est RDF schema;
  • Un langage de conversion pour permettre l'alignement entre les différents schémas RDF;
  • Une couche de logiques pour réaliser des inférences;
  • Un langage pour assurer l'accès aux données;
  • Un langage pour effectuer l'alignement de données;
  • Un langage de requêtes générique pour RDF qui offre les mêmes caractéristiques de base que SQL;
  • Un principe de signature numérique pour permettre l'identification couplé au langage d'accès aux données 1 .

Au final, ce document correspond à quelques exceptions près au concept et à l'architecture actuelle du Web sémantique. Il est étonnant, en particulier, de retrouver l'expression «Web of data» qui est réapparu, il y a un peu plus d'un an, pour désigner le mouvement pris aujourd'hui par le Web sémantique.

Pourtant, ce n'est pas ce document qui va constituer l'acte de naissance du Web sémantique, mais l'article 2 , cité plus haut, paru en 2001 dans la revue Scientific American 3 . Tim Berners-Lee y exprime une vision finalement assez proche du document précédent. Ainsi, il définit le Web sémantique comme une extension du Web qui vise à structurer les données 4 en vue d'en donner le sens. Des agents logiciels peuvent ainsi mieux exploiter la masse d'informations, la qualifier, la traiter et donc la rechercher. Pour compléter la vision de Berners-Lee, Ora Lassila et Jim Hendler, qui sont tous deux issus de l'intelligence artificielle, vont y ajouter les apports de leur discipline à savoir les ontologies. Cet ajout à la vision initiale va provoquer, bien involontairement de leur part, les premiers contre-sens et incompréhensions. De plus, le choix du mot «sémantique» va constituer une deuxième source de méprises et de fantasmes.

Le Web sémantique est alors associé à une chimère poursuivie par les domaines de l'intelligence artificielle et le traitement automatique des langues, à savoir la compréhension du langage naturel et l'accès à la connaissance par les machines. Or, si ces disciplines sont riches de promesses, elles comptent aussi beaucoup d'échecs ce qui leur vaut de très nombreux adversaires. Paradoxalement, ces derniers vont retrouver dans leur rejet du Web sémantique les puristes de l'intelligence artificielle et du traitement automatique des langues. Et, pour cause, tout en récupérant des concepts et des technologies issus de ces disciplines, le Web sémantique ne poursuit pas exactement le même but. Il est finalement plus modeste.

Ces contre-sens sont la preuve de l'immaturité du concept, des technologies, mais aussi des utilisateurs. Ainsi, si XML dispose, par sa filiation avec SGML, de nombreuses applications, tout ou presque est à inventer pour les technologies du Web sémantique. Pourtant, faisant fi des obstacles qui se dressent et des critiques qui se font entendre, le W3C et différentes équipes de recherche continuent de mettre en place les différentes briques technologiques esquissées dans le document de Tim Berners-Lee. Peu à peu, avec l'évolution des usages du Web et son appropriation par les utilisateurs, les concepts vont se préciser et les applications possibles vont rencontrer les besoins des utilisateurs.

La suite dans les prochains billets...

Quelques notes en passant

1. Le principe qu'il exprime dans ce paragraphe ressemble à s'y méprendre à OpenID.

2. La traduction de cet article est disponible sur le site de l'URFIST de Toulouse, http://www.urfist.cict.fr/archive/lettres/lettre28/lettre28-22.html

3. La construction de cet article est expliquée par Jim Hendler dans Dark Side of the Semantic Web, Jim Hendler, http://www.cs.umd.edu/~hendler/presentations/DarkSide.pdf

4. Différence fondamentale avec XML qui vise à encoder des textes pour en définir la structure logique.

Management de l'information Web sémantique Causeries —