Les petites cases

Petite histoire du Web sémantique

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la première :

Si le Web sémantique commence à être médiatisé aujourd'hui, ses fondements sont plus anciens, ils remontent aux origines même du Web et ont connu plusieurs évolutions dont l'histoire permet de mieux appréhender les enjeux.

1989-1994 : la création du Web

Le Web est né au CERN, le centre européen de recherche nucléaire, à la fin des années 1980 porté, entre autres, par Tim Berners-Lee, alors chercheur dans ce laboratoire. Il part d'un constat simple : l'absence de cadre d'interopérabilité pour échanger dans un espace de machines en réseau les documents et les données contenus dans les ordinateurs des chercheurs du CERN. Pour régler ce problème, Tim Berners-Lee propose la mise en place d'un dispositif technologique pour mettre à disposition, lier et partager des documents sur un réseau de machines connectées composé de quatre briques technologiques :

  • Un protocole de communication, HTTP, basé sur le protocole TCP/IP, c'est-à-dire Internet ;

  • Un mécanisme d'identification, URL, qui permet d'atteindre un document sur un réseau distribué de machines ;

  • Un principe de mise en relation des documents, l'hypertexte créé à l'issue de la seconde guerre mondiale par Vanevar Bush et adapté à l'informatique par Ted Nelson au milieu des années 1960 ;

  • Un langage d'encodage des documents, HTML basé sur SGML, une norme de structuration hiérarchique de l'information.

Si ces quatre briques technologiques sont à l'origine du Web de documents que nous connaissons aujourd'hui, la proposition initiale de Tim Berners-Lee contenait également la mise en relation des données structurées contenues dans les bases de données des chercheurs. Néanmoins, de ce point de vue, les propositions étaient alors moins concrètes.

1994-2001 : la mise en place théorique du Web sémantique

Un an après la mise à disposition du premier navigateur Web graphique, Mosaïc, a lieu en septembre 1994 la première conférence WWW au CERN à Genève au cours de laquelle la création du W3C est annoncée. A cette occasion, Tim Berners-Lee dresse les futures directions du W3C et démontre le « besoin de sémantique pour le Web ». Il montre alors en quoi la vision habituelle de l'hypertexte, à savoir la mise en relation de documents par des liens, doit être dépassée pour permettre aux machines de relier automatiquement les données sur le Web aux choses du monde réel. Ambitieuse, l'idée n'en rencontre pas moins des problématiques existantes, en particulier dans le domaine de l'intelligence artificielle.

Les machines sont directement reliés aux objets du monde réel
Diapo de la présentation de Tim Berners-Lee à WWW94

A la suite de cette conférence, outre la mise en place des recommandations nécessaires à la structuration des documents, le W3C lance les premières réflexions dans ce sens. Elles aboutissent à la publication d'un premier brouillon de recommandations en octobre 1997 puis d'un second en avril 1998. La même année, Tim Berners-Lee initie une feuille de route pour le Web sémantique, qui constitue un plan de travail précis des différentes technologies à mettre au point pour le déployer. Dans ce document, il présente le Web sémantique comme une extension du Web de documents qui constituerait une base de données globale à l'échelle du réseau pour permettre aux machines de mieux appréhender les données et aux personnes de coopérer. Cette feuille de route se matérialise par une représentation graphique, le « layer cake », qui montre l'agencement des différentes briques technologiques. Cette représentation est toujours utilisée aujourd'hui, même si les briques ont évidemment évolué.

Représentation sous la forme de couches des différentes briques technologiques du Web sémantique
Le premier « Layer cake »

Par ailleurs, en 1999, il publie le livre Weaving the Web dans lequel il dresse un portrait du Web et les pistes pour son avenir. Les idées du Web sémantique n'en sont évidemment pas absentes.

2001-2009 : le long chemin vers le Web de données

Les différents travaux engagés depuis 1994 sont présentés pour la première fois au grand public à l'occasion d'un article publié dans la revue Scientific American en mai 2001 (traduction française). Écrit par Tim Berners-Lee, Ora Lassila et James Hendler, cet article présente un cas d'utilisation et les différentes technologies nécessaires à son accomplissement. Si cet article permet une introduction pédagogique aux objectifs poursuivis par le Web sémantique, il n'en reste pas moins exploratoire, trop peut-être. De plus, comme James Hendler l'avouera plus tard, il présente le défaut de reprendre certains concepts ou technologies, en particulier le principe des ontologies, qui renvoient aux problématiques de l'intelligence artificielle dont les fantasmes se sont transformés pour le grand public en espoir déçu. Enfin, le mot « sémantique » de par sa polysémie n'aide pas à une compréhension immédiate du concept et des objectifs visés.

Malgré les avis dubitatifs et les critiques grandissantes, le W3C continue le travail de normalisation avec la publication de recommandations essentielles : RDFS, OWL et une révision de RDF en 2004, GRDDL en 2007, SPARQL en 2008 et RDFa en 2008 sur lesquelles nous reviendrons plus en détail.

A partir de 2006, deux facteurs vont faire prendre au Web sémantique la direction qui est encore la sienne.
Tout d'abord, le Web 2.0 marque l'apparition d'une réflexion dans la mise à disposition des données sur le Web via les Web services, des principes d'indexation collaborative (folksonomie), mais aussi de la structuration des données d'une page HTML avec le concept des microformats. Soient autant de sujets qui ont trait aux problématiques d'exposition, de structuration et de traitement des données structurées au cœur, également, de la réflexion sur les technologies du Web sémantique.
Par ailleurs, conscient des malentendus engendrés par l'utilisation du mot « sémantique » et des concepts de l'intelligence artificielle, Tim Berners-Lee décrit dans une autre note l'idée du « Linked Data ». Il y rappelle, pour commencer, que le Web sémantique n'a pas vocation uniquement à poser des données dans le Web, mais à relier les données directement entre elles pour qu'une machine ou un humain puisse explorer le Web de données. Il établit quatre règles basées sur les technologies du Web sémantique pour publier sur le Web des données structurées dans un cadre d'interopérabilité commun.

A la suite de cet article et à la vue de l'évolution du Web, deux chercheurs impliqués dans le Web sémantique et issus des domaines de l'intelligence artificielle et de la logique de description vont publiquement reconnaître leur erreur d'appréciation dans leur volonté d'introduire certaines notions complexes dans le Web sémantique. James Hendler parle de « côté obscur du Web sémantique » et avoue que l'introduction d'une logique de description complexe était une erreur stratégique. Chris Welty dans une keynote à ISWC 2007 intitulé « How I was right even when I was wrong » rappelle que l'important dans le Web sémantique, ce n'est pas la sémantique, mais le Web. Cette remise en question issue du bilan des recherches depuis 2001 aboutit à l'aveu de Tim Berners-Lee dans le magazine La Recherche en novembre 2007 :

« Le terme sémantique prête un peu à confusion car la sémantique s'intéresse au sens du langage pour en déduire des constructions logiques. Du coup, certains ont pensé qu'il s'agissait d'un Web qui permettrait par exemple d'effectuer des recherches sur Internet en posant des questions sous forme de phrases, en langage naturel. Or ce n'est pas son but. En fait, nous aurions dû l'appeler dès le départ "Web de données". »

Soutenue par le projet « Linking Open Data » piloté par le W3C, l'idée du Linked Data (qu'on traduira par Web de données) connaît sa plus importante réalisation dès février 2007 avec la création de Dbpedia par deux universités allemandes. Ce projet met à disposition selon les règles édictées par Tim Berners-Lee et, par conséquent, avec les technologies du Web sémantique, les données structurées extraits automatiquement de Wikipedia. En rencontrant une des réussites les plus médiatiques du Web 2.0, le Web de données acquiert immédiatement une base de travail solide mais aussi une bonne visibilité auprès des spécialistes du Web et de son évolution. Néanmoins, il faudra attendre 2009 et la communication de Tim Berners-Lee à la conférence TED au cours de laquelle il lance son appel « Raw Data Now » pour voir le Web de données atteindre une très large audience. Elle se manifestera en 2010 par l'élaboration du projet de mise à disposition des données gouvernementales britanniques, data.gov.uk, dirigé par Tim Berners-Lee et Nigel Shadbolt et basé pour une large partie sur les technologies du Web sémantique.

Web sémantique Web Causeries Histoire —