Les petites cases

Retour sur le Web de données

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la troisième et dernière :

Présente dans la feuille de route pour le Web sémantique écrite en 1998 par Tim Berners-Lee, l'expression « Web of data » qu'on traduit de manière littérale par « Web de données » n'a été vraiment utilisée qu'à partir de 2006 suite à la parution de la note « Linked Data » du même Tim Berners-Lee et aux différents aveux d'échecs dressés par la communauté. Cette note est d'une importance fondamentale dans le mouvement actuel puisqu'elle rappelle les buts initiaux poursuivis par le Web sémantique, à savoir établir des liens entre les données exposées et distribuées sur le Web, et elle contient les quatre principes de mise à disposition des données sur le Web grâce aux technologies du Web sémantique.

Ainsi, elle a constitué le point de départ d'une renaissance du Web sémantique avec le projet du W3C « Linking Open Data » visant à placer sur le Web des données structurées en RDF et à offrir des cas d'utilisation réels et simples des technologies du Web sémantique. En novembre 2009, le Web de données était constitué de 13,1 milliards de triplets répartis au sein de différents ensembles de données couvrant les domaines aussi diverses que les données multimédia, les données du Web social, les données géographiques et statistiques, les données bibliographiques...

Les quatre principes édictés par Tim Berners-Lee

Les quatre principes du Web de données sont les suivants :

  • utiliser des URI pour identifier les choses ;

  • utiliser des UR accessibles via HTTP ;

  • ouvrir aux machines l'accès aux données en utilisant les standards RDF et SPARQL ;

  • exprimer l'URI des objets liés.

Ces règles montrent bien que le but du Web de données n'est pas de créer un autre Web, puisqu'il s'appuie sur son architecture actuelle (le système des URI et le protocole HTTP), mais d'en créer une extension. Ainsi, RDF est aux données structurées ce que HTML est aux documents, un cadre d'interopérabilité qui permet d'assurer une cohérence dans la manipulation et le traitement de ces données par les machines.

La négociation de contenu

Aux principes des technologies du Web sémantique, ces règles ajoutent une contrainte essentielle : une URI doit être « déréférençable », c'est-à-dire atteignable ou adressable directement par une machine ou un utilisateur. Concrètement, cela signifie qu'une URI exposée selon les principes du Web de données doit renvoyer une représentation si elle est l'objet d'une requête HTTP, par exemple, dans un navigateur Web. De plus, cette représentation doit être adaptée au type de client qui a effectué la requête : c'est ce qu'on appelle la négociation de contenu.

Concrètement, il existe au moins trois URI pour chaque ressource :

  • une URI abstraite correspondant à l'identifiant de la ressource, par exemple, dans Dbpedia, Paris est représenté par l'URI http://dbpedia.org/resource/Paris ;

  • une URI correspondant à la représentation HTML de la ressource, par exemple, dans Dbpedia, la page HTML contenant les informations sur Paris a pour URI http://dbpedia.org/page/Paris ;

  • une URI correspondant à la représentation en RDF/XML de la ressource, c'est-à-dire tous les triplets dont la ressource est sujet ou objet, par exemple dans Dbpedia le flux RDF/XML contenant tous les triplets sur la ressource http://dbpedia.org/resource/Paris a pour URI http://dbpedia/data/Paris.

En fonction des critères de la requête HTTP sur la ressource abstraite, http://dbpedia.org/resource/Paris, le serveur va rediriger le client vers une des deux autres ressources. Dans le cas où la requête est issue d'un navigateur Web, le serveur redirigera vers la représentation en HTML et dans le cas où la requête est issue d'un programme informatique qui sait interpréter le RDF/XML, le serveur redirigera vers la représentation en RDF/XML. Si les informations ne permettent pas au serveur d'effectuer cette négociation, il renverra une des représentations par défaut, à savoir, celle qui est paramétrée au niveau du serveur.

Relier les différents ensembles de données

Un des principes fondateurs du Web est l'hypertexte, soit la capacité à atteindre une page Web depuis un pointeur présent dans une autre page Web. Il permet ainsi la navigation à travers un réseau de documents, les pages Web, distribué sur un espace de machine en réseau. Le même principe est à la base du Web de données, mais en lieu et place du document, il s'agit de lier des ressources faisant partie de deux ensembles de données distincts d'où l'expression « hyperdata » parfois employée. Pour autant, effectuer ces liens s'avère complexe car les données actuellement mises à disposition dans le Web de données sont la conversion de silos de données existants qui, par nature, ne sont pas reliés à d'éventuelles autres ensembles de données. Cette difficulté a deux conséquences :

Malgré tout, au sein des 13 milliards de triplets que représentait le Web de données en novembre 2009, on comptait 142 millions de liens entre les ensembles de données qu'on a pris l'habitude de représenter sous la forme suivante dite « Linking Open Data cloud » :

Représentation graphique des ensembles de données du Linked Data au mois de juillet 2009

Les différents types de données du Linked Data

Le diagramme précédent fait apparaître sous des couleurs différentes les différents types de données présentes actuellement dans le Web de données qui en montrent la diversité et la richesse pour une initiative relativement récente mais aussi les domaines encore absents.

Les ressources d'intérêt général (en bleu clair) recouvrent essentiellement les données issues de dictionnaires ou d'encyclopédies. De ce point de vue, le projet le plus emblématique est Dbpedia. Initative lancée en 2007, Dbpedia vise à extraire les informations structurées de Wikipedia et à rendre cette information disponible avec les technologies du Web sémantique. Pour ce faire, Dbpedia s'appuie sur les « infobox », encart généralement présent à droite d'un article de la Wikipedia constituant une « carte d'identité » de la ressource décrite, les liens reliant les différentes versions de la Wikipedia, les catégories, les liens présents dans l'article... Mis au point et maintenu par Universität Leipzig, Freie Universität Berlin et par différentes sociétés commerciales, ce projet met à disposition 274 millions de triplets RDF sur 213 000 personnes, 328 000 lieux, 57 000 albums musicaux...

Les ressources issues du « web social » (en saumon) recouvrent les projets de conversion des Web-services existants des sites Web 2.0 aux technologies du Web sémantique, l'exposition des données personnelles en utilisant le vocabulaire FOAF ou l'exposition des sites Web « sociaux » (forums, blog, wikis...) avec le vocabulaire SIOC.

Les ressources géographiques et statistiques (en jaune) recouvrent les projets d'exposition de données géographiques et les projets de mise à disposition des données publiques dont une bonne partie sont des données statistiques. Parmi les projets de mise disposition des ressources géographiques, on peut citer Geonames, système d'information géographique sous licence libre (CC BY), qui référence et donne les coordonnées géographiques de 8 millions d'emplacements ou LinkedGeoData qui est au service OpenStreeMap ce que Dbpedia est à Wikipedia et qui contient 320 millions de points géoréférencés et 25 millions d'itinéraires. Le mouvement d'accès ouvert aux données gouvernementales a été initié suite à l'annonce de la mise à disposition des données américaines par Barack Obama dont est issu le site data.gov. Si la première version de celui-ci n'intégrait pas les principes du Web de données, la seconde version disponible depuis mai 2010 a profité des avancées en la matière de son « cousin » britannique data.gov.uk dirigé par Nigel Shadbolt et Tim Berners-Lee qui ont évidemment mis en pratique leurs recherches dans le domaine pour le construire.

Les ressources multimédia (en bleu foncé) recouvrent des conversions de bases de données musicales en ligne comme Music Brainz ou Jamendo, mais aussi des initiatives plus originales comme celles de la BBC. Cherchant à valoriser et à mettre à disposition dans une logique d'ouverture les données accumulées depuis de nombreuses années, la BBC s'est tourné très rapidement vers les technologies du Web sémantique. L'originalité de la démarche réside dans la réutilisation de données existantes dans le Linked Data enrichies de leurs propres données pour construire des sites Web conviviaux à destination des utilisateurs et manipulables par les machines. De ce point de vue, le site BBC Music constitue une réussite et un exemple précurseur pour la mise à disposition de données culturelles ou patrimoniales.

Les ressources médicales et biologiques (en violet) recouvrent tous les ensembles de données qui ont été agrégés par le projet Bio2RDF et le groupe d'intérêt « Semantic Web Health Care and Life Sciences » (HCLS) du W3C. En effet, le modèle de graphes constitue le modèle de référence pour échanger les données biologiques réparties sur le réseau, leur mise à disposition peut être cruciale pour accélérer la recherche dans la découverte d'un remède, vaccin à telle ou telle maladie. Avec cet ensemble, le domaine de la biologie médicale démontre tout l'intérêt scientifique que revêt l'accès ouvert aux données brutes de la recherche.

Les données bibliographiques (en vert) recouvrent à la fois les projets de catalogue de bibliothèques comme Libris, des bibliographies sélectives type DBLP (bibliographie en informatique) ou Semantic web dog food (bibliographie de différentes conférences dans le domaine du Web sémantique) que des conversions selon les principes du Linked Data de Web services existants (Amazon par exemple) comme RDF Book Mashup.

En guise de conclusion

Avec le Web de données, loin de revoir ses ambitions à la baisse, le Web sémantique en revient à ses origines. Certes, éloigné des promesses de l'intelligence artificielle, le Web de données propose un cadre d'interopérabilité pour mettre à disposition, lier et échanger des données structurées en vue d'un traitement simplifié par les machines. Or, cet enjeu est de taille, puisqu'il s'agit ni plus ni moins que de décloisonner les silos de données afin de libérer les usages faits de ces données. Il constitue donc une première étape indispensable pour envisager ensuite des traitements plus complexes sur cette masse de données.

Causeries Linked Data —