Les petites cases

Data, web of data, hyperdata : vivent les données !

Le monde du Web sémantique est en pleine ébullition en ce moment. Il ne se passe pas une semaine sans qu'une nouvelle ne fasse sensation et dépasse le cercle restreint des initiés. La dernière en date est sans conteste l'annonce de l'ouverture en bêta restreinte du service Twine qu'il me tarde de découvrir. Cette agitation est alimentée par le buzz fait autour du concept de Web 3.0 que beaucoup assimile au Web sémantique, sans, bien souvent, savoir exactement à quoi il fait référence.

Mais, au-delà du buzzword, il existe une vraie évolution et une réalité. Les technologies du Web sémantique arrivent à maturité, des applications concrètes commencent à poindre leur nez et les données décrites en RDF font peu à peu leur apparition sur le Web. Plus que le pseudo-concept de Web 3.0, la période qui s'annonce devrait être marquée par les concepts que renferment les expressions "hyperdata" et "Web of data". Ces termes montrent la voie que prend actuellement le Web sémantique, plus proche des utilisateurs et de la vision de Tim Berners-Lee que des tenants de l'intelligence artificielle. Il faut alors se souvenir des mots de Jim Hendler en forme de Mea Culpa qui avouait son erreur en intégrant les technologies de l'intelligence artificielle dans le Web sémantique.

Il ne faut évidemment pas tomber dans l'extrémisme et oublier tous les apports que peuvent avoir certaines de ces technologies, mais il est aujourd'hui certain que le Web sémantique ne se créera pas à partir des fondations de l'intelligence artificielle mais plutôt du Web.

J'espère avoir le temps de revenir plus en détail sur les concepts d'hyperdata et de Web of data et leurs conséquences dans de prochains billets. Mais, avant cela, pour vous convaincre ou vous permettre de comprendre, je vous propose trois ressources indispensables

Pour commencer, une interview de Robert Shimp, vice président de la division "global technology business" d'Oracle montre l'importance de ces problématiques aux yeux d'une des compagnies les plus importantes du secteur. Cet entretien a pour titre : "Oracle Sees Semantic Tech Solving Business Problems", tout un programme et je ne résiste pas à partager avec vous cet extrait :

But the second big trend then is to decouple the data from the application or the application services, so that in that sense what you can do is write your application or create services independent of the data sources they have to deal with, which comes full circle back to having a virtual layer between application services and data. The application can go out and find whatever data sources are best to use for that particular question. That’s what semantic technology provides for enterprise information management.

Ça vous rappelle pas quelque chose ? Allez, je vous aide ;-)

Seth Ladd suggère dans un billet intitulé Semantic Web Doesn’t Have to Be Difficult de renommer/re-marquer/recentrer le Web sémantique en "Data Web", arguant de la polysémie et des contresens possibles du terme "sémantique" et s'appuyant sur une citation de Tim Berners-Lee en personne qui va dans ce sens. Il poursuit son billet en donnant sa vision et sa définition du Web of data. Je pourrais vous citer tout le billet, tant il est percutant et brillant. Je me contenterai de sa conclusion que je clame à mon tour haut et fort :

Repeat after me: Data Web, Data Web, Data Web. Put my data on the web. Give it a URI. Create a Web of Data.

Comment ne pas finir ce billet sans parler de Nova Spivack ? Si Tim O'Reilly est le gourou du Web 2.0, alors, sans conteste et malgré ses prétentions, il ne sera pas celui du Web 3.0 et devra laisser sa place à Nova Spivack, dont la compagnie, Radar Networks est à l'origine de Twine. Il est certainement un de ceux qui ont le mieux compris ou conceptualisé l'évolution du Web sémantique et peut revendiquer avec Danny Ayers la paternité du terme Hyperdata. D'ailleurs, si vous vous demandez encore ce que cela signifie, alors foncez lire ce billet essentiel à lire et relire The Semantic Web, Collective Intelligence and Hyperdata, dont je tire cette citation qui conclura parfaitement ce billet :

As I mentioned above, hyperdata is to data what hypertext is to text. Hyperdata is a great word -- it is so simple and yet makes a big point. It's about data that links to other data. It does for data what hypertext does for text. That's what RDF and the Semantic Web are really all about.
Management de l'information Web sémantique Causeries — 

Commentaires

Plutôt que de parler de "Web of Data" je crois qu'on pourrait directement passer à la case "Web of Objects", un concept allant plus loin que le web sémantique mais qui semble être, paradoxalement, plus facile à réaliser car pouvant déboucher immédiatement sur des applications concrètes et relativement simples à appréhender : http://frenchblog.kindalab.com/2007/10/21/le-web-oriente-objet/
A noter l'interview de Tim Berners-Lee dans le numéro de La Recherche de ce mois où il aborde le "web de données".

@Manuel : Tu es culotté comme mec ;-) Tu assènes ton concept comme une évidence, comme s'il allait révolutionner le Web, dépassant le travail de tant de personnes sur le Web sémantique et remisant au placard les idées de Tim Berners-Lee lui-même... Ton billet comporte pas mal d'idées intéressantes, mais le terme d'objet me gêne profondément. Avec ce terme, tu enfermes les données et tu les associes voire les limite à un usage, alors que le but même, comme l'explique Robert Shimp que je cite dans ce billet, est précisément l'inverse : séparer les données de leurs utilisations, pour mieux les déconstruire, les reconstruire en les associant à d'autres données, les modeler à l'usage que tout un chacun pourrait en faire (comme les briques de légo à partir desquelles tu peux construire pleins d'objets). Au bout du compte, si tu y regardes de plus près, le web of data n'est pas si éloigné de ton idée : mettre à disposition des données structurées et les relier avec d'autres données structurées, sur le modèle de ce que tu appelles des fonctionnalités qui sont en réalité des liens typés.

Par exemple : prenons un commentaire, que je décris en RDF et je le mets à disposition sur ce site en lui ajoutant une propriété 'commentOf' l'URI vers ton billet http://frenchblog.kindalab.com/2007/10/21/le-web-oriente-objet/, en terme de prédicat, cela donnera . J'ai bien mis à disposition des données qui deviendront dans le contexte de ton billet un objet de type commentaire, mais qui pourrait dans un autre contexte devenir simplement un de mes écrits supplémentaires voire un billet de mon blog.

Les technologies du Web sémantique comportent donc tout ce qu'il faut pour mettre en place des réseaux sociaux décentralisés et c'est bien de Web of data dont il s'agit. Ainsi, si tous les services de réseaux sociaux exposaient leurs données en RDF, nous n'aurions pas besoin qu'un Google, tel les sauveurs du monde dans leur immense mansuétude, mette à disposition une API pour gérer l'interopérabilité (et au passage récupérer les données), elle serait native. Tu ne peux pas présager d'un usage qui pourrait être fait d'une donnée, elle possède une structure intrinsèque et l'usage est créé au fil de son utilisation. Nous avons trop souffert de la modélisation des processus en informatique, il est temps maintenant de penser directement au niveau des données et de créer l'usage ensuite.

Pour finir, nous pouvons déjà faire des choses vraiment intéressantes et très simplement avec les technos du Web sémantique et le Web of data. J'en veux pour preuve les exemples que j'ai construits avec DBpedia avec mon niveau médiocre en prog'. J'ai toujours pensé et j'essaye de le montrer sur ce blog, qu'il fallait voir ce qu'on peut faire avec ce qu'on a à notre disposition, avant de penser à la techno qui n'existe pas.

@Igor : Merci !

Tu as raison sur un point, je suis d'un genre culotté. :) Pour le reste je ne suis pas d'accord, les données ne suffisent pas, je crois qu'il faut en plus normaliser quelques processus fondamentaux comme le mécanisme d'abonnement, l'idée du Pingback pour actualiser les datahubs et autres datastores, ou encore quelque chose permettant de faciliter la propagation de l'information (entre autres fonctions) à travers les réseaux sociaux. Que faire de données sémantique si on ne dispose pas d'un certain nombre de processus normalisés ? Le web sémantique pourrait-il exister sans HTTP, REST, OpenID ou SPARQL ? N'a-t-on pas là des choses qui sont de l'ordre du processus (ou du protocole si tu préfères) et penses-tu que la liste doive s'arrêter là ?

Première chose, le Web sémantique pourrait exister sans REST et OpenID, ça n'a strictement rien à voir... Les seuls protocoles utilisés pour le Web sémantique sont effectivement HTTP et SPARQL. Pour le reste, que dire ??

On ne parle tout simplement pas de la même chose, je te parle de données et tu me réponds processus. Je ne peux pas répondre à ta question, parce que, selon moi, l'enjeu des technologies du Web sémantique ne se situe pas là, il se situe dans la mise à disposition des données, dans leur relation, dans un moyen standard de les décrire (RDF) et de les écrire (XML), de les interroger (le langage de requêtes SPARQL) et de transporter les réponses (le protocole SPARQL). Les données sont juste à disposition et chacun en fera l'usage qu'il souhaite. Ce ne sont pas tes idées que je remets en cause (au passage je te conseille de voir le travail fait autour de l'extension Semantic crawling du sitemap), personnellement, ces points ne m'intéressent pas, mais c'est le concept d'objet que tu en déduis. Il est contraire à l'idée de libération des données au coeur des enjeux du Web sémantique. Ce sont juste deux choses différentes.

En passant, tu devrais regarder le site/service Ping the semantic Web et l'extension Semantic Radar, il me semble que cela ressemble à tes idées...
Il me semble également que web of data est plus clair que web of objects. La seule critique que j'émettrais c'est que l'impact va au-delà du seul web. Je parlerais bien d'internet of data (pour faire écho à l'internet of things). Bien évidemment, en français, comme on traduit l'internet des choses en internet des objets, il va nous falloir trouver un terme plus séduisant. ;-).

La Recherche dans son numéro de novembre a traduit Web of data par Web de données dans l'interview de Tim Berners-Lee (au passage, excellente, j'en citerai des extraits, merci encore, Igor). Ce n'est pas forcément très heureux, mais elle est assez explicite.

En revanche, je ne vois pas pourquoi tu parles d'Internet of data. Au bout du compte, Internet, c'est la couche TCP/IP et les technos du Web sémantique sont au niveau de la couche HTTP. Mais, peut-être suis-je trop prosaïque ? Pourrais-tu expliciter ce que tu entends par Internet of data ?

Oui, tu es trop prosaïque ;-). Disons qu'il est impensable que cette intelligence des données ne touche que le Web. Comment ne pas croire qu'il ne va pas aller révolutionner l'e-mail, la messagerie instantanée (discuter avec des objets, avec des silos de données), etc. Faire que les mots que j'écris ou que je prononce appellent des applications et se transforment avant que d'arriver chez leur destinataire par exemple. Ce n'est pas qu'au niveau Web que cette révolution va avoir un impact, c'est bien sur tous les protocoles d'échanges de données.
Même si, je suis d'accord, HTTP risque d'être la couche qui les unira tous.
Hahaha ! Si je comprends bien bientôt en plus d'avoir des liens hypertextes cassés, on aura des des liens hyperdonnées cassées ! Il va falloir remttre quelques couche d'URI pérennes :-).