Les petites cases

La gazette du Web de données (1er trimestre 2010)

Un petit trimestre est passé depuis mon billet-pelote en forme de thérapie d'écriture. A part sur ce blog, il s'est passé plein de choses et comme plusieurs d'entre vous m'ont fait part de leur intérêt pour ce type de billets, je vous propose une sélection toute personnelle des derniers potins, nouveautés, rumeurs, annonces... dans le domaine du Web sémantique et ses dérivés classée des sujets les moins techniques aux plus techniques qui vous amèneront immanquablement à mettre à disposition vos données selon les principes du Linked Data.

Data, Data, Data

Sans qu'il soit forcément question de Web de données, les données sont au cœur de la réflexion (ou font le buzz ce qui me fait plus peur...) en ce début d'année. Et, tout le monde s'y met. Ça va d'IBM qui en fait la star de ces dernières pubs à Microsoft qui pousse son propre protocole d'exposition des données, OData et qui est invité par le W3C à venir en discuter dans un Incubator Group (pour les faire revenir dans le droit chemin ? Je l'espère...) en passant par le premier ministre britannique qui appelle de ses vœux la libéralisation des données et offre £30 million à destination de l’institut web science anglais (bon, évidemment, tout le monde n'a pas la chance d'avoir Tim Berners-Lee sous la main...). Bref, qu'on se le dise, l'avenir est à la prise en compte des données et il était temps...

Convaincus mais vous ne savez comment faire ? Ce poster repéré sur le tumblr de la FING vous indique toutes les étapes (la partie technologique est un peu légère à mon goût, mais ça change au moins).

Web de données

De technologie, il en est justement question sur un ton très didactique dans la présentation du Web de données que Manue a faite pour un 5 à 7 de l'ADBS. Son visionnage (disponible aussi sur Dailymotion) vous permettra de mieux comprendre les différentes briques technologiques pour mettre à disposition des données selon les principes du Linked Data. Et, si vous vous demandez encore ce qu'on peut bien faire de toutes ces données « brutes », foncez vite regarder la vidéo de la conférence de Tim Berners-Lee à TED. Plus courte que l'an dernier mais toute aussi brillante, elle a vocation à faire le point sur la mise à disposition des données depuis un an. Si, à l'issue de cette vidéo, vous souhaitez consulter des interfaces qui ne soient pas à base de géolocalisation des données, vous pouvez toujours vous rabattre sur l'application RelFinder. Elle propose de trouver automatiquement toutes les relations qui unissent deux ressources de Dbpedia et certaines pourraient vous surprendre...

Même si vous ne faites pas partie d'un organisme public, les principes du Linked Data pourraient ne pas vous être totalement étrangers, si on en croit, par exemple, cet article qui dresse les 10 raisons pour lesquelles les organisations nouvelles devraient l'utiliser ou les réflexions en cours sur les modèles économiques.

Pour compléter vos connaissances avant de vous lancer dans l'aventure, vous pouvez toujours vous référer à l'expérience de la BBC relatée dans ce diaporama complet ou aux différents billets de Jeni Tennison alimentés par son expérience sur data.gov.uk. Je ne saurais trop vous conseiller de lire deux billets en particulier. Le premier fait le point sur la problématique du versionning des données. <disgression> De ce point de vue, je vous conseille de jeter un coup d'oeil sur le projet Memento. Mené par Herbert van de Sompel, aka M. OpenURL, aka M. OAI-PMH qui a viré sa cuti et s'est converti au Linked Data, ce projet a vocation, entre autres, à proposer des URIs pour identifier les ressources du Linked Data dans le temps. Si vous voulez en savoir plus, vous pouvez consulter la communication qui sera présentée à l'occasion de LDOW 2010. Au passage, vous pourrez en profiter pour voir avec les autres communications les directions prises par la recherche dans le domaine.</disgression> Le second billet constitue, quant à lui, un guide pour convertir les modèles existants vers RDF dont je retiens un point en particulier : la prise en compte de quatre "fonctionnalités" de RDF (s'appuyer sur les vocabulaires existants, penser aux mécanismes d'héritage, assurer la cohérence et le raisonnement sur le vocabulaire, utiliser les graphes nommés dont il faudra que je vous entretienne un jour ou l'autre...).

Vocabulaires et ontologies

Pour suivre les conseils de Jeni et ne pas réinventer la roue, vous pourrez vous appuyer sur cette nouvelle initiative de l'infatigable Ian Davis : Schemapedia qui référence les vocabulaires existants et permet d'y faire des recherches très simplement. Si vous trouvez Swoogle, Falcons ou Watson trop compliqué, ce site est fait pour vous. Et, comme il est décidément réellement infatigable, le même nous propose une deuxième version d'Open Vocab, le Wikipedia de la création de vocabulaire RDF. Vous voudriez bien créer un vocabulaire dans les règles de l'art, mais les histoires de classes, de propriétés et d'inférences sont encore flous pour vous. Pas de panique ! Un camp dédié entièrement à la création de vocabulaires RDF ou vocamp est organisé à Paris les 13 et 14 mai 2010. Il faut s'inscrire sur la liste d'attente, les 20 places étant déjà prises, mais ça va certainement se libérer.

Vous disposez de vocabulaires contrôlés et autres thésaurus convertis ou à convertir en SKOS et vous vous demandez par quelle propriété relier vos concepts aux ressources équivalentes dans le Web de données. Ne vous précipitez pas sur owl:sameAs et optez pour foaf:focus. Bientôt intégré à FOAF, cette propriété permet de relier un concept dans un vocabulaire (par exemple, une personne dans une notice d'autorité) à la ressource équivalente (par exemple, la même personne dans dbpedia). Voilà, une question sur laquelle je m'interrogeais (ainsi qu'un certain nombre d'entre vous avec qui j'ai eu l'occasion d'en discuter) résolue et d'une main de maître. Merci à Dan Brickley pour cette contribution essentielle. Si voulez plus de détails sur cette question, je ne peux que vous engager à lire ce billet de Bernard Vatant, spécialiste ès référentiels.

Stocker/indexer/requêter les triplets

Vos URIs, sujet essentiel comme le rappelle Nicolas, sont bien « désignés », vos données sont converties en RDF, votre serveur est sur les starting-blocks pour faire de la négociation de contenu, mais vous souhaitez offrir en plus un sparql endpoint à vos utilisateurs (vous êtes gourmand, mais vous avez raison !) et vous vous demandez encore dans quel triple/quad store vous allez pouvoir indexer vos triplets RDF reliés à de jolis graphes nommés. Autre cas de figure : vous versez actuellement dans le NoSQL ambiant et vous vous demandez bien ce qu'il peut y avoir de commun avec ces intrigantes technologies du Web sémantique. Alors, patientez encore un peu et vous verrez bientôt apparaître des quad store basés sur les solutions dites NoSQL, soient le meilleur des deux mondes : scalabilité et puissance de structuration et de requêtage. Bon, c'est pas encore mature, mais c'est en bonne voie comme le prouvent les expérimentations avec Hadoop/Cloudera, MongoDB ou les "graph" stores natifs qui offrent aussi une interface SPARQL.

Et, si vous êtes pressés ou moins aventuriers, vous pourrez toujours vous rabattre sur les dernières versions des solutions plus matures : Rasqal/Redland ou Virtuoso d'OpenLink Software.

Pour finir

Vous n'avez rien ou pas tout compris à ce billet, mais vous auriez aimé. J'assure une formation ouverte à tous (mais payante et ce n'est pas moi qui met en place la politique tarifaire...) sur tous ces sujets pour Atos Formation, c'est peut-être l'occasion.

Web sémantique Geekeries — 

Commentaires

Alors si Herbert Van de Sompel se met au Linked Data, ça promet de belles choses !
Sinon, tu risques de me voir à ta formation à la fin de l'année, la manip d'interrogation d'un SparQL m'intéresse...entres autres.
Quoi d'autres, heu, est ce que tu peux encapsuler les videos que tu cites dans ton blog, c'est pratique !
Merci pour tes billets qui permettent une synthèse de ce qui se passe autour du web de données.