Les petites cases

Sparql

Bilan de 15 ans de réflexion sur la gestion des données numériques

Cela fait maintenant deux ans que j’ai rejoint l’Institut national de l’audiovisuel. Deux années qui m’ont permis de donner une nouvelle impulsion à ma réflexion sur la gestion des données numériques. Deux années passionnantes et qui se concrétisent depuis plus de six mois par le développement d’une infrastructure de traitement et de stockage des données, aboutissement (forcément provisoire) d’une vision de l’architecture du système d’information où la donnée occupe une place centrale, à l’inverse de l’approche traditionnelle par le processus. Deux années dont les résultats font en partie l’objet d’un article pour le prochain livre d’Emmanuelle sur l’avenir des catalogues, à paraître aux éditions du Cercle de la librairie et dont l’écriture m’a donné envie de faire revivre un peu cet espace de partage que j’ai laissé en friche ces dernières années.

Mais avant de partager ces nouveaux éléments, il me semble intéressant de dresser un bilan de ces 15 dernières années afin de tracer la ligne directrice et de brosser aussi les réussites, les échecs et les erreurs. La lecture de quelques (excellents) mémoires du master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes m’ont aussi motivé à préciser (ou repréciser) certaines approximations que j’ai pu rencontrer ici ou là.

Alors, voilà, avant de passer à la suite, un bilan de 15 ans de réflexion sur la gestion des données numériques, forcément subjectif et en aucun cas exhaustif. Il se découpe en quatre phases, qui correspondent à des moments de mon parcours professionnel et, ça va de pair, avec les sujets principaux qui ont été au cœur de ma réflexion. Elles sont les suivantes :

  • l’édition électronique ;
  • la conservation sur le long terme de l’information numérique ;
  • le traitement des données structurées et semi-structurées ;
  • l’architecture de données à l’ère du Big data.

Lire la suite...

Management de l'information Structuration RDF Web sémantique XML Système d'information Sparql Web Causeries Conservation Digital humanities Édition critique Édition électronique Histoire Moteur de recherche SHS TEI Perso

Les technologies du Web sémantique

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la seconde :

Le Web sémantique désigne, en premier lieu, une activité du W3C, l'organisme de normalisation du Web, visant au développement de technologies de mise à disposition des données structurées en vue de leur traitement par les machines sur le Web. Par extension, l'expression désigne à présent l'idée et l'ensemble des dispositifs et briques technologiques qui le composent. Comme nous l'avons montré dans l'historique, le mot « sémantique » ne renvoie pas à la définition communément admise en linguistique, mais fait référence à la définition donnée par le domaine de la logique de description dont le but est de faire émerger du sens à travers la structuration des données et l'expression de la logique qui les relie.

Les différentes technologies du Web sémantique forment des couches dont la compréhension est essentielle pour appréhender au mieux ses possibilités. Mais, au préalable, il est nécessaire de dresser un tableau de l'architecture du Web sur laquelle reposent l'ensemble des fondations du Web sémantique.

Lire la suite...

RDF Sparql OWL RDFa Geekeries — 

Un automne de rencontres autour du Web sémantique

Il y a un temps pour tout : la découverte, la réflexion et l'expérimentation sur ce blog, le partage et la dissémination auprès de nouveaux publics au cours d'événements divers et le temps de l'accomplissement de projets mettant en œuvre ces différentes idées. Ainsi, le silence de ce blog trouve ses raisons dans d'autres activités non moins essentielles qui, à leur tour, vont alimenter de nouvelles réflexions. Mais, avant de vous en faire part et en guise de conclusion à cette riche période, je voulais partager avec vous les présentations qui ont ponctué mon automne.

Lire la suite...

Management de l'information RDF Web sémantique Sparql Causeries Digital humanities Moteur de recherche RDFa Wikipedia Linked Data —  2 commentaires

Quel événement !? Ou comment contextualiser le triplet

L'absence de contextualisation est le principal reproche adressé à RDF par ses adversaires et il est vrai qu'au premier abord cela constitue son principal défaut. En effet, le modèle du triplet à la base de RDF ne permet pas a priori d'exprimer des informations sur le contexte d'application de l'assertion, au contraire d'autres mécanismes de modélisation des connaissances qui offrent nativement des systèmes pour préciser la portée d'une assertion, à l'image, par exemple, des Topic Maps avec l'élément "scope". Ce défaut semble renforcé par deux postulats de base de RDF : chaque assertion exprimée est vraie et chaque triplet est indépendant.

Lire la suite...

Structuration RDF Sparql OWL Geekeries —  8 commentaires

Photos, livres, musiques, what else ?

N'en déplaise à certains. Le manque de courage et les problèmes de structuration de ma pensée ne sont pas les seuls responsables de la diminution drastique des publications de ce blog. J'ai aussi mis à profit ces derniers mois pour développer plusieurs prototypes visant à démontrer les possibilités offertes par les technologies du Web sémantique et les données mises à disposition selon les principes du Linked Data. Je vous avais déjà présenté « la boîte à souvenirs », Manue s'était chargée, comme il se doit, du « Linked Book Mashup », permettez-moi de vous dévoiler aujourd'hui « Linked My Music ».

Lire la suite...

Structuration Sparql Wikipedia Geekeries Linked Data —  3 commentaires

Quoi de neuf en plus de 140 caractères ?

Il faut affronter les démons et revenir aux choses simples, une vieille habitude sacrifiée sur l'autel des 140 caractères twitteriens, grands vainqueurs de l'immédiateté et de la synthèse sans analyse, la pelote de liens.

Lire la suite...

RDF Sparql Causeries Linked Data —  2 commentaires

Limites du modèle relationnel et Web sémantique

Non ! ce blog n'est pas mort comme tant d'autres, mais je ne trouve tout simplement pas le temps de bloguer en ce moment. Pourtant, ce n'est pas les sujets qui manquent, d'autant que chaque jour nous apporte son lot de bonne nouvelle sur le front du Web sémantique.

Pour me faire pardonner et vous faire patienter, je vous propose le diaporama d'une communication que j'ai faite avec mon excellent collègue, Alexandre Bertails, alias betehess, alias l'homme qui résout les sudokus avec OWL, alias l'homme qui murmure à l'oreille de Pellet, à l'occasion de la conférence "Web version 2 et suivantes" dans le cadre de Solution Linux. L'objectif de cette présentation était de montrer en quoi les technologies du Web sémantique constituent des réponses à certaines limites du modèle des bases de données relationnelles et donc en quoi elles peuvent avoir leur place dans les systèmes d'information traditionnelles. Je pense que certains lecteurs de ce blog pourront ainsi mieux se rendre compte de l'apport des technologies du Web sémantique pour la gestion des données structurées.

Bonne lecture !

Lire la suite...

RDF Système d'information Sparql OWL Geekeries Linked Data —  12 commentaires

Ubiquity + SparqlBot = le Web sémantique pour tous

C’est à une rencontre programmée que je vous convie ce soir, vous savez ces rendez-vous arrangés dont on est sûr et certain de l’issue, la rencontre d’Ubiquity et de Sparqlbot.

Commençons par la présentation de nos deux protagonistes :

  • D’un côté, Ubiquity, une belle extension Firefox pleine d’avenir déjà très sexy sortie tout droit des cerveaux de la Mozilla labs, permet d’effectuer simplement des requêtes sur des services en ligne directement depuis n’importe quelle page Web via des pseudos lignes de commande pré-programmées.
  • De l’autre, SparqlBot, un petit agent logiciel un peu geeky mis au point par Benjamin Nowack qui ne demande qu’à s’épanouir et à voler vers des horizons moins circonscrits, permet d’obtenir des réponses à des questions en utilisant les données exposés sur le Web avec les technologies du Web sémantique selon les principes du Linked data via des pseudo-lignes de commandes pré-programmées.

Comme vous le pouvez le constater par vous-mêmes, leurs points communs étaient trop flagrants pour ne pas les faire se rencontrer. C’est justement ce que vient de faire Benjamin Nowack, en mettant à disposition une commande Ubiquity qui permet d’interroger SparqlBot et de recevoir la réponse sous la forme d’une petite pop-up qui s’affiche en haut de la page Web.

Lire la suite...

Sparql Geekeries Linked Data —  4 commentaires

Où s'amuser avec Sparql ?

Non, il ne s'agit pas de faire un guide des parcs parisiens les plus accueillants pour votre nouveau compagnon à quatre pattes que vous auriez malicieusement appelé du nom de la recommandation la plus importante du W3C depuis XML, mais plutôt une liste non exhaustive des Sparql endpoint que vous pouvez interroger librement sur le Web. Les différentes interfaces que je vais présenter sont mis à disposition dans le cadre du projet Linking Open Data (ou LOD) coordonné par le W3C.

Ce projet vise à exposer sur le Web des données structurées avec les technologies du Web sémantique, en particulier RDF et Sparql, suivant les quatre principes du Linked Data édictés par Tim Berners-Lee et rappelés dans ce guide ou cette présentation, soit :

  • Attribuer une URI à chaque chose/ressource ;
  • Utiliser des URIs HTTP, c'est à dire déférençable, pour que les personnes puissent consulter facilement et directement ces choses/ressources ;
  • Si quelqu'un veut accéder à cette URI, fournir les informations utiles en utilisant le modèle RDF ;
  • Inclure des assertions RDF qui relient à d'autres URIs, pour qu'ils puissent découvrir les choses/ressources reliés.

Lire la suite...

Sparql Geekeries Linked Data —  6 commentaires

Knowledge box reloaded

Il y a un peu plus d'un an, dans le but de montrer les possibilités des technologies du Web sémantique, en particulier RDFa, j'avais mis au point une petite application, la knowledge box, qui donnait la définition récupérée depuis Dbpedia de termes encodées en RDFa avec la propriété owl:sameAs et une URI de Dbpedia. Cette première version relevant de la bidouille, il était difficile de récupérer le code pour l'intégrer dans un autre site sous Drupal ou d'autres CMS.

La mise à disposition par Arto Bendiken d'une première version (Alpha ! attention donc en production) des modules RDF API et SPARQL pour Drupal 6 m'a permis d'améliorer le code de la knowledge box et d'en faire un vrai module drupal. Pour les (heureux !) utilisateurs de Drupal 6, il vous suffit donc de récupérer l'archive et de décompresser les fichiers dans le répertoire Modules.

Lire la suite...

Sparql RDFa Geekeries —  4 commentaires