Les petites cases

RDF

Les technologies du Web sémantique

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la seconde :

Le Web sémantique désigne, en premier lieu, une activité du W3C, l'organisme de normalisation du Web, visant au développement de technologies de mise à disposition des données structurées en vue de leur traitement par les machines sur le Web. Par extension, l'expression désigne à présent l'idée et l'ensemble des dispositifs et briques technologiques qui le composent. Comme nous l'avons montré dans l'historique, le mot « sémantique » ne renvoie pas à la définition communément admise en linguistique, mais fait référence à la définition donnée par le domaine de la logique de description dont le but est de faire émerger du sens à travers la structuration des données et l'expression de la logique qui les relie.

Les différentes technologies du Web sémantique forment des couches dont la compréhension est essentielle pour appréhender au mieux ses possibilités. Mais, au préalable, il est nécessaire de dresser un tableau de l'architecture du Web sur laquelle reposent l'ensemble des fondations du Web sémantique.

Lire la suite...

RDF Sparql OWL RDFa Geekeries — 

Roger T. Pédauque II, le retour (1ère partie)

En guise de préambule : le collectif Roger T. Pédauque s'est reformé pour proposer au commentaire un (plusieurs ?) nouveau texte pour étudier les implications du numérique sur la vision du document/information à la lumière des innovations et avancées récentes. Ayant par le passé analysé et critiqué un des textes, j'ai été sollicité par Jean-Michel Salaün pour participer à l'annotation de ce texte collectif. Difficile tâche tant mes journées sont remplies ces derniers temps, le délaissement de ce blog en est la preuve... Néanmoins, j'aimerais partager dans les prochains billets plusieurs réflexions en vrac qui me sont venus à la lecture de ce texte. Je précise que mon objectif n'est absolument pas de polémiquer, mais d'apporter ma pierre à l'édifice avec le ton habituel que j'utilise sur ce blog.

Lire la suite...

Management de l'information RDF Web sémantique Causeries Digital humanities Linked Data —  6 commentaires

Un automne de rencontres autour du Web sémantique

Il y a un temps pour tout : la découverte, la réflexion et l'expérimentation sur ce blog, le partage et la dissémination auprès de nouveaux publics au cours d'événements divers et le temps de l'accomplissement de projets mettant en œuvre ces différentes idées. Ainsi, le silence de ce blog trouve ses raisons dans d'autres activités non moins essentielles qui, à leur tour, vont alimenter de nouvelles réflexions. Mais, avant de vous en faire part et en guise de conclusion à cette riche période, je voulais partager avec vous les présentations qui ont ponctué mon automne.

Lire la suite...

Management de l'information RDF Web sémantique Sparql Causeries Digital humanities Moteur de recherche RDFa Wikipedia Linked Data —  2 commentaires

XML vs RDF : logique structurelle contre logique des données

XML et RDF sont deux modèles différents d'encodage de l'information et, pourtant, ils sont souvent confondus. Le dernier exemple en date est la mise à disposition par la British Library de 14 millions de notices bibliographiques au format, je cite, « RDF/DC ». La confusion est patente de par l'absence d'URI pour identifier les ressources décrites. Or, en tant que lecteur régulier de ce blog, vous savez que l'URI est un des fondements du modèle RDF.

Il est vrai que la distinction n'est pas forcément évidente à appréhender au premier abord et la syntaxe RDF/XML n'arrange pas les choses. J'ai à plusieurs reprises sur ce blog expliqué ce qui différencie les deux modèles : le modèle de l'arbre ou de l'arborescence pour l'un et le modèle de graphes pour l'autre. Mais, ainsi dit, cela n'est peut-être pas clair. Je vous propose donc d'aborder la distinction sous l'angle de la validation des informations pour faire suite à un commentaire sur le Figoblog et la réponse de Manue.

Lire la suite...

Structuration RDF XML Causeries OWL TEI Validation XHTML —  5 commentaires

Quel événement !? Ou comment contextualiser le triplet

L'absence de contextualisation est le principal reproche adressé à RDF par ses adversaires et il est vrai qu'au premier abord cela constitue son principal défaut. En effet, le modèle du triplet à la base de RDF ne permet pas a priori d'exprimer des informations sur le contexte d'application de l'assertion, au contraire d'autres mécanismes de modélisation des connaissances qui offrent nativement des systèmes pour préciser la portée d'une assertion, à l'image, par exemple, des Topic Maps avec l'élément "scope". Ce défaut semble renforcé par deux postulats de base de RDF : chaque assertion exprimée est vraie et chaque triplet est indépendant.

Lire la suite...

Structuration RDF Sparql OWL Geekeries —  8 commentaires

Quoi de neuf en plus de 140 caractères ?

Il faut affronter les démons et revenir aux choses simples, une vieille habitude sacrifiée sur l'autel des 140 caractères twitteriens, grands vainqueurs de l'immédiateté et de la synthèse sans analyse, la pelote de liens.

Lire la suite...

RDF Sparql Causeries Linked Data —  2 commentaires

Limites du modèle relationnel et Web sémantique

Non ! ce blog n'est pas mort comme tant d'autres, mais je ne trouve tout simplement pas le temps de bloguer en ce moment. Pourtant, ce n'est pas les sujets qui manquent, d'autant que chaque jour nous apporte son lot de bonne nouvelle sur le front du Web sémantique.

Pour me faire pardonner et vous faire patienter, je vous propose le diaporama d'une communication que j'ai faite avec mon excellent collègue, Alexandre Bertails, alias betehess, alias l'homme qui résout les sudokus avec OWL, alias l'homme qui murmure à l'oreille de Pellet, à l'occasion de la conférence "Web version 2 et suivantes" dans le cadre de Solution Linux. L'objectif de cette présentation était de montrer en quoi les technologies du Web sémantique constituent des réponses à certaines limites du modèle des bases de données relationnelles et donc en quoi elles peuvent avoir leur place dans les systèmes d'information traditionnelles. Je pense que certains lecteurs de ce blog pourront ainsi mieux se rendre compte de l'apport des technologies du Web sémantique pour la gestion des données structurées.

Bonne lecture !

Lire la suite...

RDF Système d'information Sparql OWL Geekeries Linked Data —  12 commentaires

Comprendre RDF en moins de cinq minutes

Dans le prolongement de mes billets RDF pour les nuls et A la découverte du Web sémantique, je vous propose de découvrir RDF en cinq minutes à travers quelques slides créés pour des formations au Web sémantique, que j'ai données ces dernières semaines.

Il faudrait que je l'accompagne de l'explication de texte, mais le temps me manque... Il faudra donc s'en contenter ou vous référer aux différents billets de ce blog sur la question.

PS : pour s'amuser, on fait un concours avec Manue : celui qui aura le plus de hit sur un diaporama sur son sujet favori. Alors, cliquez ! ;-)

Lire la suite...

Structuration RDF XML Geekeries —  4 commentaires

Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque

Dans un billet récent écrit à l'occasion des dix ans de XML, Jean-Michel Salaün regrettait que les pistes esquissés dans le second texte de l'initiative Roger T. Pédauque intitulé «  Le texte en jeu. Permanences et transformations du document  » n'aient pas été suivies. Et, pour cause me semble-t-il, si ce deuxième article, comme les deux autres d'ailleurs, apporte incontestablement des pistes de réflexion et certaines idées intéressantes, il comprend des contre-sens et des erreurs si manifestes qu'il n'est possible de s'en servir comme base de travail qu'après une critique attentive, sans compter sur le style que Jean-Michel Salaün lui-même dans le billet cité plus haut qualifie « d'un peu abscons » et que je qualifierais plus volontiers de charabia jargonnant.

A l'heure où le Web sémantique pointe avec plus de prégnance le bout de son nez, il n'est pas inutile de revenir sur ce texte, comme sur les deux autres, pour construire une nouvelle réflexion. C'était d'ailleurs leur but : susciter le débat et la réflexion, sans présager des évolutions futures et selon l'état de l'art du moment. Or, il semble bien qu'une nouvelle étape est sur le point d'être franchie, si ce n'est pas déjà le cas. A titre personnel, si, à l'époque de rédaction du texte, je n'étais pas en mesure de m'immiscer dans le débat, j'espère, aujourd'hui, pouvoir apporter ma pierre à l'édifice.

Avant d'entrer dans le vif du sujet, je voudrais rappeler, pour mémoire, que cette initiative avait été lancée par le réseau thématiques pluridisciplinaires dédié au document, le RTP-DOC d'où le pseudonyme Roger T. Pédauque pour signer les textes collectifs, placé sous le patronage de feu le département STIC du CNRS. L'objectif était de réfléchir selon une approche pluridisciplinaire à la notion de document dans le contexte des changements induits par le numérique.

Lire la suite...

Structuration RDF XML Causeries Indexation Moteur de recherche OWL TEI Validation XHTML Xquery XSLT —  7 commentaires

Stocker les triples

Dans un précédent billet, Iamhondjack notait avec justesse en commentaire qu'il ne fallait pas dissocier SPARQL et SQL de manière aussi stricte que je pouvais le faire. Il appuie son propos sur l'expérience de D2R server qui permet d'interroger une base de données relationnelles en SPARQL grâce à un mapping entre la modélisation de la base de données relationnelles et le modèle de graphe. Dans la foulée, Christian pose la question essentielle à savoir la performance et le temps de réponse.

Il semble que la question du stockage des triples RDF soit dans l'air du temps ce qui est logique, eu égard, à l'intérêt grandissant du Web of data. Ainsi, même si Tim Berners-Lee donnait déjà des premiers éléments de réponse dès 1998 dans un document intitulé Relational Databases and the Semantic Web (in Design Issues), un workshop organisé par le W3C et intitulé « RDF Access to Relational Databases » a permis de faire récemment le point sur la question. Une des conclusions de ce workshop est la nécessité de mettre au point une procédure normalisée de benchmark pour les triple store RDF sur le modèle de TPC pour les bases de données relationnelles.

Lire la suite...

RDF Sparql Geekeries —  9 commentaires