Les petites cases

XML

Information numérique : défintions et enjeux

Alors que j'étais en train de préparer une nouvelle formation, je suis retombé sur différents diaporamas que j'avais constitués à l'époque où je travaillais sur la pérennisation de l'information numérique. Comme je n'en aurai plus vraiment l'utilité, je me suis dit qu'il pourrait être intéressant de les partager, plutôt que les laisser dans un recoin de mon disque dur. Last but not least, cela me permettait d'alimenter ce blog, largement en déshérence ces derniers temps...

Ce diaporama est le résultat de la fusion d'une formation que j'avais mise au point pour présenter les enjeux de la pérennisation de l'information numérique à mes collègues d'Atos Origin, lorsque je travaillais sur le projet SPAR de la BnF et d'une présentation de ces problématiques à destination de décideurs. Vous reconnaîtrez peut-être certaines diapos de Manue, en particulier la fameuse disquette.

Placé sous licence CC-BY, ce diaporama est à votre disposition. N'hésitez pas, c'est fait pour ça.

Lire la suite...

Structuration XML Système d'information Web Causeries Conservation Numérisation —  1 commentaire

XML vs RDF : logique structurelle contre logique des données

XML et RDF sont deux modèles différents d'encodage de l'information et, pourtant, ils sont souvent confondus. Le dernier exemple en date est la mise à disposition par la British Library de 14 millions de notices bibliographiques au format, je cite, « RDF/DC ». La confusion est patente de par l'absence d'URI pour identifier les ressources décrites. Or, en tant que lecteur régulier de ce blog, vous savez que l'URI est un des fondements du modèle RDF.

Il est vrai que la distinction n'est pas forcément évidente à appréhender au premier abord et la syntaxe RDF/XML n'arrange pas les choses. J'ai à plusieurs reprises sur ce blog expliqué ce qui différencie les deux modèles : le modèle de l'arbre ou de l'arborescence pour l'un et le modèle de graphes pour l'autre. Mais, ainsi dit, cela n'est peut-être pas clair. Je vous propose donc d'aborder la distinction sous l'angle de la validation des informations pour faire suite à un commentaire sur le Figoblog et la réponse de Manue.

Lire la suite...

Structuration RDF XML Causeries OWL TEI Validation XHTML —  5 commentaires

RDFa 1.1 pour corriger les erreurs de jeunesse ?

RDFa est devenu, depuis plus d'un an, un des enjeux des batailles qui se nouent autour de HTML 5. Au cœur de la polémique, c'est ni plus ni moins que l'intégration de RDFa dans HTML 5 qui est en jeu, face au Microdata, principe concurrent proposé par Ian Hickson, un des éditeurs de HTML 5. Je ne vais pas revenir sur les débats qui agitent les spécialistes de la question, d'autant que si certains arguments sont recevables, il en est d'autres qui relèvent plus du combat d'ego. Face aux polémiques qui n'en finissaient plus d'enfler, aux retours des implémenteurs et à l'enjeu que revêtait RDFa suite aux différentes annonces effectués par Yahoo (SearchMonkey) et Google (Rich Snippets) pour ne citer qu'eux, le W3C a décidé de relancer le groupe de travail RDFa au mois de janvier 2010.

Lire la suite...

Structuration RDFa XHTML Geekeries —  1 commentaire

Les carcans de la pensée hiérarchique et documentaire (2)

Ce billet constitue la suite du précédent billet dont je vous conseille la lecture préalable si ce n'est déjà fait.

Lire la suite...

Structuration Web sémantique XML Système d'information Causeries Édition électronique —  7 commentaires

Les carcans de la pensée hiérarchique et documentaire (1)

Dans un billet intitulé « Comment organiser l'information pour y naviguer efficacement », j'essayais d'analyser en quoi l'organisation hiérarchique de l'information, issue des pratiques d'organisation physique de l'information, que ce soit dans un livre-codex ou sur un système de fichiers, influençait notre pratique du Web et comment, peu à peu, l'hypertexte et certaines pratiques, alors naissantes, comme la folksonomie ou la multiplication des métadonnées pouvaient permettre de dépasser ce paradigme pour démultiplier les accès à l'information et donc son exploitation. Je vous propose de revenir sur ces questions pour comprendre en quoi il est nécessaire aujourd'hui pour appréhender au mieux les enjeux du Web de données de s'abstraire de ce paradigme pour aller vers un nouveau modèle d'organisation et de modélisation de l'information.

Lire la suite...

Structuration Web sémantique XML Système d'information Causeries Histoire —  11 commentaires

Comprendre RDF en moins de cinq minutes

Dans le prolongement de mes billets RDF pour les nuls et A la découverte du Web sémantique, je vous propose de découvrir RDF en cinq minutes à travers quelques slides créés pour des formations au Web sémantique, que j'ai données ces dernières semaines.

Il faudrait que je l'accompagne de l'explication de texte, mais le temps me manque... Il faudra donc s'en contenter ou vous référer aux différents billets de ce blog sur la question.

PS : pour s'amuser, on fait un concours avec Manue : celui qui aura le plus de hit sur un diaporama sur son sujet favori. Alors, cliquez ! ;-)

Lire la suite...

Structuration RDF XML Geekeries —  4 commentaires

Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque

Dans un billet récent écrit à l'occasion des dix ans de XML, Jean-Michel Salaün regrettait que les pistes esquissés dans le second texte de l'initiative Roger T. Pédauque intitulé «  Le texte en jeu. Permanences et transformations du document  » n'aient pas été suivies. Et, pour cause me semble-t-il, si ce deuxième article, comme les deux autres d'ailleurs, apporte incontestablement des pistes de réflexion et certaines idées intéressantes, il comprend des contre-sens et des erreurs si manifestes qu'il n'est possible de s'en servir comme base de travail qu'après une critique attentive, sans compter sur le style que Jean-Michel Salaün lui-même dans le billet cité plus haut qualifie « d'un peu abscons » et que je qualifierais plus volontiers de charabia jargonnant.

A l'heure où le Web sémantique pointe avec plus de prégnance le bout de son nez, il n'est pas inutile de revenir sur ce texte, comme sur les deux autres, pour construire une nouvelle réflexion. C'était d'ailleurs leur but : susciter le débat et la réflexion, sans présager des évolutions futures et selon l'état de l'art du moment. Or, il semble bien qu'une nouvelle étape est sur le point d'être franchie, si ce n'est pas déjà le cas. A titre personnel, si, à l'époque de rédaction du texte, je n'étais pas en mesure de m'immiscer dans le débat, j'espère, aujourd'hui, pouvoir apporter ma pierre à l'édifice.

Avant d'entrer dans le vif du sujet, je voudrais rappeler, pour mémoire, que cette initiative avait été lancée par le réseau thématiques pluridisciplinaires dédié au document, le RTP-DOC d'où le pseudonyme Roger T. Pédauque pour signer les textes collectifs, placé sous le patronage de feu le département STIC du CNRS. L'objectif était de réfléchir selon une approche pluridisciplinaire à la notion de document dans le contexte des changements induits par le numérique.

Lire la suite...

Structuration RDF XML Causeries Indexation Moteur de recherche OWL TEI Validation XHTML Xquery XSLT —  7 commentaires

RDFaiser votre blog, 2ème partie : la pratique

Dans le précédent billet, j'ai expliqué en quoi RDFa permettait de décrire la structure du message contenu dans une page Web et comment on pourrait facilement générer du RDFa à partir des données structurées dans la base de données de votre CMS. Je vous propose maintenant de passer de la théorie à la pratique.

Ce tutoriel suppose que vous connaissez XHTML et le principe de base de RDF.

Lire la suite...

Structuration RDFa XHTML Geekeries —  14 commentaires

RDFaiser votre blog, 1ère partie : la théorie

HTML, de même que XHTML, permet de structurer une page Web selon les principes d'un langage à balises. Les différentes balises indiquent de manière hiérarchique le rôle joué par chaque portion d'information dans le contexte de la page Web.

Ainsi, la structure d'un document HTML, comme tout document XML, ne décrit pas le contenu/le message de la page Web, mais reflète la structure de la page Web en elle-même. C'est pourquoi il me semble erroné de parler de « sémantisation », lorsqu'on encode en HTML ou, plus généralement, en XML.

Par exemple, soient les deux portions de code HTML suivants :

<div class="contenu">
       <p class="normal">
                Le <a href="http://barcamp.org/SemanticCampParis">SemanticWeb camp</a> se déroule à Paris
                le samedi 16 février 2008 à partir de 9h30.
        </p>
</div>

<div class="description">
         <ul>
                <li>
                        Le <strong>SemanticWeb camp</strong> se déroule à Paris
                        le <em>samedi 16 février 2008 à partir de 9h30</em>.
                </li>
         </ul>
</div>

Ces deux bouts de code HTML ne sont pas identiques du point de vue de la structure, pourtant, du point de vue du contenu, ils délivrent la même information, le même message. Si certains pourraient y voir une limitation de XML, il n'en est rien. Ce n'est tout simplement pas son rôle.


Lire la suite...

Structuration Moteur de recherche RDFa XHTML Geekeries —  2 commentaires

La TEI : principes et fonctionnements

L'ADBS m'a donné l'occasion, la semaine dernière, de me replonger avec grand plaisir dans la TEI à l'occasion d'un 5 à 7. Le but ce cette séance était d'en présenter le principe et le fonctionnement. Ma présentation s'attache donc à montrer les particularités de la TEI et en quoi elle constitue une solution générique à l'encodage des textes en repartant des buts poursuivis par l'encodage et de la démarche particulière de sa conception.

Je me suis inspiré pour la mettre au point des documents, en particulier une présentation de Lou Burnard, Sebastian Rahtz et Matthew Driscoll faite à l'occasion d'une formation à Sofia, mis à disposition sur le nouveau site du consortium TEI dévoilé à l'occasion de son 20ème anniversaire et de la sortie en version finale de la nouvelle version, la P5.

Après toutes ces mois à m'intéresser à RDF, cela a aussi été une opportunité pour préciser dans mon esprit les différences entre RDF et XML et d'affiner mes réflexions sur le concept de texte et de document. Mais, c'est une autre histoire que j'espère pouvoir partager avec vous dans les semaines qui viennent, s'il me reste un peu de temps ;-)

Bonne lecture !

Lire la suite...

Causeries TEI —