XML

Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque

Dans un billet récent écrit à l'occasion des dix ans de XML, Jean-Michel Salaün regrettait que les pistes esquissés dans le second texte de l'initiative Roger T. Pédauque intitulé « Le texte en jeu. Permanences et transformations du document » n'aient pas été suivies. Et, pour cause me semble-t-il, si ce deuxième article, comme les deux autres d'ailleurs, apporte incontestablement des pistes de réflexion et certaines idées intéressantes, il comprend des contre-sens et des erreurs si manifestes qu'il n'est possible de s'en servir comme base de travail qu'après une critique attentive, sans compter sur le style que Jean-Michel Salaün lui-même dans le billet cité plus haut qualifie « d'un peu abscons » et que je qualifierais plus volontiers de charabia jargonnant.

A l'heure où le Web sémantique pointe avec plus de prégnance le bout de son nez, il n'est pas inutile de revenir sur ce texte, comme sur les deux autres, pour construire une nouvelle réflexion. C'était d'ailleurs leur but : susciter le débat et la réflexion, sans présager des évolutions futures et selon l'état de l'art du moment. Or, il semble bien qu'une nouvelle étape est sur le point d'être franchie, si ce n'est pas déjà le cas. A titre personnel, si, à l'époque de rédaction du texte, je n'étais pas en mesure de m'immiscer dans le débat, j'espère, aujourd'hui, pouvoir apporter ma pierre à l'édifice.

Avant d'entrer dans le vif du sujet, je voudrais rappeler, pour mémoire, que cette initiative avait été lancée par le réseau thématiques pluridisciplinaires dédié au document, le RTP-DOC d'où le pseudonyme Roger T. Pédauque pour signer les textes collectifs, placé sous le patronage de feu le département STIC du CNRS. L'objectif était de réfléchir selon une approche pluridisciplinaire à la notion de document dans le contexte des changements induits par le numérique.

RDFaiser votre blog, 2ème partie : la pratique

Dans le précédent billet, j'ai expliqué en quoi RDFa permettait de décrire la structure du message contenu dans une page Web et comment on pourrait facilement générer du RDFa à partir des données structurées dans la base de données de votre CMS. Je vous propose maintenant de passer de la théorie à la pratique.

Ce tutoriel suppose que vous connaissez XHTML et le principe de base de RDF.

RDFaiser votre blog, 1ère partie : la théorie

HTML, de même que XHTML, permet de structurer une page Web selon les principes d'un langage à balises. Les différentes balises indiquent de manière hiérarchique le rôle joué par chaque portion d'information dans le contexte de la page Web.

Ainsi, la structure d'un document HTML, comme tout document XML, ne décrit pas le contenu/le message de la page Web, mais reflète la structure de la page Web en elle-même. C'est pourquoi il me semble erroné de parler de « sémantisation », lorsqu'on encode en HTML ou, plus généralement, en XML.

Par exemple, soient les deux portions de code HTML suivants :

<div class="contenu">
       <p class="normal">
                Le <a href="http://barcamp.org/SemanticCampParis">SemanticWeb camp</a> se déroule à Paris
                le samedi 16 février 2008 à partir de 9h30.
        </p>
</div>

<div class="description">
         <ul>
                <li>
                        Le <strong>SemanticWeb camp</strong> se déroule à Paris
                        le <em>samedi 16 février 2008 à partir de 9h30</em>.
                </li>
         </ul>
</div>

Ces deux bouts de code HTML ne sont pas identiques du point de vue de la structure, pourtant, du point de vue du contenu, ils délivrent la même information, le même message. Si certains pourraient y voir une limitation de XML, il n'en est rien. Ce n'est tout simplement pas son rôle.

La TEI : principes et fonctionnements

L'ADBS m'a donné l'occasion, la semaine dernière, de me replonger avec grand plaisir dans la TEI à l'occasion d'un 5 à 7. Le but ce cette séance était d'en présenter le principe et le fonctionnement. Ma présentation s'attache donc à montrer les particularités de la TEI et en quoi elle constitue une solution générique à l'encodage des textes en repartant des buts poursuivis par l'encodage et de la démarche particulière de sa conception.

Je me suis inspiré pour la mettre au point des documents, en particulier une présentation de Lou Burnard, Sebastian Rahtz et Matthew Driscoll faite à l'occasion d'une formation à Sofia, mis à disposition sur le nouveau site du consortium TEI dévoilé à l'occasion de son 20ème anniversaire et de la sortie en version finale de la nouvelle version, la P5.

Après toutes ces mois à m'intéresser à RDF, cela a aussi été une opportunité pour préciser dans mon esprit les différences entre RDF et XML et d'affiner mes réflexions sur le concept de texte et de document. Mais, c'est une autre histoire que j'espère pouvoir partager avec vous dans les semaines qui viennent, s'il me reste un peu de temps ;-)

Bonne lecture !

La pelote de retour de vacances

Il aura fallu que je sois bloqué chez moi pour finir de vider mon agrégateur de tout ce qui s'était accumulé avant et pendant les vacances. Et, pour finir définitivement cette opération qui m'aura pris pas mal de temps, voici quelques ressources qui ont plus particulièrement retenu mon attention.

Du côté du Web sémantique, les deux sujets à la une restent "linked data" et RDF/A.

Quelles sont les éléments d'une architecture documentaire ?

Dans une organisation, on crée et on échange de l'information. Mais on n'y accède pas de manière uniforme : selon les personnes qui veulent y accéder ou utiliser ces informations, selon leurs différentes fonctions dans l'organisation, ils auront besoin d'y accéder de manière différente, pour des besoins différents. Toutefois, l'information, elle, reste toujours la même : c'est sa présentation et son usage qui change, ce sont les différents services que l'on construit au-dessus de cette information qui doivent changer suivant les besoins.

Il est venu le temps des conférences...

Si vous vous intéressez à l'avenir du Web, de ses technologies et pour certains d'entre vous à leurs applications dans les sciences humaines, vous allez être ravis, puisque ce n'est pas moins de trois conférences essentielles dont vous trouverez en ligne les communications, résumés et compte-rendus en ligne.

Ma télé connaît le XML !

En ce jour férié, j'ai acheté une nouvelle télé écran plat, après de longs mois d'hésitation. Vous allez me dire : "oui, bon d'accord et alors...". Eh ! bien figurez-vous que cette télé possède une prise USB, "Ah ! c'est bien et ça fait quoi ?" Ça permet de lire des images, des fichiers audios et vidéos directement depuis un périphérique de stockage, "Sympa, mais c'est quoi le rapport avec ton blog ?" Oui, c'est vrai, a-priori, je ne vous parle pas de convergences des appareils électroménagers.

Les signes du changement : l'apport du Web

Je vous rassure, ce n'est pas de politique dont je voudrais vous entretenir, mais, dans la continuité de mes précédents billets, de l'avenir des systèmes d'information. Dans un commentaire sur un précédent billet, Emmanuel Barthe doute de la réalité de la mise en oeuvre d'une logique informationnelle. Il est clair que la vision que j'expose va à l'encontre même des méthodes de conception actuelles. Pour autant, comme je le disais dans ma réponse au commentaire, de nombreux signes me laissent penser que ce changement est possible, et je dirais même souhaitable. A travers l'analyse des apports du Web, étudions une première série de changements. Si on considère que le Web a complètement changé la donne de l'informatique, a renouvelé en profondeur les modèles économiques, les usages de l'outil informatique, les acteurs du marché et qu'on assiste aujourd'hui, à une vague comparable à celle qui a vu la montée en puissance de Microsoft et de la micro-informatique dans les années 80, il serait complètement inique d'en nier les apports dans la construction des systèmes d'information actuels.

Et une pelote, une !!

Pour se remettre de toutes ces émotions, rien ne vaut une petite pelote de liens bien consistantes et hétéroclites.

Dans la série, les gourous du XML se mettent à bloguer. Après James Clark dont j'ai parlé dans la précédente pelote, Jenni Tennison, grande prêtresse du XSLT, a ouvert son blog et c'est tout aussi intéressant. Deux billets ont plus particulièrement retenu mon attention :

Syndiquer le contenu