Les petites cases

Structuration

Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque

Dans un billet récent écrit à l'occasion des dix ans de XML, Jean-Michel Salaün regrettait que les pistes esquissés dans le second texte de l'initiative Roger T. Pédauque intitulé «  Le texte en jeu. Permanences et transformations du document  » n'aient pas été suivies. Et, pour cause me semble-t-il, si ce deuxième article, comme les deux autres d'ailleurs, apporte incontestablement des pistes de réflexion et certaines idées intéressantes, il comprend des contre-sens et des erreurs si manifestes qu'il n'est possible de s'en servir comme base de travail qu'après une critique attentive, sans compter sur le style que Jean-Michel Salaün lui-même dans le billet cité plus haut qualifie « d'un peu abscons » et que je qualifierais plus volontiers de charabia jargonnant.

A l'heure où le Web sémantique pointe avec plus de prégnance le bout de son nez, il n'est pas inutile de revenir sur ce texte, comme sur les deux autres, pour construire une nouvelle réflexion. C'était d'ailleurs leur but : susciter le débat et la réflexion, sans présager des évolutions futures et selon l'état de l'art du moment. Or, il semble bien qu'une nouvelle étape est sur le point d'être franchie, si ce n'est pas déjà le cas. A titre personnel, si, à l'époque de rédaction du texte, je n'étais pas en mesure de m'immiscer dans le débat, j'espère, aujourd'hui, pouvoir apporter ma pierre à l'édifice.

Avant d'entrer dans le vif du sujet, je voudrais rappeler, pour mémoire, que cette initiative avait été lancée par le réseau thématiques pluridisciplinaires dédié au document, le RTP-DOC d'où le pseudonyme Roger T. Pédauque pour signer les textes collectifs, placé sous le patronage de feu le département STIC du CNRS. L'objectif était de réfléchir selon une approche pluridisciplinaire à la notion de document dans le contexte des changements induits par le numérique.

Lire la suite...

Structuration RDF XML Causeries Indexation Moteur de recherche OWL TEI Validation XHTML Xquery XSLT —  7 commentaires

RDFaiser votre blog, 2ème partie : la pratique

Dans le précédent billet, j'ai expliqué en quoi RDFa permettait de décrire la structure du message contenu dans une page Web et comment on pourrait facilement générer du RDFa à partir des données structurées dans la base de données de votre CMS. Je vous propose maintenant de passer de la théorie à la pratique.

Ce tutoriel suppose que vous connaissez XHTML et le principe de base de RDF.

Lire la suite...

Structuration RDFa XHTML Geekeries —  14 commentaires

RDFaiser votre blog, 1ère partie : la théorie

HTML, de même que XHTML, permet de structurer une page Web selon les principes d'un langage à balises. Les différentes balises indiquent de manière hiérarchique le rôle joué par chaque portion d'information dans le contexte de la page Web.

Ainsi, la structure d'un document HTML, comme tout document XML, ne décrit pas le contenu/le message de la page Web, mais reflète la structure de la page Web en elle-même. C'est pourquoi il me semble erroné de parler de « sémantisation », lorsqu'on encode en HTML ou, plus généralement, en XML.

Par exemple, soient les deux portions de code HTML suivants :

<div class="contenu">
       <p class="normal">
                Le <a href="http://barcamp.org/SemanticCampParis">SemanticWeb camp</a> se déroule à Paris
                le samedi 16 février 2008 à partir de 9h30.
        </p>
</div>

<div class="description">
         <ul>
                <li>
                        Le <strong>SemanticWeb camp</strong> se déroule à Paris
                        le <em>samedi 16 février 2008 à partir de 9h30</em>.
                </li>
         </ul>
</div>

Ces deux bouts de code HTML ne sont pas identiques du point de vue de la structure, pourtant, du point de vue du contenu, ils délivrent la même information, le même message. Si certains pourraient y voir une limitation de XML, il n'en est rien. Ce n'est tout simplement pas son rôle.


Lire la suite...

Structuration Moteur de recherche RDFa XHTML Geekeries —  2 commentaires

Et si on sémantisait un peu le Web

Je répète à longueur de billets que structurer un contenu en XML, et a-fortiori en HTML, ne constitue pas une sémantisation, mais permet d'indiquer le rôle joué par la portion d'information dans le contexte d'un document. Les normes du Web sémantique ont à l'inverse vocation à aider à la sémantisation du contenu. Mais, à force de le répéter sans rien montrer de probant, vous allez finir par croire que c'est une chimère. Soyons clairs, nous sommes encore loin du compte, mais nous avons fait des avancés, exemple avec RDFa.

Lire la suite...

Structuration Moteur de recherche RDFa Geekeries —  3 commentaires

Petite pelote pour pull multicolore

Quelques ressources intéressantes arrivées dans mon agrégateur ces deux dernières semaines.

Frederick Giasson annonce la mise en place d’un groupe de travail dont il fera partie au titre du projet Zitgist sur l’élaboration d’une « ontologie bibliographique », orientée vers la modélisation de la citation bibliographique. L’équipe de l’excellente extension firefox « Zotero » est dans le coup et ils n’ont pas prévu de réinventer la roue, puisqu’ils souhaitent s’appuyer sur FRBR, Dublin Core, FOAF ou SIOC, entre autres. Si vous voulez mon avis, c’est un projet à suivre vu les personnes impliquées.

Seth Ladd m’a permis de découvrir une application en ligne qui me réconcilie avec AJAX : Dabble DB. Il s’agit

Lire la suite...

Structuration RDF XML Causeries Folksonomie OWL Linked Data —  2 commentaires

Un peu de lecture

En attendant que je réussisse à émerger, ce qui ne devrait pas tarder (un billet est en train de mûrir, je vous le promets), je propose à ceux que ma prose manquerait un peu de lecture.

Lire la suite...

Structuration Web sémantique Causeries Conservation Digital humanities Édition électronique Indexation TEI Wiki — 

Json vs XML

http://www.megginson.com/blogs/quoderat/2007/01/03/all-markup-ends-up-looking-like-xml/

Un débat anime actuellement le monde de la structuration de l'information, à savoir : est-ce-que le format Json est meilleur que le format XML ?

Lire la suite...

Structuration XML Causeries —  2 commentaires

Des nouvelles du monde XML

J'ai à nouveau mon agrégateur rempli de billets sauvegardés vu que ces derniers temps, j'ai plus fait le tri que lire réellement ce qui y passait. Il y a un moment où il faut se résoudre à vider tout cela. Commençons par les billets autour de XML.

Lire la suite...

Structuration Sparql Causeries TEI Xquery XSLT —  4 commentaires

Les réalités dans une page Web

Dans mon précédent billet, j´ai montré en quoi il existait dans un document XML plusieurs natures d´informations, que j´appelle réalité. La mise en lumière de ces réalités est d´autant plus difficile, lorsqu´on utilise les mêmes balises pour les structurer. C´est particulièrement vrai dans le cas d´une page Web.

Au moins trois réalités peuvent être identifiées dans le corps d´une page HTML (balise <body>) :

Lire la suite...

Structuration Causeries XHTML — 

Les réalités dans l'encodage XML

Depuis que nous nous sommes revus1 à Digital Humanities en juillet, Christian Vandendorpe2 et moi débattons du problème de l'encodage en XML des caractéristiques physiques d'un document.

Lire la suite...

Structuration XML Causeries Édition critique TEI —  1 commentaire