Les petites cases

Des nouvelles du monde XML

J'ai à nouveau mon agrégateur rempli de billets sauvegardés vu que ces derniers temps, j'ai plus fait le tri que lire réellement ce qui y passait. Il y a un moment où il faut se résoudre à vider tout cela. Commençons par les billets autour de XML.

Il semble que le format Relax NG, norme ISO, s'impose définitivement face à XML schema pour définir des grammaires XML. Après le billet de Elliote Rusty Harold, « Relax wins », faisant état des nombreuses grammaires ayant choisi Relax NG (c'est aussi le cas de la P5 de la TEI), Tim Bray, à l'origine de XML et employé de chez Sun, déclare sur son blog qu'il s'agit d'un moment important dans la vie de XML et avoue que XML schema « craint » (« XML schema suck »). Bob du Charme revient aussi sur cet événement important. Cela sent le mea culpa et c'est une bonne nouvelle, tant XML schema fut décrié dans la communauté. Si vous voulez en savoir plus sur Relax NG, vous pouvez consulter librement en ligne le livre sur le sujet en anglais d'Eric Van der Vlist (Eric, à quand une traduction en français ?) paru aux éditions O'Reilly.

Eliot Kimber, de retour de XML 2006 (je vais y revenir) a écrit un post très intéressant sur un format actuellement à l'étude chez Adobe , Mars, une grammaire XML pour décrire les documents PDF. Conscient de l'importance des standards basés sur XML pour le futur de la gestion de l'information numérique et sa conservation, Adobe répond, à mon avis, à travers cette proposition au format bureautique basé sur XML, Open Format Document, le format d'Open Office entre autres et Open XML, le format promu par Microsoft, qui vient d'ailleurs de devenir officiellement une norme ECMA, avant de passer à l'ISO (?), ainsi qu'à la critique récurrente faite à PDF des problèmes qu'il peut poser sur le long terme. D'ailleurs, ce format est basé sur le même principe, un fichier zip comprenant des fichiers XML. Les formats utilisés sont nombreux. Parmi ces derniers, on notera l'utilisation massive de SVG, le format vectoriel mis au point au W3C. Je vous conseille la lecture de la FAQ et du guide.

Du côté du W3C, une nouvelle recommandation assez prometteuse est actuellement à l'étude : Xproc. Il s'agit d'un langage pour standardiser les interactions, entrées et sorties autour de documents XML, incluant la validation, la transformation, l'interrogation, l'inclusion... Bref, tout ce que vous pouvez effectuer avec des fichiers XML. Le principe me fait furieusement penser à celui des pipelines du framework Cocoon pour ceux qui connaissent. A travers un document XML, vous exprimez les différentes étapes et moyens par lesquels vous voulez interagir avec un ou des document(s) XML. La lecture du billet de Oleg Tkachenko pourra vous en apprendre plus.

L'interrogation full-text de documents XML commence à avoir le vent en poupe. Ça me semble logique, vu que Xquery va atteindre, enfin, dans les jours/semaines qui viennent le statut de recommandation, cette partie constitue la prochaine brique essentielle pour le monde XML. Alors que les ajouts indispensables à Xquery sont à l'étude au W3C, j'y ai déjà fait allusion, les annonces des implémentations de XQFT (Xquery Full Text) comme le montre cet article de l'ACM se succèdent au point qu'IBM en propose une étude sur son site. XQFT va devenir, à n'en pas douter, un enjeu stratégique et industriel très rapidement et les cellules R&D des éditeurs de moteur de recherche feraient bien d'étudier tout cela très vite.

La conférence annuelle XML 2006 a eu lieu du 5 au 7 décembre 2006 à Boston. Cette conférence a marqué les 10 ans de XML. Si vous voulez en savoir plus, je vous renvoie aux nombreux compte-rendus sur le sujet dans la blogosphère : en français par Eric Van der Vlist, en anglais par Eliotte Rusty Harold sur Cafe con Leche, par Mike Champion, par Uche Ogbuji, par Rike Jellife.

J'ai fait allusion dans un précédent billet à l'attribut role et aux possibilités qu'ouvrirait son implémentation. Il semble que le W3C veut le mettre en avant, puisqu'une Working draft vient de sortir à ce sujet : « XHTML role attribute. A module to support role classification of elements ».

Norman Walsh, le père de Docbook entre autres choses, propose sur son site des feuilles de style XSL 2 pour accéder au Web services de Flick'r. Cela pourrait constituer une solution simple à implémenter pour interroger les Web services. A surveiller de près.

Et pour finir et faire la transition avec le Web sémantique qui fera certainement l'objet d'une autre pelote de liens, je vous recommande la lecture de ce billet de Bob du Charme qui propose une étude des possibilités du couple XML/Xquery par rapport au couple RDF/Sparql. Ce billet fait suite à un courriel de Lee Feigenbaum sur la mailing-list du groupe d'intérêt du W3C dédié à l'apprentissage du Web sémantique. Le billet de Bob du Charme présente l'intérêt de replacer les différentes technologies dans leurs contextes et montre en quoi elles répondent chacune à des utilisations précises et différentes.

Structuration Sparql Causeries TEI Xquery XSLT — 

Commentaires

Du XML pour faire du PDF... Quelle horreur... Le truc que j'ai trouvé intéressant par ailleurs dans le projet, c'est de donner un coup de sang à SVG, notamment pour ce qui est de la typo. On peut rêver, mais un jour on pourrait peut-être balancer les fontes que l'on veut voir apparaître dans son site Web en SVG et que le navigateur puisse gérer correctement, tout ce qui est ligature, crénage et autre pitsouteries typographiques. Et avec quelques bons algo de césure par dessus on pourrait obtenir une typo exemplaire sur le Web. Enfin bon, ça n'allégera pas les navigateur... Sinon du XML à la place de PDF holala... C'est vrai que je conçois plus PDF comme un format de sortie pour d'autres technos (TeX, XSL-FO, OOo...) et là dessus il fait merveilleusement bien son boulot. Mais bon en gros là ce qu'ils sont en train de faire, c'est réinventer le PostScript en plus lourd et en y rajoutant sans doute des pitsouteries de type hyperlien, formulaire. Brrrrr. Comme j'aurais préférais qu'ils continuent de développer Postscript qui est merveilleux... (Par ailleurs, je me demande de plus en plus si avec le zip on ne se retrouve pas avec les inconvénients des fichiers binaires et des fichiers textes réunis dans la même archive...).
> Eric, à quand une traduction en français ? Compte tenu du tirage de la version anglaise, je ne pense malheureusement pas qu'un éditeur finance la traduction en français et je n'envisage pas pour le moment d'en faire la traduction de manière totalement bénévole (cela prend beaucoup de temps pour que je puisse me le permettre). Ceci dit, ce livre est publié sous une licence (GNU Free Documentation License) qui permet de le traduire et s'il y a des volontaires pour se lancer, je serai enchanté de les aider s'ils en ont besoin! Eric
est ce que ALTOVA 2008 prend en charge l'extension de Xquery qui est le full text
Aucune idée, je n'ai jamais utilisé les produits d'Altova. Désolé.