Les petites cases

Structurer, décrire et organiser l'information (1)

On a tendance à confondre les trois actes recouverts par les verbes : structurer, décrire et organiser. S'il est incontestable que leur sens est proche, ces verbes désignent dans le processus de création de l'information sur le support numérique des actions qu'il est essentiel de différencier. S'ils ne sont pas dissociés, il existe des risques d'amalgames conduisant à des mauvais choix technologiques.

Je vous propose une série de trois billets permettant de faire le point sur ce problème :

  1. Structurer l'information grâce à XML

  2. Décrire l'information : le rôle des métadonnées de et RDF

  3. Comment organiser l'information pour y naviguer efficacement ?

Structurer l'information grâce à XML

Dans un article sur XML en cours de rédaction sur le site du collectif Artist, il est indiqué que XML sert à faire de la « rédaction sémantisée ». Il ne faut pas confondre structuration et sémantisation. Comme je l'ai déjà expliqué dans mon billet sémantique et XHTML (ça ne fait pas de mal de répéter les choses...), XML ne sert pas à sémantiser l'information, c'est à dire à la décrire et à en donner le sens, mais à indiquer le rôle de chaque portion d'information dans le contexte du document encodé. Structurer l'information consiste donc à indiquer à une machine l'organisation logique de l'information à l'intérieur d'un document. Pour mener à bien ce but, XML propose un système de balisage de l'information par des étiquettes ou balises qui s'encapsulent pour former un arbre. Ainsi, le nom de la balise indique la caractéristique de l'information encodée, dans le contexte du document.

Structurer l'information et donc utiliser XML permettent d'assurer le principe de séparation de la mise en forme et du contenu qui est essentiel dans le cadre du support numérique. Comme l'explique très justement le guide pour l'information numérique paru en 1998 sous l'égide des archives historiques de la commission européenne, « le support n'est pas le message » dans le cadre du numérique. Pour le papier, le support physique est confondu avec le message et il se suffit à lui-même. Au contraire, une machine et des logiciels sont indispensables pour lire une information numérique. Dans ce contexte, la notion de support recouvre deux réalités : le support physique de sauvegarde (disque dur, bandes magnétiques, cédéroms...) et les interfaces de visualisation de l'information. Une des conséquences directes de la séparation entre le message et le support réside dans la possibilité de transmettre le message sous différentes formes. Le principe de séparation de la mise en forme et du contenu rend possible différentes manifestations d'une même information : une page Web au format HTML, un fil RSS, un fichier PDF...

L'article d'Artist mentionné ci-dessus explique bien les avantages de la séparation du contenu et de la mise en forme dans le cadre de la préservation du document numérique. En revanche, je m'inscris en faux à l'assertion : « S’agissant de la communication, même limitée au domaine scientifique, la forme joue un rôle fondamental. Si la technologie XML actuelle présente encore des lacunes de ce côté-là. ». Je ne remet pas en cause l'importance de la mise en forme, les historiens du livre à la suite des travaux d'Henri-Jean Martin1 ont montré l'impact de la mise en page sur les projets de lecture et sur les mécanismes de compréhension de l'information. Il est donc évident que la conservation du contenu, même si cela renferme de nombreuses possibilités d'études, n'est pas suffisante dans la perspective de l'étude complète d'un sujet historique. Mais, prétendre qu'il existe des lacunes dans les technologies XML de ce point de vue me paraît exagéré voire faux. En effet, il existe trois standards ouverts et libres mis au point par le W3C pour mettre en forme du XML au moyen de feuilles de styles :

  1. CSS qui associe une mise en forme à des balises identifiés ou non. La spécification du W3C exprime parfaitement le rendu de chaque propriété par l'agent logiciel, si besoin au moyens d'images.

  2. XSL-FO est une grammaire XML permettant de transformer un document XML et de spécifier la mise en forme du document résultat. Il permet, par exemple, de générer à partir d'un fichier XML un fichier PDF.

  3. XSLT est un langage basé sur la syntaxe XML qui permet de transformer un document XML en un autre document XML. On peut par exemple transformer un fichier XML utilisant le schéma TEI en un fichier utilisant le schéma XHTML qui nous permettra de structurer une interface de navigation.

De par la syntaxe XML qu'ils utilisent, XSL-FO (rebaptisé XSL) et XSLT présentent les mêmes caractéristiques de pérennité que n'importe quel autre schéma XML. Quant à CSS, en plus d'être un standard ouvert et libre, il présente les mêmes avantages de lecture et de fabrication que XML.

De plus, le modèle OAIS (Open Archival Information System) dont Manue nous a fait une magnifique présentation, ne prévoit pas simplement l'archivage des données. Tel qu'il est défini, le concept de paquet de versement (SIP) peut recevoir à la fois les données structurées et les feuilles de styles que l'on peut finalement de par leur nature assimiler à des données structurées. Outre les mécanismes intrinsèques à XML pour relier les feuilles de styles au contenu, il est assez simple d'ajouter une métadonnée indiquant cette relation. Dans ce cas, loin d'être un défaut, la séparation de la mise en forme et du contenu se révèle un avantage énorme permettant de traiter les données sans le bruit que pourraient provoquer les instructions de mise en forme.

Structurer l'information grâce à XML est le principe de base dans la production de l'information sur le Web. La mise en forme des données structurées est prise en charge par les différents langages de feuille de style. Pour autant, cette étape n'est qu'un préalable dans la création de l'information. C'est pourquoi elle est à la base de la vision schématique du Web sémantique de Tim Berners-Lee.

Image1

Quelques notes en passant

1 cf en particulier, Henri-Jean Martin (dir.), La naissance du livre moderne, éd. du Cercle de la librairie, Paris, 2000.

Structuration Web sémantique XML Causeries