Les petites cases

Vous avez dit « format pérenne » ?

Avant de poursuivre, j'aimerais revenir sur la question du format, en particulier tordre le cou à l'idée de « format pérenne ». Cela ne veut strictement rien dire. Aucun format n'est pérenne, car il est impossible d'imaginer toutes les évolutions possibles. Il est vrai, en revanche, que certains formats de par leurs caractéristiques sont plus simples à gérer sur le long terme que d'autres.

C'est le cas des formats « texte » comme XML dont le contenu est directement lisible. Mais, rien ne garantit pour autant que XML ne pourra pas évoluer voire être remplacé dans le futur. De plus, si le fichier XML est encodé selon un schéma dont les particularités et la description ne sont pas elles-même stockées et maîtrisées, vous ne serez pas beaucoup plus avancés qu'avec un format binaire.

Il en va de même avec PDF/A (PDF Archive). Présenté souvent comme la réponse à tous les maux, PDF/A n'est pas plus pérenne qu'un autre format. Trois points lui donnent un avantage par rapport à une autre version de PDF :

  • le fait qu'il soit normalisé à l'ISO sous le numéro ISO19005-1 lui assure une documentation complète, mais la version 1.7 de PDF est aussi normalisée à l'ISO sous le numéro ISO 32000 ;
  • les restrictions d'utilisation par rapport à une autre version de PDF qui vont dans le sens de la maîtrise et la description de l'information (métadonnées obligatoires, absence d'objets dynamiques, inclusion des polices de caractères, interdiction de lancement de scripts, absence de chiffrement...) ;
  • l'auto-documentation du format, un fichier en PDF/A doit contenir lui-même toutes les informations nécessaires pour le décrypter.

Justement, ce dernier point est intéressant, car il faut rappeler que PDF est un format composite et binaire. Un fichier PDF peut donc contenir du texte et des images. Dans le cas de ces dernières, l'encodage binaire est décrit dans la norme PDF/A, mais cela n'enlève en rien le fait que l'outil de rendu devra être capable de décrypter ce format d'images. Bref, la migration et l'évolution d'un fichier au format PDF/A pourrait finalement s'avérer plus complexe qu'un format « texte » et le présenter systématiquement comme la solution ultime me paraît exagéré.

Vous l'aurez compris, l'important pour les formats est de conserver l'ensemble de leur documentation et de veiller à disposer systématiquement d'outils pour les exploiter. Évidemment, il est préférable d'utiliser des formats ouverts et libres, mais si l'organisation maîtrise un format propriétaire (dont elle dispose de la documentation et des moyens pour l'exploiter et le faire évoluer), pourquoi vouloir le changer au profit d'un autre format qu'elle ne connaît pas ? L'essentiel, c'est de pouvoir gérer au mieux le format, sa documentation et de surveiller son évolution, bref, le maîtriser.

Management de l'information Râleries — 

Commentaires

duh :-)

Ca me rappelle ce papier : http://www.guymacon.com/ENGINEER/DOCSTD/INDEX.HTM . Si au final, tout ce qu'on peut dire se résume à "on ne sait représenter correctement que du texte" (et encore, tant qu'on n'oublie pas les vieux encodages), et bien on peut être pessimiste sur l'avenir :-)