Les petites cases

La pérennisation de l'information numérique, mature ! Vraiment ?

Alors que l'avion nous ramenant en France survole les Etats-Unis et l'Océan atlantique, il est temps de prendre du recul pour tirer les leçons de notre séjour californien à l'occasion de la grande messe annuelle de la pérennisation de l'information numérique, IPRES, qui avait lieu cette année à San Fransisco. La conférence s'intitulait « Moving into the mainstream. Enabling our digital future » et était donc principalement axée sur des problématiques liées à l'organisation, l'économie et les moyens de garantir l'activité même de la pérennisation de l'information numérique. Cet intitulé impliquait l'idée que nous entrions dans une ère de maturité et de production après quelques années de recherche et de développement sur le sujet.

A l'issue de la conférence et des discussions avec les uns et les autres (le plus intéressant dans une conférence !), j'ai un sentiment mitigé. Bien sûr, le chemin parcouru est déjà très important au regard des enjeux et du défaitisme qui avait cours, il y a quelques années. Pourtant, deux tendances me semblent avoir fait leur apparition et viennent limiter ce sentiment de maturité :

  • le champ des possibles dans le domaine reste terriblement vaste, à la fois en termes de types de ressources numériques à couvrir et de moyens à tous les niveaux pour assurer une pérennisation efficiente 
  • une fracture est en train de se créer entre différentes conceptions de ce que peut/doit constituer l'activité de pérennisation de l'information numérique.

Le cas des documents numérisés à peu près réglé, se pose maintenant la question des ressources nativement numériques et, dans ce domaine, tout ou presque reste à faire. Sous forme d'inventaire à la Prévert, IPRES a constitué une tribune pour plaider les causes suivantes :

  • les mondes virtuels, Second life, World of Warcraft et consorts, avec la présentation du projet Preserving virtual worlds 
  • les archives et données des entreprises, avec des perspectives différentes entre le projet Brosbeck closed archives qui constitue une mémoire des archives d'un cabinet d'avocats de San Fransisco mis en faillite en 2003 ou le projet Shaman qui vise à fournir aux entreprises une brique dans leur SI afin de pérenniser leurs données en production 
  • les données scientifiques, en particulier les données structurées issues des bases de données relationnelles ou de statistiques, dans la droite ligne du mouvement dit de l'Open data : la keynote de Micah Altman quasi exhaustive sur le sujet (le diaporama vaut vraiment le détour !) a été l'occasion de découvrir les projets Data-Pass, Dataverse Network, Bibliographic knowledge network ; par ailleurs, la présentation du projet MIXED dont l'objectif est de pérenniser les fichiers d'un entrepôt institutionnel, en particulier les fichiers issus des systèmes de gestion de bases de données et autres tableurs au moyen d'un format pivot générique en XML, a permis de mettre en avant la complexité de pérenniser les ressources d'une archive institutionnelle (au sens de l'Open access).
  • les sites Web 2.0 (flick'r, Youtube, twitter...) pour créer des matériaux d'études à destination des chercheurs grâce à la plate-forme ContextMiner.
  • les logiciels, dont la pérennisation, au minimum des spécifications, est essentielle pour continuer à émuler certaines données numériques et pour lesquels Esther Conway a présenté un travail méthodologique très complet (dont malheureusement il n'y a pas encore de traces en ligne).

Or, si les différents projets proposent des pistes de réflexion essentielles voire des prototypes, la plupart n'ont pas atteint le stade où les problèmes de faisabilité même apparaissent. Il faudra donc encore du temps avant que ces types de ressources n'intègrent à grande échelle les entrepôts numériques en production.

Cette conclusion pourrait tout aussi bien s'appliquer à la question des métadonnées et de la planification de la pérennisation, tant ces domaines sont encore en chantier :

  • le projet Planets propose assez justement une modification de la modélisation des métadonnées d'une tripartition « descriptive », « administrative » et « de structure » à une tripartition « objet », « environnement » et « action » et a, par ailleurs, démontré les avancées de leur service de planification de préservation visant à tester les outils de caractérisation, de migration et d'émulation grâce à des web service 
  • d'autres, suivant la nouvelle version de l'OAIS, nous invitent à ajouter à nos métadonnées les propriétés d'information de transformation (TIP) censés compléter les « propriétés signifiantes » (expression un peu fourre-tout qui désigne les données nécessaires pour effectuer une pérennisation efficace) pour déterminer si les résultats d'une migration sont acceptables 
  • Geoffrey Brown a présenté les résultats d'une étude sur la problématique de la pérennisation des polices de caractères, en particulier des problèmes posés par les substitutions pour les polices qui ne sont pas Unicode 

Mais, aucune communication n'a abordé les problématiques liés à la faisabilité d'une migration à très grande échelle (plusieurs millions de fichiers) dans des corpus hétérogènes, ni à l'indexation et au stockage intelligent de toutes ces métadonnées en vue de leur usage. Finalement, sur le sujet des métadonnées, une doxa rassurante a pris corps dans la communauté : plus les métadonnées sont exhaustives, moins les risques sont importants. On produit de la métadonnée pour produire de la métadonnée, parce que c'est rassurant, parce que, peut-être un jour, on en aura besoin, sans même se demander le sens même des données produites, ni même si cette attitude ne crée finalement pas plus de risques qu'elle n'en règle.

Cette position tend finalement à minimiser le rôle des métadonnées dans l'activité de pérennisation de l'information numérique. Si la maîtrise du stockage est essentielle (je vais y revenir), la maîtrise de l'information numérique passe par une utilisation efficiente des métadonnées qui la décrivent. Alors que nous sommes tous convaincus de l'importance d'une vision Data first pour donner les moyens à une organisation de maîtriser ses données et donc de mettre en place une activité de pérennisation, cette désinvolture sur l'usage même des métadonnées démontre une fois de plus qu'une conception du SI basée sur les processus est encore très présente.

Ce dernier point est certainement à analyser à la lumière de l'apparition de conceptions différentes de la pérennisation de l'information numérique au sein de la communauté. Or, si elles sont toutes légitimes et justifiables, leur clarification me semble nécessaire pour l'avenir même de la pérennisation. Des choix effectués aujourd'hui dépendent les résultats de cette activité au sein d'une organisation. En actant ces différentes conceptions, en leur associant des indicateurs techniques et économiques et en décrivant les risques associés, les organisations (publiques ou privées, toutes les organisations seront à moyen terme confrontées à cette problématique) disposeraient de cadres clairs et cohérents pour pouvoir mettre en place leur stratégie.

Je me contenterai dans ce billet de citer les deux conceptions qui me sont apparues à IPRES :

  • « Bit level preservation » ou préservation du train de bits permet d'assurer un accès constant et sûr à l'ensemble des données et fichiers d'une organisation. Cela peut paraître simple et trivial, n'en croyez rien. Ce niveau aborde des questions essentielles qui constituent la base de toute activité de pérennisation, puisqu'il recoupe aussi bien les problématiques liées à la surveillance de l'infrastructure de stockage et des supports que de la préservation de l'intégrité des fichiers stockés tout au long de leur cycle de vie et de leur utilisation. Domaine assez bien connu et maîtrisé dans les différentes organisations, il est aussi désigné par le terme « archivage ». Il renvoie à une conception d'accès présent à l'information (« Value for now » comme le rappelait Martha Anderson lors de la table ronde « Perspectives on the Economics of sustainable Digital Preservation »).
  • La préservation patrimoniale (faute de mieux, pour le moment, je ne vois pas comment désigner ce niveau autrement) vise à assurer un accès constant à l'ensemble des données et fichiers d'une organisation sur le très long terme selon des stratégies de préservation différentes en fonction des types de ressources. Pour cela, non seulement, l'organisation doit mettre en place les moyens équivalents au niveau précédent, mais elle doit aussi disposer des moyens techniques et humains et des métadonnées nécessaires pour maîtriser complètement l'ensemble du contenu de l'archive afin d'envisager des plans de migration ou des mécanismes d'émulation à très grande échelle. Évidemment, ce niveau ne sera pas accessible à toutes les organisations (d'ailleurs, toutes n'en ont pas besoin) et je ne l'ai rencontré pour le moment que dans les organisations impliquées dans des projets d'envergure comme l'archivage du Web, de vastes projets de numérisation ou de dépôt institutionnel national.

Ces deux niveaux n'ont que valeur d'exemple pour appuyer le propos de ce billet, je suis persuadé que des niveaux intermédiaires existent et que la description même de ces niveaux doit être complétée. Je laisse le soin à d'autres qui le feront bien mieux que moi.

Alors, mature ou pas, la pérennisation de l'information numérique ? Les progrès sont indéniables et la présence de 300 personnes à IPRES démontre toute la vigueur de cette problématique. Mais, il reste encore beaucoup de questions ouvertes et de problèmes à régler pour limiter les risques qui planent sur les données numériques. Par ailleurs, il serait aussi temps de faire œuvre de pédagogie auprès du grand public, quand je lis ce genre de billet et les commentaires associés (je ne parle que de la partie sur la pérennisation, je laisse à d'autres le soin de faire les commentaires sur les points liés à la numérisation), les bras m'en tombent...

Système d'information Causeries Conservation — 

Commentaires

En effet, la lecture des commentaires de ce billet est instructive. Je ne pensais pas que le public avait des idées aussi arrêtées et optimistes sur la question ; ceux qui en discutent dans ma salle de lecture sont donc beaucoup mieux informés que je ne l'aurais cru. Pourtant qui ne s'est jamais retrouvé bête devant une disquette illisible ou un fichier obsolète sur son ordinateur ? Je suppose que le fait que les données ne soient pas stockées chez l'usager mais sur un lointain serveur les rend tellement immatérielles et abstraites qu'il en oublie qu'elles ont une existence réelle (et donc destructible) quelque part. Paradoxalement, ça les rend donc plus pérennes dans l'imaginaire collectif.
Il y a un réel travail d'information à effectuer, mais à quel niveau ? Il y a pourtant déjà eu des catastrophes numériques propres à illustrer la fragilité des données.

Concernant tes lecteurs, le simple fait qu'ils soient lecteurs en archives départementales les range dans une catégorie à part : ils sont déjà sensibilisés aux problématiques liées à la conservation et à l'archivage des documents. Je pense que beaucoup de nos concitoyens auraient des réactions sensiblement analogues concernant les archives traditionnelles.

Ah ! le mythe de la dématérialisation ! Merci pour la réflexion sur la distance, elle est très intéressante, c'est une idée à creuser.

En revanche, je n'ai aucune réponse à ta question. Je ne sais pas, j'avoue que je ne suis pas très pédagogue pour le grand public, il m'est donc difficile d'imaginer comment l'expliquer. Je ne crois pas que nous ayons connu des catastrophes numériques si importantes et qui touchent directement les gens. Le jour où la sécu perdra une partie des renseignements de remboursement ou qu'une banque ne sera plus en mesure de fournir les doubles des relevés de compte dématérialisés, là les gens prendront conscience du problème. Nous sommes beaucoup à appeler de nos vœux ce genre de catastrophe qui aurait le mérite de l'électrochoc. En attendant, le problème est peut-être trop abstrait... Je ne sais pas, mais les conservateurs sur le terrain, vous êtes en première ligne pour commencer le travail de dissémination, non ?

Bonjour,

Article très intéressant. Je souhaiterais rebondir sur votre commentaire concernant l'apparition de conceptions différentes de la pérennisation.

Dans le domaine de la préservation digitale, il règne une confusion terminologie et de concepts qui ne favorise pas les réflexions et la progressive entrée de la pérennisation dans les entreprises (qui seront le véritable moteur du marché une fois la problématique adoptée). Archivage ne signifie pas stockage, ni pérennisation. Une distinction peut également être faite entre l'archivage historique, qui a généralement pour objectif de mettre à disposition d'un public large une série d'objets numériques, et l'archivage des entreprises qui a surtout pour objectif de couvrir les risques liés à la perte de l'information. La manière de concevoir les réponses à apporter différera évidemment.

Le premier niveau que vous appelez bit level preservation est pour moi uniquement du stockage. Il consiste à préserver un train de bits uniquement, à savoir le niveau physique et binaire d'une informmation. Le niveau logique (grosso modo le format de fichier) n'est pas nécessairement pris en compte dans ce cadre. Ce n'est donc pas de l'archivage.
L'archivage englobe les questions liées à la sélection de l'information (opération humaine essentiellement même si elle peut être semi-automatisée via des règles de sélection), à leur mise en sécurité ainsi qu'à leur description en vue d'être retrouvée.

L'archivage englobe donc les questions reprises ci-dessous et est davantage tournée vers des règles de gestion, e.a. du cycle de vie, et la mise à disposition de l'information des utilisateurs.
Selon moi, l'accès à l'information (au niveau descriptif) ne relève pas de la préservation numérique. Cette "discipline" doit uniquement veiller à ce que l'objet reste lisible et compréhensiblee (niveau logique et éventuellement sémantique de l'information). L'accès proprement dit (càd le fait de rechercher, trouver et délivrer l'information à l'utilisateur) relève de l'archivage (et les logiciels et les pratiques en la matière gèrent cela de manière satisfaisante).
cf. entre autres diverses présentation de Mme Chabin sur l'agencement entre le modèle OAIS et le records management (dont celle-ci)

Cette distinction permet de concevoir une architecture sur trois niveaux :

  • archivage --> gestion des accès, workflow, métadonnées descriptives, etc.
  • entrepôt de pérennisation --> gestion du niveau logique, métadonnées de préservation (technique, intégrité, etc.)
  • stockage physique des données --> contrôle et rafraichissement des supports, backup, métadonnées pour la gestion des supports

Cependant, comme vous le mentionnez, ceci vaut surtout pour les dépôts institutionnels, etc. Pour la plupart des entreprises, il faudra veiller à ce que l'information présente dans les systèmes d'informations soit pérenne mais de manière simple (ce qui implique par exemple que les normes telles que PREMIS ne devront pas être utilisées). Pour ce faire, il faudra sans doute passer par des recommandations simples (type conversion des fichiers dans des formats qualifiés de pérenne), etc.

Enfin, pour répondre à got, cela m'étonnerait que la secu n'ait pas déjà perdu des données faute de pouvoir les relire mais cela m'étonnerait qu'elle en fasse la publicité.

Par ailleurs, les dépôts institutionnels font de plus en plus leur apparition dans des contextes moins patrimoniaux (archives notariales, en Belgique archivage de contrats de travail électroniques en vue de la pension --> durée de conservation +/- 80-100 ans, etc.) --> l'archivage et la préservation à long terme vont devenir une réalité de plus en plus concrète dans le quotidien de M. et Mme Tout le monde.

Au plaisir de continuer la discussion pour tenter d'améliorer nos réflexions réciproques.