Les petites cases

PREMIS ou les prémices de la conservation numérique

PREMIS est l'acronyme de Preservation metadata : implementation strategies. Ce format, mis au point par un groupe de travail soutenu par OCLC et RLG, est destiné à proposer un « framework » des éléments principaux (« core ») pour la conservation du document numérique. Ce travail s'appuie sur les expériences existantes dans le domaine (cf l'expérience de la bibliothèque nationale de Nouvelle-Zélande ou le projet CEDAR de Leeds par exemple) et bien évidemment sur le modèle OAIS. Le rapport final du groupe de travail publié en mai 2005 est composé de trois parties (un modèle dans le domaine des standards, à mon avis) :

  1. Le modèle de données PREMIS, c'est à dire le modèle conceptuel du schéma de métadonnées ;

  2. le dictionnaire de données regroupant l'ensemble des balises, leurs règles d'utilisation et leurs significations ;

  3. des exemples concrets d'utilisation.

Il est complété par des considérations sur certains sujets et sur l'implémentation et un glossaire.

Extirp dans un commentaire de mon billet sur METS a eu raison de parler de prémices. Ce mot convient assez bien pour définir ce format de métadonnées. Pourquoi ? Techniquement, PREMIS est un schéma XML qui offre le moyens de décrire toutes les informations relatives à des objets numériques en vue de leur conservation à long terme. PREMIS n'est pas un système permettant justement cette conservation. Si on reprend le modèle OAIS, PREMIS fait partie des informations présentes dans le SIP (Submission information package) afin de gérer au mieux les différents objets de ce paquet à l'intérieur de l'archive en vue d'une migration par exemple. Il n'est donc qu'au début du long chemin qui mène à la conservation à long terme des documents numériques.

Que décrit-on concrètement avec des métadonnées de préservation ? Dans le rapport, les métadonnées de préservation sont définies comme les informations utiles à un entrepôt pour mener à bien le processus de conservation à long terme du document numérique1.

Le modèle de données de PREMIS

Le groupe de travail a identifié 5 entités impliquées dans la conservation du document numérique. Elles interagissent entre elles selon le schéma suivant :

ModèlededonnéesPREMIS

  1. l'entité « intellectuelle » est un ensemble cohérent qui peut, raisonnablement, être décrit comme une unité, par exemple, un ouvrage, un site Web, une carte, une photographie...Une entité peut contenir une autre entité, un site Web contient des pages Web, par exemple. Cette entité fait référence au contenu intellectuel ou à la ressource dans le cas du Web.

  2. Un objet (Objects) est l'unité de base sous sa forme numérique. L'objet peut aussi être conçu comme une ou plusieurs séquences de bits enregistrées dans un entrepôt2. Dans le cas où la représentation intellectuelle est une page Web, elle est composée de plusieurs fichiers : une page HTML, une feuille de style CSS, une ou plusieurs images ou autres fichiers de médias (sons, vidéos, animations...). Chacun de ces fichiers est un objet.
    L'objet peut être de trois types : un fichier, un « flux de bits » (bitstream dans le rapport original) ou une représentation qui est conçu comme un ensemble de fichiers utiles pour un rendu complet d'une entité intellectuelle. Ainsi, la page Web peut être considérée comme une entité intellectuelle et un objet en fonction de l'intérêt (le contenu ou les objets physiques en permettant le rendu)

  3. Un événement (Events) est une action qui implique au moins un des objets ou agents connus dans l'entrepôt .

  4. un agent (Agents) est une personne, une organisation ou un logiciel associé d'une manière ou d'une autre avec un événement lié à la conservation dans la vie d'un objet

  5. Droit ou déclaration des droits (Rights) sont les énoncés d'un ou plusieurs droits ou permissions concernant un objet ou un agent

Des relations (relationships) unissent les différentes entités ou objets entre eux. Le fait de séparer les différentes entités, donc actions dans la procédure de conservation du document numérique permet une grande souplesse et d'éviter les redondances d'informations qu'on peut souvent constater dans les fichiers XML. Ainsi, ce modèle se rapproche beaucoup plus d'un modèle relationnel et même plus d'un modèle RDF. Enfin, les unités sémantiques (semantic units) sont toutes les propriétés que possède chaque entité (on retrouve là aussi un vocabulaire proche de celui de RDF ;-) ).

Je vous renvoie au rapport si vous voulez des définitions et des exemples plus précis sur ce modèle de données.

Le dictionnaire de données PREMIS

Le dictionnaire de données décrit l'ensemble des propriétés des entités Object, Event, Right, Agent. La cinquième entité ne possède pas de propriétés dans le cadre de PREMIS, car le groupe de travail a considéré que ses éventuelles propriétés relevaient seulement des métadonnées descriptives (ce n'est pas le rôle de PREMIS). C'est pourquoi il est possible par les relations de rassembler tous les objets composant une entité intellectuelle, un peu à la manière d'une carte de structure dans METS.

Pour chaque propriété ou unité sémantique, un tableau donne son nom, décrit les unités « enfants », propose une définition, la justification de sa présence par rapport à la conservation si elle n'est pas évidente, les contraintes de données, la catégorie d'objet (dans le cas de l'entité Objet), des exemples, la possibilité ou non de répéter la propriété, le caractère obligatoire ou non de la propriété et des notes de création/maintenance et d'usage.

Je ne vais pas rentrer ici dans le détail du dictionnaire de données, je vais juste faire un résumé des propriétés pour chaque entité. Je détaillerai les choix que j'ai fait et les justifications dans le billet sur l'intégration de PREMIS dans METS.

Pour l'entité object :

  1. identifier l'objet ;

  2. indiquer son degré de conservation ;

  3. renseigner la catégorie d'objet (fichier, flux de données, représentation) ;

  4. décrire les caractéristiques (niveau de composition, format, taille...) ;

  5. rappeler l'application qui a permis sa création ;

  6. décrire les conditions et moyens de stockage ;

  7. décrire les conditions d'utilisations de l'objet (logiciel, pluggin, matériel...) ;

  8. indiquer les éventuelles signatures électroniques.

Pour l'entité event :

  1. identifier l'événement, son type, sa date ;

  2. décrire les détails de l'événement ;

  3. l'agent responsable de l'événement et l'objet concerné par l'événement.

Pour l'entité Agent :

  1. identifier l'agent, son nom et son type (person, organization, software)

Pour l'entité Right :

  1. identifier la permission (ou cession de droits), l'objet concerné par cette permission ;

  2. donner les renseignements concernant l'accord passé entre les gestionnaires de l'entrepôt et les ayant-droits ;

  3. décrire chaque permission accordée, les éventuelles restrictions, les dates d'application.

Maintenant que j'ai décrit le principe général de PREMIS, je vais pouvoir entrer dans le vif du sujet et voir comment on peut utiliser concrètement METS et PREMIS pour constituer le SIP. La suite, donc, au prochaine épisode !

Quelques notes en passant

1 La traduction est de mon fait, donc ce n'est pas forcément parfait : « the information a repository uses to support the digital preservation process.

2 Priscilla Caplan et Rebecca Guenther, « Pratical preservation : the PREMIS experience », in Library trends, Vol. 54, No1, été 2005, pp. 111-124, [en ligne], http://www.loc.gov/standards/premis/caplan_guenther-librarytrends.pdf

Structuration XML Conservation Édition électronique Geekeries — 

Commentaires

On dirait un titre de journal de presse quotidienne régionale :-p.