Les petites cases

Les carcans de la pensée hiérarchique et documentaire (2)

Ce billet constitue la suite du précédent billet dont je vous conseille la lecture préalable si ce n'est déjà fait.

Et pourtant...

Bien que le Web permette de dépasser ces contingences physiques et donc les concepts de document et de structures hiérarchiques, nous sommes restés et restons encore pour une large partie de notre production dépendants de ce paradigme. Qu'est-ce-qu'une édition électronique sur le Web aujourd'hui, si ce n'est le portage d'un document issu de nos habitudes d'écriture (donc documentaire et hiérarchique) au support numérique. Qu'est-ce-qu'un catalogue de bibliothèques en ligne, si ce n'est l'agencement des différentes fiches papiers sous une forme numérique. Bien sûr, dans ces deux exemples, l'outil informatique présente indéniablement des avantages : la disponibilité, l'ubiquité, les possibilités de recherche plein-texte ou structurée. Mais, pourtant, à y regarder de plus près, cette notion d'ensemble fini au cœur du paradigme documentaire reste encore largement la norme dans n'importe quelle information mise en ligne.

Je vous propose d'illustrer cette contradiction par deux exemples : le protocole OAI-PMH et la DTD EAD.

Le protocole OAI-PMH

Le protocole OAI-PMH a été mis au point par l'Open Archives Initiative pour exposer sur le Web les métadonnées des documents contenus dans les archives ouvertes, entrepôts de publications scientifiques accessibles en libre accès sur le Web (par exemple : HAL-SHS ou @rchiveSIC).

Si ce protocole répond (ou a répondu) parfaitement aux besoins des archives ouvertes, son utilisation s'est élargie, aujourd'hui, de par sa simplicité, sa pénétration au sein de la communauté scientifique et des bibliothèques et les nombreux outils le supportant, à de nombreux domaines comme les catalogues de bibliothèques, les bibliothèques numériques, l'édition électronique... Or, ce protocole présente certaines limites dont les acteurs de ces différents domaines doivent prendre conscience au risque de le dénaturer et donc le décrédibiliser définitivement. Je ne m'attacherai ici qu'aux limites en rapport avec mon propos et renvoie mon lecteur à l'intervention d'Herbert Van de Sompel (diaporama disponible, attention fichier volumineux !), un des créateurs du protocole, à l'occasion de la conférence internationale de Bielefeld qui insiste sur d'autres points (résumé disponible dans ce billet).

Le protocole OAI-PMH définit cinq types de requêtes HTTP auxquelles est associé un flux XML de réponses. Au sein de ce dernier, chaque ressource d'un entrepôt OAI est décrite sous la forme d'un « record » qui contient l'ensemble des métadonnées exprimées au minimum selon le Dublin Core simple, c'est-à-dire les quinze éléments du schéma Dublin Core elements. Or, cette notion de « record » est un calque sur le Web de la fiche physique du catalogue papier et renvoie donc à la notion de documents pour décrire un ensemble fini de données sur un autre document. Cela pose deux problèmes principaux du point de vue de la description des ressources :

  • il est très complexe voire impossible d'exprimer des relations entre deux « records » quelle qu'en soit la nature, le protocole OAI-PMH a ainsi tendance à aplanir la structure des ressources décrites et les mettre toutes sur le même plan ;
  • la description elle-même du « record », comme elle est exprimée selon le modèle d'arbre XML, limite la description à une structure hiérarchique (souvent très simple comme c'est le cas avec le Dublin Core en XML) et ne permet pas de faire référence explicitement à une autre ressource sur le Web identifiée par une URI.

Or, ces limites renvoient à une question essentielle : un ensemble de métadonnées (c'est-à-dire de la donnée...) sur une ressource constitue-t-il un document ? Ou, pour l'exprimer autrement, peut-on limiter la description d'une ressource sur le Web à un notice, c'est-à-dire un document fini limité à un flux XML, alors même que le Web se définit comme un espace non fini dans lequel il est possible de faire des assertions sur une ressource depuis n'importe quelle autre ressource ? Ainsi, si le protocole OAI-PMH constitue une API pour accéder aux métadonnées d'un entrepôt, il est très limitée (les possibilités de recherche sont, en effet, inexistantes) et va à l'encontre même des principes de décentralisation du Web (le but du service provider est bien de recentraliser l'ensemble des métadonnées distribuées entre les différents entrepôts).

Les personnes à l'origine de l'OAI-PMH ont bien conscience de ces limites. C'est pourquoi ils en proposent aujourd'hui une évolution : l'OAI-ORE basé sur les technologies et les principes du Web sémantique. Nous y reviendrons plus loin.

La DTD EAD

La DTD EAD est l'archétype même du schéma d'encodage XML conçu comme une transposition des habitudes issues du papier et des conditions de travail dans un monde non numérique. A l'origine, l'EAD a été mis au point par des bibliothèques universitaires américaines pour décrire leurs fonds d'archives. A l'initiative des archivistes qui ont rapidement été associé à sa mise en place, il constitue, aujourd'hui, une implémentation en XML des normes de description archivistique, ISAD-G.

L'EAD répond à un double objectif :

  • encoder les inventaires d'archives, c'est-à-dire des documents qui décrivent les fonds d'archive ;
  • respecter la structure du fonds d'archives traditionnels qui, dans notre monde physique, se présente évidemment de manière hiérarchique : centre d'archives → fonds spécifiques → étagères → boîtes → feuillet.

Si ces objectifs sont compréhensibles dans une période d'appropriation des technologies numériques et dans un souci de description des fonds physiques et de numérisation des inventaires existants, il serait intéressant de dépasser le paradigme que sous-tend la forme actuelle de l'EAD.

La vision documentaire de l'inventaire d'archives issue des traditions du XIXe siècle laisse peu à peu la place à un ensemble structuré de métadonnées. En effet, les besoins de recherche dans les inventaires ont eu pour conséquence de rapprocher la description archivistique de la notice bibliographique des bibliothèques. Dans le but d'exploiter au mieux l'inventaire, appelé aussi instrument de recherche, le document qu'il constituait a été peu à peu déconstruit au point aujourd'hui de perdre sa forme traditionnelle. Ainsi, si l'EAD permet de conserver les singularités des archives ce que je ne remets pas en cause ici, force est de constater que les interfaces de consultation et de recherche dans les fonds d'archives ressemblent de plus en plus à un OPAC plutôt qu'aux inventaires papier encore disponibles dans les centres d'archives.

Ce constat aboutit à la question posée précédemment pour le protocole OAI-PMH. Finalement, la notion d'inventaire en tant que document, a-t-elle encore un sens, alors qu'il est constitué d'un ensemble de métadonnées ? Ne faudrait-il pas avaliser le fait qu'une description d'un fonds d'archives est constituée d'un ensemble de données structurées dont une des représentations peut être appréhendée comme un document ? Or, le modèle d'arbre XML à la base d'EAD enferme l'inventaire dans la seule vision documentaire, alors qu'il paraît possible (souhaitable ?) de proposer plusieurs représentations.

Il en va de même pour la structure hiérarchique. Loin de moi l'idée de remettre en cause le principe de respects des fonds, il est évident que la description d'un fonds d'archives « physiques » passe par une structure hiérarchique. Pour autant, il serait regrettable de se limiter à cela. Le Web permet, en effet, de s'abstraire de ses contraintes et de créer ou recréer un fonds qui se composerait d'archives provenant de différents fonds réels. Ce type de travaux scientifiques est monnaie courante, quel historien, par exemple, n'a pas rêvé de reconstituer l'ensemble du fonds archivistique de tel ou tel famille ou de tel ou tel établissement religieux, sans avoir besoin de recommencer le travail à zéro ? Or, avec la forme actuelle de l'EAD, il est impossible de faire référence à un niveau de description archivistique au sein d'un flux XML. Pourtant, il n'est pas extrêmement complexe d'y parvenir, il faudrait deux choses :

  • associer une URI à chaque niveau archivistique encodé ;
  • abandonner le modèle d'arbre au profit d'un modèle de graphes.

Évidemment, vous m'avez vu venir, une des solutions possibles réside dans l'utilisation de RDF.

Le Web de données

Ces derniers mois ont vu la constitution d'un Web de données (web of data ou linked data en anglais). Il ne s'agit pas d'un nouveau Web, mais plutôt d'une nouvelle façon de mettre à disposition et de relier des données sur le Web. Son principe est finalement assez simple : il est constitué de milliards d'assertions sur des ressources sous la forme de phrase simple. Pour ce faire, le Web de données utilise les technologies du Web sémantique et l'architecture du Web :

  • les assertions sont exprimées selon le modèle RDF : soit le triplet Sujet-Prédicat-Objet, ce qui correspond à la structure d'une phrase simple : Sujet-Verbe-Complément ;
  • chaque composant du triplet est composé d'une URI déréférençable, c'est-à-dire un identifiant localisable au sein du Web, donc chaque composant est une ressource ;
  • à chaque ressource sont associées une représentation en RDF (le plus souvent avec la syntaxe RDF/XML, mais parfois en N3) pour les machines et une représentation en HTML pour les humains.

Ainsi se constitue un hypertexte (un hyperdata ?) dans lequel une ressource est reliée à une autre ressource par un lien typé, le prédicat, lui-même exprimé avec une URI. Or, tout l'intérêt de ce Web de données réside dans le fait qu'une ressource peut représenter tout et n'importe quoi : un objet du monde réel (une personne, un lieu, un livre traditionnel...), un concept ou une ressource déjà disponible sur le Web. L'URI en constitue l'identifiant indispensable dans le cadre du Web pour pouvoir exprimer des assertions.

Il n'est ici plus question de document à moins d'assimiler le Web de données dans son ensemble à un document, le Web de données n'étant par définition pas fini, tout un chacun pouvant lier une ressource à une autre ressource. Quant à la structure hiérarchique, en plaçant l'assertion au niveau de description le plus fin possible (une phrase simple), elle ne constitue qu'un modèle possible de relations entre les ressources.

En poussant la logique du Web à son terme, le Web de données permet de dépasser les limites inhérentes à la notion de document et à la structuration hiérarchique des données. Il ouvre ainsi la voie à une modélisation décentralisée, plus souple et plus proche de notre monde réel. Et, pour ceux que cela effraie, le W3C travaille déjà aux normes et aux techniques qui permettront de mesurer la confiance que l'on peut accorder à telle ou telle assertion, mais c'est une autre histoire...

Cette réflexion doit beaucoup à Manue et Christian, qu'ils en soient ici remerciés !

Structuration Web sémantique XML Système d'information Causeries Édition électronique — 

Commentaires

Très intéressante réflexion. Il me semble que certaines initiatives comme l'architecture Darwin (DITA) dans le domaine de la documentation technique et les formats IPTC G2 dans celui de l'échange d'informations vont également dans le sens d'une déconstruction du document. La formule "un ensemble de données structurées dont une des représentations peut être appréhendée comme un document" me semble tout à fait appropriée à DITA par exemple

Si mes souvenirs sont bons, DITA est un schéma XML pour structurer la documentation technique à destination des humains. Mon propos se "limite" à la modélisation des métadonnées pour leur exploitation par les machines afin de rendre plus performant les systèmes de recherche. Je vais jeter un coup d'oeil à IPTC G2, merci pour la référence.

Bonjour Gauthier,
Je pensais que le propos du billet ne se limitait pas à la modélisation des métadonnées, au moins dans sa première partie où tu parles des contraintes physiques sur la "représentation linéaire du document". D'autres dans les différents commentaires ont parlé de "flux" (Nicolas), je me permet donc de revenir sur ces notions de linéarité et de structuration du document (pas seulement de ses métadonnées donc) pour essayer d'expliquer pourquoi j'ai parlé de DITA et G2.
Pour la documentation technique, on vient bien de cette conception historique du document à la fois linéaire et hiérarchisé, le "manuel de référence" pour faire court, dont Docbook est la modélisation emblématique. DocBook a été conçu pour la production de contenus rédigés "en continu"; il veut être exhaustif et les extensions ne sont pas recommandées. DITA par contre a été conçu pour les sujets isolés (topics), regroupés sous la forme d'ensemble de sujets. Les extensions sont encouragées. Les sujets sont typés (Tâche, Concept et Référence habituellement, c'est extensible) et constituent la base de l'architecture modulaire. Ils peuvent être organisés différemment pour produire des contenus différents (dont des documents "linéaires").
En ce qui concerne la famille de standards G2, elle concerne un secteur où le document était historiquement beaucoup plus simple que le document technique: la dépêche d'agence. G2 est également modulaire; c'est une architecture commune à plusieurs domaines applicatifs (actuellement: les news, la gestion des événements, le sport) qui introduit une profusion de métadonnées de diverses nature, des types de propriétés, des possibilités de vocabulaires contrôlés, une extensibilité, etc.
L'un est l'autre affichent une "stratégie MMM" (Multimedia, Multicanal, Multi-plateforme) et proposent par exemple une modélisation de la notion de "découverte progressive" des contenus.
Il me semble que ces métiers sont en train de développer des conceptions originales du "document" sans rupture totale avec la conception linéaire.

Merci Patrick pour ces précisions sur vos exemples qui, effectivement, montre l'évolution/le dépassement du cadre documentaire pour partager de la donnée. Sur les rapports entre IPTC G2 et le Web sémantique, il m'est revenu en lisant votre commentaire qu'un chercheur français (même s'il est aux Pays-Bas) travaille sur cette question : Raphaël Troncy (qui d'ailleurs se cache pas loin, Raphaël, ne te gêne pas pour compléter, ton expertise serait bienvenue).

Très intéressant.

Il est vrai que OAI-PMH tend à une centralisation de métadonnées qui, nous le savons bien, n'est pas souhaitable.

Mais le jeu de métadonnées minimal de OAI-PMH, le Dublin Core non qualifié, n'est pas en soi une représentation très hiérarchique de l'information (à l'inverse de la DTD EAD)... puisque c'est (presque) du XML à plat. Par ailleurs OAI-PMH n'interdit pas de liens entre les "record" (présence d'URI dans des propriétés Dublin Core qualifié ou non) ni de permettre aux entrepôts de présenter des jeux de métadonnées plus complexes, voire en RDF.

Problème de centralisation non souhaitable mis à part, les deux ne me semblent pas s'opposer sur cet aspect des choses.

Si la vision intellectuelle hiérarchique pose effectivement un problème pour la l'appréhension du web, la modélisation "scientifique" d'une autre représentation passe quelquefois aussi par un modèle hiérarchique : RDF --> XML

Ainsi, il convient à mon avis de dissocier la représentation intellectuelle documentaire (qui peut être hiérarchique ou non) de la modélisation scientifique (hiérarchique ou non) d'une représentation intellectuelle documentaire.

Le problème n'est pas tant la centralisation des métadonnées que la façon dont se fait cette centralisation de par la forme même du protocole. Je m'explique.
Même s'il est effectivement possible de relier les ressources décrites au sein d'un entrepôt OAI-PMH par l'intermédiaire des métadonnées, ces dernières sont encapsulées au sein d'un record. Or, chaque record est indépendant et forme une représentation documentaire de la ressource décrite sous la forme d'une notice. Ainsi, lorsque chaque record sont indexés par un service provider, cette notion tend à mettre au même niveau tous les types de ressources. Si vous faites une recherche sur OAISTER, tout est au même niveau, article, ouvrage, thèse, chapitre d'ouvrage, numéro de revue voire différents niveaux de description archivistique, il n'est ainsi pas possible au sein du protocole (je parle bien du protocole et pas des métadonnées qui y sont exposées) d'exprimer la granularité et les relations. Les limites du protocole OAI-PMH me semblent une preuve que s'abstraire du concept de document/notices est essentiel pour exposer les métadonnées sur le Web afin de décrire au mieux les ressources.
Le protocole OAI-PMH n'interdit effectivement pas de mettre du RDF (avec la syntaxe XML) en métadonnées, mais le problème, c'est qu'il est nécessaire de moissonner toute la collection et d'extraire les métadonnées avant de pouvoir les exploiter et donc re-former les liens. Pour faire une comparaison (un peu excessive, certes), c'est comme si on exposait un site Web à travers le protocole OAI-PMH et qu'on mettait chaque page Web en XHTML dans un record. La consultation du site et l'exploitation des liens hypertextes entre les pages ne serait possible qu'après moissonnage et extraction. Votre proposition renvoie à une tendance actuelle dans les domaines scientifiques et patrimoniales qui me semble excessive qui consiste à utiliser le protocole OAI-PMH dès qu'il s'agit d'exposer des métadonnées. OAI-PMH n'est pas une fin en soi, même s'il rend des services et qu'il est bien connu.
Pour aller dans votre sens par rapport à la centralisation, il ne faut pas penser l'exposition des métadonnées à travers un protocole au dessus de HTTP. Les technologies du Web sémantique permettent d'exposer directement les métadonnées avec le protocole HTTP selon un modèle qui profite pleinement des possibilités de relations et qui du coup permet de s'abstraire de la notice, représentation documentaire des métadonnées qui les enferment, à mon avis.

Merci beaucoup pour votre proposition finale de faire la distinction entre représentation intellectuelle documentaire et modélisation scientifique, je pense avoir compris ce que vous vouliez dire et je vais essayer de prendre en compte cette distinction pour reprendre mon explication.

Est-il vraiment possible d'avoir une réflexion "froide" sur le sujet (i.e. une approche orientée machine) ?

Si dans un triplet, le sujet pointe sur une base correspondant à une ideologie A et l'objet sur une base correspondant à une idéologie B, ça risque d'aboutir à des choses non cohérentes (j'hésite sur l'adéquation du mot cohérent ici).
Même si je suis un grand utilisateur de Wikipedia, on voit avec cet outil qu'on a déjà des affrontements sur une même page lorsque les auteurs ne défendent pas les mêmes idées, et que donc les articles sont parfois irrecevables. Les absurdités seront (peut-être) encore plus flagrantes lorsque ce sera décentralisé.

Mais si Got dit que les groupes de travail sur la sem' sont conscients de tous les travers sociaux possibles, alors on va leur laisser une chance de convaincre.

en tous cas, débat intéressant.