Les petites cases

Les carcans de la pensée hiérarchique et documentaire (2)

Commentaires

Très intéressante réflexion. Il me semble que certaines initiatives comme l'architecture Darwin (DITA) dans le domaine de la documentation technique et les formats IPTC G2 dans celui de l'échange d'informations vont également dans le sens d'une déconstruction du document. La formule "un ensemble de données structurées dont une des représentations peut être appréhendée comme un document" me semble tout à fait appropriée à DITA par exemple

Si mes souvenirs sont bons, DITA est un schéma XML pour structurer la documentation technique à destination des humains. Mon propos se "limite" à la modélisation des métadonnées pour leur exploitation par les machines afin de rendre plus performant les systèmes de recherche. Je vais jeter un coup d'oeil à IPTC G2, merci pour la référence.

Bonjour Gauthier,
Je pensais que le propos du billet ne se limitait pas à la modélisation des métadonnées, au moins dans sa première partie où tu parles des contraintes physiques sur la "représentation linéaire du document". D'autres dans les différents commentaires ont parlé de "flux" (Nicolas), je me permet donc de revenir sur ces notions de linéarité et de structuration du document (pas seulement de ses métadonnées donc) pour essayer d'expliquer pourquoi j'ai parlé de DITA et G2.
Pour la documentation technique, on vient bien de cette conception historique du document à la fois linéaire et hiérarchisé, le "manuel de référence" pour faire court, dont Docbook est la modélisation emblématique. DocBook a été conçu pour la production de contenus rédigés "en continu"; il veut être exhaustif et les extensions ne sont pas recommandées. DITA par contre a été conçu pour les sujets isolés (topics), regroupés sous la forme d'ensemble de sujets. Les extensions sont encouragées. Les sujets sont typés (Tâche, Concept et Référence habituellement, c'est extensible) et constituent la base de l'architecture modulaire. Ils peuvent être organisés différemment pour produire des contenus différents (dont des documents "linéaires").
En ce qui concerne la famille de standards G2, elle concerne un secteur où le document était historiquement beaucoup plus simple que le document technique: la dépêche d'agence. G2 est également modulaire; c'est une architecture commune à plusieurs domaines applicatifs (actuellement: les news, la gestion des événements, le sport) qui introduit une profusion de métadonnées de diverses nature, des types de propriétés, des possibilités de vocabulaires contrôlés, une extensibilité, etc.
L'un est l'autre affichent une "stratégie MMM" (Multimedia, Multicanal, Multi-plateforme) et proposent par exemple une modélisation de la notion de "découverte progressive" des contenus.
Il me semble que ces métiers sont en train de développer des conceptions originales du "document" sans rupture totale avec la conception linéaire.

Merci Patrick pour ces précisions sur vos exemples qui, effectivement, montre l'évolution/le dépassement du cadre documentaire pour partager de la donnée. Sur les rapports entre IPTC G2 et le Web sémantique, il m'est revenu en lisant votre commentaire qu'un chercheur français (même s'il est aux Pays-Bas) travaille sur cette question : Raphaël Troncy (qui d'ailleurs se cache pas loin, Raphaël, ne te gêne pas pour compléter, ton expertise serait bienvenue).

Très intéressant.

Il est vrai que OAI-PMH tend à une centralisation de métadonnées qui, nous le savons bien, n'est pas souhaitable.

Mais le jeu de métadonnées minimal de OAI-PMH, le Dublin Core non qualifié, n'est pas en soi une représentation très hiérarchique de l'information (à l'inverse de la DTD EAD)... puisque c'est (presque) du XML à plat. Par ailleurs OAI-PMH n'interdit pas de liens entre les "record" (présence d'URI dans des propriétés Dublin Core qualifié ou non) ni de permettre aux entrepôts de présenter des jeux de métadonnées plus complexes, voire en RDF.

Problème de centralisation non souhaitable mis à part, les deux ne me semblent pas s'opposer sur cet aspect des choses.

Si la vision intellectuelle hiérarchique pose effectivement un problème pour la l'appréhension du web, la modélisation "scientifique" d'une autre représentation passe quelquefois aussi par un modèle hiérarchique : RDF --> XML

Ainsi, il convient à mon avis de dissocier la représentation intellectuelle documentaire (qui peut être hiérarchique ou non) de la modélisation scientifique (hiérarchique ou non) d'une représentation intellectuelle documentaire.

Le problème n'est pas tant la centralisation des métadonnées que la façon dont se fait cette centralisation de par la forme même du protocole. Je m'explique.
Même s'il est effectivement possible de relier les ressources décrites au sein d'un entrepôt OAI-PMH par l'intermédiaire des métadonnées, ces dernières sont encapsulées au sein d'un record. Or, chaque record est indépendant et forme une représentation documentaire de la ressource décrite sous la forme d'une notice. Ainsi, lorsque chaque record sont indexés par un service provider, cette notion tend à mettre au même niveau tous les types de ressources. Si vous faites une recherche sur OAISTER, tout est au même niveau, article, ouvrage, thèse, chapitre d'ouvrage, numéro de revue voire différents niveaux de description archivistique, il n'est ainsi pas possible au sein du protocole (je parle bien du protocole et pas des métadonnées qui y sont exposées) d'exprimer la granularité et les relations. Les limites du protocole OAI-PMH me semblent une preuve que s'abstraire du concept de document/notices est essentiel pour exposer les métadonnées sur le Web afin de décrire au mieux les ressources.
Le protocole OAI-PMH n'interdit effectivement pas de mettre du RDF (avec la syntaxe XML) en métadonnées, mais le problème, c'est qu'il est nécessaire de moissonner toute la collection et d'extraire les métadonnées avant de pouvoir les exploiter et donc re-former les liens. Pour faire une comparaison (un peu excessive, certes), c'est comme si on exposait un site Web à travers le protocole OAI-PMH et qu'on mettait chaque page Web en XHTML dans un record. La consultation du site et l'exploitation des liens hypertextes entre les pages ne serait possible qu'après moissonnage et extraction. Votre proposition renvoie à une tendance actuelle dans les domaines scientifiques et patrimoniales qui me semble excessive qui consiste à utiliser le protocole OAI-PMH dès qu'il s'agit d'exposer des métadonnées. OAI-PMH n'est pas une fin en soi, même s'il rend des services et qu'il est bien connu.
Pour aller dans votre sens par rapport à la centralisation, il ne faut pas penser l'exposition des métadonnées à travers un protocole au dessus de HTTP. Les technologies du Web sémantique permettent d'exposer directement les métadonnées avec le protocole HTTP selon un modèle qui profite pleinement des possibilités de relations et qui du coup permet de s'abstraire de la notice, représentation documentaire des métadonnées qui les enferment, à mon avis.

Merci beaucoup pour votre proposition finale de faire la distinction entre représentation intellectuelle documentaire et modélisation scientifique, je pense avoir compris ce que vous vouliez dire et je vais essayer de prendre en compte cette distinction pour reprendre mon explication.

Est-il vraiment possible d'avoir une réflexion "froide" sur le sujet (i.e. une approche orientée machine) ?

Si dans un triplet, le sujet pointe sur une base correspondant à une ideologie A et l'objet sur une base correspondant à une idéologie B, ça risque d'aboutir à des choses non cohérentes (j'hésite sur l'adéquation du mot cohérent ici).
Même si je suis un grand utilisateur de Wikipedia, on voit avec cet outil qu'on a déjà des affrontements sur une même page lorsque les auteurs ne défendent pas les mêmes idées, et que donc les articles sont parfois irrecevables. Les absurdités seront (peut-être) encore plus flagrantes lorsque ce sera décentralisé.

Mais si Got dit que les groupes de travail sur la sem' sont conscients de tous les travers sociaux possibles, alors on va leur laisser une chance de convaincre.

en tous cas, débat intéressant.

Poster un nouveau commentaire

Le contenu de ce champ ne sera pas montré publiquement.
  • Les adresses de pages web et de messagerie électronique sont transformées en liens automatiquement.
  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Les lignes et les paragraphes vont à la ligne automatiquement.
  • You may post code using <code>...</code> (generic) or <?php ... ?> (highlighted PHP) tags.

Plus d'informations sur les options de formatage

CAPTCHA
This question is for testing whether you are a human visitor and to prevent automated spam submissions.
1 + 0 =
Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.