Les petites cases

L'antilope sur le Web est-elle un document ?

Ce billet est une réponse au commentaire de Jean-Michel Salaün sous mon précédent billet. J'espère que Jean-Michel Salaün excusera la forme de ma réponse (c'était plus simple à gérer vu la longueur) et la distance que j'introduis par rapport à son commentaire (l'écriture d'un billet n'est pas le même exercice qu'un commentaire et il me semblait difficile de m'adresser directement à vous dans un billet :-) ).

Petite précision en guise de préambule

Avant toute chose, je me dois de faire une précision. A la lecture de ce commentaire (et le suivant), je me suis aperçu que mon billet contenait un non dit, qui pouvait prêter à confusion mais qui a, au moins, eu le mérite de faire réagir ce dont je me réjouis. Loin de moi l'idée de remettre en cause de manière générale et définitive la notion de document. Mon billet a plutôt vocation à montrer que cette notion doit être dépassée dans le contexte du Web (c'est d'ailleurs le sens de la conclusion du commentaire d'Olivier Le Deuff), car, dans certains cas (en particulier dans le cas de la mise à disposition de métadonnées), elle nous empêche(rait) de profiter pleinement des possibilités des technologies du Web, en particulier les technologies du Web sémantique. Ainsi, dans mon exemple sur EAD, mon but n'est pas de remettre en cause la pratique archivistique de l'inventaire, quand il reste conçu comme un texte (document ;-) ) scientifique, mais de dépasser la notion d'inventaire, et de document qui lui est attaché, s'il est conçu comme la mise à disposition sur le Web d'un ensemble de métadonnées sur des archives physiques ou numériques.

Cette précision apportée, plusieurs choses me frappent à la lecture du commentaire de Jean-Michel Salaün :

  • la négation de la dimension physique du document, l'analyse de son exemple en est le symbole : une carte d'identité contient un ensemble de données, certes, mais circonscrites à une feuille plastifiée ;
  • son attachement à la structure hiérarchique, je la comprends aisément, y étant moi-même très attaché (je ne sais pas écrire autrement), mais je ne vois pas en quoi elle constitue le seul mode possible de modélisation de l'information sur le Web (je ne parle pas de textes, mais j'y reviendrais dans ma réponse à JM (Jean-Michel, aussi ?) Destabaux)
  • je trouve que, finalement, nos arguments sont très proches, mais, si j'y vois un dépassement du concept de document, il y voit, quant à lui, une preuve du bien-fondé de ce concept.

La dimension physique du document

S'il y a une chose que j'ai apprise pendant ces années à fréquenter les chartistes, en particulier les diplomatistes (dont certains ne sont pas chartistes :-) ), c'est l'importance de l'analyse du support et, plus généralement, de ce qu'ils appellent les caractères externes (la taille, la forme, la nature du support, l'écriture, les signes graphiques...) pour appréhender tous les enjeux d'une source historique, un document. Bref, ils m'ont appris qu'un document était bien plus qu'un ensemble de données et que sa compréhension passait par le support. Le discours des historiens du livre, Henri-Jean Martin en tête, est exactement le même quand il montre l'importance de la mise en page dans l'étude de la réception d'un ouvrage au moment de sa parution. Mettre de côté la dimension physique dans le débat sur le document me paraît être une erreur. C'est d'ailleurs le principal reproche qu'on peut faire à la thèse de Suzanne Briet : un objet d'études n'est pas forcément un document, non une tribu papou n'est pas un document pour l'ethnologue, non une molécule n'est pas un document pour le chimiste et encore moins l'antilope pour un zoologiste. Or, le Web, et plus généralement le numérique, présente une particularité de taille par rapport aux documents qui existent depuis « la nuit des temps », il n'y existe aucune contrainte physique.

Par conséquent, je souscris au fait qu'une carte d'identité telle que nous en possédons une dans notre portefeuille est bien un document, car elle constitue une représentation d'un ensemble logique de données circonscrites à un support physique.

Du support physique au Web sémantique ou comment la notion de document est peu à peu dépassée

Faisons maintenant passer notre carte d'identité sur le Web.

Prenons pour commencer le cas d'une représentation en HTML, c'est-à-dire une page Web, de notre carte d'identité, nous avons bien à faire à un document, puisque la page Web contient un ensemble de données délimité par sa taille, sa forme... Néanmoins, avec la page Web, une première différence apparaît par rapport au support physique, outre l'absence de contraintes sur la taille de la page Web, c'est la possibilité de faire un lien hypertexte vers une autre page Web, chose qui est impossible avec le support physique. Ainsi, là où « les références à diverses ensembles logiques qui existent en dehors [de la carte d'identité] » sont implicites sur le support physique, il est possible de les exprimer clairement en HTML par des liens hypertextes. C'est de mon point de vue la première remise en cause du concept de document en tant qu'entité finie (je vous conseille de ce point de vue la lecture de cet article de Bernard Vatant écrit en 2001).

Toutefois, même reliées entre elles par des liens hypertextes, les pages Web restent des documents qui comportent une dimension implicite (il faut lire ou parcourir la page Web pour savoir quelle est l'entité qu'elle décrit). Avec les technologies du Web sémantique, on ne relie plus les pages Web entre elles. On part du principe que les identifiants, les URI, correspondent non pas à un document (la carte d'identité) mais à l'entité elle-même (la personne) en tant qu'abstraction. Dès lors, toute fixation sur un support (qu'il soit physique, comme la carte d'identité, ou numérique, comme une page Web) n'est qu'une des représentations possibles de cette entité abstraite, obtenue en agrégeant différentes données ou informations. Les liens entre cette entité abstraite et ces autres données qui constituent son contexte ne se contentent plus d'être une indication de localisation indiquant que cet autre document existe quelque part. On fournit des relations typées entre la personne, représentée en tant que concept par une URI, et un ensemble de données externes, représentées elles aussi en tant que concepts par d'autres URI.

Ainsi, RDF constitue une description formelle sur la personne (n'est-ce-pas le but d'une carte d'identité ?) à destination des machines dans le contexte du Web. Or, si un document - par exemple la carte d'identité - est un choix, une construction produite dans un espace physique de la représentation de différentes informations, RDF, dans la mesure où il forme un réseau de liens typés entre les différentes URI dans un espace non fini et non maîtrisable, permet de s'abstraire de la représentation documentaire pour exprimer directement un ensemble de données sur une réalité, une personne dans le cas d'une identité numérique.

Management de l'information Web sémantique Causeries Histoire — 

Commentaires

Et oui, c'est ce qu'on appelle l'évolution !
Aux origines de l'humanité, on dessinait ses prouesses à la chasse sur le mur des grottes. Maintenant on se crée un "moi" en RDF (ex : http://www.lespetitescases.net/foaf_got.rdf) .
Je vous passe les papyrus, les plaquettes en granit, les tatouages sur tout le corps, etc.
Le but au final est de savoir qui l'on a en face de nous. Le document en tant que tel n'a que peu d'importance (c'est bien pour ca que les cartes d'identités, permis de conduire, passeports, etc. sont acceptés de la même manière pour nos démarches administratives, pourtant ce ne sont pas les mêmes documents).

Salut Gauthier,

Si je reprends le cas de la carte d'identité, ou plutôt du passeport. Il m'arrive de passer beaucoup de frontières depuis quelques années ;-). L'important est pour le douanier de pouvoir constater que les éléments inscrits sur le passeport, mais aujourd'hui aussi codés sur ce même passeport pour pouvoir être lu par la machine, font de moi une personne acceptable selon les critères du pays dans lequel je veux entrer.

Le passeport pourrait théoriquement être illisible par un humain. Les éléments d'identité pourraient en théorie renvoyer à ma personne comme identité abstraite à partir juste d'une identification initiale, comme l'iris de l'oeil ou encore l'empreinte digitale. Alors, comme dirait Olivier en paraphrasant S. Briet et son antilope, l'homme serait un document comme un autre.

Socialement cela n'est pas envisageable. Je dois pouvoir lire personnellement les données inscrites sur mon passeport et sans l'intermédiaire d'une machine pour vérifier leur véracité, je dois aussi pouvoir détacher ces données de ma personne physique, sinon le risque d'arbitraire devient trop grand. Je dirais pour être plus réaliste en ces périodes de contrôle tous azimuths, je dois avoir l'illusion de tout cela. En réalité le passeport renvoie à bien plus de données que celles inscrites sur le papier et il existe en démocratie une tension perpétuelle entre celles à quoi le citoyen a accès et celles qui lui sont cachées.

Inversement, le douanier, une fois le passeport scanné par la machine, lira sur son écran une page qui est aussi un document, celui-ci très éphémère, qui lui indiquera si je suis conforme ou non. Mais notre douanier ne pourra pas interpréter ce document, s'il ne correspond pas à un protocole (mis en page, contenu) dont il est familier. Le caractère éphémère du document en question est donc tout relatif. Ce qui est éphémère ce sont les données particulières, relatives à ma personne, la structure formelle et sémantique est, elle, stable.

Mon allusion à S. Briet ne renvoyait pas à l'antilope mais à son idée qu'un document est une preuve qui ne peut s'interpréter que dans un système sémantique organisé.

Pour dire les choses autrement, les données ne font pas que renvoyer à des entités abstraites. Elle s'inscrivent dans un système sémantique qui d'une part a une matérialité et d'autre part a une structure socio-linguistique et pas simplement logique. C'est cela qui justifie de prendre très au sérieux la notion de document et je ne suis pas sûr que nos amis du Web sémantique en aient vraiment conscience.

Encore une fois, je pense ici en écrivant et suis ouvert à toute critique sur un domaine qui n'est pas exactement ma spécialité.

Il me semble que vous avez déplacé le débat. Mon propos se "limitait" à une analyse (froide, peut-être) tant d'un point de vue informationel que technique de l'évolution de la mise à disposition des données structurées sur le Web (et la complexité d'y parvenir si on ne dépasse pas les modèles documentaires traditionnels) et, non, au bien fondé et aux implications sociales de l'utilisation de ces technologies. Pour le coup, c'est loin d'être ma spécialité. De plus, je persiste à penser que la notion physique a son importance dans la définition de document, alors qu'il me semble que vous la concevez uniquement par rapport à un environnement sémantique.

Même si nous différons sur la définition à donner au document, il me semble déceler dans vos propos une interprétation erronée des buts poursuivis par les technologies du Web sémantique. Comme je le soulignais dans un commentaire récent sur votre blog, la dimension "sémantique" du Web sémantique n'est pas à appréhender par le biais de la linguistique.
Les technologies du Web sémantique n'ont pas vocation à rendre le sens d'un texte compréhensible à une machine par sa description formelle et donc forcément biaisé, le temps de l'intelligence artificielle n'est (heureusement ?) pas encore arrivé, ni même à remplacer le Web de documents tel que nous le connaissons aujourd'hui. La proposition initiale de Tim Berners-Lee, et qui est le but poursuivi, aujourd'hui, par le Web de données ou ce qu'on appelle le linked data, visait à trouver les moyens de mettre à disposition sur le Web (en profitant pleinement de son architecture) l'ensemble des données structurées enfouies au fin fond des bases de données relationnelles à l'image de ce qu'il était possible de faire grâce à HTML avec les documents et, ainsi, de donner une autre dimension au Web en le reliant aux objets et concepts du monde réel. C'est le sens de ce schéma de 1994. Il n'a jamais été question de proposer une ontologie universelle du monde, d'en proposer une modélisation qui, à coup sûr, réduirait notre vision du monde, cela est impossible et va à l'encontre même des buts poursuivis par les pionniers du Web.

Les tentatives dans le domaine de la mise à disposition des bases de données relationnelles ont abouti, jusqu'à maintenant, à la constitution de ce qu'on appelle un Web invisible. Or, si les web services (qu'on peut assimiler à des API) ont permis de lever un voile sur ces données, cela est très limité, car les Web services sont très contrôlés et sont orientés dans un sens très précis, bien souvent celui qui va dans l'intérêt de celui qui contrôle la donnée (tout le modèle économique de Google est basé sur le contrôle des données et leur mise à disposition par des Web services contrôlés afin de créer un écosystème captif). Pour mieux comprendre en quoi les Web services sont limités et les avantages des technologies du Web sémantique, je vous renvoie aux billets de Christian Fauré et d'Ed Summers.

Enfin, je pense que les chercheurs dans le domaine du Web sémantique sont très conscients des problèmes sociaux qui peuvent se poser. Ce point n'étant pas ma spécialité, je me contenterai de donner quelques exemples : l'initiative Web science est dirigée par un collège de cinq chercheurs qui sont tous de près ou de loin impliqué dans les recherches sur le Web sémantique, les recherches en cours sur la notion de "confiance" (la brique trust du layer cake) ou encore les travaux autour de POWDER dont les buts sont très bien décrits dans ce diaporama de Fabien Gandon (d'ailleurs, Fabien, si tu passes par là, n'hésite pas à nous faire profiter de tes lumières et de ton avis sur ces questions).

Merci de venir voir mon commentaire chez moi : http://www.figoblog.org/node/1958 ;-)