Ce billet constitue la suite et la fin des billets dédiés à la structuration de l'information et à la description de l'information.

L'organisation physique de l'information sur les ordinateurs

Il existe plusieurs manières de concevoir l'organisation de l'information :

l'organisation physique des fichiers sur une machine ;
l'organisation logique entre les ressources, c'est à dire les liens et la place de chaque ressource entre elles.

Malgré le caractère antinomique de ces deux conceptions, il s'avère qu'elles sont liées et qu'il ne faut pas mettre de côté l'organisation physique de l'information, si on veut comprendre les pratiques actuelles de l'organisation logique.

L'organisation physique des fichiers est complètement assujettie aux systèmes de fichiers des disques durs dont c'est précisément le but. Il en existe un grand nombre : FAT, NTFS, EXT spécifiques à des architectures matériels et/ou aux systèmes d'exploitation. Malgré leurs particularités, ils ont tous un point commun, l'organisation sous forme d'arborescence hiérarchique : des répertoires qui peuvent s'emboîter contiennent des fichiers. Un fichier se trouve physiquement dans un seul répertoire. Il me semble que cet impératif technique a eu des conséquences fondamentales sur notre vision de l'organisation de l'information numérique. En représentant la base de l'utilisation d'un ordinateur, l'arborescence a constitué non seulement un classement de l'information, mais a aussi profondément impacté notre appréhension de l'information numérique. Ainsi, récemment, Manue m'a fait remarquer qu'un enfant avait plus de facilité à naviguer dans un site dont l'organisation n'est pas hiérarchique, alors que la personne habituée à l'outil informatique retrouvera plus facilement ses repères avec une arborescence. C'est une constatation empirique, qui reste à démontrer, mais je pense qu'il faut y voir une assimilation du concept d'arborescence telle qu'une autre conception est plus difficile à appréhender malgré sa simplicité par des personnes habituées à l'informatique.

Mais, ce modèle d'organisation atteint des limites en terme d'ergonomie et de rapidité d'accès aux fichiers, lorsque l'utilisateur conserve plusieurs dizaines de milliers de fichiers sur son ordinateur. Comment retrouver rapidement l'information ? Comment naviguer efficacement dans l'arborescence ? Or, avec l'augmentation de la capacité de nos disques durs, nous sommes en train d'arriver à ce stade. Les systèmes de recherche sur le disque dur à l'image des moteurs de recherche, comme Google Desktop, Copernic Desktop search, Spotlight, ou encore Beagle constituent sans aucun doute des solutions à ce problème. Pour autant, cela ne semble peut-être pas suffisant. Conscient de ce problème, il semble que Microsoft y a réfléchi. Réutilisant des recherches menées sur le sujet par IBM dès les années 70, les ingénieurs de Redmond sont en train de mettre au point une nouvelle couche à leurs systèmes de fichiers (NTFS) qui a pour nom WinFS.

L'idée en est finalement assez simple. En partant de la description des fichiers grâce aux métadonnées, les fichiers ne sont plus organisés simplement de façon hiérarchique, mais en fonction de leur contenu décrit dans des métadonnées. Évidemment, en incluant ce mécanisme au cœur du système de fichiers, Microsoft accroît les performances d'accès et intègre à son système d'exploitation les interfaces de navigation adaptés. Prévu pour la prochaine version de Windows, Longhorn, il semble que son introduction est maintenant reporté. Malgré cela, cette initiative marque un changement dans la conception de l'organisation qui voit l'organisation physique rejoindre l'organisation logique voire sémantique de l'information.

L'organisation de l'information sur le Web

Qu'en est-il alors de l'organisation de l'information sur le Web ? Il me semble qu'elle est le résultat de trois modèles :

L'organisation hiérarchique sous forme d'arborescence issue de l'organisation des fichiers sur le disque dur dont nous venons de parler ;
l'organisation séquentielle ou linéaire du livre-codex ;
l'organisation hypertextuelle.

Paradoxalement, alors que l'architecture du Web est basée sur l'hypertexte, celui-ci n'y constitue pas le modèle unique, ni même majoritaire de l'organisation de l'information. Concept inventé par Vanevar Bush, conseiller du président Roosevelt et exposé dans l'article « As we may think » puis formalisé et adapté au monde du numérique par Ted Nelson, l'hypertexte permet de relier deux documents/pages par un lien. La liaison des différents documents entre eux forme un réseau hypertextuel, une toile d'où le mot Web. Il aura fallu quelques années pour que le Web s'approprie complètement ce concept et en exploite toutes les possibilités. L'hypertexte mis en place actuellement sur le Web constitue à mon avis une synthèse des trois modèles.

Ainsi, la plupart des premiers sites Web ne proposaient qu'une navigation séquentielle à l'intérieur du site avec un lien « suivant », un lien « précédent » et un lien vers le sommaire, par exemple http://jfenal.free.fr/Traduc/FSHOWTO/filesystems-howto.fr-2.html. Cela correspond à une phase d'appropriation du nouveau média qui se caractérise par la reprise des médias écrits préexistants. Ce type d'organisation est encore utilisé, en particulier dans le cadre des bibliothèques numériques. Mais, comme Manue l'a si bien dit, cette façon d'organiser l'information constitue un « exemple inquiétant d'un phénomène de résistance des mentalités à la technologie qui n'est sans doute que transitoire ». Évidemment, il ne s'agit pas de rejeter ce modèle, mais il ne doit constituer qu'une façon d'organiser l'information.

A vrai dire, j'étendrais bien cette remarque de Manue à l'organisation hiérarchique de l'information. Mais, de la même façon, je ne la rejetterai pas. Il est évident qu'elle constitue une manière basique d'organiser l'information, mais elle se révèle efficace et constitue un modèle non seulement dans le domaine informatique, mais aussi dans celui des livres. Ne parle-t-on pas de corpus, d'ouvrages et de chapitres ? Bref, quand je regarde l'organisation du site de l'Ecole des chartes, en particulier d'un site comme les cartulaires numérisés d'Île-de-France, je me contredirais fortement, si je rejetais ce modèle. Deux remarques s'imposent donc :

les sites Web allient de plus en plus les deux modes d'organisation de l'information : linéaire et hiérarchique voire d'autres, tendant vers une utilisation massive de l'hypertexte à l'intérieur même du site. A mon avis, il faut voir dans ce mouvement une compréhension accrue des possibilités du média Web. En effet, la rapidité d'accès à l'information constitue la véritable révolution de l'information numérique. Restreindre les modes d'organisation et donc de navigation, c'est restreindre les possibilités du numérique1.
Ces modèles d'organisation sont utilisés sur des sites qui représentent des adaptations de types de publications qui existaient déjà2. Ce qui change la donne, ce sont donc les nouveaux types de publications entièrement adaptés au Web comme les blogs ou les wikis et aussi une conception de partage de l'information au cœur même de l'idée du Web.

Une nouvelle ère dans l'organisation de l'information ?

Avec ces nouveaux types de sites, c'est la description de l'information qui est au cœur de l'organisation de l'information. Ainsi, un blog propose différents types de navigation et donc d'organisation en fonction de différents critères :

le titre du billet ;
la date du billet ;
la catégorie du billet ;
le/les mot(s)-clé(s) ou tag(s) ;

Nous retombons donc sur le modèle proposé par Microsoft pour son système WinFS évoqué plus haut, mais surtout sur les éléments du Dublin Core et donc sur l'idée du Web sémantique. Le Web, ou plutôt son appréhension, atteint donc une maturité suffisante pour passer à une nouvelle étape.

La démarche du W3C pour le Web sémantique qui n'est pas récente (la première Working draft de RDF date de 1997) et qui a longtemps été critiquée est en train de rencontrer les besoins des utilisateurs, en réutilisant des concepts bien connus dans le monde documentaire : index, mots-clés, thesaurus, facettes... L'appropriation de ces concepts s'est faite naturellement et progressivement, lorsque le besoin s'en est fait sentir. De ce fait, les internautes n'ont pas forcément conscience du fait que leur pratique actuelle, en particulier ce qu'on nomme la folksonomie, s'appuie sur des outils relativement anciens. Dans ce contexte, la description de l'information sous forme de métadonnées prend tout son sens à leurs yeux3.

Grâce à l'étiquetage des différentes ressources (signets, billets de blogs, photos...), l'information n'est plus organisée de façon hiérarchique sous forme d'une arborescence, mais de façon sémantique selon son contenu. Alors qu'il est impossible de placer un même fichier dans plusieurs répertoires dans un système de fichiers sous Windows4, cela constitue l'essence même de l'architecture hypertextuelle du Web. Dans un très bon billet, Romuald donne une explication convaincante de l'intérêt de l'organisation de l'information grâce aux folksonomies :

Le tag crée de l'hyperlien interne par catégorisation transversale et ça, c'est bien, c'est très bien parce que c'est une forme de classification qui transcende l'action de l'Internet [NDLA : je dirais plutôt du Web] en le subordonnant à une action de recherche intrinsèque. Cette valeur que prend la taxonomie donne de la consistance à l'hypertexte, mais n'est-ce pas aussi un bon moyen pour perdre le lecteur dans un flot d'information qui le dépasse complètement ?.

Même si la folksonomie représente une avancée majeure dans l'organisation de l'information sur le Web, en permettant de dépasser l'organisation linéaire et hiérarchique de l'information, elle ne constitue à mon avis qu'une première étape. Les problèmes posés sont importants comme l'expliquent bien ces billets d'Internet actu et de Manue en matière d'harmonisation des étiquettes, de leur manque de structuration et de relations, les tags ne constituant pas une taxonomie et encore moins une ontologie5. De plus, la dernière phrase de la citation de Romuald révèle un des défis majeurs posés par le changement d'organisation de l'information : les interfaces de navigation. En effet, comment retrouver rapidement les informations dans de tels systèmes ?

Plusieurs solutions existent déjà et je me contenterais de les citer :

Les interfaces à facettes permettent de retrouver les ressources grâce à l'addition de plusieurs critères. Par exemple, Delicious permet de croiser les étiquettes attribuées aux signets.
Les nuages de mots-clefs, nuage de tags ou tagscloud, permettent de visualiser les mots-clefs utilisés sur un site, la taille de la police du mot-clé variant selon sa fréquence d'utilisation.
le graphe cliquable et dynamique (attention, machine Java requise) qui permet de visualiser graphiquement le réseau hypertextuel.

Comment décrire une organisation non hiérarchique ?

L'organisation hypertextuelle de l'information pourrait se suffire à elle-même. Pourtant, il se révèle intéressant de décrire comment s'organisent les différentes ressources dans un site Web dans un souci d'archivage des données afin d'en conserver la mémoire ou pour générer facilement les interfaces de navigation comme celles que nous venons de décrire. Pour décrire l'organisation de l'information, il existe le concept de cartes de structures. Chaque ressource est décrite indépendamment. Une ou plusieurs carte(s) de structure permettent de les rassembler sous formes de listes selon une caractéristique commune qui peut aussi bien être physique (une page dans le cadre d'une numérisation d'un livre) ou logique (un mot-clé par exemple). En séparant la description de la ressource de la carte de structure, il est possible de faire référence à une même ressource dans plusieurs cartes de structure sans redondance de l'information. A ma connaissance, il existe trois formats qui utilisent ce concept :

METS, un schéma XML mis au point par la Library of congress. Même si ce schéma est très intéressant, il est plutôt dédié à la gestion d'objets/fichiers numériques plutôt qu'à celle de ressources numériques. Dans ce cadre, il s'avère rapidement limité dans le cadre de l'organisation de l'information numérique stricto sensu pour lequel RDF est plus adapté.
RSS 1.0 (RDF site summary), la version RDF/XML de RSS rassemble au sein de la propriété <items> du fil RSS l'ensemble des ressources ou item décrits dans le fichier. Le fait qu'il n'y ait qu'une carte de structure clairement définie constitue évidemment la limite de RSS. Pour autant, grâce à un traitement du fichier à l'aide de SPARQL, il est toujours possible de générer d'autres cartes de structure suivant un caractéristique précise, par exemple, toutes les ressources qui utilisent un mot-clé identique sur le fil RSS de ce site 6.
MAP (Minimal Access Plan), est un vocabulaire RDF qui contient deux propriétés : <container> et <embedded> qui permettent de rassembler selon deux modalités différentes les ressources décrites par ailleurs dans le fichier. Il est possible de faire autant de cartes de structures que l'on souhaite. Ce vocabulaire a été mis en place pour l'extension firefox navibar qui permet d'afficher une carte du site dans la sidebar en lieu et place de l'historique. J'ai implémenté ce système sur ce site, si vous voulez voir le résultat. Vous pouvez visualiser le fichier RDF ad-hoc.

En guise de conclusion

A l'issue de ces trois billets, j'espère avoir montré que la structuration, la description et l'organisation correspondent à des étapes différentes dans le mécanisme de création de l'information voire de connaissance. Une compréhension fine de ces étapes et de leurs impacts sur les données qui vont constituer l'information permet de choisir les technologies adaptées. A mon avis, cela permet de faciliter le développement des applications, leurs maintenances et donc la conservation des données.

Quelques notes en passant

1 Sur ce sujet, cf l'article « l'édition électronique change tout et rien. Dépasser les promesses de l'édition électronique », http://lespetitescases.net/l-edition-electronique-change-tout-et-rien.

2 Quelle est finalement la différence entre un site présentant une entreprise ou une institution et une plaquette de présentation papier ?

1 Au passage, certaines personnes qui se disent spécialistes de la question feraient bien de regarder de plus près les outils des bibliothécaires et des documentalistes, plutôt que de réinventer la roue et de s'extasier devant des pseudo-nouveautés...

2 Le système des liens symboliques sous UNIX ou UNIX-like, comme Linux, permet de placer un fichier dans plusieurs répertoires.

3 Désolé Romuald, mais Manue a raison dans son commentaire ;-)

1 J'ai profité de ce billet pour ajouter le fil RSS au format 1.0, s'il y a des personnes qui préfèrent à 0.92, vous pouvez l'utiliser, http://lespetitescases.net/petitescasesrss.rdf.

Commentaires

17 May, 2006 - 05:03 — David Latapie (non vérifié)

Es-tu sur que Vannevar Bush a inventé le concept ? J’ai la vague impression qu ça datait d’avant. Quoiqu'il en soit, oui, c'est bien Xanadu qui l'a implémenté pour la première fois (j’ai une ébauche de comparatif Web/Xanadu si ça t’intéresse) : http://blog.empyree.org/?1970-correspondance-web-et-xanadu Sinon, pour l’interface, ça pourrait t’intéresser : http://blog.empyree.org/?753-presenter-l-information-differement

9 octobre, 2007 - 11:11 — Romuald (non vérifié)

Voilà, j'ai remis le lien à jour: http://www.brindilles.net/des-tags-et-des-blogs/

9 octobre, 2007 - 12:06 — got

Ce que j'aime chez toi, Romuald, c'est que tu as de la suite dans les idées. Merci d'avoir republié ce billet qui est encore complètement d'actualités.

Les petites cases

Comment organiser l'information pour y naviguer efficacement ? (3)