Les petites cases

Du livre électronique au wiki

Ce texte constitue la communication prononcée au cours du congrès de la commission internationale de diplomatique de Bonn qui a eu lieu du 7 au 11 septembre 2005.

Introduction

La maitrise de l'outil informatique est devenu indispensable pour les historiens aussi bien pour traiter leurs données, rédiger leurs études ou communiquer entre eux. En 1973, Emmanuel Le Roy Ladurie prédisait : “l'historien de demain sera programmeur ou il ne sera plus”. Heureusement, la réalité est toute autre, surtout grâce à l'avénement de la micro-informatique personnelle dans les années 80 et 90. Malgré tout, la maitrise de l'outil informatique impose des connaissances indispensables de plus en plus enseignés dans les cursus universitaires en histoire.

L'émergence de l'Internet et surtout de sa composante la plus connue, le Web, représente aujourd'hui un enjeu de taille pour la diffusion la plus large possible des résultats de la recherche. L'intêret n'est plus à démontrer et Patrick Sahle a bien démontré la mise en place d'un espace commun du savoir historique basé sur les habitudes de publications et prenant en compte les spécificités de ce nouveau support. Avant que Georg Vogeler nous décrive les perspectives pour les diplomatistes, il nous a paru intéressant de nous arrêter sur les moyens de mettre en place cet espace.

A l'image du passage entre le livre-manuscrit et le livre-imprimé, l'adoption du support électronique et l'utilisation du nouveau canal de diffusion que représente le Web constituent une lente évolution des « moyens de production, de transmission et de manipulation »1. Ce processus de transition que les historiens du livre ou des médias ont systématiquement mise en lumière pour les autres supports, est nécessaire à l'appropriation et à la compréhension des spécificités du nouveau média. Au-delà, des aspects purement techniques, il reste donc important de comprendre ces spécificités et les enjeux que représentent aujourd'hui les choix technologiques pour faire de l'édition électronique. A travers le rappel des différentes étapes que nous avons vécu ces quinze dernières années, nous voudrions faire l'état actuel de la réflexion et des outils mis à notre disposition.

I- De l'imitation à la prise en compte des spécificités

1- le mythe du livre électronique

Dans un ouvrage intitulé La révolution de l'imprimé dans l'Europe des premiers temps modernes, l'historienne du livre, Elizbeth l. Eisenstein note :

“Si l'on met côte à côte une copie tardive de livre manuscrit et un des premiers livres imprimés, on peut douter qu'il y ait eu un changement, et encore moins un changement brutal et révolutionnaire.[...] Non seulement les premiers imprimeurs s'efforçaient-ils de reproduire le plus fidèlement possible un manuscrit donné, mais les scribes du XVe siècle leur rendaient la pareille.”2

A y regarder de plus près, le même phénomène s'est produit et se produit encore dans le cas du passage au livre électronique. Même si l'objet matériel livre n'existe plus dans ce contexte, les caractéristiques de présentation en sont conservées. A l'image d'un fichier au format PDF, par exemple, qui est couramment employé pour mettre en ligne des documents, la page est reproduite, un système de feuilletage est reconstitué, la présentation du texte rappelle celle du papier, dans notre exemple, les colonnes.

Image1

Capture d'écran avec le lecteur de fichier PDF, Evince.

Plusieurs raisons peuvent expliquer cette tendance à l'imitation. La présentation du « codex » est le fruit de plusieurs siècles d'études et de recherche en vue d'améliorer le confort de lecture. Par conséquent, un certain nombre de particularités sont aussi bien adaptées à l'écran, par exemple le nombre de mots par ligne. Les conventions et les habitudes sont aussi un facteur déterminant. Les lecteurs ont des repères qui permettent la compréhension du texte, ce que Roger Chartier appelle « la production du sens ». La perte des repères provoquée par des éventuels changements trop rapides engendrerait un rejet des utilisateurs. Enfin, il est habituel d'entendre que la lecture sur écran est malaisée. Cette remarque tient plus d'une habitude et donc d'un aspect générationnel que d'une incompatibilité totale de l'écran avec la lecture.

L'imitation tient aussi aux avantages mis en avant pour présenter les nouvelles technologies, comme le Web, en particulier la diffusion. Le Web a d'abord été présenté comme une révolution des transmissions, à cet égard nous pouvons rappeler l'expression « autoroutes de l'information », et non comme un changement dans la production ou la manipulation des textes. Il n'est donc pas étonnant que les premières expériences aient avant tout mis l'accent sur les aspects de diffusion et de disponibilité des textes. De plus, l'absence d'outils spécifiques a poussé à l'utilisation des outils existants souvent bien connus et qui semblaient adaptés, en particulier les traitements de texte et les logiciels de PAO, d'où l'utilisation massive de PDF qui est à l'origine un format d'impression.

2- Une deuxième étape : la numérisation

Le potentiel que représente la numérisation pour la mise à disposition du patrimoine pour le plus grand nombre a été très tôt perçu et constitue ainsi une deuxième étape. Ainsi, en France, lorsque, en 1988, Jacques Attali, le conseiller de François Mitterand, alors président de la république, lui propose la mise en place d'une « très grande bibliothèque d'un genre entièrement nouveau »3, son idée est précisément de numériser l'ensemble des collections de la Bibliothèque nationale et non pas la construction de la Bibliothèque nationale de France que l'on connaît aujourd'hui4.

Aux yeux de ces pionniers, la numérisation rendait ainsi possible le vieux mythe de la bibliothèque d'Alexandrie, en numérisant tout le savoir du monde, et promettait la mise en place « d' une bibliothèque sans murs »5, grâce à l'accès à tous les fonds numérisés de n'importe quel endroit du globe, à n'importe quelle heure par l'intermédiaire des réseaux6. Inutile de dire que nous sommes encore loin de ce résultat et même si la société Google nous annonce la numérisation de l'ensemble du fonds de cinq grandes bibliothèques anglo-saxonnes7, le travail à accomplir reste considérable. Mais, cet intérêt précoce pour la numérisation, en particulier dans le monde des bibliothèques, a permis d'initier la réflexion sur la mise en ligne de contenus à tous les niveaux : techniques, économiques et juridiques et ainsi de préciser le rôle et la place de la numérisation.

En tant qu'acte technique, la numérisation consiste à scanner ou à photographier un document. Cela représente un acte relativement simple et les techniques étaient déjà bien connues des institutions de conservation par la pratique du microfilmage. Mais, les expériences ont rapidement montré que les problèmes se situaient au moment du traitement et de la diffusion du document numérisé et non pendant sa production.

Cet intérêt précoce pour la numérisation a provoqué une confusion avec l'édition électronique, qui n'est pas encore totalement soulevée. Il apparaît clairement aujourd'hui que la numérisation permet de proposer un fac-similé numérique, c'est à dire qu'elle n'apporte aucune valeur ajoutée éditoriale, en ce sens nous pouvons la comparer à de la réimpression et non à une réédition8. En revanche, la numérisation permet de rendre facilement accessible les documents tels qu'ils sont conservés, garantissant aux chercheurs l'intégrité originale du document numérisé. Elle ouvre des possibilités qui n'existent pas avec le support papier en termes de manipulation : zoom sur le document, mise en perspective assez simple de deux documents, recherche en texte intégral dans le document dans le cas d'une numérisation en mode texte... La numérisation représente une évolution des moyens de diffusion, mais aussi de la manipulation des documents. En cela, elle a constitué une deuxième étape indispensable dans l'appropriation du support numérique.

3- Les spécificités du support numérique

La période que nous avons décrite précédemment n'est pas exempte d'échecs, parfois important, comme les « e-books », par exemple. Pour une partie, ils tiennent à la mauvaise assimilation et prise en compte des spécificités du support numérique et du Web et à un manque de maturité des technologies et des utilisateurs. Heureusement, ils n'ont pas diminué l'intérêt des scientifiques pour l'édition électronique et les cinq dernières années ont vu l'émergence de nombreuses expériences qui ont permis de mieux appréhender les particularités de ce nouveau média.

L'hypertexte est le dispositif essentiel permettant la navigation sur le Web. En effet, il constitue un moyen de relier des informations en réseau qui se caractérise par la mise en place de liens entre des informations contenues sur différentes pages. A l'inverse du support papier, la longueur de la page n'est pas déterminée par des contraintes matérielles (nombre de pages, format de l'ouvrage). La longueur d'une page Web peut être choisie en fonction de critères logiques ou structurels : chapitre, partie, un acte... et non plus physiques comme sur le papier.

Il est alors important de contextualiser chaque page, c'est à dire donner au lecteur, qui peut arriver directement depuis un moteur de recherche ou un autre site sur n'importe quelle page, les moyens de se repérer dans l'hypertexte. Il convient d'afficher la tabularité du texte, c'est à dire toutes les informations sur le texte qui ne sont pas contenues à l’intérieur de celui-ci : la table des matières, les index, les résumés des parties, les notes de bas de page.

Contrairement à ce qui est couramment entendu, le but de l'édition électronique n'est pas de « tuer le livre ». Les utilisations des deux supports ne sont tout simplement pas concurrentes mais complémentaires. Ainsi, à la suite de la première mise en ligne du Cartulaire blanc de Saint-Denis9, il nous est apparu que l'apport principal du numérique se situait au niveau de la facilité et la rapidité d'accès à l'information. Dans un ouvrage papier, il est déterminé par la structure physique du livre, tandis qu'en édition électronique, il dépend de la structure logique déterminée par l'éditeur. L'hypertexte permet ainsi de multiplier les points d'accès directs à l'information. Cela ouvre de nouvelles possibilités dans l'appréhension de l'ouvrage, en permettant la mise en place de parcours de lecture différents en fonction de l'intérêt de chaque utilisateur. Il est donc essentiel de réfléchir à ces point d'accès et au réseau hypertextuel sous-jacent.

L'accès à l'information doit non seulement être assuré à l'intérieur d'un site Web, mais aussi depuis n'importe quel endroit du Web. Il est donc indispensable d'être indexé dans les moteurs de recherche et de permettre le libre accès aux données. Cela passe aussi par la possibilité de citer la page Web. Il est donc essentiel que l'adresse de la page, l'URL, ne soit pas masquée ou changée, pour que les références bibliographiques restent valables.

Enfin, il faut pouvoir garantir l'accès à long terme à l'information et donc la pérenniser. Or, la conservation du document numérique pose d'importants problèmes qui ne sont réglés que partiellement. Il serait trop long de rentrer dans les détails de cet épineux dossier. Mais, à l'issue de cette première phase de l'utilisation du support numérique, nous pouvons noter deux choses. D'une part, un des moyens de minimiser les pertes de données, ou du moins l'impossibilité de migrer les données d'un format à un autre, est l'utilisation de langages standardisés dont les spécifications sont ouvertes et libres. D'autre part, des réflexions se sont engagés, en particulier dans le domaine des étude spatiales qui ont un très grand nombre de données essentielles à conserver, pour mettre en place un modèle conceptuel de conservation du document numérique, qui a abouti à une norme ISO, l'OAIS (Open archival information system)10 dont l'implémentation est expérimenté, en France, par la BnF et au CNES par exemple.

II- De l'adaptation à l'émergence de nouvelles perspectives éditoriales

1- L'utilisation des standards ouverts et libres, un exemple XML

Les expériences menées dans la première phase d'appropriation du support numérique ont montré la nécessité de l'utilisation de standards ouvert et libres pour répondre au mieux aux problèmes posés par ce nouveau média. Dans le cadre du Web, un organisme est chargé de ce travail de normalisation, le W3C11. Parmi les recommandations de cet organisme, l'une d'entre elles répond parfaitement aux problèmes et aux spécificités du Web : le XML.

Le principe fondamental du XML est la séparation des mises en forme et des contenus. Nous avons donc d'un côté la structuration logique du texte mise en lumière au moyen de balises. Ces balises permettent de caractériser des portions au sein d'un texte, ce que les informaticiens nomment par un abus de langage la sémantisation du texte. La présence d'une balise indique que la portion de texte a une caractéristique au sein du document, par exemple un paragraphe, et le nom de la balise indique de quel type de caractéristique il s'agit. De l'autre côté, nous avons la mise en forme du texte, c'est à dire les interfaces de navigation.

Exemple :

Dans ce contexte, il est important que les sites d'un même domaine utilisent une même grammaire de balisage qui détermine le nom des balises et leurs règles d'utilisation. Il est alors possible de faire des requêtes sur les balises dans plusieurs sites, c'est à dire de faire des recherches dans plusieurs textes grâce aux différents types de caractéristiques, même si les interfaces de navigation propres à chaque site sont différentes.

Ces grammaires sont appelées DTD ou schéma. Or, depuis 15 ans, il en existe une qui correspond assez bien à nos besoins : la TEI (Text Encoding Initiative)12. L'avantage de cette DTD est qu'elle est générique ; on peut ainsi décrire et structurer de la même façon les informations de types de sources complètement différents. Mais, pour répondre aux besoins spécifiques des éditions diplomatiques et se mettre d'accord très précisément sur la syntaxe utilisée, un groupe de travail a été lancé l'an dernier à l'initiative de Georg Vogeler, le CEI13 (Charters encoding initiative) dont le premier rassemblement a débouché sur la volonté d'utiliser la TEI, tout en réfléchissant à un vocabulaire commun et en proposant l'introduction de nouvelles balises spécifiques.

Outre l'interopérabilité, ce principe de séparation du contenu et de la mise en forme garantit aussi la conservation, puisque les données ne sont pas spécifiques à une application et à un outil informatique qui deviendra rapidement obsolète. De plus, le fait d'utiliser un standard ouvert et libre, comme la TEI, permet aussi de garantir à tous l'accès aux règles de balisage, donc à la structure logique et à la compréhension du texte. Malgré tout, utiliser un standard n'est pas une garantie éternelle, car personne ne peut prédire les changements dans ce domaine, mais, si une communauté suffisamment importante utilise le même standard, nous pouvons espérer que des outils seront développés pour faire évoluer automatiquement nos textes.

2- L'apport du support numérique pour l'information historique14

Il apparaît que l'appropriation du Web par les chercheurs passent par une phase d'adaptation, que nous vivons à l'heure actuelle, des publications existantes. En effet, changer radicalement les habitudes serait contre-productif, puisque les utilisateurs rejeteraient la nouveauté. Mais, adaptation ne signifie pas imitation et il est impératif de montrer l'apport du Web dans le travail des chercheurs. En partant des expériences de l'Ecole des chartes, je voudrais faire le point sur les outils à notre disposition et leurs apports.

J'ai déjà rappelé dans la première partie les apports de la numérisation pour l'étude de la source : zoom, manipulation aisée du fichier électronique, possibilité de découper des détails de plusieurs documents pour les mettre en parallèle et aussi de pouvoir associer le texte et l'image. (Exemple : l'édition critique des chartes de l'abbaye de Corbie par Laurent Morelle).

Image2

Dans le cadre des éditions critiques, l'apport fondamental est constitué par la rapidité d'accès à l'information grâce aux tables chronologiques des actes générées automatiquement à partir du balisage, aux cartes géographiques ou bien-entendu à la recherche en texte intégral, rendue possible par le balisage du texte, qui pour l'instant est proposée sans lemmatisation. Exemple : le cartulaire blanc de l'abbaye de Saint-Denis15 et les cartulaires numérisées d'Île-de-France16. De plus, l'édition électronique, dont le coût n'est pas proportionnel au nombre de pages de l'édition permet de proposer plusieurs aperçus d'un même acte et ainsi régler la querelle entre les tenants de l'édition critique et de l'édition imitative.

Image3

Les outils de recherche (dictionnaires, bibliographies, ouvrages de références) trouvent dans le Web une solution à leur principal problème : la mise à jour des informations. A l'inverse du support papier qui impose une réédition, le support électronique grâce aux technologies de bases de données et aux langages permettant son exploitation sur le Web permet une mise à jour immédiate et rapide des informations. De plus, ces technologies facilitent aussi la mise en place de l'outil puisque chaque contributeur peut directement ajouter l'information. Exemple : Base de données bibliographiques des études diplomatique et éditions du domaine français, Bède.

Image4

Les études (articles et monographies confondues), en particulier les revues, ont été les premiers types de publications à être mise en ligne pour trois raisons :

  • Le Web offrait une vitrine sans précédent aux chercheurs pour faire connaître leurs recherches ;

  • Les revues sont un des principal vecteurs de diffusion de la recherche ;

  • Le format de l'article se prêtait particulièrement bien aux caractéristiques de l'hypertexte.

Cela a permis la mise en place d'outils adaptés à une mise en ligne simple et rapide de ce genre de données, tout en respectant l'ensemble des standards cités précédemment. Il s'agit des CMS (Content management system).

3- De nouvelles pratiques éditoriales

Les trois dernières années ont vu l'apparition sur le Web de deux nouvelles pratiques éditoriales qui n'ont pas encore vraiment atteint le milieu de la recherche, mais dont les principes sont à retenir, car elles montrent la direction que ce média est en train de prendre. Il s'agit des blogs et des wikis.

Blog est la contraction de Web et logs, qui désignent les journaux d'événement générés automatiquement par les serveurs. Les blogs sont des sites sur lesquels « une ou plusieurs personnes s'expriment librement, sur la base d'une certaine périodicité »17 dans des articles généralement assez courts, qu'on nomme billet. Tous les domaines sont concernés et il existe aujourd'hui de plus en plus de chercheurs en histoire qui bloguent. Ce type de publication peut donc trouver sa place aussi bien dans le cadre de la recherche : indiquer l'avancement des travaux, partager des références bibliographiques, faire découvrir ses méthodes de travail, prévenir de la tenue d'une conférence ou une exposition... mais aussi de l'enseignement : proposition d'exercices auto-dirigés, prolongement et approfondissement du cours. Le blog peut aussi être conçu comme un outil de valorisation de la recherche auprès du grand plublic dans un souci de vulgarisation. Une des particularités du blog tient à l'interactivité, puisque les lecteurs peuvent directement laisser des commentaires sur chaque billet. Cela permet aussi de mettre en place simplement des échanges.

L'interactivité dont nous parlions pour les blogs est à la base des wikis qui constituent la deuxième innovation. Le wiki est un site dont le contenu est modifiable directement et très facilement par tous les visiteurs dans un esprit participatif et collaboratif. A cet égard, l'expérience la plus aboutie est l'encyclopédie en ligne, wikipedia. Dans ce cas, la validation ne se fait plus a-priori, mais a-posteriori, créant ainsi une nouvelle écologie de l'information. La validation de l'information se fait au fur et à mesure par auto-régulation. Dans le cadre de la recherche, même si cela remet en cause la validation par les pairs, fondement de base dans nos domaines, ces expériences ne sont pas à négliger, car elles permettent une liberté, une rapidité d'action et un partage des connaissances impossibles actuellement. De nombreuses expériences sont en train d'être mises en place sur ce principe que les spécialistes de l'information et les informaticiens nomment l'annotation collaborative.

Conclusion

L'historien de demain ne sera pas forcément programmeur, mais il ne pourra se permettre de ne pas comprendre les enjeux et les spécificités du support numérique. L'appropriation passe aussi par une prise en compte des habitudes de travail, que les informaticiens ne comprennent pas forcément. Les historiens doivent donc guider les informaticiens et les éditeurs électroniques en les aidant à faire la synthèse des habitudes de travail et des innovations informatiques. Loin d'être une révolution, l'informatique peut aider l'historien dans son travail. Les expériences de ces 10 dernières années ont déjà permis de mettre en lumière l'importance du principe de la séparation de la mise en forme et des contenus et donc de l'utilisation du standard XML. Enfin, il est important de ne pas se contenter de l'adaptation de nos publications, il est évident que nos façons de travailler et de publier vont changer. Dans ce cadre, il est essentiel de prendre en compte les nouvelles pratiques qui apparaissent sur le Web comme les blogs et les wikis.

Notes de bas de page

1 Cf Chartier...A préciser à la fin

2 Elisabeth l. Eisenstein, La révolution de l'imprimé dans l'Europe des premiers temps modernes, éd. la Découverte, Paris, 1991,pp. 36-37.

3 Phrase prononcé par François Mitterand lors de de son interview datant du 14 juillet 1988 et annonçant pour la première fois ce projet.

4 François Stasse, La véritable histoire de la grande bibliothèque, éd. du Seuil, Paris, 2002, p. 14.

5 Expression de Roger Chartier à propos des bibliothèques numériques, Roger Chartier, « Lecteurs et lectures à l'âge de la textualité électronique », Text-e.org, colloque virtuel, Ecrans et réseaux, versune transformation du rapport à l’écrit, http://www.text-e.org/conf/index.cfm?fa=texte&ConfText_ID=5

6 Les premières réalisations en matière de numérisation ont été menées à la fin des années 80 et au début des années 90, à l'heure du minitel et du telex. Internet n'en était qu'à ses balbutiements.

7 Cf l'explication de ce projet dans la partie dédiée sur le site de Google : http://print.google.com/googleprint/library.html

8 cf. “Numériser ce n'est pas éditer”, billet paru sur le figoblog, http://www.figoblog.org/document519.php.

9 Olivier Guyotjeannin (dir.), Le Cartulaire blanc de Saint-Denis, éd. École nationale des chartes, (ELEC, n°3), http://elec.enc.sorbonne.fr/cartulaireblanc/.

10 http://vds.cnes.fr/pin/documents/projet_norme_oais_version_francaise.pdf

11 World Wide Web Consortium, W3C, http://w3.org

12 Text encoding initiative, Yesterday's information tomorrow, http://www.tei-c.org/

13 http://www.lrz-muenchen.de/~GHW/index.htm

14 C'est un résumé axé sur la diplomatique de la première partie de l'article “L'édition électronique change tout et rien”, http://www.lespetitescases.net/l-edition-electronique-change-tout-et-rien.

15 Olivier Guyotjeannin (dir.), Edition critique du Cartulaire blanc de Saint-Denis, http://elec.enc.sorbonne.fr/cartulaireblanc/.

16 Cartulaires numérisés de l'Île-de-France, http://elec.enc.sorbonne.fr/cartulaires.

17 Définition de wikipedia, http://fr.wikipedia.org/wiki/Blog

Articles, communications... —