Les petites cases

L'édition critique des sources historiques : du support papier au Web

Comment la TEI a accompagné cette mutation ?

Texte de la communication prononcée le 21 octobre 2005 à Nancy à l'occasion des rencontres de la communauté francophone de la TEI

Depuis quatre ans, l'École nationale des chartes, dont la vocation est de former ses étudiants aux métiers de la conservation du patrimoine écrit mène une politique d'édition électronique qui concernent les publications habituellement produites par l'établissement : manuel méthodologique sur les sciences auxiliaires de l'histoire, base de données bibliographiques, prosopographiques ou de recensement de sources, actes de colloque et surtout l'édition critique de sources. De par cette activité et les sujets traités, nous avons été naturellement amenés à utiliser la TEI. Dans le cadre de cette rencontre, j'aimerais vous faire partager notre expérience en la matière, en montrant comment la TEI nous a permis de passer de la publication sur le support papier à la publication sur le Web et les avantages que nous pouvons en retirer.

I- L'édition critique de sources

Avant de rentrer dans le vif du sujet, il me semble important de vous donner une définition précise de l'édition critique de sources. L'édition critique de sources est un travail à part entière de l'historien dont le but est de « fournir des textes directement utilisable par leurs lecteurs et donc pleinement intelligible ». Pour mener à bien ce travail, l'éditeur scientifique doit non seulement avoir une connaissance parfaite du contexte historique de production de la source et de la source en elle-même, mais aussi une maîtrise des sciences auxiliaires de l'histoire et des disciplines de l'érudition : paléographie pour déchiffrer les écritures anciennes, diplomatique pour critiquer le document d'archive, philologie pour comprendre la structure de la langue, sans parler de la maîtrise du latin et des dialectes utilisés à l'époque médiévale ou de la codicologie pour comprendre la composition physique du manuscrit... Malheureusement, ces disciplines sont peu enseignés à l'université et l'École des chartes demeure une des rares institutions à publier régulièrement des éditions de sources. Pourtant, l’édition de sources s’avère essentielle dans le travail de recherche, puisqu’elle évite la consultation de témoins anciens du texte, permet l’économie, non négligeable dans bien des cas, de la transcription de la source primaire et la mise à disposition d’un texte établi, tout en donnant les premières clefs d’interprétation délivrées par l’éditeur scientifique.

Le travail de l'éditeur scientifique ne se limite pas à la seule transcription du texte. Il représente un travail long et fastidieux composé de plusieurs étapes :

  1. Choisir et rassembler le corpus de sources. Dans le cas des chartes, il faut retrouver l'ensemble des actes et leurs copies qui concernent le sujet délimité ou dans le cas d'un texte littéraire, il faut retrouver tous les manuscrits contenant le texte édité ;

  2. Établir la filiation des témoins des textes. Aussi bien pour les sources d'archives que pour les textes littéraires, il est essentiel de reconstituer la place des différentes manifestations du texte, appelé aussi témoins du texte, pour déterminer les témoins utiles à l'élaboration de l'édition critique ;

  3. Une fois les témoins utiles choisis, l'éditeur doit les collationner, c'est à dire relever toutes leurs différences afin de les indiquer dans l'apparat critique ;

  4. Transcrire et établir le texte accompagné de l'apparat critique, des éventuels notes historiques ou d'identifications des noms de personnes ou de lieux, d'une introduction ;

  5. Dresser les index et les glossaires.

L'édition critique n'est donc pas à confondre avec la critique génétique des textes dont le but est d'étudier les étapes de formations du texte avec des manuscrits autographes. De la même façon, le but étant de faciliter la lecture du texte, il ne s'agit pas d'éditions de travail, de recherche qui imiteraient la présentation originale du texte dont le but est de mener une recherche précise sur la composition du texte : étude de la ponctuation, des coupures de mots... Comme l'expliquent Olivier Guyotjeannin et Françoise Vielliard, deux professeurs de l'Ecole des chartes, il ne s'agit pas de reproduire à l'identique les manuscrits anciens, ce qui est toujours illusoire, puisque la transcription la plus servile contient toujours une part d'interprétation. Évidemment, cela relève souvent de la gageure de vouloir à tout prix respecter le texte, de prendre en compte sa nature et sa tradition et dans le même temps de rechercher la facilité de lecture et l'intérêt des lecteurs. Pourtant, c'est la tâche que se fixent ces chercheurs, essentielle, car elle permet de rendre accessible facilement et rapidement les corpus de sources historiques.

II- Des problèmes de l'édition critique de sources aux apports de l'édition électronique

L'édition critique de sources n'est pas épargnée par la crise que connaît l'édition universitaire, en particulier en sciences humaines et sociales. Les acheteurs sont pratiquement exclusivement institutionnels : bibliothèques, dépôt d'archives ou laboratoires de recherche. De plus, le tirage moyen de ce type de publication baisse régulièrement, atteignant actuellement les 500 exemplaires ce qui empêche de leur donner une visibilité à la hauteur du travail effectué. Enfin, les presses universitaires ont souvent le problème des stocks des ouvrages invendus à gérer. Pourtant, comme nous l'avons vu, ce type de publications s'avère essentiel pour le travail des historiens. Ses problèmes économiques et logistiques nous ont donc amené à faire le pari de l'édition électronique. En effet, en dehors des coûts inhérents à la préparation de l'ouvrage qui sont en gros identiques, la principale différence tient à la rationalisation des dépenses. Alors que, dans le cadre de l'édition électronique, l'investissement est important pour l'achat de matériel et les développements informatiques, les coûts de production sont réduits, puisqu'il n'existe pas de frais d'impression, de diffusion ou de gestion des stocks pour chaque ouvrage comme le support papier. En outre, la mise en place de chaînes éditoriales permet la réutilisation des développements informatiques ultérieurs. De plus, le Web offre une disponibilité accrue des résultats de la recherche et donc une meilleure visibilité potentielle des ouvrages.

Mais, au-delà de ses raisons, nous nous sommes rapidement aperçus que l'édition électronique constituait un apport considérable dans d'autres domaines. Ainsi, l'édition critique de sources représente des entreprises longues et fastidieuses et l'édition électronique permet une souplesse éditoriale salvatrice. Si nous prenons l'exemple de l'édition du Cartulaire blanc de l'abbaye de Saint-Denis que nous menons actuellement à l'Ecole des chartes, l'édition de l'ensemble de l'ouvrage devrait à la vitesse actuelle aboutir vers 2050. Grâce à l'édition électronique, nous pouvons la mettre à disposition au fur et à mesure de sa réalisation au rythme d'un chapitre par an ce qui aurait été impossible sur le support papier pour des raisons de coûts.

Par ailleurs, le support numérique offre une accessibilité à l'information impossible sur le support papier. Outre la recherche en texte intégral dont les bases de données textuelles sur cédéroms avaient déjà montrés les énormes possibilités, la mise en place de corpus numériques permet d'envisager le développement d'outils d'analyse lexicale et sémantique. De plus, l'hypertexte multiplie les accès à l'information et rend enfin utilisable facilement les index.

Enfin, le coût n'est pas proportionnel au nombre de pages publiés sur le support numérique, ce qui permet de proposer des documents annexes en plus grand nombre, voire la numérisation de l'ensemble de la source éditée, mais aussi d'envisager l'édition des différents témoins du texte : original et copies voire même de réconcilier les tenants de l'édition dite imitative et critique en proposant différentes vues du texte édité.

III- De la base de données à TEI

1- Une première expérience avec une base de données

Lors de notre première expérience d'édition électronique, nous avons mis en place une base de données avec le SGBD MySQL couplée au langage PHP pour l'affichage dynamique sous forme de pages HTML. En effet, nous n'avions aucune compétence en XML, ni même dans la structuration de l'information. La base de données représentait alors un moyen simple de mettre en place rapidement notre site qui avait valeur de prototype et laissait la possibilité d'une migration en XML. De plus, nous engagions à travers la modélisation de la base de données une réflexion sur la structuration et les particularités « informationnelles » d'une édition de sources.

2- XML : le format pivot

Cette première expérience a permis de prendre conscience de l'insuffisance de la granularité offerte par une base de données et le langage HTML dans la description de l'information par rapport aux besoins des chercheurs. Le niveau de granularité d’une base de données ne peut approcher celui du XML qu'au prix de la mise en place d’une modélisation qui devient rapidement très complexe et donc difficile à gérer. De plus, une base de données a pour caractéristique d'exploser l'information en tables et en champs. La reconstruction du texte est alors artificielle et permise grâce aux requêtes. Il n'existe donc aucun fichier contenant l'ensemble du texte structuré. Au contraire, XML permet de caractériser l'information sans la morceler et présente l'avantage d'être le format le plus pérenne à l'heure actuelle de par la séparation stricte de la mise en forme et du contenu et son indépendance par rapport aux outils. Or, une édition critique de sources n'est pas un article en médecine ou en physique et sa validité scientifique peut durer un siècle et plus, il faut donc assurer sa conservation et son accessibilité à très long terme.

3- Le choix de la TEI

Après avoir envisagé dans un premier temps de créer une DTD ex-nihilo spécialisée dans l'édition des sources d'archives dites diplomatiques, il nous est apparu qu'il serait plus intéressant de partir d'une base existante. Le travail d'élaboration et de maintenance d'une DTD représentait un travail trop fastidieux pour la taille de notre établissement. De plus, nous ne nous limitons pas à l'édition des seules sources diplomatiques et il était essentiel d'utiliser le même outil pour les textes littéraires afin d'envisager une interrogation sur l'ensemble du corpus mis à disposition sur notre site Web. Outre les questions de maintenance, la perspective de s'insérer dans une communauté déjà bien établie autour d'une DTD limitait les risques en matière d'évolutivité et donc de préservation. Bien-entendu, il fallait aussi que cette DTD corresponde parfaitement à nos besoins. Après une rapide étude, nous avons pu conclure que la TEI répondait à tous ses critères. Le travail suivant consistait à s'approprier cette DTD ou plutôt à l'apprivoiser.

IV- La TEI et l'édition critique

L'appropriation de la TEI et un premier choix de balises représentent un travail de plusieurs mois et nous progressons encore dans notre connaissance de la TEI à chaque nouvel ouvrage encodé. Outre le nombre de balises dans la TEI, les difficultés résident souvent dans les habitudes de travail. Par exemple, l'apparat critique est composé d'informations hétérogènes : variantes entre deux versions du texte, mise en avant de la possibilité d'une erreur commise par le copiste, détails diverses sur différents aspects physiques d'un témoin. Leur point commun est d'être rejeté en notes de bas de page grâce à une lettre. Nous aurions pu partir du principe que c'était une note et utiliser la balise ad-hoc, mais il est évident que dans ce cas le rejet en notes relevait d'une commodité d'usage. Nous avons donc fait le choix d'utiliser les balises adaptés à chaque type d'informations. Il nous a donc fallu faire un travail important avec les chercheurs pour comprendre la structuration des informations spécifiques à l'édition critique comme l'apparat critique. Je vais donc vous exposer les différents choix effectués.

Comme je l'ai déjà expliqué, l'établissement de la liste des différents témoins du texte est essentiel pour comprendre la formation du texte, sa circulation dans un espace géographique, ses destinataires, sa postérité et donc l'impact de sa réception. Il est donc essentiel de dresser très scrupuleusement le tableau de la tradition pour les recueils de textes de la pratique et/ou juridiques, c'est à dire les actes ou le stemma, c'est à dire la filiation des différents manuscrits contenant un texte littéraire. La TEI intègre un système pour décrire cette liste grâce à l'élément <witList>. Chaque témoin est décrit dans un élément <witness> et l'attribut sigil permet d'attribuer un identifiant à chaque témoin auquel il sera fait référence dans l'apparat critique. A ce propos, il manquerait peut-être un attribut qui permettrait de noter de quel témoin est issu un autre dans le cas des copies par exemple ou pour mettre en place précisément les stemmae. Dans le cadre de la prochaine version de la TEI, il sera possible d'intégrer pour chaque témoin une description très précise et très hiérarchisée grâce aux nouveaux éléments du chapitre « Manuscript description » et l'élément <msDescription>.

Dans le cadre de l'édition sur le support papier, les éditeurs scientifiques ont mis en place des codes complexes et souvent variables pour indiquer différentes informations : résolutions d'abréviations, restauration d'un mot manquant pour des raisons diverses (impossibilité de lecture, trou dans le parchemin...)... Les éléments décrits dans le chapitre « Transcription of Primary Sources » permettent d'encoder toutes ces informations dont voici quelques exemples :

  1. Pour les abréviations : <abbr> et/ou <expan>. L'utilisation de ces deux balises ne me semble pas claire ce qui a débouché sur deux utilisations distinctes qu'il sera peut-être intéressant de débattre au sein de la communauté concernée. Vous trouverez des textes où les lettres résolues sont encodées avec <expan> et d'autres où c'est le mot contenant l'abréviation qui est encodée avec <expan>. J'ai adopté la dernière technique, car il me semble que le plus intéressant est ensuite de retrouver l'ensemble des mots abrégés pour les étudier et non pas les lettres. Pour pouvoir indiquer les lettres résolues et les afficher ensuite en italique, j'utilise <hi> ;

  2. Les ajouts postérieurs, en particulier sous forme de notes marginales, peuvent être encodés avec la balise <add> ;

  3. Les balises <gap> et <supplied> permettent d'indiquer respectivement une lacune impossible à combler et une proposition de l'éditeur pour combler une lacune.

  4. Les variations graphiques dans le traitement des lettres : mots en capitales, caractères allongés : sont indiqués avec la balise <hi> accompagné de l’attribut rend pour indiquer le type de variations.

Le travail le plus important que nous avons mené concerne évidemment l'apparat critique. Comme je l'ai déjà exposé, il rassemble en notes différentes informations permettant de donner des indications précises au lecteur sur l'établissement du texte par l'éditeur scientifique. Nous avons pu dégager trois grands types d'informations dans l'apparat critique :

  1. Les variantes de lecture entre deux témoins du texte

  2. Les lectures ou graphies curieuses

  3. Les informations sur le témoin du texte : précision sur le support physique, sur la présentation du texte ou sur la graphie d'un mot.

La TEI offre un système avancé pour le codage des variantes textuelles. Chaque variante est codée avec la balise <app>, la leçon retenue par l'éditeur scientifique avec <lem> et toutes les autres leçons avec <rdg> complétée par l'attribut wit pour indiquer l'identifiant du témoin dans la <witList>.

Pour les lectures et graphies que l'éditeur juge curieuses, l'habitude est d'indiquer le terme latin sic, soit entre parenthèses après le mot, soit en notes de bas de page. Il peut être suivi d'une proposition de correction et d'une explication. Nous utilisons la balise dédiée à cette information <sic> avec l'attribut corr pour indiquer l'éventuelle correction et le degré de certitude de la correction avec l'attribut cert.

Enfin, pour toutes les informations concernant le témoin du texte ce qui constitue pratiquement toutes les autres notes de l'apparat critique, nous utilisons la balise <witDetail> en indiquant le témoin concerné dans l'attribut wit et éventuellement la précision du type de détail avec l'attribut type.

Les textes littéraires du Moyen Âge sont parsemés de citations d'ouvrages plus anciens, bibliques ou patristiques dans la plupart des cas, qui ne sont pas clairement identifiées dans le texte. Dans ce cas, l'éditeur se doit de repérer ces citations et d'en déterminer l'origine en l'indiquant dans les notes de bas de page. De la même façon que pour l'apparat critique, nous avons fait le choix de ne pas utiliser l'élément <note>, mais plutôt la balise TEI ad-hoc : <cit>. Le corps de la citation est encadré par <quote> et la référence bibliographique dans <bibl> avec un identifiant renvoyant à la référence complète dans la bibliographie en fin de fichier.

Ce système de références à un identifiant avec l'attribut corresp est aussi utilisé dans le cadre des identifications de noms de lieux ou de personnes avec les éléments <placeName> ou <persName>, mais aussi pour les références bibliographiques abrégés dans les notes de bas de page ou encore pour faire référence à un glossaire de termes pour lequel on utilise l'élément <term>.

V- Les procédures de travail

Avant de commencer le balisage d’une édition, nous commençons par déterminer en compagnie de l’éditeur scientifique le niveau de balisage qu’il souhaite adopter et les différentes balises qu’il souhaite utiliser, en dehors d’un jeu de balises par défaut qui reprend les pratiques de la publication papier. Pour cela, nous avons édicté une règle : toutes les informations balisées doivent avoir une utilité : soit pour mettre en valeur graphiquement un élément par rapport au reste du texte, soit pour refaire sortir cet élément dans le cadre d’une recherche précise ou dans des index. Ce choix s’explique, en partie, par le temps que prend le balisage fin d’un texte ; ainsi, le balisage reflète les besoins et les problématiques de l’éditeur scientifique, sans préjudice du fait qu’un autre utilisateur pourra reprendre notre fichier XML pour le baliser en vue d’une autre problématique ou d’un autre intérêt.

Après l'étude du tapuscrit, généralement un fichier issu d'un traitement de texte, remis par l'éditeur scientifique, nous établissons donc un premier prototype comprenant à la fois un fichier XML de quelques pages encodées, mais aussi une proposition de rendu de site Web en HTML. En effet, pour nos chercheurs, il est encore difficile de leur expliquer les problèmes de la structuration du contenu en leur montrant le fichier XML, ils ont besoin du résultat final pour se rendre compte des problèmes posés. Cette étape s'avère nécessaire pour affiner les choix de balises et préciser les quelques incertitudes. Une des difficultés dans ce travail réside dans le fait que chaque type de sources présente une structuration spécifique, sans parler des exigences différentes des éditeurs scientifiques. De plus, il est souvent difficile de structurer un texte qui par nature n'avait pas de structures comme c'est le cas pour les textes littéraires médiévaux pour lesquels la notion de chapitre a été souvent recrée. Malgré tout, ce travail est essentiel, car il permet de renouveler les grilles de lecture souvent stéréotypées.

Nous encodons ensuite l'édition au sein du service recherche et valorisation et mettons au point dans le même temps les feuilles de style XSL pour le rendu HTML. Pour cela, nous utilisons le logiciel oXygen qui nous a semblé le plus adapté après avoir testé TEI-Emacs, Xmetal et XMLSpy. Nous ne générons pas notre site Web statiquement, nous avons préféré générer dynamiquement les pages HTML grâce au parser XSLT xsltproc et au langage PHP pour faciliter la mise à jour du site en ne modifiant que le fichier XML. Enfin, il faut souligner que nous appliquons strictement le principe de séparation de la mise en forme et du contenu, même avec HTML, puisque l'ensemble de la mise en page est gérée par les feuilles de style CSS. Cela permet d'optimiser l'accessibilité de nos pages Web aux différents navigateurs, mais aussi de respecter les règles établies par le WAI.

VI- Présentation des réalisations

Théléme1

Exemple d'utilisation de la TEI pour coder des parties d'une image et les associer à du texte.

Le cartulaire blanc de l'abbaye de Saint-Denis2

Premier exemple d'un encodage d'édition critique de sources. Apports du balisage : les statistiques fournis automatiquement, un rendu homogène à l'écran, la recherche plein-texte (même s'il n'y a pas de lemmatisation)

L'obituaire du Saint-Mont3

Un exemple pour lier image numérisée du manuscrit et l'édition critique.

Numérisation des cartulaires d'Île-de-France5

Numérisation en mode image de l'ensemble des ouvrages et avec un balisage en TEI pour les parties concernant les éditions critiques. Le passage entre le mode texte et le mode image est permis par un schéma XML mis au point par la library of congress qui s'appelle METS. Mise en place de l'interrogation du corpus constitué par le Cartulaire blanc et les cartulaires numérisés, soit 1300 actes grâce au logiciel eXist et donc utilisation de Xquery.

NDLA : Deux autres projets ont été présentés : les chroniques latines de Saint-Denis et l'édition critique des chartes de l'abbaye de Corbie. Mais comme ils sont actuellement en cours d'élaboration, je ne peux pas donner l'adresse. Je ne manquerai pas de vous en faire part.

VII- Perspectives d'avenir

Une des difficultés à laquelle nous sommes confrontés est bien-sûr les ressources humaines pour mener à bien l'encodage des textes. Actuellement, tout le travail d'encodage est mené par le service Recherche et valorisation de l'École des chartes, c'est à dire deux personnes titulaires, les vacataires et les éventuels stagiaires, sachant que les deux titulaires ont malheureusement beaucoup de choses à faire. Il est donc impératif de mener un travail pour que les chercheurs puissent encoder eux-mêmes les textes au moment de la rédaction de l'édition critique après avoir décidé ensemble des balises utilisées. Pour cela, il faut organiser des formations, écrire des guides de balisage, mettre au point des éditeurs XML accessibles, c'est à dire qui ne demandent pas six mois de travail pour comprendre leurs fonctionnements et peut-être spécialisées voire faire de l'évangélisation pour convaincre les chercheurs qui, pour la plupart, ont plusieurs décennies d'habitude de changer leurs méthodes de travail. Pour autant, l'École des chartes est prête à participer à l'effort collectif dans ce sens, si elle obtient les ressources nécessaires.

Dans le sens de la mise en place des guides de balisage s'est créé, l'an dernier, une initiative pour l'encodage des chartes (Charters Encoding initiative). Rassemblée par un collègue de Münich, Georg Vogeler, cette initiative a pour but de se mettre d'accord sur des normes communes de balisage pour les chartes médiévales. A l'issue de la première réunion, nous nous sommes mis d'accord pour utiliser la TEI en faisant éventuellement de propositions d'ajouts d'éléments au consortium. A mon avis, le but est surtout de se mettre d'accord sur le contenu des attributs pour pouvoir mettre en place des traitements sur nos différents corpus.

En effet, maintenant que nous disposons de contenus qui deviennent significatives et même s'il reste encore beaucoup à faire dans le domaine, il est essentiel de mettre en place des outils pour traiter ces corpus. Deux voies semblent se dégager et sont actuellement à l'étude : la statistique textuelle et les questions relevant des technologies du Web sémantique. Je suis bien incapable de vous parler de la première voie. En revanche, en ce qui concerne les technologies du Web sémantique, nous étudions actuellement les possibilités de constituer des ontologies à partir des termes indexés dans un fichier TEI. En effet, l'indexation représente un premier traitement de la source effectuée par les éditeurs critiques, malheureusement ce travail souvent considérable n'est absolument pas exploité. Grâce aux systèmes d'ontologie, nous pourrions relier les différents termes indexés et dépasser à moindre frais les problématiques des index traditionnels pour mettre en place des bases de connaissance qui viendront compléter les autres outils aidant à la compréhension et à la critique du texte.

Notes de bas de page

1 http://theleme.enc.sorbonne.fr

2 http://elec.enc.sorbonne.fr/cartulaireblanc/

3 http://elec.enc.sorbonne.fr/obituairesaintmont/

4 http://elec.enc.sorbonne.fr/morchesne/

5 http://elec.enc.sorbonne.fr/cartulaires/

Articles, communications... — 

Commentaires

Bonjour.

J'aimerai pouvoir citer cet article : serait-il possible d'en connaître les références ?

Merci d'avance.