Les petites cases

Structuration générale d'un fichier TEI

Comme nous l'avons vu, il n'existe pas une DTD TEI. Pour autant, tous les fichiers utilisant une DTD issue de la TEI possède la même structuration générale. Tout d'abord, comme tous les fichiers XML, un fichier utilisant une DTD issue de la TEI possède un élément racine qui encadre l'ensemble du fichier : l'élément <TEI.2> qui correspond à l'élément <html> en HTML/XHTML. Il se compose ensuite de deux parties :

  • L'en-tête permettant d'indiquer les métadonnées du document : <teiHeader>

  • Le texte du document : <text>

Exemple :

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE TEI.2 PUBLIC "-//TEI Consortium//DTD TEI Lite XML ver. 1//EN"        
"http://www.tei-c.org/Lite/DTD/teixlite.dtd" [
<!ENTITY % TEI.XML 'INCLUDE'>]>
<TEI.2>
   <teiHeader>
   </teiHeader>
   <text>
   </text>
</TEI.2>

L'en-tête du document

L'en-tête permet d'indiquer toutes les métadonnées descriptives, administratives, juridiques et techniques du document. Il se compose de 4 parties:

  • <fileDesc>, élément obligatoire qui contient les métadonnées descriptives dont les

Comme nous l'avons vu, il n'existe pas une DTD TEI. Pour autant, tous les fichiers utilisant une DTD issue de la TEI possède la même structuration générale. Tout d'abord, comme tous les fichiers XML, un fichier utilisant une DTD issue de la TEI possède un élément racine qui encadre l'ensemble du fichier : l'élément <TEI.2>1 qui correspond à l'élément <html> en HTML/XHTML. Il se compose ensuite de deux parties :

  • L'en-tête permettant d'indiquer les métadonnées du document : <teiHeader>

  • Le texte du document : <text>

Exemple :

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE TEI.2 PUBLIC "-//TEI Consortium//DTD TEI Lite XML ver. 1//EN"        
"http://www.tei-c.org/Lite/DTD/teixlite.dtd" [
<!ENTITY % TEI.XML 'INCLUDE'>]>
<TEI.2>
   <teiHeader>
   </teiHeader>
   <text>
   </text>
</TEI.2>

L'en-tête du document

L'en-tête2 permet d'indiquer toutes les métadonnées descriptives, administratives, juridiques et techniques du document. Il se compose de 4 parties:

  • <fileDesc>, élément obligatoire qui contient les métadonnées descriptives dont les éléments obligatoires sont :

    • <titleStmt> regroupe les éléments de titre du document avec l'élément <title> ;

    • <publicationStmt> rassemble les éléments décrivant la publication ou la distribution du texte (éditeur, diffuseur... ;

  • <sourceDesc> permet d'indiquer la source du document balisé en TEI ;

  • <encodingDesc> décrit l'encodage effectué, en particulier le choix des balises

  • <profileDesc> fournit les éléments de description des aspects « non bibliographiques », c'est à dire entre autres les langues utilisées, les différentes personnes responsables du balisage ou encore les différentes mains du document original dans le cas de la transcription d'une source manuscrite.

  • <revisionDesc> indique l'historique des différentes version du document électronique, les changements effectués avec leur date de révision par exemple.

Exemple :

<teiHeader>
   <fileDesc>
      <titleStmt>
         <title>
            Le petit chaperon rouge
         </title>
      </titleStmt>
      <publicationStmt>
         <p>Gautier Poupeau</p>
      </publicationStmt>
   <sourceDesc>
      <p>Perrault, Charles, Les contes</p>
   </sourceDesc>
</fileDesc>
</teiHeader>

Le texte

L'élément <text> encadre le texte du document. Le nom très général de cette balise permet de choisir la granularité : le texte peut aussi bien recouvrir une nouvelle qu'un recueil de nouvelles par exemple. Le choix est donc laissé à l'appréciation de la personne responsable de l'encodage. Le texte est composé de 3 éléments :

  • <front> contient toutes les parties qui sont avant le texte proprement dit : la page de titre, la préface, l'avant-propos...

  • <body> élément obligatoire qui, comme son nom l'indique contient le corps du texte

  • <back> contient les annexes du texte, postface, index...

Exemple :

<TEI.2>
   <teiHeader>
      <fileDesc>
         <titleStmt>
            <title>
               Le petit chaperon rouge
            </title>
         </titleStmt>
         <publicationStmt>
            <p>Gautier Poupeau</p>
         </publicationStmt>
         <sourceDesc>
            <p>Perrault, Charles, Les contes</p>
         </sourceDesc>
   </fileDesc>
</teiHeader>
<text>
   <body>
      <div>
         <head>Conte</head>
         <p>Il était une fois une petite fille de Village, la plus jolie qu'on eût su voir;
sa mère en était folle, et sa mère-grand plus folle encore. Cette bonne femme
lui fit faire un petit chaperon rouge, qui lui seyait si bien, que partout on
l'appelait le Petit chaperon rouge.</p>
      </div>
   </body>
</text>
</TEI.2>

Les divisions du texte

Tous les textes possèdent une structuration interne propre, vous pouvez avoir des chapitres, des parties, des sous-parties, des livres... Comme vous pouvez le voir dans l'exemple précédent, la TEI utilise l'élément générique <div> pour indiquer les divisions du texte. L'attribut type, dont la valeur est libre, permet d'indiquer de quelle division il s'agit. Cet élément est fondamental en TEI, comme il l'est aussi en HTML/XHTML et il est au coeur du système générique de TEI. Ainsi, la plupart des demandes d'ajout dans la TEI ou des limites que certains utilisateurs dénoncent peut facilement être contournée avec l'élément <div> et son attribut type. Chaque division peut contenir un titre avec l'élément <head>. Ainsi pour reproduire un titre de niveau 1 et un titre de niveau 2, c'est à dire un <h1> et <h2> en HTML, il faut imbriquer deux éléments <div>3 :

<div type="niveau 1">
   <head>Titre de niveau 1</head>
   <div type='niveau 2'>
      <head>Titre de niveau 2</head>
   </div>
</div>

Il existe aussi un système de divisions numérotées : <div0>, <div1>.....<div7>4.

Le paragraphe

Dans le cadre d'un texte en prose, le paragraphe est la structure fondamentale du texte. Pour terminer ce billet, il est donc indispensable de vous indiquer (oh ! surprise) qu'un paragraphe est désigné par l'élément <p>.

Vous connaissez donc maintenant le minimum vital pour structurer un fichier en utilisant la TEI. Vous pouvez visualiser, télécharger et utiliser le fichier de l'exemple de ce billet que j'enrichirai au fur et à mesure. La prochaine fois, on rentrera dans les détails de balisage pour le corps du texte.

Quelques notes en passant

1 A signaler que dans la prochaine version dite P5, l'élément racine sera <TEI>.

2 Je présenterai en détail l'en-tête dans un autre billet, je me contente ici d'indiquer les éléments principaux et/ou obligatoires pour valider le fichier.

3 A signaler que ce système est le même que celui actuellement à l'étude pour la prochaine version de XHTML dite 2.0, http://www.w3.org/TR/2005/WD-xhtml2-20050527/mod-structural.html#sec_8.4.

4 Personnellement, je n'utilise jamais ce système préférant indiquer précisément le type de la division.

TEI Geekeries —