Les petites cases

La mise en valeur d'une portion de texte en TEI

Dans le dernier billet, j'ai expliqué la structuration générale d'un fichier TEI. Afin de continuer notre découverte et toujours dans la perspective de passer le plus vite possible au balisage d'un texte, je vous propose de continuer avec une série de billet sur ce que j'ai dénommé « éléments principaux d'un texte », faute de trouver mieux, c'est à dire le codage des emphases, des mots étrangers, des citations, des notes, des listes... Bref, tous les éléments principaux de structuration de l'information que l'on trouve en-dessous d'une division ou d'un paragraphe.

A tout seigneur, tout honneur, commençons par la mise en valeur d'une portion de texte et donc par l'italique qui me semble la mise en forme typographique la plus utilisée dans les textes. L'italique permet de mettre en valeur une portion de texte au sein d'une phrase ou d'un paragraphe. Nous sommes tellement habitués à son utilisation que nous ne nous en demandons même pas les raisons, ce sont souvent des conventions qui guident ce choix typographique. Pourtant à bien y réfléchir, l'italique recouvre des informations très différentes : le titre d'un ouvrage, un mot dans une langue différente que la langue principale du texte, une emphase... A mon avis, la plupart des gens pensent : « j'indique cette portion de texte en italique, car c'est un titre », mais, dans le cadre de l'encodage en XML et a-fortiori en TEI, il faut plutôt se dire : « c'est un titre, donc je le code avec <title> et ma feuille de style XSLT me permettra de l'afficher en italique ». De la même façon, si vous avez un paragraphe entier en italique dans un texte, est-ce-que l'italique signifie que c'est une emphase et donc il faut que je code et le paragraphe et l'emphase OU est-ce-que c'est le paragraphe qui a un statut particulier et qu'on le met en valeur typographiquement par une italique ? J'ai l'air de me compliquer la vie avec mes questions, mais, si vous voulez comprendre précisément les principes de l'encodage en TEI, il est essentiel de se les poser, car il serait dommage de multiplier les éléments alors qu'une simple information dans un attribut suffit souvent1.

Cette petite explication permet de comprendre pourquoi il n'existe pas d'éléments pour baliser spécifiquement une portion de texte en italique. Cette convention typographique ne peut exister dans le cadre de XML. Je signale au passage qu'elle n'existe plus clairement dans les normes HTML 4.01 et suivantes. L'élément <i> a été déprécié au profit de l'emphase <em> qui est affiché par défaut par les navigateurs en italique ce qui minimise la différence.

Finalement, on dispose pour la TEI de plusieurs éléments pour mettre en valeur une portion de texte :

  • <foreign> permet de désigner l'information qui se trouve dans une langue différente de la lanque principale du texte. Vous pouvez affiner en complétant l'attribut lang ;

  • <title> permet de désigner le titre d'un ouvrage, mais je reviendrai plus longuement dans un autre billet sur le codage des références bibliographiques ;

  • <emph> marque un mot ou une phrase qui sont accentués ou mis en valeur pour des effets linguistiques ou rhétoriques ;

  • <hi> marque un mot ou une phrase comme graphiquement distinct du texte environnant sans raisons précises.

On indique le rendu graphique de la mise en valeur avec l'attribut rend. Je dois avouer que j'ai toujours du mal à voir précisément la différence entre <emph> et <hi>. Mais, j'ai pris l'habitude d'utiliser <hi> pour faire un italique autre que <foreign> ou <title> ce qui donne <hi rend="italic">. De la même façon, les exposants sont codés <hi rend="superscript">.

Quelques notes en passant

1 Pour ceux qui veulent aller encore plus loin dans cette réflexion, je vous conseille de lire la savoureuse partie intitulée « What is Highlighting ? », dans le guidelines de la TEI, http://www.tei-c.org/P4X/CO.html#COHQ.

TEI Geekeries —