Depuis que nous nous sommes revus1 à Digital Humanities en juillet, Christian Vandendorpe2 et moi débattons du problème de l'encodage en XML des caractéristiques physiques d'un document.
Depuis que nous nous sommes revus1 à Digital Humanities en juillet, Christian Vandendorpe2 et moi débattons du problème de l'encodage en XML des caractéristiques physiques d'un document.
Parmi les grammaires XML existantes, il en existe trois qui se détachent pour encoder des textes : Docbook mis au point par Norm Walsh dont le but est d'encoder les manuels techniques, XHTML 2 (eh !
Lorsqu'on encode un fichier en XML, bien souvent, on ne prend pas le temps, avant de se lancer à proprement parler dans le codage, de réfléchir à une question simple, mais pourtant essentielle : qu'est-ce-qu'on veut encoder ? Cette question a l'air anodine, mais la réponse peut faire varier de façon très importante la structure du fichier et le choix des balises. Je voudrais essayer de montrer avec ce billet l'impact de cette question dans les stratégies d'encodage.
Avant de passer à l'étape finale de constitution de mon METS et donc de mon SIP, je me suis dit qu'il ne serait pas inutile de s'intéresser à ONIX. Il s'agit d'une grammaire XML mise au point par EdiTEUR, un groupe international d'éditeurs dont la vocation est de coordonner les initiatives et les standards pour le commerce électronique dans le domaine du livre.
PREMIS est l'acronyme de Preservation metadata : implementation strategies. Ce format, mis au point par un groupe de travail soutenu par OCLC et RLG, est destiné à proposer un « framework » des éléments principaux (« core ») pour la conservation du document numérique.
Comme promis dans mes précédents billets, je vais partager avec vous mon utilisation des formats METS et PREMIS pour constituer les SIP (Submission information package, n'en déplaise aux esprits mal placés...), les paquets de versements dans notre entrepôt numérique de données suivant le modèle OAIS.
Ce billet constitue la suite et la fin des billets dédiés à la structuration de l'information et à la description de l'information.
Il existe plusieurs manières de concevoir l'organisation de l'information :
l'organisation physique des fichiers sur une machine ;
On a tendance à confondre les trois actes recouverts par les verbes : structurer, décrire et organiser. S'il est incontestable que leur sens est proche, ces verbes désignent dans le processus de création de l'information sur le support numérique des actions qu'il est essentiel de différencier. S'ils ne sont pas dissociés, il existe des risques d'amalgames conduisant à des mauvais choix technologiques.
Je vous propose une série de trois billets permettant de faire le point sur ce problème :
Contrairement à ce que dit un abus de langage répandu, une page Web n'est pas sémantisée, lorsqu'elle est encodée selon la norme XHTML. Si je reprends la définition de Wikipedia, la sémantique est une branche de la linguistique qui étudie les signifiés, c'est à dire le sens des mots et d'après mon vieux Petit Larousse 1994, la sémantique désigne ce qui est relatif au sens, à la signification des unités linguistiques.
Last week at the Access 2005 conference, I told a room full of mostly library people that their XML standards (I was talking about MODS and MADS in particular) are needlessly complex, inflexible, and awkward; that they were not hacker-friendly. I showed them an alternative schema I’ve been working on that is better, cleaner and much more hacker-friendly XML.