Les petites cases

TEI

Bilan de 15 ans de réflexion sur la gestion des données numériques

Cela fait maintenant deux ans que j’ai rejoint l’Institut national de l’audiovisuel. Deux années qui m’ont permis de donner une nouvelle impulsion à ma réflexion sur la gestion des données numériques. Deux années passionnantes et qui se concrétisent depuis plus de six mois par le développement d’une infrastructure de traitement et de stockage des données, aboutissement (forcément provisoire) d’une vision de l’architecture du système d’information où la donnée occupe une place centrale, à l’inverse de l’approche traditionnelle par le processus. Deux années dont les résultats font en partie l’objet d’un article pour le prochain livre d’Emmanuelle sur l’avenir des catalogues, à paraître aux éditions du Cercle de la librairie et dont l’écriture m’a donné envie de faire revivre un peu cet espace de partage que j’ai laissé en friche ces dernières années.

Mais avant de partager ces nouveaux éléments, il me semble intéressant de dresser un bilan de ces 15 dernières années afin de tracer la ligne directrice et de brosser aussi les réussites, les échecs et les erreurs. La lecture de quelques (excellents) mémoires du master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes m’ont aussi motivé à préciser (ou repréciser) certaines approximations que j’ai pu rencontrer ici ou là.

Alors, voilà, avant de passer à la suite, un bilan de 15 ans de réflexion sur la gestion des données numériques, forcément subjectif et en aucun cas exhaustif. Il se découpe en quatre phases, qui correspondent à des moments de mon parcours professionnel et, ça va de pair, avec les sujets principaux qui ont été au cœur de ma réflexion. Elles sont les suivantes :

  • l’édition électronique ;
  • la conservation sur le long terme de l’information numérique ;
  • le traitement des données structurées et semi-structurées ;
  • l’architecture de données à l’ère du Big data.

Lire la suite...

Management de l'information Structuration RDF Web sémantique XML Système d'information Sparql Web Causeries Conservation Digital humanities Édition critique Édition électronique Histoire Moteur de recherche SHS TEI Perso

XML vs RDF : logique structurelle contre logique des données

XML et RDF sont deux modèles différents d'encodage de l'information et, pourtant, ils sont souvent confondus. Le dernier exemple en date est la mise à disposition par la British Library de 14 millions de notices bibliographiques au format, je cite, « RDF/DC ». La confusion est patente de par l'absence d'URI pour identifier les ressources décrites. Or, en tant que lecteur régulier de ce blog, vous savez que l'URI est un des fondements du modèle RDF.

Il est vrai que la distinction n'est pas forcément évidente à appréhender au premier abord et la syntaxe RDF/XML n'arrange pas les choses. J'ai à plusieurs reprises sur ce blog expliqué ce qui différencie les deux modèles : le modèle de l'arbre ou de l'arborescence pour l'un et le modèle de graphes pour l'autre. Mais, ainsi dit, cela n'est peut-être pas clair. Je vous propose donc d'aborder la distinction sous l'angle de la validation des informations pour faire suite à un commentaire sur le Figoblog et la réponse de Manue.

Lire la suite...

Structuration RDF XML Causeries OWL TEI Validation XHTML —  5 commentaires

Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque

Dans un billet récent écrit à l'occasion des dix ans de XML, Jean-Michel Salaün regrettait que les pistes esquissés dans le second texte de l'initiative Roger T. Pédauque intitulé «  Le texte en jeu. Permanences et transformations du document  » n'aient pas été suivies. Et, pour cause me semble-t-il, si ce deuxième article, comme les deux autres d'ailleurs, apporte incontestablement des pistes de réflexion et certaines idées intéressantes, il comprend des contre-sens et des erreurs si manifestes qu'il n'est possible de s'en servir comme base de travail qu'après une critique attentive, sans compter sur le style que Jean-Michel Salaün lui-même dans le billet cité plus haut qualifie « d'un peu abscons » et que je qualifierais plus volontiers de charabia jargonnant.

A l'heure où le Web sémantique pointe avec plus de prégnance le bout de son nez, il n'est pas inutile de revenir sur ce texte, comme sur les deux autres, pour construire une nouvelle réflexion. C'était d'ailleurs leur but : susciter le débat et la réflexion, sans présager des évolutions futures et selon l'état de l'art du moment. Or, il semble bien qu'une nouvelle étape est sur le point d'être franchie, si ce n'est pas déjà le cas. A titre personnel, si, à l'époque de rédaction du texte, je n'étais pas en mesure de m'immiscer dans le débat, j'espère, aujourd'hui, pouvoir apporter ma pierre à l'édifice.

Avant d'entrer dans le vif du sujet, je voudrais rappeler, pour mémoire, que cette initiative avait été lancée par le réseau thématiques pluridisciplinaires dédié au document, le RTP-DOC d'où le pseudonyme Roger T. Pédauque pour signer les textes collectifs, placé sous le patronage de feu le département STIC du CNRS. L'objectif était de réfléchir selon une approche pluridisciplinaire à la notion de document dans le contexte des changements induits par le numérique.

Lire la suite...

Structuration RDF XML Causeries Indexation Moteur de recherche OWL TEI Validation XHTML Xquery XSLT —  7 commentaires

La TEI : principes et fonctionnements

L'ADBS m'a donné l'occasion, la semaine dernière, de me replonger avec grand plaisir dans la TEI à l'occasion d'un 5 à 7. Le but ce cette séance était d'en présenter le principe et le fonctionnement. Ma présentation s'attache donc à montrer les particularités de la TEI et en quoi elle constitue une solution générique à l'encodage des textes en repartant des buts poursuivis par l'encodage et de la démarche particulière de sa conception.

Je me suis inspiré pour la mettre au point des documents, en particulier une présentation de Lou Burnard, Sebastian Rahtz et Matthew Driscoll faite à l'occasion d'une formation à Sofia, mis à disposition sur le nouveau site du consortium TEI dévoilé à l'occasion de son 20ème anniversaire et de la sortie en version finale de la nouvelle version, la P5.

Après toutes ces mois à m'intéresser à RDF, cela a aussi été une opportunité pour préciser dans mon esprit les différences entre RDF et XML et d'affiner mes réflexions sur le concept de texte et de document. Mais, c'est une autre histoire que j'espère pouvoir partager avec vous dans les semaines qui viennent, s'il me reste un peu de temps ;-)

Bonne lecture !

Lire la suite...

Causeries TEI — 

Un peu de lecture

En attendant que je réussisse à émerger, ce qui ne devrait pas tarder (un billet est en train de mûrir, je vous le promets), je propose à ceux que ma prose manquerait un peu de lecture.

Lire la suite...

Structuration Web sémantique Causeries Conservation Digital humanities Édition électronique Indexation TEI Wiki — 

Pour commencer l'année en douceur

Comme il est de bon ton de commencer l'année en vous présentant les meilleurs vœux, je n'échappe pas à la règle et je vous souhaite à tous une bonne et heureuse année 2007. Pour ma part, elle risque d'être décisive en de nombreux points, mais j'espère qu'elle sera un peu moins « bougeante » que 2006.

Pour bien commencer l'année et comme il fallait que je blogue (Manue me donne envie en bloguant à côté de moi ;-) ), je vous propose les supports d'un cours sur la TEI que j'ai donné à l'ENSSIB aux futurs conservateurs au mois de décembre dernier. Pour les besoins du cours, j'avais rassemblé sur une page de ce site tous les liens et tous les fichiers dont nous avions besoin pour les trois séances de TD qui faisaient suite à un cours magistral par Lou Burnard lui-même, s'il vous plaît ! A la suite du cours, j'ai complété cette page avec un lien vers le diaporama et vers les corrigés des exercices. C'est brut de décoffrage, mais je me suis dit que ça pourrait toujours servir, ne serait-ce qu'aux élèves qui ont suivi ce cours et que je remercie au passage pour les bons moments que j'ai passé en leur compagnie pendant ces trois jours à l'ENSSIB : TD sur la

Lire la suite...

TEI Geekeries —  1 commentaire

Des nouvelles du monde XML

J'ai à nouveau mon agrégateur rempli de billets sauvegardés vu que ces derniers temps, j'ai plus fait le tri que lire réellement ce qui y passait. Il y a un moment où il faut se résoudre à vider tout cela. Commençons par les billets autour de XML.

Lire la suite...

Structuration Sparql Causeries TEI Xquery XSLT —  4 commentaires

Les réalités dans l'encodage XML

Depuis que nous nous sommes revus1 à Digital Humanities en juillet, Christian Vandendorpe2 et moi débattons du problème de l'encodage en XML des caractéristiques physiques d'un document.

Lire la suite...

Structuration XML Causeries Édition critique TEI —  1 commentaire

Victoria, le Canada et la TEI, suite et fin

Comme toutes les bonnes choses ont une fin, je m'apprête dans quelques heures à quitter Victoria et à reprendre l'avion pour rentrer à Paris, des souvenirs, des idées, des pensées pleins la tête, comme à chaque fois que je repars d'un colloque.

Comme certains d'entre vous ont eu l'air d'apprécier mon précédent billet (Merci encore Jean-Paul), je m'en vais vous conter la fin de ces journées. En fait, cela va aller assez vite (j'en vois certains qui sont rassurés dans la salle). Je n'ai pas vraiment assisté à un SIG, pris par l'écriture de mon précédent billet et la perspective de la poster session. D'ailleurs, cette dernière s'est bien déroulée, le poster que j'avais fait a été apprécié (encore merci à Nico et Manue pour leur coup de main). Notre projet de numérisation des cartulaires numérisés a fait l'admiration des différents bibliothécaires présents qui se sont succédés pour savoir comment nous utilisions METS. Quant aux geeks de la TEI et aux chercheurs, c'est surtout theleme, notre manuel en ligne de sciences auxiliaires qui a retenu leur attention. Quant aux autres posters, je n'ai pas vraiment eu le temps de les voir et pour la plupart ils

Lire la suite...

Causeries Digital humanities Numérisation TEI — 

Causeries sur la TEI à l'autre bout du monde

Après Manue, c'est à mon tour de traverser l'Atlantique pour assister à un événement annuel en relation avec ma communauté. J'ai même poussé le vice à traverser le continent nord américain d'est en ouest jusqu'à Victoria, ville située au Canada dans la région de la Colombie britannique sur la côte pacifique à quelques centaines de kilomètres de Vancouver et ainsi rejoindre mes camarades, amis et collègues de la TEI pour l'assemblée générale annuelle des membres du consortium.

Après un périple de 16 heures, deux lignes de métro, un RER, trois avions et un bus pour finir, j'ai pour la première fois de ma vie mis le pied hors d'Europe et, même si le colloque ne me laisse pas le temps d'apprécier pleinement la ville, le peu que j'en ai vu ne me déçoit pas. Quant aux 12 heures d'avion, qui, je dois l'avouer, m'inquiétaient, ça a été l'occasion de survoler le Groënland, instant magique que je ne suis pas près d'oublier.

Mais, trêves de bavardages, je n'ai pas fait plusieurs milliers de kilomètres pour faire du tourisme (franchement quelle idée !!...), mais pour travailler (c'est bien plus sérieux ! ;-) ). L'assemblée générale de la TEI est

Lire la suite...

Causeries TEI —  3 commentaires