Les petites cases

Structuration

Bilan de 15 ans de réflexion sur la gestion des données numériques

Cela fait maintenant deux ans que j’ai rejoint l’Institut national de l’audiovisuel. Deux années qui m’ont permis de donner une nouvelle impulsion à ma réflexion sur la gestion des données numériques. Deux années passionnantes et qui se concrétisent depuis plus de six mois par le développement d’une infrastructure de traitement et de stockage des données, aboutissement (forcément provisoire) d’une vision de l’architecture du système d’information où la donnée occupe une place centrale, à l’inverse de l’approche traditionnelle par le processus. Deux années dont les résultats font en partie l’objet d’un article pour le prochain livre d’Emmanuelle sur l’avenir des catalogues, à paraître aux éditions du Cercle de la librairie et dont l’écriture m’a donné envie de faire revivre un peu cet espace de partage que j’ai laissé en friche ces dernières années.

Mais avant de partager ces nouveaux éléments, il me semble intéressant de dresser un bilan de ces 15 dernières années afin de tracer la ligne directrice et de brosser aussi les réussites, les échecs et les erreurs. La lecture de quelques (excellents) mémoires du master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes m’ont aussi motivé à préciser (ou repréciser) certaines approximations que j’ai pu rencontrer ici ou là.

Alors, voilà, avant de passer à la suite, un bilan de 15 ans de réflexion sur la gestion des données numériques, forcément subjectif et en aucun cas exhaustif. Il se découpe en quatre phases, qui correspondent à des moments de mon parcours professionnel et, ça va de pair, avec les sujets principaux qui ont été au cœur de ma réflexion. Elles sont les suivantes :

  • l’édition électronique ;
  • la conservation sur le long terme de l’information numérique ;
  • le traitement des données structurées et semi-structurées ;
  • l’architecture de données à l’ère du Big data.

Lire la suite...

Management de l'information Structuration RDF Web sémantique XML Système d'information Sparql Web Causeries Conservation Digital humanities Édition critique Édition électronique Histoire Moteur de recherche SHS TEI Perso

Information numérique : défintions et enjeux

Alors que j'étais en train de préparer une nouvelle formation, je suis retombé sur différents diaporamas que j'avais constitués à l'époque où je travaillais sur la pérennisation de l'information numérique. Comme je n'en aurai plus vraiment l'utilité, je me suis dit qu'il pourrait être intéressant de les partager, plutôt que les laisser dans un recoin de mon disque dur. Last but not least, cela me permettait d'alimenter ce blog, largement en déshérence ces derniers temps...

Ce diaporama est le résultat de la fusion d'une formation que j'avais mise au point pour présenter les enjeux de la pérennisation de l'information numérique à mes collègues d'Atos Origin, lorsque je travaillais sur le projet SPAR de la BnF et d'une présentation de ces problématiques à destination de décideurs. Vous reconnaîtrez peut-être certaines diapos de Manue, en particulier la fameuse disquette.

Placé sous licence CC-BY, ce diaporama est à votre disposition. N'hésitez pas, c'est fait pour ça.

Lire la suite...

Structuration XML Système d'information Web Causeries Conservation Numérisation —  1 commentaire

XML vs RDF : logique structurelle contre logique des données

XML et RDF sont deux modèles différents d'encodage de l'information et, pourtant, ils sont souvent confondus. Le dernier exemple en date est la mise à disposition par la British Library de 14 millions de notices bibliographiques au format, je cite, « RDF/DC ». La confusion est patente de par l'absence d'URI pour identifier les ressources décrites. Or, en tant que lecteur régulier de ce blog, vous savez que l'URI est un des fondements du modèle RDF.

Il est vrai que la distinction n'est pas forcément évidente à appréhender au premier abord et la syntaxe RDF/XML n'arrange pas les choses. J'ai à plusieurs reprises sur ce blog expliqué ce qui différencie les deux modèles : le modèle de l'arbre ou de l'arborescence pour l'un et le modèle de graphes pour l'autre. Mais, ainsi dit, cela n'est peut-être pas clair. Je vous propose donc d'aborder la distinction sous l'angle de la validation des informations pour faire suite à un commentaire sur le Figoblog et la réponse de Manue.

Lire la suite...

Structuration RDF XML Causeries OWL TEI Validation XHTML —  5 commentaires

Quel événement !? Ou comment contextualiser le triplet

L'absence de contextualisation est le principal reproche adressé à RDF par ses adversaires et il est vrai qu'au premier abord cela constitue son principal défaut. En effet, le modèle du triplet à la base de RDF ne permet pas a priori d'exprimer des informations sur le contexte d'application de l'assertion, au contraire d'autres mécanismes de modélisation des connaissances qui offrent nativement des systèmes pour préciser la portée d'une assertion, à l'image, par exemple, des Topic Maps avec l'élément "scope". Ce défaut semble renforcé par deux postulats de base de RDF : chaque assertion exprimée est vraie et chaque triplet est indépendant.

Lire la suite...

Structuration RDF Sparql OWL Geekeries —  8 commentaires

RDFa 1.1 pour corriger les erreurs de jeunesse ?

RDFa est devenu, depuis plus d'un an, un des enjeux des batailles qui se nouent autour de HTML 5. Au cœur de la polémique, c'est ni plus ni moins que l'intégration de RDFa dans HTML 5 qui est en jeu, face au Microdata, principe concurrent proposé par Ian Hickson, un des éditeurs de HTML 5. Je ne vais pas revenir sur les débats qui agitent les spécialistes de la question, d'autant que si certains arguments sont recevables, il en est d'autres qui relèvent plus du combat d'ego. Face aux polémiques qui n'en finissaient plus d'enfler, aux retours des implémenteurs et à l'enjeu que revêtait RDFa suite aux différentes annonces effectués par Yahoo (SearchMonkey) et Google (Rich Snippets) pour ne citer qu'eux, le W3C a décidé de relancer le groupe de travail RDFa au mois de janvier 2010.

Lire la suite...

Structuration RDFa XHTML Geekeries —  1 commentaire

Photos, livres, musiques, what else ?

N'en déplaise à certains. Le manque de courage et les problèmes de structuration de ma pensée ne sont pas les seuls responsables de la diminution drastique des publications de ce blog. J'ai aussi mis à profit ces derniers mois pour développer plusieurs prototypes visant à démontrer les possibilités offertes par les technologies du Web sémantique et les données mises à disposition selon les principes du Linked Data. Je vous avais déjà présenté « la boîte à souvenirs », Manue s'était chargée, comme il se doit, du « Linked Book Mashup », permettez-moi de vous dévoiler aujourd'hui « Linked My Music ».

Lire la suite...

Structuration Sparql Wikipedia Geekeries Linked Data —  3 commentaires

Les carcans de la pensée hiérarchique et documentaire (2)

Ce billet constitue la suite du précédent billet dont je vous conseille la lecture préalable si ce n'est déjà fait.

Lire la suite...

Structuration Web sémantique XML Système d'information Causeries Édition électronique —  7 commentaires

Les carcans de la pensée hiérarchique et documentaire (1)

Dans un billet intitulé « Comment organiser l'information pour y naviguer efficacement », j'essayais d'analyser en quoi l'organisation hiérarchique de l'information, issue des pratiques d'organisation physique de l'information, que ce soit dans un livre-codex ou sur un système de fichiers, influençait notre pratique du Web et comment, peu à peu, l'hypertexte et certaines pratiques, alors naissantes, comme la folksonomie ou la multiplication des métadonnées pouvaient permettre de dépasser ce paradigme pour démultiplier les accès à l'information et donc son exploitation. Je vous propose de revenir sur ces questions pour comprendre en quoi il est nécessaire aujourd'hui pour appréhender au mieux les enjeux du Web de données de s'abstraire de ce paradigme pour aller vers un nouveau modèle d'organisation et de modélisation de l'information.

Lire la suite...

Structuration Web sémantique XML Système d'information Causeries Histoire —  11 commentaires

Comprendre RDF en moins de cinq minutes

Dans le prolongement de mes billets RDF pour les nuls et A la découverte du Web sémantique, je vous propose de découvrir RDF en cinq minutes à travers quelques slides créés pour des formations au Web sémantique, que j'ai données ces dernières semaines.

Il faudrait que je l'accompagne de l'explication de texte, mais le temps me manque... Il faudra donc s'en contenter ou vous référer aux différents billets de ce blog sur la question.

PS : pour s'amuser, on fait un concours avec Manue : celui qui aura le plus de hit sur un diaporama sur son sujet favori. Alors, cliquez ! ;-)

Lire la suite...

Structuration RDF XML Geekeries —  4 commentaires

Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque

Dans un billet récent écrit à l'occasion des dix ans de XML, Jean-Michel Salaün regrettait que les pistes esquissés dans le second texte de l'initiative Roger T. Pédauque intitulé «  Le texte en jeu. Permanences et transformations du document  » n'aient pas été suivies. Et, pour cause me semble-t-il, si ce deuxième article, comme les deux autres d'ailleurs, apporte incontestablement des pistes de réflexion et certaines idées intéressantes, il comprend des contre-sens et des erreurs si manifestes qu'il n'est possible de s'en servir comme base de travail qu'après une critique attentive, sans compter sur le style que Jean-Michel Salaün lui-même dans le billet cité plus haut qualifie « d'un peu abscons » et que je qualifierais plus volontiers de charabia jargonnant.

A l'heure où le Web sémantique pointe avec plus de prégnance le bout de son nez, il n'est pas inutile de revenir sur ce texte, comme sur les deux autres, pour construire une nouvelle réflexion. C'était d'ailleurs leur but : susciter le débat et la réflexion, sans présager des évolutions futures et selon l'état de l'art du moment. Or, il semble bien qu'une nouvelle étape est sur le point d'être franchie, si ce n'est pas déjà le cas. A titre personnel, si, à l'époque de rédaction du texte, je n'étais pas en mesure de m'immiscer dans le débat, j'espère, aujourd'hui, pouvoir apporter ma pierre à l'édifice.

Avant d'entrer dans le vif du sujet, je voudrais rappeler, pour mémoire, que cette initiative avait été lancée par le réseau thématiques pluridisciplinaires dédié au document, le RTP-DOC d'où le pseudonyme Roger T. Pédauque pour signer les textes collectifs, placé sous le patronage de feu le département STIC du CNRS. L'objectif était de réfléchir selon une approche pluridisciplinaire à la notion de document dans le contexte des changements induits par le numérique.

Lire la suite...

Structuration RDF XML Causeries Indexation Moteur de recherche OWL TEI Validation XHTML Xquery XSLT —  7 commentaires