Les petites cases

Bilan de 15 ans de réflexion sur la gestion des données numériques

Cela fait maintenant deux ans que j’ai rejoint l’Institut national de l’audiovisuel. Deux années qui m’ont permis de donner une nouvelle impulsion à ma réflexion sur la gestion des données numériques. Deux années passionnantes et qui se concrétisent depuis plus de six mois par le développement d’une infrastructure de traitement et de stockage des données, aboutissement (forcément provisoire) d’une vision de l’architecture du système d’information où la donnée occupe une place centrale, à l’inverse de l’approche traditionnelle par le processus. Deux années dont les résultats font en partie l’objet d’un article pour le prochain livre d’Emmanuelle sur l’avenir des catalogues, à paraître aux éditions du Cercle de la librairie et dont l’écriture m’a donné envie de faire revivre un peu cet espace de partage que j’ai laissé en friche ces dernières années.

Mais avant de partager ces nouveaux éléments, il me semble intéressant de dresser un bilan de ces 15 dernières années afin de tracer la ligne directrice et de brosser aussi les réussites, les échecs et les erreurs. La lecture de quelques (excellents) mémoires du master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes m’ont aussi motivé à préciser (ou repréciser) certaines approximations que j’ai pu rencontrer ici ou là.

Alors, voilà, avant de passer à la suite, un bilan de 15 ans de réflexion sur la gestion des données numériques, forcément subjectif et en aucun cas exhaustif. Il se découpe en quatre phases, qui correspondent à des moments de mon parcours professionnel et, ça va de pair, avec les sujets principaux qui ont été au cœur de ma réflexion. Elles sont les suivantes :

  • l’édition électronique ;
  • la conservation sur le long terme de l’information numérique ;
  • le traitement des données structurées et semi-structurées ;
  • l’architecture de données à l’ère du Big data.

L’édition électronique (2001-2006)

Le « temps de l’innocence » me paraît résumer parfaitement cette première période. A l’aube de ce nouveau siècle, tout est à inventer sur le Web dont la promesse est de rendre accessible à tous, gratuitement et en un clic de souris, toutes les connaissances du monde. Au niveau technologique, c’est l’heure du balbutiement : HTML, Javascript, Front page et Dreamweaver sont les outils de cette nouvelle révolution de l’informatique.

Au sein de l’équipe embauchée par l’Ecole nationale des chartes pour mettre au point son site Web, il apparaît rapidement qu’on peut aller plus loin qu’un simple site institutionnel et que les positions de thèse, numérisation de fac-similés, actes de colloque et autres éditions critiques qui traînent sur des disquettes et autres cédéroms trouveraient parfaitement leur place sur le Web. Pour atteindre cet objectif, il faudra ajouter au panel d’outils du départ bien d’autres technologies : PHP, MySQL, CSS, XML, XSLT, Cocoon, eXist et réfléchir tant au niveau scientifique, politique et économique qu’aux conséquences de ce basculement

Faire du Web ne se limite bientôt plus à coder quelques pages HTML à la main ou dans un éditeur WYSIWYG. Le temps du bidouillage laisse peu à peu la place à des plateformes qui permettent un premier niveau d’industrialisation ; les premiers CMS apparaissent dont LODEL, orienté précisément pour les besoins de l’édition électronique scientifique en SHS, pionnier mis au point par Revues.org et au développement duquel j’ai eu la chance de participer.

Après un détour en partie raté par la recherche dans le domaine des IHMs (on parlerait aujourd’hui d’architecture de l’information ou d’UX/UI design…), la grande découverte de cette phase est XML. En séparant la forme du fond, XML laisse entrevoir la possibilité à la fois de valoriser sur le Web les éditions critiques de sources historiques et de les exploiter informatiquement avec des problématiques scientifiques (lexicométrie, analyses de balises, statistiques diverses...) tout en s’assurant d’une indépendance à l’égard des langages et logiciels. Dans ce cadre, XML est indissociable de la TEI, Text Encoding Initiative, framework composé de plus de 400 éléments (à l’époque… J’imagine que ça a évolué depuis ?) et qui permet, en fonction du texte à encoder, de construire un schéma XML répondant aux objectifs d’encodage. En réfléchissant à la modélisation des éditions critiques en XML, c’est leur nature même qu’on a interrogé, leur structure, leur logique, leur objectif. Entre autres, avec XML, le vieux débat entre critique génétique d’un côté et édition critique de l’autre s’épuise de lui-même, car il est possible d’encoder l’un ou l’autre ou les deux aspects en fonction de la problématique du chercheur et/ou des objectifs de valorisation. Et si l’encodage en lui-même n’est pas l’exercice scientifique le plus passionnant, la mise au point des principes d’encodages est clairement un travail scientifique.

Si XML convient parfaitement à l’encodage des différentes parties d’un document, il ne sert en revanche pas à encoder le message véhiculé par le document et qui existe en dehors même de celui-ci. Or, c’est précisément le rôle du RDF, modèle de base des technologies du Web sémantique. C’est pourquoi, dès 2005, je vais commencer à m’intéresser au Web sémantique et à l’articulation entre XML et RDF que, grâce au CCH du King’s college, je vais avoir l’occasion de tester pour la première fois.

Je garde un regret pour cette période : en insistant à ce point sur l’édition électronique, même si le travail effectué était indispensable, il me semble que nous avons profondément marqué et orienté dans ce sens l’utilisation de l’outil numérique en SHS, oubliant qu’il ne se limitait pas à la valorisation des résultats de la recherche mais pouvait aussi être utilisé pour effectuer cette recherche. Même si aujourd’hui les choses ont évolué, cela a certainement été une erreur. Or, c’est le second regret, il aurait été, par exemple, intéressant dès cette époque de trouver le moyen de lier les travaux autour de l’exploitation statistique du texte (surtout au regard de l’importance prise par la statistique dans l’exploitation actuelle des données) et ceux autour de l’encodage. Ils n’étaient pas incompatibles, comme le démontre par exemple le travail de Jean-Baptiste Camps.

Même si, à l’issue de cette période, je me suis orienté vers les problématiques de « back office », l’infrastructure interne, au détriment du « front office », les applications en lien direct avec les utilisateurs, cette première expérience dans le Web me permet de ne jamais oublier qu’une modélisation ou un système quel que soit sa complexité est au service d’un objectif et qu’ils ne se suffisent pas à eux-mêmes…

La conservation sur le long terme de l’information numérique (2006-2010)

La recherche scientifique s’appuie sur des sources/expériences/études (etc… rayez la mention inutile en fonction de votre discipline…) et les autres travaux scientifiques. Le fait de pouvoir non seulement citer mais aussi garantir l’accès aux éléments cités est donc essentiel dans le processus de la recherche. La crédibilité de l’édition en ligne scientifique passe par le fait d’en garantir l’accès sur le long terme. Cette question est rapidement devenue cruciale, d’autant plus lorsque les éditions en question sont des éditions critiques de sources historiques dont la validité scientifique peut largement dépasser le siècle, ce qui diffère de la valorisation des recherches en sciences dures par exemple.

Or, si l’utilisation de XML dans ce contexte paraît à différents niveaux appropriée, elle ne suffit pas à garantir la pérennisation de l’information numérique. La norme OAIS va dès lors devenir mon livre de chevet pour les quatre années suivantes, et les métadonnées sous toutes leurs formes une obsession. C’est d’abord à une échelle très modeste que je vais essayer de mettre en pratique les bonnes pratiques de la gestion de l’information numérique, avec la mise en place de l’infrastructure technique du centre de ressource numérique TELMA, en collaboration avec les collègues de l’IRHT. Outre le fait que ce développement m’a donné l’opportunité de réfléchir aux différentes informations nécessaires pour garantir la description des fichiers numériques (METS, PREMIS…), il m’a aussi permis de faire mes premier pas dans l’architecture des systèmes d’information. Or, si cette architecture garantissait une stricte séparation entre les documents (éditions critiques, actes de colloque, bases de données…), leurs métadonnées et l’infrastructure de valorisation en ligne, elle présentait de nombreux défauts en termes de stabilité, de performance et surtout de complexité d’appropriation. Bref, elle démontrait un manque flagrant de connaissance et de maturité dans la construction d’un SI.

Mon arrivée chez Unilog Management en mars 2007 va être justement l’occasion de commencer à combler ces lacunes. Bien décidé à appliquer, depuis une structure privée, mes idées à d’autres organisations publiques, j’ai d’abord eu l’occasion, pour les besoins d’une étude pour un client, d’aller au bout des principes qui sont au cœur de l’OAIS pour forger le concept de « logique informationnelle », première tentative pour placer la donnée au cœur de l’architecture du système d’information. Mais comme le notait alors un contributeur à un billet de ce blog, « vous décrivez là, non pas "le SI de demain", mais du surlendemain ». C’était bien vu puisqu’il faudra attendre neuf ans pour voir ces idées se populariser.

Après ce rapide (mais fondateur…) détour, le développement du projet SPAR (Système de préservation et d’archivage réparti) à la BnF va constituer un terrain d’expérimentation et d’apprentissage extraordinaire. Résumer le projet est simple : il s’agissait de déployer une infrastructure qui suive à la lettre le modèle OAIS. La mise en œuvre, par contre, s’avérera beaucoup plus compliqué. Si l’étude de préfiguration menée par la BnF avait permis de défricher le terrain, de nombreux verrous technologiques non identifiables au préalable sont rapidement apparus et sont venus complexifier le projet.

Le cas d’usage qui a servi de base à toute la conception du système est le suivant : à partir de la lecture des seules bandes LTO contenant l’ensemble des fichiers à conserver, l’organisation doit être capable dans 10, 50, 100 ans de reconstruire l’ensemble du système et de posséder une vue exhaustive et complète du contenu intégral de la collection afin de l’exploiter au mieux. Pour y parvenir, deux points sont fondamentaux : une stricte indépendance entre les fichiers à conserver et le système qui en permet la conservation et une parfaite maîtrise de la collection de fichiers numériques aussi bien au niveau du train de bits que dans la nature et le contenu du fichier lui-même.

La maîtrise de la collection numérique passe non seulement par le fait de disposer de métadonnées fiables et complètes mais aussi par leur exploitation. Or, en la matière, difficile de prévoir les requêtes nécessaires au bon fonctionnement du système quand ce dernier est censé évoluer et fonctionner des décennies. Au regard des technologies alors à notre disposition (nous sommes en 2008 et le NoSQL n’en est qu’à ses balbutiements…), les technologies du Web sémantique, RDF et SPARQL en particulier, paraissent alors le meilleur moyen pour garantir souplesse des données, évolutivité de la structure, richesse d’interrogation et facilité de mise en relation des informations à conserver, qu’il s’agisse des données de référence ou des métadonnées des fichiers eux-mêmes. Même si nous avons été confrontés à des limites de performance, elles étaient acceptables au regard de ce qui était attendu. Bref, si c’était à refaire aujourd’hui, je pense que je referais le même choix, même si je complèterais le dispositif d’exploitation et de recherche des métadonnées par d’autres technologies afin de mieux répondre à certains cas d’usage pour lesquels RDF et SPARQL ne constituent pas la meilleure solution.

A l’issue du développement de SPAR, un constat s’impose : SPAR n’est ni plus ni moins qu’un magasin « virtuel » de fichiers, avec son catalogue de métadonnées qui en décrit précisément chacun des composants. La pérennisation de l’information numérique mobilise des compétences traditionnelles pour un support nouveau dans le but d’assurer l’intégrité, l’authenticité et la communicabilité des informations numériques. Cette conclusion explique aussi bien les difficultés rencontrées avec la plateforme de TELMA que l’un des verrous technologiques de SPAR : le système qui assure la pérennisation sur le long terme des informations numériques ne peut être branché directement avec le système qui assure à un instant T la valorisation de ces mêmes informations auprès des utilisateurs, car le temps de la pérennisation n’est pas le même que le temps de la valorisation et de l’accessibilité. C’est d’autant plus vrai avec l’information numérique, que l’utilisateur s’attend à trouver à tout instant d’un simple clic de souris.

Commencé en mars 2008, SPAR passe en production au printemps 2010 et il est alors temps pour moi de clore ce sujet et de me consacrer à plein temps à mettre en pratique les promesses du Web sémantique

Le traitement des données structurées et semi-structurées (2010-2014)

« Moteur de recherche et Web sémantique » aurait pu aussi être le titre ou le sous-titre de cette phase qui correspond grosso modo à la période où j’ai travaillé pour la société Antidot, éditeur logiciel spécialisé dans la recherche et le traitement de l’information. Les objectifs sont clairs au début de cette période : découvrir et maîtriser les technologies de traitement automatique des données (ETL, moteur de recherche, annotation automatique, catégorisation automatique entre autres) et réfléchir à l’apport et à la place des technologies du Web sémantique dans ce domaine.

Le début de cette période se concrétise par l’aboutissement d’un projet essentiel dans mon parcours professionnel et ma réflexion : le moteur de recherche ISIDORE. Celui-ci constitue alors une parfaite synthèse et un aboutissement. En effet, dans mon esprit, il vise trois objectifs :

Grâce à l’infatigable travail de Stéphane Pouyllau et de son équipe, les deux premiers objectifs sont largement atteints, au-delà même de mes espérances. Cependant, force est de constater que, malgré les efforts d’Huma-num, le troisième reste encore largement à explorer. Comme nous allons le voir, ce constat est en phase avec le bilan de cette période.

Mais, n’anticipons pas… Le succès d’Isidore, le travail déjà effectué par Antidot avant mon arrivée, ainsi que mon expérience de l’utilisation des technologies du Web sémantique avec le projet SPAR, conduisent alors à l’idée de proposer aux organisations publiques ou privées d’exploiter au mieux leur patrimoine informationnel en l’extrayant des silos existants pour mieux le valoriser à travers de nouveaux usages en le reliant et en l’augmentant via des inférences ou des extraction des « connaissances » dans les données non structurées : c’est le Linked Enterprise Data. Cette vision s’appuie sur deux éléments clés :

  • les technologies du Web sémantique offrent par le modèle du triplet un niveau d’interopérabilité jamais atteint jusque-là et par le modèle de graphe la possibilité de relier des données hétérogènes ;
  • le moteur de recherche constitue le moyen idéal pour accéder rapidement, simplement et efficacement aux données ainsi reformatées pour répondre à tous les usages qu’on pourrait imaginer.

La montée en puissance du Big Data et de l’Open Data semblait donner raison à cette stratégie qui s’est d’ailleurs concrétisée par de jolis projets de démonstration et chez des clients. Mais, globalement, le résultat fut mitigé. Les raisons sont multiples :

  • au niveau technique, mis à part certaines limites des solutions d’Antidot qui ne sont pas le propos de ce billet, nous nous sommes surtout heurtés aux limites d’implémentation des technologies du Web sémantique : scalabilité et performance. Il a fallu trouver des contournements pour limiter leur utilisation à ce qu’elles savent faire de mieux, ce qui a largement complexifié le système ;
  • le modèle mis au point demande non seulement l’extraction des données des silos existants mais aussi leur traitement avec les technologies du Web sémantique. Or, cette étape s’est avérée éminemment complexe car spécifique à chaque système d’information, donc coûteux à mettre en place pour les clients, d’autant que les compétences dans ce domaine sont rares, ce qui pose par ailleurs un problème de maintenance ;
  • contrairement à notre idée initiale, le Big Data ne s’est pas traduit à l’époque par un intérêt des organisations pour l’exploitation de la donnée, de sa structure et de sa logique, mais, outre un très grand buzz marketing, essentiellement par un recyclage des éléments de la Business Intelligence ;
  • il en va de même pour l’Open Data qui se caractérise par le désintérêt des producteurs et des réutilisateurs des données ouvertes pour les problématiques d’interopérabilité et de structuration de la donnée malgré les tentatives de Tim Berners-Lee lui-même ;
  • les DSI dans les organisations se posant comme une « fonction support » répondant aux besoins et usages des « directions métiers », elles pensent qu’elles ne disposent pas de la légitimité qui serait nécessaire pour porter une vision transverse à l’ensemble des « directions métiers » par la gestion des données numériques. Elles ne souhaitent pas justifier la mise en place d’un projet dont l’apport pour le métier ne semble pas le propos initial (ce qui est faux…) et n’est apparemment pas garanti. De plus, il nous était complexe de proposer alors des éléments concrets de retour sur investissement (ah ! le fameux ROI…). Ce problème n’est pas nouveau : si l’approche est différente, les projets de master data management rencontrent les mêmes difficultés.

Antidot a pris acte de ce constat en spécialisant cette vision autour de la problématique de la documentation technique avec le produit Fluid Topics. A titre personnel, ce constat a été particulièrement amer, car il remettait en cause deux éléments qui avaient alors traversé mon parcours : le Web sémantique et la notion d’interopérabilité.

Il a fallu me rendre à l’évidence : mis à part dans quelques communautés qui possèdent déjà la culture de la normalisation (le patrimoine, certains domaines de la recherche scientifique par exemple…), l’interopérabilité n’est finalement pas une préoccupation des organisations, que ce soit dans leurs rapports avec les autres organisations ou en interne. Est-elle si inaccessible qu’elle n’est même plus au cœur des préoccupations des DSI ? Ceux-ci semblent en effet aujourd’hui trouver plus simple d’implémenter de multiples programmes de conversion, tant dans l’acquisition que dans l’exposition des données, que de rechercher le partage et le compromis entre les communautés.

A partir du moment où la notion d’interopérabilité est remise en cause, c’est une partie non négligeable du modèle RDF qui perd de son intérêt. C’est d’autant plus vrai que, même si je reste convaincu que celui-ci reste, pour le moment, le meilleur moyen pour exposer, échanger et relier des données structurées, il faut reconnaître que la faible maîtrise de cette technologie par la communauté des développeurs la disqualifie au moment de faire certains choix d’implémentation. Quant à ce qui fait son second intérêt à savoir le graphe, l’apparition de nouvelles solutions vient confirmer l’énorme intérêt de ce modèle pour le stockage et le traitement des données structurées, mais force est de constater que les solutions qui ont le vent en poupe en la matière ne se basent pas sur le modèle RDF mais sur le modèle du Property graph qui répond à la problématique de la réification, une des faiblesses du modèle RDF. En la matière, RDF 1.1 fut, à mon avis, un rendez-vous manqué par le W3C….

L’architecture de données à l’ère du Big data (2014-….)

C’est donc ébranlé dans ce qui constituait les bases mon travail, sans idée en tête et sans projet en cours que commence cette dernière phase. Le début du travail sur la refonte du système d’information documentaire de l’Ina et sur le déploiement des « solutions Big Data » au sein du SI vont alors me donner l’opportunité de :

A partir de ces différents points, nous avons pu commencer à élaborer une « stratégie orientée données » pour la refonte du SI de l’Ina, mais ceci est une autre histoire qui devrait être le sujet des prochains billets… Enfin, j’espère si mes bonnes résolutions ne se perdent pas dans les méandres de mes données…..

PS : j’en profite pour remercier tous ceux qui, à moment ou un autre de mon parcours, ont croisé mon chemin et qui ont bien voulu partager avec moi leurs connaissances, leurs idées, leurs désaccords, leur bienveillance, leur confiance, leur temps, leur passion, leur travail, leur amitié… Ce serait trop long de tous vous citer et je risque d’en oublier, mais j’ai pensé énormément à vous tous pendant la rédaction de ce texte, sans vous, cela n’aurait pas été possible… MERCI !!

Management de l'information Structuration RDF Web sémantique XML Système d'information Sparql Web Causeries Conservation Digital humanities Édition critique Édition électronique Histoire Moteur de recherche SHS TEI Perso