Les petites cases

Outils

Des supports pour former à la question de la donnée

Nouvelle année que je vous souhaite excellente après cette année 2020 si particulière à tant d’égards et nouvelles perspectives... Cela fait maintenant six ans que je travaille à l’Institut national de l’audiovisuel ;  six années qui ont été l’occasion de mener un magnifique projet de déploiement d’une infrastructure technique de stockage et traitement des données et d’outils de fouille de données et de textes, de modélisation et refonte des données de gestion des collections et de développement d’une culture de la donnée partagée au sein de l’établissement ; six années dont on voit aujourd’hui un premier aboutissement.

Ces six années de développement et de réflexion ont aussi été l’occasion pour moi de donner de très nombreuses formations initiales et continues autour de la question de la donnée dans différents établissements : bien-sûr l’organisme de formation de l’INA, l’ENSSIB et l’Ecole nationale des chartes. Au départ, elles étaient orientées autour des technologies du Web sémantique et elles ont peu à peu évolué vers la question des données en général pour essayer d’embrasser aujourd’hui toutes les composantes de la gouvernance des données.

J’apprécie énormément d’enseigner, de former, de partager mes réflexions sur les sujets sur lesquels je travaille, cela permet de formaliser les idées et de les mettre en ordre. Malgré tout, même si je pense que la formation fait partie intégrante de mon travail, elle n’est pas mon activité principale. Comme j’ai la chance de pouvoir choisir (mesdames et messieurs les enseignantes et enseignants, je vous admire !!), que je ne souhaite pas ressentir de la lassitude, que je souhaite que cela reste un plaisir, j’ai décidé pour cette nouvelle année de faire une pause et de laisser peu à peu la place aux personnes que j’ai formées, qui m’ont accompagné dans cette aventure des dernières années et/ou que j’ai pu croiser, à toi lecteur, peut-être !

Mais, avant de passer la main (au moins pour un temps ?), je vous propose deux choses :

  • tout d’abord, je place en licence CC-BY tous mes supports de formations, vous les trouverez tous dans ce répertoire partagé sur Google drive : https://drive.google.com/drive/folders/1Uk-p8JYGDeEFAcOW9Qom-bj0p_-0Z7-d?usp=sharing N’hésitez pas, c’est là pour ça ;-) Dans la suite de ce billet, je détaille rapidement ces différents supports ;
  • par ailleurs, sur une idée d’Emmanuelle, je vous propose d’organiser sous l’égide de l’Ina, une session (gratuite, évidemment…) de formation de formateurs autour de la donnée, je ne sais pas bien à quoi ressemblera cette journée, à celle qu’on souhaitera : des échanges, des présentations de supports et des objectifs pédagogiques, de la mise au point de formations… En échange, il est possible que vous soyez sollicités par les responsables de formations de l’Ina pour assurer des formations sur le sujet, en particulier par Christine Braemer avec qui nous avons mis au point un cycle de formation continue sur la question (dans la partie “Gestion des données”) et que je remercie ici pour la confiance qu’elle m’a faite ces dernières années. Si cela vous intéresse, vous pouvez me contacter par mail (gautier.poupeau@gmail.com) ou via twitter pour vous manifester. Dès que les conditions sanitaires le permettront à nouveau, nous vous contacterons pour choisir une date et mettre au point le programme de cette journée.

Lire la suite...

Management de l'information Structuration Web sémantique XML Système d'information Causeries Indexation Moteur de recherche

Why I don’t use Semantic Web technologies anymore, even if they still influence me ?

Avant-propos : ce texte en anglais est celui de la keynote que j’ai eu le grand plaisir d’assurer le 12 décembre 2019 à l’invitation de Vincent Razanajao et Alberto Dalla Rosa lors de la conférence « Linked Pasts V » qui a eu lieu à Bordeaux (11-13 décembre 2019). Il a été traduit par Emmanuelle Bermès que je remercie encore énormément pour ce travail. Il reprend en grande partie des billets déjà publiés sur ce blog. Vous trouverez avant le texte en lui-même les slides qui accompagnaient mon intervention.

Introduction

I started to be interested in Semantic Web technologies in 2005. My first talk on this topic was in 2006 at the Digital Humanities conference in Paris. Then, I had the opportunity to test them life-size in 2007 for a project conducted by the CCH of King's College. But, it was during the SPAR project of the National Library of France, started in 2008, that I really started to touch the tremendous promise of these technologies and their limits, already. Between 2008 and 2014, I had the opportunity to deploy them in different contexts, in order to address different use cases: data publication, harvesting of data embedded within web pages, bridging internal silos and data consistency, data enrichment and mashups... I would like to share this experience with you today, with two objectives:

  • show in what contexts and how we can use Semantic Web technologies;
  • take a comprehensive look at these technologies and explain how they have impacted my thinking in the field of data management, even if I don’t use them anymore.

But first, I'd like to go back to the history of these technologies: after all history is a great way to put things into perspective ....

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Web Causeries Digital humanities RDFa Linked Data

#dhiha8 Interroger les débouchés pour penser l'enseignement du numérique en histoire/SHS

Quelques remarques rapides suite au billet d'Emilien Ruiz : #DHIHA8 Nous sommes à la croisée des chemins ! qui me vienennt autant de ma position d'intervenant dans différents masters que de celle d'ingénieur dans le monde numérique dans des organisations publiques ou privées. Emilien Ruiz pose la question de la formation au numérique pour les étudiants en histoire du point de vue de l'historiographie et de la méthodologie historique, en particulier la place de l'approche quantitative. Mais si on doit interroger les enseignements dans le domaine du numérique pour des étudiants en histoire et plus largement en SHS, il me semble qu'on ne peut faire l'économie de s'interroger sur les débouchés.

Lire la suite...

Management de l'information Système d'information Causeries Digital humanities

Réflexions et questions autour du Web sémantique

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Au delà des quelques initiatives décrites dans le précédent billet et qui ont réussi à émerger, la réflexion sur les technologies du Web sémantique et le Web de données a indéniablement joué un rôle dans la gestion des données des organisations en particulier patrimoniales.

Que nous a apporté la réflexion autour du Web sémantique ?

Accompagner la réflexion sur la modélisation des données patrimoniales : l’abandon de la notion de “notice”

La notice dite documentaire est l’adaptation au milieu informatique de la fiche cartonnée. Ce mimétisme de pratiques antérieures est caractéristique des phases d’appropriation d’un nouveau média : la notice informatique a reproduit toutes les caractéristiques de la fiche cartonnée tout en exploitant les avantages de l’outil informatique (recherche, ubiquité, échange …). La notice est un méta-document dont l'objectif est la description d’un document. Or, c’est précisément cette forme qui pose problème. D’un objet porteur d’information, elle est devenue peu à peu elle-même objet de modélisation, au point d’en oublier parfois l’objectif initial : l’objet/document qu’elle est censée décrire. De plus, la notice place en son centre l’objet/document alors qu’aujourd’hui, on se rend compte que la description doit s’intéresser plus globalement à tous les aspects qui entourent cet objet/document. Enfin, avec la démultiplication des données suite à la numérisation, l’augmentation de données nativement numériques et maintenant la prise en compte des données d’usages, la notice et son cadre rigide (et par extension le catalogue qui en est le réceptacle) ne suffisent plus pour répondre aux différents besoins.

Si les formats MARC datent de la fin des années 1960, il faut attendre les années 1990 pour que le milieu des bibliothèques se lance dans un travail de modélisation conceptuelle. Les FRBR, dont le nom renvoie à la notion de « notice bibliographique », se caractérisent justement par le fait qu’elles ne modélisent pas la notice mais les informations qu’elle contient sous une forme logique. De fait, ce sont les objets décrits qui sont modélisés. De plus, elles marquent la fin d’une vision unique du document en tentant d’en séparer les différentes appréhensions : de l’entité intellectuelle pensée par un (ou plusieurs) auteur (l’œuvre) à l’objet lui-même au sein d’une collection (l’item). Si les FRBR s’intéressaient essentiellement au document lui-même, le travail s’est prolongé pour ensuite se concentrer sur les données d’autorité avec le modèle FRAD. Ce travail de réflexion a abouti en 2017 à la publication du modèle LRM (Library Relationship Model) issu de la fusion des différents travaux FRBR, FRAD et FRSAD et imprégné par la réflexion sur les technologies du Web sémantique de ces dix dernières années.


Vue d’ensemble des relations dans LRM, IFLA Library Reference Model

Lire la suite...

Management de l'information Structuration RDF Web sémantique Système d'information Sparql Causeries Indexation Linked Data

Au-delà des limites, que reste-t-il concrètement du Web sémantique ?

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Si, à travers les différents cas d’implémentation des technologies du Web sémantique décrits dans le précédent billet, les promesses sont globalement tenues, force est de constater que les problèmes qui se posent en limitent aujourd’hui le déploiement à large échelle ou en dehors de marchés de niche clairement identifiés :

  • les systèmes de stockage des données en RDF (ou triple store) ont montré des limites du point de vue de l’intégrité des données (gestion des transactions), des performances (temps de réponse de certaines requêtes) ainsi que de la montée en charge (volumétrie). Ainsi, parmi les trois axes qui définissent traditionnellement le Big Data : vitesse, volume et variété (les « 3V »), les deux premières caractéristiques ne sont pas encore atteintes par ces technologies et si la décentralisation des données, au cœur même du modèle du Web de données, a pu constituer en partie une solution, c’est oublier la problématique de résilience du réseau et la nécessité d’agrégation des données pour les interroger.
  • la structure même du modèle RDF a fait apparaître des limites quant à la gestion de la provenance des différentes informations et la contextualisation du triplet : or, si ce point était présent dans la feuille de route du Web sémantique écrite par Tim Berners-Lee, il n’est toujours pas vraiment résolu. Des solutions sont apparues mais elles ne sont pas entièrement satisfaisantes. De ce point de vue, RDF 1.1 est un rendez-vous manqué, d’autant qu’à la même époque le modèle des “property graph” qui propose une réponse à cette limite a commencé à s’imposer… Ce modèle est aujourd’hui au coeur de toutes les technologies de bases de données graphes proposées par les gros acteurs du secteur : IBM, Microsoft, Amazon (basé a priori sur le produit Blazegraph dont la société semble avoir été rachetée par Amazon), Google, sans compter les nouveaux venus  : Huawei, Datastax, Neo4j ou OrientDB. Ainsi, le modèle de graphes se porte bien et, pour cause, il offre une souplesse inégalée dans la manipulation des données structurées et dans l’interrogation croisée de données hétérogènes. Mais, ils ont tous fait le choix d’implémenter le modèle des property graph et ils ont tous adopté le framework Apache Tinkerpop et le langage de requêtes Gremlin pour interagir avec le système de stockage, ce qui en fait un standard de fait.
  • le destin d’une technologie, indépendamment de son intérêt ou de sa qualité, tient aussi à son degré d’appropriation par les développeurs. Or, malgré sa relative ancienneté (le premier brouillon de RDF est publié en 1997 sur le site du W3C !!), il reste encore beaucoup de travail en la matière et, à la vue du nombre incessant de technologies qui apparaissent (et disparaissent), il est à craindre que les technologies du Web sémantique restent des technologies de niche maîtrisées par peu de développeurs.

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Causeries Indexation Moteur de recherche RDFa Linked Data

Les technologies du Web sémantique, entre théorie et pratique

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Les technologies du Web sémantique : Pourquoi ? Comment ?

Lorsque Tim Berners-Lee crée le Web, son objectif est de proposer aux chercheurs du CERN un espace d’interopérabilité pour échanger non seulement des documents mais aussi des données structurées. Ainsi, le document qui décrit sa proposition intègre dès le départ l’idée d’aller au-delà d’un espace documentaire pour relier des entités du monde réel.


Schéma représentant la proposition de Tim Berners-Lee pour gérer l’information du CERN, Tim Berners-Lee

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Causeries Digital humanities Indexation Moteur de recherche RDFa Linked Data

Les technos du Web sémantique ont-elles tenu leurs promesses ?

J’ai commencé à m’intéresser aux technologies du Web sémantique en 2005 et j’ai fait ma première communication à ce sujet en 2006 lors de la conférence Digital Humanities à Paris. J’ai eu l’occasion de les tester grandeur nature dès 2007 pour un projet mené par le CCH du King’s college, mais c’est au cours du projet SPAR de la Bibliothèque nationale de France à partir de 2008 que j’ai véritablement commencé à toucher du doigt les formidables promesses de ces technologies ainsi que leurs limites, déjà… Entre 2008 et 2014, j’ai eu l’occasion de les déployer dans différents contextes pour répondre à des cas d’usage divers : exposition des données, récupération de données encodées au sein des pages Web, décloisonnement de silos internes et mise en cohérence de données, enrichissement de données et mashup… J’ai œuvré à leur diffusion, du moins j’ai essayé, à travers ce blog ou ailleurs, et effectué quantité de formations sur le sujet en direction de publics très variés. Pour résumer, j’y voyais alors le moyen de déployer un système  d’information orienté données et plus uniquement processus et d’une manière générale de renverser ce primat dans la manière d’aborder le développement d’une application informatique.

Comme je l’ai déjà expliqué, à l’issue de cette période, j’étais très dubitatif sur l’intérêt d’utiliser ces technologies. Dans la mesure où j’étais conscient de leurs apports mais aussi de leurs limites, elles étaient toujours présentes mais sans être jamais au cœur de ma réflexion à l’Ina, du moins directement. L’expérience accumulée et les bénéfices de ces technologies nourrissaient néanmoins des pans entiers de la stratégie que nous étions en train de déployer sans même que j’en sois totalement conscient.

C’est peut-être la raison pour laquelle j’ai continué de les enseigner aussi bien dans le Master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes que lors de formations pour Ina Expert, parfois, il faut bien l’avouer, en traînant un peu les pieds. J’ai fait évoluer ma présentation en replaçant ces technologies et leur intérêt dans le contexte plus large du Big Data, de l’Open Data et maintenant de l’intelligence artificielle. Finalement, je ne me suis jamais résolu à les abandonner totalement, partant du principe qu’une technologie ne disparaît pas, mais trouve sa juste place par rapport aux autres. De plus, je reste convaincu qu’elles restent la meilleure technologie pour assurer l'interopérabilité des données, mais jusqu’à quel point en a-t-on vraiment؜ besoin ?

Plusieurs fois, à la lecture d’un article ou d’un tweet qui vantaient les mérites de ces technologies et du Linked Open Data ou web de données, j’ai voulu écrire pourquoi il fallait rester prudent (voire plus…), encore récemment autour de la question de leurs usages au sein des musées. Je l’ai même dit en conférence, parfois, de manière abrupte, à la hauteur des désillusions que j’avais vécues. Aujourd’hui, sans avoir réussi à s’imposer largement, ces technologies ont indubitablement fait avancer notre réflexion sur la question de l’interopérabilité et force est de constater que certaines initiatives ont réussi à sortir du lot et à valider certains usages. Après avoir laissé passer le « ravin de la désillusion » et au moment où ces technologies semblent atteindre le plateau de la productivité du « Hype cycle », c’est le bon moment de dresser un bilan.


Hype Cycle du Gartner, Jérémy Kemp, CC-BY-SA

Alors, peut-être pour la dernière fois sur ce blog, je vous propose une plongée dans les entrailles des technologies du Web sémantique pour étudier quels en sont finalement les apports et les limites et l’écart entre les promesses et la réalité. Pour rendre les choses un peu plus digeste à lire et à appréhender, j’ai séparé ce bilan en quatre billets :

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Moteur de recherche RDFa SHS Wikipedia Geekeries Linked Data

La conservation des données numériques n'est ni une révolution, ni inatteignable

Alors que je m’étonnais dans un tweet, suite à une interview d'Anne Both, qu'on puisse encore émettre des doutes sur la conservation des données numériques, Julien Benedetti a attiré mon attention sur la conférence-table ronde "Les archives : quoi de neuf" qui a eu lieu à l'Ecole des chartes le 12 décembre dernier avec trois éminents archivistes(-paléographes) : Christine Nougaret, Bruno Galland et Edouard Bouyé.

Etant donné les mots de Julien Benedetti, je me doutais bien que le sujet serait abordé sous l'angle défaitiste qui le caractérise depuis plusieurs années, mais je ne m'attendais pas à entendre deux grands professionnels des archives se sentir aussi démunis face à cette question. Lorsqu'on visionne les quelques minutes (de 34 min à 47 min environ...) consacrées à ce sujet, on s'aperçoit que les manques sont à tous les niveaux : formation, organisationnel, technique, stratégique et même économique. Je comprends alors mieux les mots d'Anne Both qui ne fait que retranscrire ce que les archivistes ont pu lui dire à ce sujet.

Lire la suite...

Système d'information Causeries Conservation

Réaliser un mashup de données avec Dataiku DSS et Palladio

Dans mon précédent billet sur la préparation des données, j'avais fait part de mon enthousiasme pour la solution DSS de Dataiku dans le cadre de la préparation des données. J'ai donc poursuivi ma pratique du logiciel dans un contexte que j'apprécie particulièrement : la mise au point d'un mashup de données. Cet exercice permet autour d'un exemple concret de faire le tour du traitement des données : recherche, récupération, interrogation, structuration, nettoyage, mise en relation, visualisation. Il est donc parfaitement adapté pour évaluer un logiciel en la matière. Et le résultat fut à la hauteur :

Afin de partager cette découverte, j'ai mis au point un tutoriel qui vise à :

Lire la suite...

Management de l'information Sparql Digital humanities Outils Geekeries

Comment mettre la donnée au coeur du SI ?

J’ai eu l’honneur et le plaisir de participer le 17 novembre à la conférence annuelle de Talend, le Talend Connect 2016, pour présenter comment, à l’Ina, nous avons mis la donnée au coeur de la refonte de notre système d’information.

CxdQ1VlXAAAPhZ5.jpg:large

Voilà une bonne occasion pour lever le voile sur ce projet qui m’occupe depuis deux ans et dont je parlais dans mon billet de bilan, au passage de respecter la promesse de le présenter plus longuement et de continuer à alimenter ce blog…

Voici le diaporama qui accompagnait ma présentation :

Contexte du projet

Quatre raisons principales nous ont amenés à mener cette réflexion :

  • l’urbanisation du SI.
    Comme tous les SI, celui de l’Ina s’est créé par couches successives selon les besoins métiers. De fait, il est composé de différents silos étanches répondant chacun à un besoin métier spécifique. Telle une myriade d’orchestre de chambres voire de solistes, les solutions de stockage et d’interrogation des données sont disséminées à travers l’ensemble du SI : différents SGBDR, instances de moteurs de recherche avec pour certains des index très proches, des scripts de traitement de données (export, import, calcul) un peu partout souvent pas ou peu supervisés dans des technos différentes et dont la maintenance s’avère fastidieuse. Suivant les différents axes de notre schéma directeur (robustesse, rationalisation et alignement stratégique), nous voulions transformer ces myriades de petits orchestres en une formation unique : un orchestre symphonique, plus facile à maîtriser, à diriger et à faire évoluer.
  • La refonte de notre SI métier
    Il existe historiquement deux collections à l’Ina (le dépôt légal et les archives dites professionnelles qui font l’objet d’une valorisation commerciale) qui, jusqu’à peu, étaient gérées par deux directions différentes avec deux SI différents. Regroupé depuis 3 ans au sein d’une direction unique, le métier souhaite maintenant disposer d’un SI unique. Il faut donc envisager la migration de sept instances de bases de données Oracle avec des structure et des logiques de données qui semblent identiques de loin mais qui s’avèrent bien différentes. En effet, les pratiques de travail sont différentes : l’objectif du dépôt légal est de documenter le flux pour en assurer la mémoire alors que les archives professionnelles sont documentées en vue de leur valorisation commerciale ou à destination du grand public. Bref, il faut tout revoir, tout refaire des systèmes de collecte des données au modèle de données en passant par le système de production.

Lire la suite...

Management de l'information Système d'information Causeries