Les petites cases

Causeries

Réflexions et questions autour du Web sémantique

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Au delà des quelques initiatives décrites dans le précédent billet et qui ont réussi à émerger, la réflexion sur les technologies du Web sémantique et le Web de données a indéniablement joué un rôle dans la gestion des données des organisations en particulier patrimoniales.

Que nous a apporté la réflexion autour du Web sémantique ?

Accompagner la réflexion sur la modélisation des données patrimoniales : l’abandon de la notion de “notice”

La notice dite documentaire est l’adaptation au milieu informatique de la fiche cartonnée. Ce mimétisme de pratiques antérieures est caractéristique des phases d’appropriation d’un nouveau média : la notice informatique a reproduit toutes les caractéristiques de la fiche cartonnée tout en exploitant les avantages de l’outil informatique (recherche, ubiquité, échange …). La notice est un méta-document dont l'objectif est la description d’un document. Or, c’est précisément cette forme qui pose problème. D’un objet porteur d’information, elle est devenue peu à peu elle-même objet de modélisation, au point d’en oublier parfois l’objectif initial : l’objet/document qu’elle est censée décrire. De plus, la notice place en son centre l’objet/document alors qu’aujourd’hui, on se rend compte que la description doit s’intéresser plus globalement à tous les aspects qui entourent cet objet/document. Enfin, avec la démultiplication des données suite à la numérisation, l’augmentation de données nativement numériques et maintenant la prise en compte des données d’usages, la notice et son cadre rigide (et par extension le catalogue qui en est le réceptacle) ne suffisent plus pour répondre aux différents besoins.

Si les formats MARC datent de la fin des années 1960, il faut attendre les années 1990 pour que le milieu des bibliothèques se lance dans un travail de modélisation conceptuelle. Les FRBR, dont le nom renvoie à la notion de « notice bibliographique », se caractérisent justement par le fait qu’elles ne modélisent pas la notice mais les informations qu’elle contient sous une forme logique. De fait, ce sont les objets décrits qui sont modélisés. De plus, elles marquent la fin d’une vision unique du document en tentant d’en séparer les différentes appréhensions : de l’entité intellectuelle pensée par un (ou plusieurs) auteur (l’œuvre) à l’objet lui-même au sein d’une collection (l’item). Si les FRBR s’intéressaient essentiellement au document lui-même, le travail s’est prolongé pour ensuite se concentrer sur les données d’autorité avec le modèle FRAD. Ce travail de réflexion a abouti en 2017 à la publication du modèle LRM (Library Relationship Model) issu de la fusion des différents travaux FRBR, FRAD et FRSAD et imprégné par la réflexion sur les technologies du Web sémantique de ces dix dernières années.


Vue d’ensemble des relations dans LRM, IFLA Library Reference Model

Lire la suite...

Management de l'information Structuration RDF Web sémantique Système d'information Sparql Causeries Indexation Linked Data

Au-delà des limites, que reste-t-il concrètement du Web sémantique ?

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Si, à travers les différents cas d’implémentation des technologies du Web sémantique décrits dans le précédent billet, les promesses sont globalement tenues, force est de constater que les problèmes qui se posent en limitent aujourd’hui le déploiement à large échelle ou en dehors de marchés de niche clairement identifiés :

  • les systèmes de stockage des données en RDF (ou triple store) ont montré des limites du point de vue de l’intégrité des données (gestion des transactions), des performances (temps de réponse de certaines requêtes) ainsi que de la montée en charge (volumétrie). Ainsi, parmi les trois axes qui définissent traditionnellement le Big Data : vitesse, volume et variété (les « 3V »), les deux premières caractéristiques ne sont pas encore atteintes par ces technologies et si la décentralisation des données, au cœur même du modèle du Web de données, a pu constituer en partie une solution, c’est oublier la problématique de résilience du réseau et la nécessité d’agrégation des données pour les interroger.
  • la structure même du modèle RDF a fait apparaître des limites quant à la gestion de la provenance des différentes informations et la contextualisation du triplet : or, si ce point était présent dans la feuille de route du Web sémantique écrite par Tim Berners-Lee, il n’est toujours pas vraiment résolu. Des solutions sont apparues mais elles ne sont pas entièrement satisfaisantes. De ce point de vue, RDF 1.1 est un rendez-vous manqué, d’autant qu’à la même époque le modèle des “property graph” qui propose une réponse à cette limite a commencé à s’imposer… Ce modèle est aujourd’hui au coeur de toutes les technologies de bases de données graphes proposées par les gros acteurs du secteur : IBM, Microsoft, Amazon (basé a priori sur le produit Blazegraph dont la société semble avoir été rachetée par Amazon), Google, sans compter les nouveaux venus  : Huawei, Datastax, Neo4j ou OrientDB. Ainsi, le modèle de graphes se porte bien et, pour cause, il offre une souplesse inégalée dans la manipulation des données structurées et dans l’interrogation croisée de données hétérogènes. Mais, ils ont tous fait le choix d’implémenter le modèle des property graph et ils ont tous adopté le framework Apache Tinkerpop et le langage de requêtes Gremlin pour interagir avec le système de stockage, ce qui en fait un standard de fait.
  • le destin d’une technologie, indépendamment de son intérêt ou de sa qualité, tient aussi à son degré d’appropriation par les développeurs. Or, malgré sa relative ancienneté (le premier brouillon de RDF est publié en 1997 sur le site du W3C !!), il reste encore beaucoup de travail en la matière et, à la vue du nombre incessant de technologies qui apparaissent (et disparaissent), il est à craindre que les technologies du Web sémantique restent des technologies de niche maîtrisées par peu de développeurs.

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Causeries Indexation Moteur de recherche RDFa Linked Data

Les technologies du Web sémantique, entre théorie et pratique

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Les technologies du Web sémantique : Pourquoi ? Comment ?

Lorsque Tim Berners-Lee crée le Web, son objectif est de proposer aux chercheurs du CERN un espace d’interopérabilité pour échanger non seulement des documents mais aussi des données structurées. Ainsi, le document qui décrit sa proposition intègre dès le départ l’idée d’aller au-delà d’un espace documentaire pour relier des entités du monde réel.


Schéma représentant la proposition de Tim Berners-Lee pour gérer l’information du CERN, Tim Berners-Lee

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Causeries Digital humanities Indexation Moteur de recherche RDFa Linked Data

La conservation des données numériques n'est ni une révolution, ni inatteignable

Alors que je m’étonnais dans un tweet, suite à une interview d'Anne Both, qu'on puisse encore émettre des doutes sur la conservation des données numériques, Julien Benedetti a attiré mon attention sur la conférence-table ronde "Les archives : quoi de neuf" qui a eu lieu à l'Ecole des chartes le 12 décembre dernier avec trois éminents archivistes(-paléographes) : Christine Nougaret, Bruno Galland et Edouard Bouyé.

Etant donné les mots de Julien Benedetti, je me doutais bien que le sujet serait abordé sous l'angle défaitiste qui le caractérise depuis plusieurs années, mais je ne m'attendais pas à entendre deux grands professionnels des archives se sentir aussi démunis face à cette question. Lorsqu'on visionne les quelques minutes (de 34 min à 47 min environ...) consacrées à ce sujet, on s'aperçoit que les manques sont à tous les niveaux : formation, organisationnel, technique, stratégique et même économique. Je comprends alors mieux les mots d'Anne Both qui ne fait que retranscrire ce que les archivistes ont pu lui dire à ce sujet.

Lire la suite...

Système d'information Causeries Conservation

Comment mettre la donnée au coeur du SI ?

J’ai eu l’honneur et le plaisir de participer le 17 novembre à la conférence annuelle de Talend, le Talend Connect 2016, pour présenter comment, à l’Ina, nous avons mis la donnée au coeur de la refonte de notre système d’information.

CxdQ1VlXAAAPhZ5.jpg:large

Voilà une bonne occasion pour lever le voile sur ce projet qui m’occupe depuis deux ans et dont je parlais dans mon billet de bilan, au passage de respecter la promesse de le présenter plus longuement et de continuer à alimenter ce blog…

Voici le diaporama qui accompagnait ma présentation :

Contexte du projet

Quatre raisons principales nous ont amenés à mener cette réflexion :

  • l’urbanisation du SI.
    Comme tous les SI, celui de l’Ina s’est créé par couches successives selon les besoins métiers. De fait, il est composé de différents silos étanches répondant chacun à un besoin métier spécifique. Telle une myriade d’orchestre de chambres voire de solistes, les solutions de stockage et d’interrogation des données sont disséminées à travers l’ensemble du SI : différents SGBDR, instances de moteurs de recherche avec pour certains des index très proches, des scripts de traitement de données (export, import, calcul) un peu partout souvent pas ou peu supervisés dans des technos différentes et dont la maintenance s’avère fastidieuse. Suivant les différents axes de notre schéma directeur (robustesse, rationalisation et alignement stratégique), nous voulions transformer ces myriades de petits orchestres en une formation unique : un orchestre symphonique, plus facile à maîtriser, à diriger et à faire évoluer.
  • La refonte de notre SI métier
    Il existe historiquement deux collections à l’Ina (le dépôt légal et les archives dites professionnelles qui font l’objet d’une valorisation commerciale) qui, jusqu’à peu, étaient gérées par deux directions différentes avec deux SI différents. Regroupé depuis 3 ans au sein d’une direction unique, le métier souhaite maintenant disposer d’un SI unique. Il faut donc envisager la migration de sept instances de bases de données Oracle avec des structure et des logiques de données qui semblent identiques de loin mais qui s’avèrent bien différentes. En effet, les pratiques de travail sont différentes : l’objectif du dépôt légal est de documenter le flux pour en assurer la mémoire alors que les archives professionnelles sont documentées en vue de leur valorisation commerciale ou à destination du grand public. Bref, il faut tout revoir, tout refaire des systèmes de collecte des données au modèle de données en passant par le système de production.

Lire la suite...

Management de l'information Système d'information Causeries

De la responsabilité humaine des algorithmes

Comme Nicolas, je dois bien avouer que je suis fatigué par ces articles de journaux, sujets télévisés et autres discussions de comptoirs qui conçoivent l’algorithme comme une entité en soi dont la création et l’exécution seraient immanentes. L’algorithme est devenu peu à peu l’expression d’une peur alimentée par la place grandissante du numérique dans nos vies et de l’incompréhension de beaucoup, en particulier des médias, face aux principes de l’informatique. Mais cela pose un problème de taille : penser ainsi l’algorithme, c’est nier la responsabilité des créateurs et des exécutants de l’algorithme qui sont des humains. Un algorithme n’a pas une vie propre, il n’est que la colonne vertébrale d’un code source écrit et pensé par un humain et dont l’objectif est fini. La responsabilité de la création de l’algorithme en revient donc à son programmeur et de son exécution à la personne ou l’organisation qui en assure l’exploitation au sein de son application et non à l’algorithme lui-même. Il n’existe donc pas une éthique de l’algorithme mais de l’organisation qui le met en oeuvre. Il est alors nécessaire d’appréhender le fonctionnement et les conséquences d’utilisation d’un algorithme pour voir s’il est en adéquation avec la stratégie et/ou l’éthique de l’organisation.

Pour illustrer mon propos, prenons l’exemple de la recommandation de contenus. L’objectif de tous ces algorithmes est grosso modo le même : augmenter la sérendipité pour faire en sorte que l’utilisateur poursuive sa navigation dans le site Web et que l’achat soit converti dans le cas des sites de E-commerce.

Lire la suite...

Causeries Indexation

Bilan de 15 ans de réflexion sur la gestion des données numériques

Cela fait maintenant deux ans que j’ai rejoint l’Institut national de l’audiovisuel. Deux années qui m’ont permis de donner une nouvelle impulsion à ma réflexion sur la gestion des données numériques. Deux années passionnantes et qui se concrétisent depuis plus de six mois par le développement d’une infrastructure de traitement et de stockage des données, aboutissement (forcément provisoire) d’une vision de l’architecture du système d’information où la donnée occupe une place centrale, à l’inverse de l’approche traditionnelle par le processus. Deux années dont les résultats font en partie l’objet d’un article pour le prochain livre d’Emmanuelle sur l’avenir des catalogues, à paraître aux éditions du Cercle de la librairie et dont l’écriture m’a donné envie de faire revivre un peu cet espace de partage que j’ai laissé en friche ces dernières années.

Mais avant de partager ces nouveaux éléments, il me semble intéressant de dresser un bilan de ces 15 dernières années afin de tracer la ligne directrice et de brosser aussi les réussites, les échecs et les erreurs. La lecture de quelques (excellents) mémoires du master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes m’ont aussi motivé à préciser (ou repréciser) certaines approximations que j’ai pu rencontrer ici ou là.

Alors, voilà, avant de passer à la suite, un bilan de 15 ans de réflexion sur la gestion des données numériques, forcément subjectif et en aucun cas exhaustif. Il se découpe en quatre phases, qui correspondent à des moments de mon parcours professionnel et, ça va de pair, avec les sujets principaux qui ont été au cœur de ma réflexion. Elles sont les suivantes :

  • l’édition électronique ;
  • la conservation sur le long terme de l’information numérique ;
  • le traitement des données structurées et semi-structurées ;
  • l’architecture de données à l’ère du Big data.

Lire la suite...

Management de l'information Structuration RDF Web sémantique XML Système d'information Sparql Web Causeries Conservation Digital humanities Édition critique Édition électronique Histoire Moteur de recherche SHS TEI Perso

La donnée en elle-même n'a plus de valeur marchande et alors ?

Au cours des quatre années que j'ai passées chez Antidot (2010-2014), j'ai assisté à des changements profonds dans la manière de penser la monétisation des données. Un constat s'est peu à peu imposé : la donnée elle-même perd de sa valeur marchande et toutes les organisations dont le modèle économique repose peu ou prou sur la vente de données prennent peu à peu conscience de l'obligation d'inventer de nouveaux modes de rémunération. C'est un changement long et complexe auquel les producteurs de contenus dans leur ensemble doivent faire face et il suffit pour s'en convaincre de voir les déboires que vit la presse. Chacun est à la recherche du ou des services, la seule source actuelle de monétisation acceptée par le consommateur, qui lui permettront de survivre à ces bouleversements, mais, dans la plupart des cas, force est de constater que le chiffre d'affaires qu'ils génèrent ne compense pas la baisse des revenus constatée par ailleurs.

Attention, loin de moi l'idée de me plaindre et de regretter le temps passé, d'autant qu'il faut bien le dire : certains producteurs de contenus s'étaient constitué de véritables rentes qu'ils exploitaient pour un service limité et évoluant peu voire pas. Après tout, cela donne l'occasion de redistribuer les cartes. Pourtant, il existe un point crucial qu'il ne faut pas mettre de côté : même si la donnée n'a plus de valeur marchande en soi, sa création représente toujours un coût. Or, la tentation est grande à l'heure des économies pour un manager dont les yeux seraient uniquement rivés sur le chiffre d'effectuer une coupe drastique dans cette activité si consommatrice de ressources.

Cette décision aurait des conséquences terribles. Au niveau de l'organisation elle-même, elle marque le début de sa lente descente aux enfers, car elle constitue une rupture dans la vocation même de l'organisation. Et de manière plus générale, cela déstabilise l'ensemble de l'écosystème de services qui s'est construit autour des données produites par cette organisation. Et c'est finalement là que réside le paradoxe : alors que nous sommes dans une situation où nous avons de plus en plus besoin de données de qualité pour construire de nouveaux services, nous allons faire face à une pénurie car nous n'aurons plus les moyens de les produire.

Puisque la donnée est la richesse de l'organisation, la base sur laquelle de futurs services peuvent être construits, c'est elle qui doit faire l'objet de toutes les attentions. Ainsi, plutôt que de réduire l'activité de production elle-même, il est nécessaire d'investir pour revoir les processus de production et d'exploitation.

Comment alors réduire les coûts pour s'assurer d'une donnée de qualité et créer de nouveaux usages ?

Lire la suite...

Management de l'information Web sémantique Système d'information Causeries

Petite Poucette au secours de l'Open Data

Dans mon précédent billet, j'avais qualifié l'Open Data « d'échec total » sans beaucoup plus d'explications. Il me semble important de justifier ce propos et de le dépasser, d'autant que cela a pu blesser certaines personnes qui se battent au quotidien pour mettre à disposition ces données ce qui n'était pas mon objectif. Il m'a fallu un peu de temps, car il m'a été difficile de mettre des mots précis sur ce qui relevait plus d'un sentiment ou d'une intuition.

De l'échec de l'Open Data

Si on jette un regard froid et objectif sur les retombées de l'Open Data, on peut évidemment n'être que déçu par le résultat :

  • la transparence : évidemment certaines données sont à disposition et c'est une avancée énorme, mais mes parents n'en connaissent pas l'existence et, quand bien même, ils sont incapables d'exploiter par eux-mêmes ces données, cela est réservé à une nouvelle élite de notre société : les personnes capables de manipuler un programme informatique pour transformer les données, faisons simple : les "geeks", est-ce vraiment cela la transparence que nous appelons de nos vœux ?
  • la réutilisation des données : la transparence passe par la mise au point d'applications et donc par la réutilisation des données, j'ai déjà montré dans mon précédent billet les obstacles qui se présentent aujourd'hui. Conséquences (ou pas...) : on ne peut pas dire que c'est le raz-de-marée, il y a bien des initiatives à droite à gauche, des applications pour téléphone portable, des prototypes ou quelques services qui ont profité des données mises à disposition comme en témoignent les résultats des multiples concours ou les hackatons, mais, et j'espère que cela ne vexera personne, cela reste anecdotique par rapport à tout ce qu'on est en droit d'attendre ou d'espérer ;
  • le marché économique : qui peut prétendre vivre de l'Open Data aujourd'hui ? Existe-t-il un marché ? Je ne parle pas de s'enrichir, je parle simplement de disposer d'un marché économique suffisant pour justifier les investissements publics sur le long terme et privés, déjà, sur le court et moyen terme nécessaires à la mise au point de solutions, de produits, de formations, de services adaptés et à la pérennisation de ces initiatives pour permettre la réutilisation et l'accessibilité des données indispensables pour apporter la transparence sur le long terme auprès de tous.
  • l'innovation : comme le résume Karima Rafes : « #hackaton ou la R&D du pauvre... Un bon titre pour un livre sur l écosystème français #OpenData » Rien de plus à ajouter...

Mais, ces constats m'apparaissent plus comme des symptômes d'un problème plus profond et plus complexe à qualifier. Le billet de Christian Fauré intitulé « Ce n'est pas qu'une histoire de données » offre un début de réponse. Christian y exhorte les institutions à ne pas limiter l'Open Data à la stricte mise à disposition des données et à profiter de ce mouvement pour placer leur activité dans le monde numérique, c'est-à-dire mettre l'activité de l'organisation dans l'espace de partage et de collaboration qu'est le web et ainsi profiter des avantages de ce milieu associé. Mais, cela ne me satisfaisait pas complètement, car, si Christian présente (rapidement) ce qu'il faudrait faire, cela n'explique pas le paradigme actuel et les raisons de son dysfonctionnement.

Lire la suite...

Management de l'information Système d'information Causeries

Information numérique : défintions et enjeux

Alors que j'étais en train de préparer une nouvelle formation, je suis retombé sur différents diaporamas que j'avais constitués à l'époque où je travaillais sur la pérennisation de l'information numérique. Comme je n'en aurai plus vraiment l'utilité, je me suis dit qu'il pourrait être intéressant de les partager, plutôt que les laisser dans un recoin de mon disque dur. Last but not least, cela me permettait d'alimenter ce blog, largement en déshérence ces derniers temps...

Ce diaporama est le résultat de la fusion d'une formation que j'avais mise au point pour présenter les enjeux de la pérennisation de l'information numérique à mes collègues d'Atos Origin, lorsque je travaillais sur le projet SPAR de la BnF et d'une présentation de ces problématiques à destination de décideurs. Vous reconnaîtrez peut-être certaines diapos de Manue, en particulier la fameuse disquette.

Placé sous licence CC-BY, ce diaporama est à votre disposition. N'hésitez pas, c'est fait pour ça.

Lire la suite...

Structuration XML Système d'information Web Causeries Conservation Numérisation —  1 commentaire