Les petites cases

Moteur de recherche

Des supports pour former à la question de la donnée

Nouvelle année que je vous souhaite excellente après cette année 2020 si particulière à tant d’égards et nouvelles perspectives... Cela fait maintenant six ans que je travaille à l’Institut national de l’audiovisuel ;  six années qui ont été l’occasion de mener un magnifique projet de déploiement d’une infrastructure technique de stockage et traitement des données et d’outils de fouille de données et de textes, de modélisation et refonte des données de gestion des collections et de développement d’une culture de la donnée partagée au sein de l’établissement ; six années dont on voit aujourd’hui un premier aboutissement.

Ces six années de développement et de réflexion ont aussi été l’occasion pour moi de donner de très nombreuses formations initiales et continues autour de la question de la donnée dans différents établissements : bien-sûr l’organisme de formation de l’INA, l’ENSSIB et l’Ecole nationale des chartes. Au départ, elles étaient orientées autour des technologies du Web sémantique et elles ont peu à peu évolué vers la question des données en général pour essayer d’embrasser aujourd’hui toutes les composantes de la gouvernance des données.

J’apprécie énormément d’enseigner, de former, de partager mes réflexions sur les sujets sur lesquels je travaille, cela permet de formaliser les idées et de les mettre en ordre. Malgré tout, même si je pense que la formation fait partie intégrante de mon travail, elle n’est pas mon activité principale. Comme j’ai la chance de pouvoir choisir (mesdames et messieurs les enseignantes et enseignants, je vous admire !!), que je ne souhaite pas ressentir de la lassitude, que je souhaite que cela reste un plaisir, j’ai décidé pour cette nouvelle année de faire une pause et de laisser peu à peu la place aux personnes que j’ai formées, qui m’ont accompagné dans cette aventure des dernières années et/ou que j’ai pu croiser, à toi lecteur, peut-être !

Mais, avant de passer la main (au moins pour un temps ?), je vous propose deux choses :

  • tout d’abord, je place en licence CC-BY tous mes supports de formations, vous les trouverez tous dans ce répertoire partagé sur Google drive : https://drive.google.com/drive/folders/1Uk-p8JYGDeEFAcOW9Qom-bj0p_-0Z7-d?usp=sharing N’hésitez pas, c’est là pour ça ;-) Dans la suite de ce billet, je détaille rapidement ces différents supports ;
  • par ailleurs, sur une idée d’Emmanuelle, je vous propose d’organiser sous l’égide de l’Ina, une session (gratuite, évidemment…) de formation de formateurs autour de la donnée, je ne sais pas bien à quoi ressemblera cette journée, à celle qu’on souhaitera : des échanges, des présentations de supports et des objectifs pédagogiques, de la mise au point de formations… En échange, il est possible que vous soyez sollicités par les responsables de formations de l’Ina pour assurer des formations sur le sujet, en particulier par Christine Braemer avec qui nous avons mis au point un cycle de formation continue sur la question (dans la partie “Gestion des données”) et que je remercie ici pour la confiance qu’elle m’a faite ces dernières années. Si cela vous intéresse, vous pouvez me contacter par mail (gautier.poupeau@gmail.com) ou via twitter pour vous manifester. Dès que les conditions sanitaires le permettront à nouveau, nous vous contacterons pour choisir une date et mettre au point le programme de cette journée.

Lire la suite...

Management de l'information Structuration Web sémantique XML Système d'information Causeries Indexation Moteur de recherche

Au-delà des limites, que reste-t-il concrètement du Web sémantique ?

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Si, à travers les différents cas d’implémentation des technologies du Web sémantique décrits dans le précédent billet, les promesses sont globalement tenues, force est de constater que les problèmes qui se posent en limitent aujourd’hui le déploiement à large échelle ou en dehors de marchés de niche clairement identifiés :

  • les systèmes de stockage des données en RDF (ou triple store) ont montré des limites du point de vue de l’intégrité des données (gestion des transactions), des performances (temps de réponse de certaines requêtes) ainsi que de la montée en charge (volumétrie). Ainsi, parmi les trois axes qui définissent traditionnellement le Big Data : vitesse, volume et variété (les « 3V »), les deux premières caractéristiques ne sont pas encore atteintes par ces technologies et si la décentralisation des données, au cœur même du modèle du Web de données, a pu constituer en partie une solution, c’est oublier la problématique de résilience du réseau et la nécessité d’agrégation des données pour les interroger.
  • la structure même du modèle RDF a fait apparaître des limites quant à la gestion de la provenance des différentes informations et la contextualisation du triplet : or, si ce point était présent dans la feuille de route du Web sémantique écrite par Tim Berners-Lee, il n’est toujours pas vraiment résolu. Des solutions sont apparues mais elles ne sont pas entièrement satisfaisantes. De ce point de vue, RDF 1.1 est un rendez-vous manqué, d’autant qu’à la même époque le modèle des “property graph” qui propose une réponse à cette limite a commencé à s’imposer… Ce modèle est aujourd’hui au coeur de toutes les technologies de bases de données graphes proposées par les gros acteurs du secteur : IBM, Microsoft, Amazon (basé a priori sur le produit Blazegraph dont la société semble avoir été rachetée par Amazon), Google, sans compter les nouveaux venus  : Huawei, Datastax, Neo4j ou OrientDB. Ainsi, le modèle de graphes se porte bien et, pour cause, il offre une souplesse inégalée dans la manipulation des données structurées et dans l’interrogation croisée de données hétérogènes. Mais, ils ont tous fait le choix d’implémenter le modèle des property graph et ils ont tous adopté le framework Apache Tinkerpop et le langage de requêtes Gremlin pour interagir avec le système de stockage, ce qui en fait un standard de fait.
  • le destin d’une technologie, indépendamment de son intérêt ou de sa qualité, tient aussi à son degré d’appropriation par les développeurs. Or, malgré sa relative ancienneté (le premier brouillon de RDF est publié en 1997 sur le site du W3C !!), il reste encore beaucoup de travail en la matière et, à la vue du nombre incessant de technologies qui apparaissent (et disparaissent), il est à craindre que les technologies du Web sémantique restent des technologies de niche maîtrisées par peu de développeurs.

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Causeries Indexation Moteur de recherche RDFa Linked Data

Les technologies du Web sémantique, entre théorie et pratique

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Les technologies du Web sémantique : Pourquoi ? Comment ?

Lorsque Tim Berners-Lee crée le Web, son objectif est de proposer aux chercheurs du CERN un espace d’interopérabilité pour échanger non seulement des documents mais aussi des données structurées. Ainsi, le document qui décrit sa proposition intègre dès le départ l’idée d’aller au-delà d’un espace documentaire pour relier des entités du monde réel.


Schéma représentant la proposition de Tim Berners-Lee pour gérer l’information du CERN, Tim Berners-Lee

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Causeries Digital humanities Indexation Moteur de recherche RDFa Linked Data

Les technos du Web sémantique ont-elles tenu leurs promesses ?

J’ai commencé à m’intéresser aux technologies du Web sémantique en 2005 et j’ai fait ma première communication à ce sujet en 2006 lors de la conférence Digital Humanities à Paris. J’ai eu l’occasion de les tester grandeur nature dès 2007 pour un projet mené par le CCH du King’s college, mais c’est au cours du projet SPAR de la Bibliothèque nationale de France à partir de 2008 que j’ai véritablement commencé à toucher du doigt les formidables promesses de ces technologies ainsi que leurs limites, déjà… Entre 2008 et 2014, j’ai eu l’occasion de les déployer dans différents contextes pour répondre à des cas d’usage divers : exposition des données, récupération de données encodées au sein des pages Web, décloisonnement de silos internes et mise en cohérence de données, enrichissement de données et mashup… J’ai œuvré à leur diffusion, du moins j’ai essayé, à travers ce blog ou ailleurs, et effectué quantité de formations sur le sujet en direction de publics très variés. Pour résumer, j’y voyais alors le moyen de déployer un système  d’information orienté données et plus uniquement processus et d’une manière générale de renverser ce primat dans la manière d’aborder le développement d’une application informatique.

Comme je l’ai déjà expliqué, à l’issue de cette période, j’étais très dubitatif sur l’intérêt d’utiliser ces technologies. Dans la mesure où j’étais conscient de leurs apports mais aussi de leurs limites, elles étaient toujours présentes mais sans être jamais au cœur de ma réflexion à l’Ina, du moins directement. L’expérience accumulée et les bénéfices de ces technologies nourrissaient néanmoins des pans entiers de la stratégie que nous étions en train de déployer sans même que j’en sois totalement conscient.

C’est peut-être la raison pour laquelle j’ai continué de les enseigner aussi bien dans le Master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes que lors de formations pour Ina Expert, parfois, il faut bien l’avouer, en traînant un peu les pieds. J’ai fait évoluer ma présentation en replaçant ces technologies et leur intérêt dans le contexte plus large du Big Data, de l’Open Data et maintenant de l’intelligence artificielle. Finalement, je ne me suis jamais résolu à les abandonner totalement, partant du principe qu’une technologie ne disparaît pas, mais trouve sa juste place par rapport aux autres. De plus, je reste convaincu qu’elles restent la meilleure technologie pour assurer l'interopérabilité des données, mais jusqu’à quel point en a-t-on vraiment؜ besoin ?

Plusieurs fois, à la lecture d’un article ou d’un tweet qui vantaient les mérites de ces technologies et du Linked Open Data ou web de données, j’ai voulu écrire pourquoi il fallait rester prudent (voire plus…), encore récemment autour de la question de leurs usages au sein des musées. Je l’ai même dit en conférence, parfois, de manière abrupte, à la hauteur des désillusions que j’avais vécues. Aujourd’hui, sans avoir réussi à s’imposer largement, ces technologies ont indubitablement fait avancer notre réflexion sur la question de l’interopérabilité et force est de constater que certaines initiatives ont réussi à sortir du lot et à valider certains usages. Après avoir laissé passer le « ravin de la désillusion » et au moment où ces technologies semblent atteindre le plateau de la productivité du « Hype cycle », c’est le bon moment de dresser un bilan.


Hype Cycle du Gartner, Jérémy Kemp, CC-BY-SA

Alors, peut-être pour la dernière fois sur ce blog, je vous propose une plongée dans les entrailles des technologies du Web sémantique pour étudier quels en sont finalement les apports et les limites et l’écart entre les promesses et la réalité. Pour rendre les choses un peu plus digeste à lire et à appréhender, j’ai séparé ce bilan en quatre billets :

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Moteur de recherche RDFa SHS Wikipedia Geekeries Linked Data

Bilan de 15 ans de réflexion sur la gestion des données numériques

Cela fait maintenant deux ans que j’ai rejoint l’Institut national de l’audiovisuel. Deux années qui m’ont permis de donner une nouvelle impulsion à ma réflexion sur la gestion des données numériques. Deux années passionnantes et qui se concrétisent depuis plus de six mois par le développement d’une infrastructure de traitement et de stockage des données, aboutissement (forcément provisoire) d’une vision de l’architecture du système d’information où la donnée occupe une place centrale, à l’inverse de l’approche traditionnelle par le processus. Deux années dont les résultats font en partie l’objet d’un article pour le prochain livre d’Emmanuelle sur l’avenir des catalogues, à paraître aux éditions du Cercle de la librairie et dont l’écriture m’a donné envie de faire revivre un peu cet espace de partage que j’ai laissé en friche ces dernières années.

Mais avant de partager ces nouveaux éléments, il me semble intéressant de dresser un bilan de ces 15 dernières années afin de tracer la ligne directrice et de brosser aussi les réussites, les échecs et les erreurs. La lecture de quelques (excellents) mémoires du master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes m’ont aussi motivé à préciser (ou repréciser) certaines approximations que j’ai pu rencontrer ici ou là.

Alors, voilà, avant de passer à la suite, un bilan de 15 ans de réflexion sur la gestion des données numériques, forcément subjectif et en aucun cas exhaustif. Il se découpe en quatre phases, qui correspondent à des moments de mon parcours professionnel et, ça va de pair, avec les sujets principaux qui ont été au cœur de ma réflexion. Elles sont les suivantes :

  • l’édition électronique ;
  • la conservation sur le long terme de l’information numérique ;
  • le traitement des données structurées et semi-structurées ;
  • l’architecture de données à l’ère du Big data.

Lire la suite...

Management de l'information Structuration RDF Web sémantique XML Système d'information Sparql Web Causeries Conservation Digital humanities Édition critique Édition électronique Histoire Moteur de recherche SHS TEI Perso

Un automne de rencontres autour du Web sémantique

Il y a un temps pour tout : la découverte, la réflexion et l'expérimentation sur ce blog, le partage et la dissémination auprès de nouveaux publics au cours d'événements divers et le temps de l'accomplissement de projets mettant en œuvre ces différentes idées. Ainsi, le silence de ce blog trouve ses raisons dans d'autres activités non moins essentielles qui, à leur tour, vont alimenter de nouvelles réflexions. Mais, avant de vous en faire part et en guise de conclusion à cette riche période, je voulais partager avec vous les présentations qui ont ponctué mon automne.

Lire la suite...

Management de l'information RDF Web sémantique Sparql Causeries Digital humanities Moteur de recherche RDFa Wikipedia Linked Data —  2 commentaires

Une nouvelle aventure sous le signe du Web sémantique

Comme je l'ai annoncé sur Twitter, j'ai quitté Atos Origin fin juin. Après deux années marquées par la réalisation de beaux projets au sein de cette société et trois ans en SSII qui m'ont permis d'apprendre un métier et les processus qui lui sont attachés, le moment m'a paru opportun pour changer de perspectives et éviter la prochaine réorganisation... Il est donc temps de lever le voile vers ma nouvelle destination : je rejoins la société Antidot, éditeur du moteur de recherche AFS depuis 10 ans. Vous allez me dire « Un moteur ! Quelle drôle d'idée ? ».

Pas tant que cela, en fait, quand on connaît le positionnement de ce moteur et son évolution depuis quelques années, cette nouvelle collaboration est même une suite logique. Nos routes se sont croisées à plusieurs reprises, nous partageons une vision commune du traitement, de l'accès et de la recherche d'information dans laquelle se conjuguent respect des standards, Web et souci constant de la qualité des données. Mais, c'est évidemment autour de l'utilisation des technologies du Web sémantique que nos routes se sont rejointes, Antidot a fait ce pari depuis plusieurs années, à commencer par SKOS qu'ils ont été les premiers à implémenter en tant que format pour l'utilisation des référentiels au sein du moteur jusqu'à devenir aujourd'hui un des enjeux principaux de la société et se concrétiser par la réalisation de plusieurs projets.

C'est donc en tant que consultant spécialisé dans les technologies du Web sémantique que j'intègre la société. A cette occasion, nous ouvrirons une agence à Paris, la société étant jusqu'à maintenant installée à Lyon, Lambesc et la cellule R&D en région parisienne. C'est une décision importante dans l'optique du développement de la société. Mon rôle sera d'aider à poursuivre l'intégration des technologies du Web sémantique au sein d'AFS et d'accompagner les clients d'Antidot dans leurs utilisations et leurs déploiements, mais cela ne s'arrêtera pas là. En effet, Antidot souhaite participer au développement du Web de données et des technologies du Web sémantique en France et, à ce titre, j'étendrai mon activité d'évangélisation menée sur ce blog à mon environnement professionnel avec plus de temps et plus de perspectives. Dans le même ordre d'idée, il me sera possible de mener des missions de conseil et d'assistance qui ne font pas intervenir le produit. Joli programme en vue !

Cette nouvelle aventure n'aura pas été possible sans Christian Fauré (oui, je sais, c'est toujours lui que je remercie mais que voulez-vous, comme il le dit lui-même, certains managers laissent plus de traces que d'autres) qui m'a fait découvrir et rencontrer Antidot. Je ne sais pas si j'ai compris pourquoi il disait que je pouvais apporter quelque chose aux éditeurs de moteur de recherche, mais j'ai une occasion en or de trouver les réponses. Il me faut aussi remercier Fabrice Lacroix, PDG d'Antidot, pour la confiance dont il m'honore et le défi qu'il me propose et, bien-sûr, Manue pour sa patience au cours de ces derniers mois qui n'ont pas été simples.

Dernière chose : la ligne éditoriale de ce blog ne bougera pas d'un iota : veille et réflexion. Je n'ai jamais parlé d'une société plus qu'une autre, de même pour un produit et ça ne va pas commencer aujourd'hui. Antidot possède déjà un blog et j'aurai certainement l'occasion d'y mettre mon grain de sel, tout en continuant à faire vivre cet espace personnel.

Lire la suite...

Management de l'information Web sémantique Causeries Moteur de recherche Perso —  9 commentaires

Contrer les idées reçues sur le Web sémantique

La médiatisation d'un nouveau concept, d'une nouvelle notion, d'une nouvelle technologie et de nouvelles perspectives s'accompagne immanquablement d'analyses plus ou moins farfelues, d'incompréhensions et d'interprétations erronnées (parfois volontairment pour profiter du buzz). Le Web sémantique n'échappe à cette tendance.

A l'instar de James Hendler qui a publié sa FAQ non officielle sur le Web sémantique, je vous propose de mon côté de revenir sur quelques idées reçues sur le Web sémantique.

Lire la suite...

Management de l'information Web sémantique Système d'information Causeries Moteur de recherche —  6 commentaires

Yahoo apporte des bananes au Web sémantique, 1ère partie

Annoncé, il y un peu plus de 2 mois, « l’écosystème de développement pour la recherche » de Yahoo est maintenant disponible sous le nom de SearchMonkey. Si, avec cette initiative, le but de Yahoo était de reprendre la main sur Google dans le domaine strict de la recherche, il me semble qu’une partie du chemin a été effectuée. Plutôt, que d’attaquer frontalement Google en mettant en œuvre de nouveaux algorithmes de recherche, par exemple, Yahoo a choisi un angle différent jusqu’alors complètement inexploité et, pourtant, oh ! combien important, à savoir la présentation des résultats.

Et, dans ce cadre, aiguillé certainement par le succès de facebook et de sa plate-forme de développement ouvert, le moteur de recherche a mis à disposition des développeurs une plate-forme pour mettre au point des applications qui agrémentent, selon la volonté des utilisateurs, les résultats de la recherche. Pour ce faire, il rend disponible les données de son index, soit les données structurées avec des microformats, RDFa et eRDF (embeded RDF, un système à peu près équivalent à RDFa) et déjà indexées, par défaut, par Yahoo, soit directement l’ensemble des données de la page Web à partir desquelles le développeur peut créer une extraction personnelle.

La plate-forme SearchMonkey comprend donc trois parties (et donc trois billets pour le présenter…) :

  • Une à destination des utilisateurs ;
  • Une à destination des développeurs ;
  • Une à destination des propriétaires de sites.

Lire la suite...

Causeries Indexation Moteur de recherche RDFa —  9 commentaires

Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque

Dans un billet récent écrit à l'occasion des dix ans de XML, Jean-Michel Salaün regrettait que les pistes esquissés dans le second texte de l'initiative Roger T. Pédauque intitulé «  Le texte en jeu. Permanences et transformations du document  » n'aient pas été suivies. Et, pour cause me semble-t-il, si ce deuxième article, comme les deux autres d'ailleurs, apporte incontestablement des pistes de réflexion et certaines idées intéressantes, il comprend des contre-sens et des erreurs si manifestes qu'il n'est possible de s'en servir comme base de travail qu'après une critique attentive, sans compter sur le style que Jean-Michel Salaün lui-même dans le billet cité plus haut qualifie « d'un peu abscons » et que je qualifierais plus volontiers de charabia jargonnant.

A l'heure où le Web sémantique pointe avec plus de prégnance le bout de son nez, il n'est pas inutile de revenir sur ce texte, comme sur les deux autres, pour construire une nouvelle réflexion. C'était d'ailleurs leur but : susciter le débat et la réflexion, sans présager des évolutions futures et selon l'état de l'art du moment. Or, il semble bien qu'une nouvelle étape est sur le point d'être franchie, si ce n'est pas déjà le cas. A titre personnel, si, à l'époque de rédaction du texte, je n'étais pas en mesure de m'immiscer dans le débat, j'espère, aujourd'hui, pouvoir apporter ma pierre à l'édifice.

Avant d'entrer dans le vif du sujet, je voudrais rappeler, pour mémoire, que cette initiative avait été lancée par le réseau thématiques pluridisciplinaires dédié au document, le RTP-DOC d'où le pseudonyme Roger T. Pédauque pour signer les textes collectifs, placé sous le patronage de feu le département STIC du CNRS. L'objectif était de réfléchir selon une approche pluridisciplinaire à la notion de document dans le contexte des changements induits par le numérique.

Lire la suite...

Structuration RDF XML Causeries Indexation Moteur de recherche OWL TEI Validation XHTML Xquery XSLT —  7 commentaires