Les petites cases

Indexation

Des supports pour former à la question de la donnée

Nouvelle année que je vous souhaite excellente après cette année 2020 si particulière à tant d’égards et nouvelles perspectives... Cela fait maintenant six ans que je travaille à l’Institut national de l’audiovisuel ;  six années qui ont été l’occasion de mener un magnifique projet de déploiement d’une infrastructure technique de stockage et traitement des données et d’outils de fouille de données et de textes, de modélisation et refonte des données de gestion des collections et de développement d’une culture de la donnée partagée au sein de l’établissement ; six années dont on voit aujourd’hui un premier aboutissement.

Ces six années de développement et de réflexion ont aussi été l’occasion pour moi de donner de très nombreuses formations initiales et continues autour de la question de la donnée dans différents établissements : bien-sûr l’organisme de formation de l’INA, l’ENSSIB et l’Ecole nationale des chartes. Au départ, elles étaient orientées autour des technologies du Web sémantique et elles ont peu à peu évolué vers la question des données en général pour essayer d’embrasser aujourd’hui toutes les composantes de la gouvernance des données.

J’apprécie énormément d’enseigner, de former, de partager mes réflexions sur les sujets sur lesquels je travaille, cela permet de formaliser les idées et de les mettre en ordre. Malgré tout, même si je pense que la formation fait partie intégrante de mon travail, elle n’est pas mon activité principale. Comme j’ai la chance de pouvoir choisir (mesdames et messieurs les enseignantes et enseignants, je vous admire !!), que je ne souhaite pas ressentir de la lassitude, que je souhaite que cela reste un plaisir, j’ai décidé pour cette nouvelle année de faire une pause et de laisser peu à peu la place aux personnes que j’ai formées, qui m’ont accompagné dans cette aventure des dernières années et/ou que j’ai pu croiser, à toi lecteur, peut-être !

Mais, avant de passer la main (au moins pour un temps ?), je vous propose deux choses :

  • tout d’abord, je place en licence CC-BY tous mes supports de formations, vous les trouverez tous dans ce répertoire partagé sur Google drive : https://drive.google.com/drive/folders/1Uk-p8JYGDeEFAcOW9Qom-bj0p_-0Z7-d?usp=sharing N’hésitez pas, c’est là pour ça ;-) Dans la suite de ce billet, je détaille rapidement ces différents supports ;
  • par ailleurs, sur une idée d’Emmanuelle, je vous propose d’organiser sous l’égide de l’Ina, une session (gratuite, évidemment…) de formation de formateurs autour de la donnée, je ne sais pas bien à quoi ressemblera cette journée, à celle qu’on souhaitera : des échanges, des présentations de supports et des objectifs pédagogiques, de la mise au point de formations… En échange, il est possible que vous soyez sollicités par les responsables de formations de l’Ina pour assurer des formations sur le sujet, en particulier par Christine Braemer avec qui nous avons mis au point un cycle de formation continue sur la question (dans la partie “Gestion des données”) et que je remercie ici pour la confiance qu’elle m’a faite ces dernières années. Si cela vous intéresse, vous pouvez me contacter par mail (gautier.poupeau@gmail.com) ou via twitter pour vous manifester. Dès que les conditions sanitaires le permettront à nouveau, nous vous contacterons pour choisir une date et mettre au point le programme de cette journée.

Lire la suite...

Management de l'information Structuration Web sémantique XML Système d'information Causeries Indexation Moteur de recherche

Réflexions et questions autour du Web sémantique

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Au delà des quelques initiatives décrites dans le précédent billet et qui ont réussi à émerger, la réflexion sur les technologies du Web sémantique et le Web de données a indéniablement joué un rôle dans la gestion des données des organisations en particulier patrimoniales.

Que nous a apporté la réflexion autour du Web sémantique ?

Accompagner la réflexion sur la modélisation des données patrimoniales : l’abandon de la notion de “notice”

La notice dite documentaire est l’adaptation au milieu informatique de la fiche cartonnée. Ce mimétisme de pratiques antérieures est caractéristique des phases d’appropriation d’un nouveau média : la notice informatique a reproduit toutes les caractéristiques de la fiche cartonnée tout en exploitant les avantages de l’outil informatique (recherche, ubiquité, échange …). La notice est un méta-document dont l'objectif est la description d’un document. Or, c’est précisément cette forme qui pose problème. D’un objet porteur d’information, elle est devenue peu à peu elle-même objet de modélisation, au point d’en oublier parfois l’objectif initial : l’objet/document qu’elle est censée décrire. De plus, la notice place en son centre l’objet/document alors qu’aujourd’hui, on se rend compte que la description doit s’intéresser plus globalement à tous les aspects qui entourent cet objet/document. Enfin, avec la démultiplication des données suite à la numérisation, l’augmentation de données nativement numériques et maintenant la prise en compte des données d’usages, la notice et son cadre rigide (et par extension le catalogue qui en est le réceptacle) ne suffisent plus pour répondre aux différents besoins.

Si les formats MARC datent de la fin des années 1960, il faut attendre les années 1990 pour que le milieu des bibliothèques se lance dans un travail de modélisation conceptuelle. Les FRBR, dont le nom renvoie à la notion de « notice bibliographique », se caractérisent justement par le fait qu’elles ne modélisent pas la notice mais les informations qu’elle contient sous une forme logique. De fait, ce sont les objets décrits qui sont modélisés. De plus, elles marquent la fin d’une vision unique du document en tentant d’en séparer les différentes appréhensions : de l’entité intellectuelle pensée par un (ou plusieurs) auteur (l’œuvre) à l’objet lui-même au sein d’une collection (l’item). Si les FRBR s’intéressaient essentiellement au document lui-même, le travail s’est prolongé pour ensuite se concentrer sur les données d’autorité avec le modèle FRAD. Ce travail de réflexion a abouti en 2017 à la publication du modèle LRM (Library Relationship Model) issu de la fusion des différents travaux FRBR, FRAD et FRSAD et imprégné par la réflexion sur les technologies du Web sémantique de ces dix dernières années.


Vue d’ensemble des relations dans LRM, IFLA Library Reference Model

Lire la suite...

Management de l'information Structuration RDF Web sémantique Système d'information Sparql Causeries Indexation Linked Data

Au-delà des limites, que reste-t-il concrètement du Web sémantique ?

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Si, à travers les différents cas d’implémentation des technologies du Web sémantique décrits dans le précédent billet, les promesses sont globalement tenues, force est de constater que les problèmes qui se posent en limitent aujourd’hui le déploiement à large échelle ou en dehors de marchés de niche clairement identifiés :

  • les systèmes de stockage des données en RDF (ou triple store) ont montré des limites du point de vue de l’intégrité des données (gestion des transactions), des performances (temps de réponse de certaines requêtes) ainsi que de la montée en charge (volumétrie). Ainsi, parmi les trois axes qui définissent traditionnellement le Big Data : vitesse, volume et variété (les « 3V »), les deux premières caractéristiques ne sont pas encore atteintes par ces technologies et si la décentralisation des données, au cœur même du modèle du Web de données, a pu constituer en partie une solution, c’est oublier la problématique de résilience du réseau et la nécessité d’agrégation des données pour les interroger.
  • la structure même du modèle RDF a fait apparaître des limites quant à la gestion de la provenance des différentes informations et la contextualisation du triplet : or, si ce point était présent dans la feuille de route du Web sémantique écrite par Tim Berners-Lee, il n’est toujours pas vraiment résolu. Des solutions sont apparues mais elles ne sont pas entièrement satisfaisantes. De ce point de vue, RDF 1.1 est un rendez-vous manqué, d’autant qu’à la même époque le modèle des “property graph” qui propose une réponse à cette limite a commencé à s’imposer… Ce modèle est aujourd’hui au coeur de toutes les technologies de bases de données graphes proposées par les gros acteurs du secteur : IBM, Microsoft, Amazon (basé a priori sur le produit Blazegraph dont la société semble avoir été rachetée par Amazon), Google, sans compter les nouveaux venus  : Huawei, Datastax, Neo4j ou OrientDB. Ainsi, le modèle de graphes se porte bien et, pour cause, il offre une souplesse inégalée dans la manipulation des données structurées et dans l’interrogation croisée de données hétérogènes. Mais, ils ont tous fait le choix d’implémenter le modèle des property graph et ils ont tous adopté le framework Apache Tinkerpop et le langage de requêtes Gremlin pour interagir avec le système de stockage, ce qui en fait un standard de fait.
  • le destin d’une technologie, indépendamment de son intérêt ou de sa qualité, tient aussi à son degré d’appropriation par les développeurs. Or, malgré sa relative ancienneté (le premier brouillon de RDF est publié en 1997 sur le site du W3C !!), il reste encore beaucoup de travail en la matière et, à la vue du nombre incessant de technologies qui apparaissent (et disparaissent), il est à craindre que les technologies du Web sémantique restent des technologies de niche maîtrisées par peu de développeurs.

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Causeries Indexation Moteur de recherche RDFa Linked Data

Les technologies du Web sémantique, entre théorie et pratique

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Les technologies du Web sémantique : Pourquoi ? Comment ?

Lorsque Tim Berners-Lee crée le Web, son objectif est de proposer aux chercheurs du CERN un espace d’interopérabilité pour échanger non seulement des documents mais aussi des données structurées. Ainsi, le document qui décrit sa proposition intègre dès le départ l’idée d’aller au-delà d’un espace documentaire pour relier des entités du monde réel.


Schéma représentant la proposition de Tim Berners-Lee pour gérer l’information du CERN, Tim Berners-Lee

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Causeries Digital humanities Indexation Moteur de recherche RDFa Linked Data

De la responsabilité humaine des algorithmes

Comme Nicolas, je dois bien avouer que je suis fatigué par ces articles de journaux, sujets télévisés et autres discussions de comptoirs qui conçoivent l’algorithme comme une entité en soi dont la création et l’exécution seraient immanentes. L’algorithme est devenu peu à peu l’expression d’une peur alimentée par la place grandissante du numérique dans nos vies et de l’incompréhension de beaucoup, en particulier des médias, face aux principes de l’informatique. Mais cela pose un problème de taille : penser ainsi l’algorithme, c’est nier la responsabilité des créateurs et des exécutants de l’algorithme qui sont des humains. Un algorithme n’a pas une vie propre, il n’est que la colonne vertébrale d’un code source écrit et pensé par un humain et dont l’objectif est fini. La responsabilité de la création de l’algorithme en revient donc à son programmeur et de son exécution à la personne ou l’organisation qui en assure l’exploitation au sein de son application et non à l’algorithme lui-même. Il n’existe donc pas une éthique de l’algorithme mais de l’organisation qui le met en oeuvre. Il est alors nécessaire d’appréhender le fonctionnement et les conséquences d’utilisation d’un algorithme pour voir s’il est en adéquation avec la stratégie et/ou l’éthique de l’organisation.

Pour illustrer mon propos, prenons l’exemple de la recommandation de contenus. L’objectif de tous ces algorithmes est grosso modo le même : augmenter la sérendipité pour faire en sorte que l’utilisateur poursuive sa navigation dans le site Web et que l’achat soit converti dans le cas des sites de E-commerce.

Lire la suite...

Causeries Indexation

Open Graph Protocol : Facebook se met au Web sémantique ?

Retour le 21 avril au soir : Facebook organise l'événement F8 au cours duquel il va annoncer les évolutions de sa plate-forme à destination des développeurs. A titre personnel, je n'ai pas vu l'annonce dont je n'ai a priori rien à attendre. Un premier twitt de Nicolas attire mon œil :

« Mark Zuckerberg - 3 fois le mot semantic par phrase.. des graphs dans tous les sens avec des connections avec d'autres sites. hmm.. »

Attiré, certes, mais sans grand espoir, je continue à vaquer à mes occupations numériques. Quelques minutes plus tard, première annonce concrète, Facebook met à disposition une « Graph API ». Alors que Régis a l'air enthousiaste, je partage la déception de Nicolas :

« Facebook propose une "Graph API" mais le format = JSON, les bras m'en tombent... http://graph.facebook.com/ via @rgaidot et @cyno »

Ce dernier essaye de me faire voir le bon côté des choses. Il a raison car les annonces ne sont pas terminées et quelques minutes plus tard, Manu Sporny relance nos espoirs en attirant l'attention sur un header de page HTML avec un encodage RDFa montré lors de la conférence :

« I think Facebook just announced RDFa support (the Open Graph Protocol) at F8: http://ow.ly/1Bm2g #rdfa #html5 #f8 (look at the attributes) »

Les soupçons sont rapidement confirmés, Facebook annonce Open Graph Protocol, un vocabulaire RDF très simple pour encoder en RDFa le titre de la page, le type de ressource décrite (vidéo, sport, entreprise, hôtel...), le titre du conteneur de la page et l'URL d'une image (et quelques autres choses..). Dans la foulée, Facebook annonce le support de ce protocole par plusieurs sites importants : IMDB, Microsoft, NHL, Posterous, Rotten Tomatoes...

Lire la suite...

Web Causeries Indexation RDFa Linked Data — 

Yahoo apporte des bananes au Web sémantique, 1ère partie

Annoncé, il y un peu plus de 2 mois, « l’écosystème de développement pour la recherche » de Yahoo est maintenant disponible sous le nom de SearchMonkey. Si, avec cette initiative, le but de Yahoo était de reprendre la main sur Google dans le domaine strict de la recherche, il me semble qu’une partie du chemin a été effectuée. Plutôt, que d’attaquer frontalement Google en mettant en œuvre de nouveaux algorithmes de recherche, par exemple, Yahoo a choisi un angle différent jusqu’alors complètement inexploité et, pourtant, oh ! combien important, à savoir la présentation des résultats.

Et, dans ce cadre, aiguillé certainement par le succès de facebook et de sa plate-forme de développement ouvert, le moteur de recherche a mis à disposition des développeurs une plate-forme pour mettre au point des applications qui agrémentent, selon la volonté des utilisateurs, les résultats de la recherche. Pour ce faire, il rend disponible les données de son index, soit les données structurées avec des microformats, RDFa et eRDF (embeded RDF, un système à peu près équivalent à RDFa) et déjà indexées, par défaut, par Yahoo, soit directement l’ensemble des données de la page Web à partir desquelles le développeur peut créer une extraction personnelle.

La plate-forme SearchMonkey comprend donc trois parties (et donc trois billets pour le présenter…) :

  • Une à destination des utilisateurs ;
  • Une à destination des développeurs ;
  • Une à destination des propriétaires de sites.

Lire la suite...

Causeries Indexation Moteur de recherche RDFa —  9 commentaires

Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque

Dans un billet récent écrit à l'occasion des dix ans de XML, Jean-Michel Salaün regrettait que les pistes esquissés dans le second texte de l'initiative Roger T. Pédauque intitulé «  Le texte en jeu. Permanences et transformations du document  » n'aient pas été suivies. Et, pour cause me semble-t-il, si ce deuxième article, comme les deux autres d'ailleurs, apporte incontestablement des pistes de réflexion et certaines idées intéressantes, il comprend des contre-sens et des erreurs si manifestes qu'il n'est possible de s'en servir comme base de travail qu'après une critique attentive, sans compter sur le style que Jean-Michel Salaün lui-même dans le billet cité plus haut qualifie « d'un peu abscons » et que je qualifierais plus volontiers de charabia jargonnant.

A l'heure où le Web sémantique pointe avec plus de prégnance le bout de son nez, il n'est pas inutile de revenir sur ce texte, comme sur les deux autres, pour construire une nouvelle réflexion. C'était d'ailleurs leur but : susciter le débat et la réflexion, sans présager des évolutions futures et selon l'état de l'art du moment. Or, il semble bien qu'une nouvelle étape est sur le point d'être franchie, si ce n'est pas déjà le cas. A titre personnel, si, à l'époque de rédaction du texte, je n'étais pas en mesure de m'immiscer dans le débat, j'espère, aujourd'hui, pouvoir apporter ma pierre à l'édifice.

Avant d'entrer dans le vif du sujet, je voudrais rappeler, pour mémoire, que cette initiative avait été lancée par le réseau thématiques pluridisciplinaires dédié au document, le RTP-DOC d'où le pseudonyme Roger T. Pédauque pour signer les textes collectifs, placé sous le patronage de feu le département STIC du CNRS. L'objectif était de réfléchir selon une approche pluridisciplinaire à la notion de document dans le contexte des changements induits par le numérique.

Lire la suite...

Structuration RDF XML Causeries Indexation Moteur de recherche OWL TEI Validation XHTML Xquery XSLT —  7 commentaires

MOAT : donner du sens à vos tags

La folksonomie constitue une des fonctionnalités phare du Web 2.0. Son principe est finalement très simple : permettre aux utilisateurs de décrire des ressources (billet de blog, page Web, photos, vidéos...) par des mots-clés choisis librement. Elle offre, entre autres, les avantages suivants :

  • Améliorer la recherche d'information dans sa collection de ressources personnelles ;
  • Constituer un vecteur de sérendipité ;
  • Donner aux autres utilisateurs une idée du contenu de sa collection de ressources ;
  • Faire apparaître des réseaux sociaux implicites par l'utilisation commune de tags entre différents utilisateurs.

Peu à peu, les utilisateurs se sont pris au jeu et la folie du tagging s'est emparée de tous les internautes et plus simplement des afficionados du Web 2.0.

La folksonomie est devenue un formidable outil dont les possibilités semblent, d'ailleurs, encore largement sous-exploitées. Oui, mais, voilà, la folksonomie est limitée. Le tag n'est finalement qu'une chaîne de caractères dont le sens exact est connu du seul « taggueur » qu'un autre utilisateur peut éventuellement appréhender, mais en aucun cas une machine qui se repose uniquement sur la morphologie du tag pour l'exploiter. Ainsi, la folksonomie présente les désavantages suivants :

Lire la suite...

Web sémantique Folksonomie Geekeries —  1 commentaire

Google se met à FOAF

Alors que j'expliquais dans mon précédent billet en quoi FOAF constituait une réponse aux problèmes de contrôle des données personnelles et d'interopérabilité entre les services de réseaux sociaux, Google semble me donner raison avec la sortie d'une nouvelle API : Social graph API. Si Google a longtemps traîné des pieds avant de s'intéresser aux technologies du Web sémantique, nous étions beaucoup à penser qu'il ne leur faudrait pas énormément de temps le jour où il voudrait s'y mettre. Il semble que ce jour soit arrivé.

Qu'en est-il exactement ?

Pour faire simple, Social Graph API permet d'effectuer des requêtes sur les données indexées par Google et encodées avec FOAF, XFN (pour faire vite, l'équivalent de FOAF avec les microformats) et les profils publics de certains services comme MySpace. Grâce à cette API, vous pouvez, par exemple, retrouver les différentes personnes qui sont liées à vous par l'intermédiaire d'un FOAF ou d'un XFN, concaténer en un point unique les informations éparpillées entre vos différentes pages de profils des services auxquels vous êtes abonnés (cf. l'exemple de Plaxo Pulse)...

Lire la suite...

Web sémantique Causeries Indexation Moteur de recherche —  9 commentaires