Les petites cases

SHS

Les technologies du Web sémantique, entre théorie et pratique

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Les technologies du Web sémantique : Pourquoi ? Comment ?

Lorsque Tim Berners-Lee crée le Web, son objectif est de proposer aux chercheurs du CERN un espace d’interopérabilité pour échanger non seulement des documents mais aussi des données structurées. Ainsi, le document qui décrit sa proposition intègre dès le départ l’idée d’aller au-delà d’un espace documentaire pour relier des entités du monde réel.


Schéma représentant la proposition de Tim Berners-Lee pour gérer l’information du CERN, Tim Berners-Lee

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Causeries Digital humanities Indexation Moteur de recherche RDFa Linked Data

Les technos du Web sémantique ont-elles tenu leurs promesses ?

J’ai commencé à m’intéresser aux technologies du Web sémantique en 2005 et j’ai fait ma première communication à ce sujet en 2006 lors de la conférence Digital Humanities à Paris. J’ai eu l’occasion de les tester grandeur nature dès 2007 pour un projet mené par le CCH du King’s college, mais c’est au cours du projet SPAR de la Bibliothèque nationale de France à partir de 2008 que j’ai véritablement commencé à toucher du doigt les formidables promesses de ces technologies ainsi que leurs limites, déjà… Entre 2008 et 2014, j’ai eu l’occasion de les déployer dans différents contextes pour répondre à des cas d’usage divers : exposition des données, récupération de données encodées au sein des pages Web, décloisonnement de silos internes et mise en cohérence de données, enrichissement de données et mashup… J’ai œuvré à leur diffusion, du moins j’ai essayé, à travers ce blog ou ailleurs, et effectué quantité de formations sur le sujet en direction de publics très variés. Pour résumer, j’y voyais alors le moyen de déployer un système  d’information orienté données et plus uniquement processus et d’une manière générale de renverser ce primat dans la manière d’aborder le développement d’une application informatique.

Comme je l’ai déjà expliqué, à l’issue de cette période, j’étais très dubitatif sur l’intérêt d’utiliser ces technologies. Dans la mesure où j’étais conscient de leurs apports mais aussi de leurs limites, elles étaient toujours présentes mais sans être jamais au cœur de ma réflexion à l’Ina, du moins directement. L’expérience accumulée et les bénéfices de ces technologies nourrissaient néanmoins des pans entiers de la stratégie que nous étions en train de déployer sans même que j’en sois totalement conscient.

C’est peut-être la raison pour laquelle j’ai continué de les enseigner aussi bien dans le Master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes que lors de formations pour Ina Expert, parfois, il faut bien l’avouer, en traînant un peu les pieds. J’ai fait évoluer ma présentation en replaçant ces technologies et leur intérêt dans le contexte plus large du Big Data, de l’Open Data et maintenant de l’intelligence artificielle. Finalement, je ne me suis jamais résolu à les abandonner totalement, partant du principe qu’une technologie ne disparaît pas, mais trouve sa juste place par rapport aux autres. De plus, je reste convaincu qu’elles restent la meilleure technologie pour assurer l'interopérabilité des données, mais jusqu’à quel point en a-t-on vraiment؜ besoin ?

Plusieurs fois, à la lecture d’un article ou d’un tweet qui vantaient les mérites de ces technologies et du Linked Open Data ou web de données, j’ai voulu écrire pourquoi il fallait rester prudent (voire plus…), encore récemment autour de la question de leurs usages au sein des musées. Je l’ai même dit en conférence, parfois, de manière abrupte, à la hauteur des désillusions que j’avais vécues. Aujourd’hui, sans avoir réussi à s’imposer largement, ces technologies ont indubitablement fait avancer notre réflexion sur la question de l’interopérabilité et force est de constater que certaines initiatives ont réussi à sortir du lot et à valider certains usages. Après avoir laissé passer le « ravin de la désillusion » et au moment où ces technologies semblent atteindre le plateau de la productivité du « Hype cycle », c’est le bon moment de dresser un bilan.


Hype Cycle du Gartner, Jérémy Kemp, CC-BY-SA

Alors, peut-être pour la dernière fois sur ce blog, je vous propose une plongée dans les entrailles des technologies du Web sémantique pour étudier quels en sont finalement les apports et les limites et l’écart entre les promesses et la réalité. Pour rendre les choses un peu plus digeste à lire et à appréhender, j’ai séparé ce bilan en quatre billets :

Lire la suite...

Management de l'information RDF Web sémantique Système d'information Sparql Moteur de recherche RDFa SHS Wikipedia Geekeries Linked Data

Réaliser un mashup de données avec Dataiku DSS et Palladio

Dans mon précédent billet sur la préparation des données, j'avais fait part de mon enthousiasme pour la solution DSS de Dataiku dans le cadre de la préparation des données. J'ai donc poursuivi ma pratique du logiciel dans un contexte que j'apprécie particulièrement : la mise au point d'un mashup de données. Cet exercice permet autour d'un exemple concret de faire le tour du traitement des données : recherche, récupération, interrogation, structuration, nettoyage, mise en relation, visualisation. Il est donc parfaitement adapté pour évaluer un logiciel en la matière. Et le résultat fut à la hauteur :

Afin de partager cette découverte, j'ai mis au point un tutoriel qui vise à :

Lire la suite...

Management de l'information Sparql Digital humanities Outils Geekeries

Bilan de 15 ans de réflexion sur la gestion des données numériques

Cela fait maintenant deux ans que j’ai rejoint l’Institut national de l’audiovisuel. Deux années qui m’ont permis de donner une nouvelle impulsion à ma réflexion sur la gestion des données numériques. Deux années passionnantes et qui se concrétisent depuis plus de six mois par le développement d’une infrastructure de traitement et de stockage des données, aboutissement (forcément provisoire) d’une vision de l’architecture du système d’information où la donnée occupe une place centrale, à l’inverse de l’approche traditionnelle par le processus. Deux années dont les résultats font en partie l’objet d’un article pour le prochain livre d’Emmanuelle sur l’avenir des catalogues, à paraître aux éditions du Cercle de la librairie et dont l’écriture m’a donné envie de faire revivre un peu cet espace de partage que j’ai laissé en friche ces dernières années.

Mais avant de partager ces nouveaux éléments, il me semble intéressant de dresser un bilan de ces 15 dernières années afin de tracer la ligne directrice et de brosser aussi les réussites, les échecs et les erreurs. La lecture de quelques (excellents) mémoires du master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes m’ont aussi motivé à préciser (ou repréciser) certaines approximations que j’ai pu rencontrer ici ou là.

Alors, voilà, avant de passer à la suite, un bilan de 15 ans de réflexion sur la gestion des données numériques, forcément subjectif et en aucun cas exhaustif. Il se découpe en quatre phases, qui correspondent à des moments de mon parcours professionnel et, ça va de pair, avec les sujets principaux qui ont été au cœur de ma réflexion. Elles sont les suivantes :

  • l’édition électronique ;
  • la conservation sur le long terme de l’information numérique ;
  • le traitement des données structurées et semi-structurées ;
  • l’architecture de données à l’ère du Big data.

Lire la suite...

Management de l'information Structuration RDF Web sémantique XML Système d'information Sparql Web Causeries Conservation Digital humanities Édition critique Édition électronique Histoire Moteur de recherche SHS TEI Perso

Petite histoire du Web sémantique

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la première :

Si le Web sémantique commence à être médiatisé aujourd'hui, ses fondements sont plus anciens, ils remontent aux origines même du Web et ont connu plusieurs évolutions dont l'histoire permet de mieux appréhender les enjeux.

Lire la suite...

Web sémantique Web Causeries Histoire — 

Roger T. Pédauque II, le retour (1ère partie)

En guise de préambule : le collectif Roger T. Pédauque s'est reformé pour proposer au commentaire un (plusieurs ?) nouveau texte pour étudier les implications du numérique sur la vision du document/information à la lumière des innovations et avancées récentes. Ayant par le passé analysé et critiqué un des textes, j'ai été sollicité par Jean-Michel Salaün pour participer à l'annotation de ce texte collectif. Difficile tâche tant mes journées sont remplies ces derniers temps, le délaissement de ce blog en est la preuve... Néanmoins, j'aimerais partager dans les prochains billets plusieurs réflexions en vrac qui me sont venus à la lecture de ce texte. Je précise que mon objectif n'est absolument pas de polémiquer, mais d'apporter ma pierre à l'édifice avec le ton habituel que j'utilise sur ce blog.

Lire la suite...

Management de l'information RDF Web sémantique Causeries Digital humanities Linked Data —  6 commentaires

Un automne de rencontres autour du Web sémantique

Il y a un temps pour tout : la découverte, la réflexion et l'expérimentation sur ce blog, le partage et la dissémination auprès de nouveaux publics au cours d'événements divers et le temps de l'accomplissement de projets mettant en œuvre ces différentes idées. Ainsi, le silence de ce blog trouve ses raisons dans d'autres activités non moins essentielles qui, à leur tour, vont alimenter de nouvelles réflexions. Mais, avant de vous en faire part et en guise de conclusion à cette riche période, je voulais partager avec vous les présentations qui ont ponctué mon automne.

Lire la suite...

Management de l'information RDF Web sémantique Sparql Causeries Digital humanities Moteur de recherche RDFa Wikipedia Linked Data —  2 commentaires

Une communauté des digital humanities est née

Cette semaine avait lieu le ThatCamp à Paris. Derrière ce nom un peu mystérieux (en réalité, acronyme de « The Humanities and Technology Camp) se cache une non-conférence sur le modèle du barcamp dédiée aux Digital Humanities, « transdiscipline, porteuse des méthodes, des dispositifs et des perspectives heuristiques liés au numérique dans le domaine des Sciences humaines et sociales » (définition issue du Manifeste, cf. plus loin) et auxquelles j'ai fait allusion à plusieurs reprises sur ce blog.

Elle constituait une occasion de revoir plein d'amis, anciens collègues, anciens camarades de jeux et connaissances numériques/virtuels dans un cadre de discussions ouvert sur des sujets variés. Et, je ne fus pas déçu, car ce rassemblement a marqué le véritable acte de « naissance » d'une communauté des digital humanities en France. Naissance actée par un Manifeste rédigé tout au long des deux jours d'ateliers et discuté par tous lors de la session finale. Ce manifeste assoit et légitime l'existence de cette communauté et affirme l'importance des digital humanities dans l'Enseignement supérieur et la Recherche, de manière plus large comme une opportunité professionnelle dans tous les secteurs (et j'en sais quelque chose) et son rôle dans l'apprentissage du savoir au XXIe siècle.

Vous êtes d'ailleurs cordialement invités à signer ce manifeste, si vous vous reconnaissez dans cette communauté et dans les objectifs qu'elle s'est fixés.

Lire la suite...

Système d'information Causeries Conservation Digital humanities — 

L'antilope sur le Web est-elle un document ?

Ce billet est une réponse au commentaire de Jean-Michel Salaün sous mon précédent billet. J'espère que Jean-Michel Salaün excusera la forme de ma réponse (c'était plus simple à gérer vu la longueur) et la distance que j'introduis par rapport à son commentaire (l'écriture d'un billet n'est pas le même exercice qu'un commentaire et il me semblait difficile de m'adresser directement à vous dans un billet :-) ).

Lire la suite...

Management de l'information Web sémantique Causeries Histoire —  4 commentaires

Les carcans de la pensée hiérarchique et documentaire (1)

Dans un billet intitulé « Comment organiser l'information pour y naviguer efficacement », j'essayais d'analyser en quoi l'organisation hiérarchique de l'information, issue des pratiques d'organisation physique de l'information, que ce soit dans un livre-codex ou sur un système de fichiers, influençait notre pratique du Web et comment, peu à peu, l'hypertexte et certaines pratiques, alors naissantes, comme la folksonomie ou la multiplication des métadonnées pouvaient permettre de dépasser ce paradigme pour démultiplier les accès à l'information et donc son exploitation. Je vous propose de revenir sur ces questions pour comprendre en quoi il est nécessaire aujourd'hui pour appréhender au mieux les enjeux du Web de données de s'abstraire de ce paradigme pour aller vers un nouveau modèle d'organisation et de modélisation de l'information.

Lire la suite...

Structuration Web sémantique XML Système d'information Causeries Histoire —  11 commentaires