Les petites cases

Web sémantique

Réaliser un mashup de données avec Dataiku DSS et Palladio

Dans mon précédent billet sur la préparation des données, j'avais fait part de mon enthousiasme pour la solution DSS de Dataiku dans le cadre de la préparation des données. J'ai donc poursuivi ma pratique du logiciel dans un contexte que j'apprécie particulièrement : la mise au point d'un mashup de données. Cet exercice permet autour d'un exemple concret de faire le tour du traitement des données : recherche, récupération, interrogation, structuration, nettoyage, mise en relation, visualisation. Il est donc parfaitement adapté pour évaluer un logiciel en la matière. Et le résultat fut à la hauteur :

Afin de partager cette découverte, j'ai mis au point un tutoriel qui vise à :

Lire la suite...

Management de l'information Sparql Digital humanities Outils Geekeries

Bilan de 15 ans de réflexion sur la gestion des données numériques

Cela fait maintenant deux ans que j’ai rejoint l’Institut national de l’audiovisuel. Deux années qui m’ont permis de donner une nouvelle impulsion à ma réflexion sur la gestion des données numériques. Deux années passionnantes et qui se concrétisent depuis plus de six mois par le développement d’une infrastructure de traitement et de stockage des données, aboutissement (forcément provisoire) d’une vision de l’architecture du système d’information où la donnée occupe une place centrale, à l’inverse de l’approche traditionnelle par le processus. Deux années dont les résultats font en partie l’objet d’un article pour le prochain livre d’Emmanuelle sur l’avenir des catalogues, à paraître aux éditions du Cercle de la librairie et dont l’écriture m’a donné envie de faire revivre un peu cet espace de partage que j’ai laissé en friche ces dernières années.

Mais avant de partager ces nouveaux éléments, il me semble intéressant de dresser un bilan de ces 15 dernières années afin de tracer la ligne directrice et de brosser aussi les réussites, les échecs et les erreurs. La lecture de quelques (excellents) mémoires du master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes m’ont aussi motivé à préciser (ou repréciser) certaines approximations que j’ai pu rencontrer ici ou là.

Alors, voilà, avant de passer à la suite, un bilan de 15 ans de réflexion sur la gestion des données numériques, forcément subjectif et en aucun cas exhaustif. Il se découpe en quatre phases, qui correspondent à des moments de mon parcours professionnel et, ça va de pair, avec les sujets principaux qui ont été au cœur de ma réflexion. Elles sont les suivantes :

  • l’édition électronique ;
  • la conservation sur le long terme de l’information numérique ;
  • le traitement des données structurées et semi-structurées ;
  • l’architecture de données à l’ère du Big data.

Lire la suite...

Management de l'information Structuration RDF Web sémantique XML Système d'information Sparql Web Causeries Conservation Digital humanities Édition critique Édition électronique Histoire Moteur de recherche SHS TEI Perso

La donnée en elle-même n'a plus de valeur marchande et alors ?

Au cours des quatre années que j'ai passées chez Antidot (2010-2014), j'ai assisté à des changements profonds dans la manière de penser la monétisation des données. Un constat s'est peu à peu imposé : la donnée elle-même perd de sa valeur marchande et toutes les organisations dont le modèle économique repose peu ou prou sur la vente de données prennent peu à peu conscience de l'obligation d'inventer de nouveaux modes de rémunération. C'est un changement long et complexe auquel les producteurs de contenus dans leur ensemble doivent faire face et il suffit pour s'en convaincre de voir les déboires que vit la presse. Chacun est à la recherche du ou des services, la seule source actuelle de monétisation acceptée par le consommateur, qui lui permettront de survivre à ces bouleversements, mais, dans la plupart des cas, force est de constater que le chiffre d'affaires qu'ils génèrent ne compense pas la baisse des revenus constatée par ailleurs.

Attention, loin de moi l'idée de me plaindre et de regretter le temps passé, d'autant qu'il faut bien le dire : certains producteurs de contenus s'étaient constitué de véritables rentes qu'ils exploitaient pour un service limité et évoluant peu voire pas. Après tout, cela donne l'occasion de redistribuer les cartes. Pourtant, il existe un point crucial qu'il ne faut pas mettre de côté : même si la donnée n'a plus de valeur marchande en soi, sa création représente toujours un coût. Or, la tentation est grande à l'heure des économies pour un manager dont les yeux seraient uniquement rivés sur le chiffre d'effectuer une coupe drastique dans cette activité si consommatrice de ressources.

Cette décision aurait des conséquences terribles. Au niveau de l'organisation elle-même, elle marque le début de sa lente descente aux enfers, car elle constitue une rupture dans la vocation même de l'organisation. Et de manière plus générale, cela déstabilise l'ensemble de l'écosystème de services qui s'est construit autour des données produites par cette organisation. Et c'est finalement là que réside le paradoxe : alors que nous sommes dans une situation où nous avons de plus en plus besoin de données de qualité pour construire de nouveaux services, nous allons faire face à une pénurie car nous n'aurons plus les moyens de les produire.

Puisque la donnée est la richesse de l'organisation, la base sur laquelle de futurs services peuvent être construits, c'est elle qui doit faire l'objet de toutes les attentions. Ainsi, plutôt que de réduire l'activité de production elle-même, il est nécessaire d'investir pour revoir les processus de production et d'exploitation.

Comment alors réduire les coûts pour s'assurer d'une donnée de qualité et créer de nouveaux usages ?

Lire la suite...

Management de l'information Web sémantique Système d'information Causeries

Patrimoine et Web de données

Peut-être n'avez-vous pas vu passer l'information sur les différents réseaux sociaux ?

La semaine prochaine, le 8 septembre à 17h pour être précis, aura lieu à la Salle Piazza du Centre Pompidou une rencontre gratuite avec pour thème « Patrimoine et Web de données ». Si vous êtes intéressés de près ou de loin par la valorisation du patrimoine et de ses données, je vous invite à vous inscrire et à nous rejoindre, puisque trois projets seront présentés par les conservateurs eux-mêmes pour montrer la diversité en la matière :

  • Romain Wenz de la BnF présentera le projet Data.bnf.fr dont une 1ère version est sortie au début de l'été
  • Claire Sibille la mise en ligne selon les respects des règles du Web de données du Thésaurus pour l'indexation des archives locales publié par les Archives de France disponible depuis le printemps
  • Emmanuelle Bermès (alias Manue) prendra d'abord sa casquette de Chair de l'incubator Group du W3C Library Linked Data pour nous en présenter les résultats puis changera pour prendre celle de chef de projet du Centre Pompidou Virtuel pour nous parler de ce projet

Lire la suite...

Management de l'information Web sémantique Geekeries Linked Data — 

Retour sur le Web de données

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la troisième et dernière :

Présente dans la feuille de route pour le Web sémantique écrite en 1998 par Tim Berners-Lee, l'expression « Web of data » qu'on traduit de manière littérale par « Web de données » n'a été vraiment utilisée qu'à partir de 2006 suite à la parution de la note « Linked Data » du même Tim Berners-Lee et aux différents aveux d'échecs dressés par la communauté. Cette note est d'une importance fondamentale dans le mouvement actuel puisqu'elle rappelle les buts initiaux poursuivis par le Web sémantique, à savoir établir des liens entre les données exposées et distribuées sur le Web, et elle contient les quatre principes de mise à disposition des données sur le Web grâce aux technologies du Web sémantique.

Ainsi, elle a constitué le point de départ d'une renaissance du Web sémantique avec le projet du W3C « Linking Open Data » visant à placer sur le Web des données structurées en RDF et à offrir des cas d'utilisation réels et simples des technologies du Web sémantique. En novembre 2009, le Web de données était constitué de 13,1 milliards de triplets répartis au sein de différents ensembles de données couvrant les domaines aussi diverses que les données multimédia, les données du Web social, les données géographiques et statistiques, les données bibliographiques...

Lire la suite...

Causeries Linked Data — 

Les technologies du Web sémantique

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la seconde :

Le Web sémantique désigne, en premier lieu, une activité du W3C, l'organisme de normalisation du Web, visant au développement de technologies de mise à disposition des données structurées en vue de leur traitement par les machines sur le Web. Par extension, l'expression désigne à présent l'idée et l'ensemble des dispositifs et briques technologiques qui le composent. Comme nous l'avons montré dans l'historique, le mot « sémantique » ne renvoie pas à la définition communément admise en linguistique, mais fait référence à la définition donnée par le domaine de la logique de description dont le but est de faire émerger du sens à travers la structuration des données et l'expression de la logique qui les relie.

Les différentes technologies du Web sémantique forment des couches dont la compréhension est essentielle pour appréhender au mieux ses possibilités. Mais, au préalable, il est nécessaire de dresser un tableau de l'architecture du Web sur laquelle reposent l'ensemble des fondations du Web sémantique.

Lire la suite...

RDF Sparql OWL RDFa Geekeries — 

Petite histoire du Web sémantique

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la première :

Si le Web sémantique commence à être médiatisé aujourd'hui, ses fondements sont plus anciens, ils remontent aux origines même du Web et ont connu plusieurs évolutions dont l'histoire permet de mieux appréhender les enjeux.

Lire la suite...

Web sémantique Web Causeries Histoire — 

Roger T. Pédauque II, le retour (1ère partie)

En guise de préambule : le collectif Roger T. Pédauque s'est reformé pour proposer au commentaire un (plusieurs ?) nouveau texte pour étudier les implications du numérique sur la vision du document/information à la lumière des innovations et avancées récentes. Ayant par le passé analysé et critiqué un des textes, j'ai été sollicité par Jean-Michel Salaün pour participer à l'annotation de ce texte collectif. Difficile tâche tant mes journées sont remplies ces derniers temps, le délaissement de ce blog en est la preuve... Néanmoins, j'aimerais partager dans les prochains billets plusieurs réflexions en vrac qui me sont venus à la lecture de ce texte. Je précise que mon objectif n'est absolument pas de polémiquer, mais d'apporter ma pierre à l'édifice avec le ton habituel que j'utilise sur ce blog.

Lire la suite...

Management de l'information RDF Web sémantique Causeries Digital humanities Linked Data —  6 commentaires

Un automne de rencontres autour du Web sémantique

Il y a un temps pour tout : la découverte, la réflexion et l'expérimentation sur ce blog, le partage et la dissémination auprès de nouveaux publics au cours d'événements divers et le temps de l'accomplissement de projets mettant en œuvre ces différentes idées. Ainsi, le silence de ce blog trouve ses raisons dans d'autres activités non moins essentielles qui, à leur tour, vont alimenter de nouvelles réflexions. Mais, avant de vous en faire part et en guise de conclusion à cette riche période, je voulais partager avec vous les présentations qui ont ponctué mon automne.

Lire la suite...

Management de l'information RDF Web sémantique Sparql Causeries Digital humanities Moteur de recherche RDFa Wikipedia Linked Data —  2 commentaires

XML vs RDF : logique structurelle contre logique des données

XML et RDF sont deux modèles différents d'encodage de l'information et, pourtant, ils sont souvent confondus. Le dernier exemple en date est la mise à disposition par la British Library de 14 millions de notices bibliographiques au format, je cite, « RDF/DC ». La confusion est patente de par l'absence d'URI pour identifier les ressources décrites. Or, en tant que lecteur régulier de ce blog, vous savez que l'URI est un des fondements du modèle RDF.

Il est vrai que la distinction n'est pas forcément évidente à appréhender au premier abord et la syntaxe RDF/XML n'arrange pas les choses. J'ai à plusieurs reprises sur ce blog expliqué ce qui différencie les deux modèles : le modèle de l'arbre ou de l'arborescence pour l'un et le modèle de graphes pour l'autre. Mais, ainsi dit, cela n'est peut-être pas clair. Je vous propose donc d'aborder la distinction sous l'angle de la validation des informations pour faire suite à un commentaire sur le Figoblog et la réponse de Manue.

Lire la suite...

Structuration RDF XML Causeries OWL TEI Validation XHTML —  5 commentaires