Les petites cases

Outils

Réaliser un mashup de données avec Dataiku DSS et Palladio

Dans mon précédent billet sur la préparation des données, j'avais fait part de mon enthousiasme pour la solution DSS de Dataiku dans le cadre de la préparation des données. J'ai donc poursuivi ma pratique du logiciel dans un contexte que j'apprécie particulièrement : la mise au point d'un mashup de données. Cet exercice permet autour d'un exemple concret de faire le tour du traitement des données : recherche, récupération, interrogation, structuration, nettoyage, mise en relation, visualisation. Il est donc parfaitement adapté pour évaluer un logiciel en la matière. Et le résultat fut à la hauteur :

Afin de partager cette découverte, j'ai mis au point un tutoriel qui vise à :

Lire la suite...

Management de l'information Sparql Digital humanities Outils Geekeries

Comment mettre la donnée au coeur du SI ?

J’ai eu l’honneur et le plaisir de participer le 17 novembre à la conférence annuelle de Talend, le Talend Connect 2016, pour présenter comment, à l’Ina, nous avons mis la donnée au coeur de la refonte de notre système d’information.

CxdQ1VlXAAAPhZ5.jpg:large

Voilà une bonne occasion pour lever le voile sur ce projet qui m’occupe depuis deux ans et dont je parlais dans mon billet de bilan, au passage de respecter la promesse de le présenter plus longuement et de continuer à alimenter ce blog…

Voici le diaporama qui accompagnait ma présentation :

Contexte du projet

Quatre raisons principales nous ont amenés à mener cette réflexion :

  • l’urbanisation du SI.
    Comme tous les SI, celui de l’Ina s’est créé par couches successives selon les besoins métiers. De fait, il est composé de différents silos étanches répondant chacun à un besoin métier spécifique. Telle une myriade d’orchestre de chambres voire de solistes, les solutions de stockage et d’interrogation des données sont disséminées à travers l’ensemble du SI : différents SGBDR, instances de moteurs de recherche avec pour certains des index très proches, des scripts de traitement de données (export, import, calcul) un peu partout souvent pas ou peu supervisés dans des technos différentes et dont la maintenance s’avère fastidieuse. Suivant les différents axes de notre schéma directeur (robustesse, rationalisation et alignement stratégique), nous voulions transformer ces myriades de petits orchestres en une formation unique : un orchestre symphonique, plus facile à maîtriser, à diriger et à faire évoluer.
  • La refonte de notre SI métier
    Il existe historiquement deux collections à l’Ina (le dépôt légal et les archives dites professionnelles qui font l’objet d’une valorisation commerciale) qui, jusqu’à peu, étaient gérées par deux directions différentes avec deux SI différents. Regroupé depuis 3 ans au sein d’une direction unique, le métier souhaite maintenant disposer d’un SI unique. Il faut donc envisager la migration de sept instances de bases de données Oracle avec des structure et des logiques de données qui semblent identiques de loin mais qui s’avèrent bien différentes. En effet, les pratiques de travail sont différentes : l’objectif du dépôt légal est de documenter le flux pour en assurer la mémoire alors que les archives professionnelles sont documentées en vue de leur valorisation commerciale ou à destination du grand public. Bref, il faut tout revoir, tout refaire des systèmes de collecte des données au modèle de données en passant par le système de production.

Lire la suite...

Management de l'information Système d'information Causeries

Bilan de 15 ans de réflexion sur la gestion des données numériques

Cela fait maintenant deux ans que j’ai rejoint l’Institut national de l’audiovisuel. Deux années qui m’ont permis de donner une nouvelle impulsion à ma réflexion sur la gestion des données numériques. Deux années passionnantes et qui se concrétisent depuis plus de six mois par le développement d’une infrastructure de traitement et de stockage des données, aboutissement (forcément provisoire) d’une vision de l’architecture du système d’information où la donnée occupe une place centrale, à l’inverse de l’approche traditionnelle par le processus. Deux années dont les résultats font en partie l’objet d’un article pour le prochain livre d’Emmanuelle sur l’avenir des catalogues, à paraître aux éditions du Cercle de la librairie et dont l’écriture m’a donné envie de faire revivre un peu cet espace de partage que j’ai laissé en friche ces dernières années.

Mais avant de partager ces nouveaux éléments, il me semble intéressant de dresser un bilan de ces 15 dernières années afin de tracer la ligne directrice et de brosser aussi les réussites, les échecs et les erreurs. La lecture de quelques (excellents) mémoires du master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes m’ont aussi motivé à préciser (ou repréciser) certaines approximations que j’ai pu rencontrer ici ou là.

Alors, voilà, avant de passer à la suite, un bilan de 15 ans de réflexion sur la gestion des données numériques, forcément subjectif et en aucun cas exhaustif. Il se découpe en quatre phases, qui correspondent à des moments de mon parcours professionnel et, ça va de pair, avec les sujets principaux qui ont été au cœur de ma réflexion. Elles sont les suivantes :

  • l’édition électronique ;
  • la conservation sur le long terme de l’information numérique ;
  • le traitement des données structurées et semi-structurées ;
  • l’architecture de données à l’ère du Big data.

Lire la suite...

Management de l'information Structuration RDF Web sémantique XML Système d'information Sparql Web Causeries Conservation Digital humanities Édition critique Édition électronique Histoire Moteur de recherche SHS TEI Perso

De quoi le Big Data est-il le nom ?

Comme l'a justement rappelé Manue sur le Figoblog, alors qu'il a atteint le ravin de la désillusion, le Big Data a désormais dépassé le stade du "buzzword". On peut aujourd'hui en voir les applications concrètes même si celles-ci restent souvent limitées, comme l'explique cette étude de Cap Gemini décryptée par ZDnet qui rappelle que seuls 13% des projets dits de Big Data sont entrés en production ou cet article très complet, "Le Big Data : un enjeu pour les industries créatives", paru sur le site INA Global qui, au-delà des exemples de réalisations, démontre les problèmes nombreux qu'ils restent à résoudre. Les espérances qui ont été placées dans cette évolution technologique doivent-elles être revues à la baisse ? Ou au contraire, est-ce le bon moment pour approfondir et développer les cas d'usage qui ont commencé à émerger ?

De fait, ces premières applications sont aujourd'hui suffisamment intéressantes pour justifier qu'on s'y intéresse de près et qu'on étudie les causes des échecs. Or, il apparaît qu'un des facteurs récurrents d'échec est la donnée elle-même (données de qualité insuffisante, mal agrégées...). Aurait-on oublié de s'intéresser à la donnée elle-même dans le Big Data ? Sans aller jusque là, il semble bien que la donnée, l'attention (pour ne pas dire curation...) qu'on y prête, sa compréhension n'aient pas totalement été au centre des préoccupations jusqu'à maintenant. Or, c'est précisément le rôle du professionnel de l'information. Mobilisant leurs compétences sur les données, ils doivent s'emparer du sujet pour faciliter son appréhension par les "directions métiers". Cela passe par une appropriation de la technologie : les professionnels de l'information ont aujourd'hui besoin de savoir ce qui se cache concrètement derrière ce terme de "Big Data". C'est que je me propose d'initier à travers ce billet.

Lire la suite...

Management de l'information Système d'information Geekeries

La donnée en elle-même n'a plus de valeur marchande et alors ?

Au cours des quatre années que j'ai passées chez Antidot (2010-2014), j'ai assisté à des changements profonds dans la manière de penser la monétisation des données. Un constat s'est peu à peu imposé : la donnée elle-même perd de sa valeur marchande et toutes les organisations dont le modèle économique repose peu ou prou sur la vente de données prennent peu à peu conscience de l'obligation d'inventer de nouveaux modes de rémunération. C'est un changement long et complexe auquel les producteurs de contenus dans leur ensemble doivent faire face et il suffit pour s'en convaincre de voir les déboires que vit la presse. Chacun est à la recherche du ou des services, la seule source actuelle de monétisation acceptée par le consommateur, qui lui permettront de survivre à ces bouleversements, mais, dans la plupart des cas, force est de constater que le chiffre d'affaires qu'ils génèrent ne compense pas la baisse des revenus constatée par ailleurs.

Attention, loin de moi l'idée de me plaindre et de regretter le temps passé, d'autant qu'il faut bien le dire : certains producteurs de contenus s'étaient constitué de véritables rentes qu'ils exploitaient pour un service limité et évoluant peu voire pas. Après tout, cela donne l'occasion de redistribuer les cartes. Pourtant, il existe un point crucial qu'il ne faut pas mettre de côté : même si la donnée n'a plus de valeur marchande en soi, sa création représente toujours un coût. Or, la tentation est grande à l'heure des économies pour un manager dont les yeux seraient uniquement rivés sur le chiffre d'effectuer une coupe drastique dans cette activité si consommatrice de ressources.

Cette décision aurait des conséquences terribles. Au niveau de l'organisation elle-même, elle marque le début de sa lente descente aux enfers, car elle constitue une rupture dans la vocation même de l'organisation. Et de manière plus générale, cela déstabilise l'ensemble de l'écosystème de services qui s'est construit autour des données produites par cette organisation. Et c'est finalement là que réside le paradoxe : alors que nous sommes dans une situation où nous avons de plus en plus besoin de données de qualité pour construire de nouveaux services, nous allons faire face à une pénurie car nous n'aurons plus les moyens de les produire.

Puisque la donnée est la richesse de l'organisation, la base sur laquelle de futurs services peuvent être construits, c'est elle qui doit faire l'objet de toutes les attentions. Ainsi, plutôt que de réduire l'activité de production elle-même, il est nécessaire d'investir pour revoir les processus de production et d'exploitation.

Comment alors réduire les coûts pour s'assurer d'une donnée de qualité et créer de nouveaux usages ?

Lire la suite...

Management de l'information Web sémantique Système d'information Causeries

Petite Poucette au secours de l'Open Data

Dans mon précédent billet, j'avais qualifié l'Open Data « d'échec total » sans beaucoup plus d'explications. Il me semble important de justifier ce propos et de le dépasser, d'autant que cela a pu blesser certaines personnes qui se battent au quotidien pour mettre à disposition ces données ce qui n'était pas mon objectif. Il m'a fallu un peu de temps, car il m'a été difficile de mettre des mots précis sur ce qui relevait plus d'un sentiment ou d'une intuition.

De l'échec de l'Open Data

Si on jette un regard froid et objectif sur les retombées de l'Open Data, on peut évidemment n'être que déçu par le résultat :

  • la transparence : évidemment certaines données sont à disposition et c'est une avancée énorme, mais mes parents n'en connaissent pas l'existence et, quand bien même, ils sont incapables d'exploiter par eux-mêmes ces données, cela est réservé à une nouvelle élite de notre société : les personnes capables de manipuler un programme informatique pour transformer les données, faisons simple : les "geeks", est-ce vraiment cela la transparence que nous appelons de nos vœux ?
  • la réutilisation des données : la transparence passe par la mise au point d'applications et donc par la réutilisation des données, j'ai déjà montré dans mon précédent billet les obstacles qui se présentent aujourd'hui. Conséquences (ou pas...) : on ne peut pas dire que c'est le raz-de-marée, il y a bien des initiatives à droite à gauche, des applications pour téléphone portable, des prototypes ou quelques services qui ont profité des données mises à disposition comme en témoignent les résultats des multiples concours ou les hackatons, mais, et j'espère que cela ne vexera personne, cela reste anecdotique par rapport à tout ce qu'on est en droit d'attendre ou d'espérer ;
  • le marché économique : qui peut prétendre vivre de l'Open Data aujourd'hui ? Existe-t-il un marché ? Je ne parle pas de s'enrichir, je parle simplement de disposer d'un marché économique suffisant pour justifier les investissements publics sur le long terme et privés, déjà, sur le court et moyen terme nécessaires à la mise au point de solutions, de produits, de formations, de services adaptés et à la pérennisation de ces initiatives pour permettre la réutilisation et l'accessibilité des données indispensables pour apporter la transparence sur le long terme auprès de tous.
  • l'innovation : comme le résume Karima Rafes : « #hackaton ou la R&D du pauvre... Un bon titre pour un livre sur l écosystème français #OpenData » Rien de plus à ajouter...

Mais, ces constats m'apparaissent plus comme des symptômes d'un problème plus profond et plus complexe à qualifier. Le billet de Christian Fauré intitulé « Ce n'est pas qu'une histoire de données » offre un début de réponse. Christian y exhorte les institutions à ne pas limiter l'Open Data à la stricte mise à disposition des données et à profiter de ce mouvement pour placer leur activité dans le monde numérique, c'est-à-dire mettre l'activité de l'organisation dans l'espace de partage et de collaboration qu'est le web et ainsi profiter des avantages de ce milieu associé. Mais, cela ne me satisfaisait pas complètement, car, si Christian présente (rapidement) ce qu'il faudrait faire, cela n'explique pas le paradigme actuel et les raisons de son dysfonctionnement.

Lire la suite...

Management de l'information Système d'information Causeries

Information numérique : défintions et enjeux

Alors que j'étais en train de préparer une nouvelle formation, je suis retombé sur différents diaporamas que j'avais constitués à l'époque où je travaillais sur la pérennisation de l'information numérique. Comme je n'en aurai plus vraiment l'utilité, je me suis dit qu'il pourrait être intéressant de les partager, plutôt que les laisser dans un recoin de mon disque dur. Last but not least, cela me permettait d'alimenter ce blog, largement en déshérence ces derniers temps...

Ce diaporama est le résultat de la fusion d'une formation que j'avais mise au point pour présenter les enjeux de la pérennisation de l'information numérique à mes collègues d'Atos Origin, lorsque je travaillais sur le projet SPAR de la BnF et d'une présentation de ces problématiques à destination de décideurs. Vous reconnaîtrez peut-être certaines diapos de Manue, en particulier la fameuse disquette.

Placé sous licence CC-BY, ce diaporama est à votre disposition. N'hésitez pas, c'est fait pour ça.

Lire la suite...

Structuration XML Système d'information Web Causeries Conservation Numérisation —  1 commentaire

Un automne de rencontres autour du Web sémantique

Il y a un temps pour tout : la découverte, la réflexion et l'expérimentation sur ce blog, le partage et la dissémination auprès de nouveaux publics au cours d'événements divers et le temps de l'accomplissement de projets mettant en œuvre ces différentes idées. Ainsi, le silence de ce blog trouve ses raisons dans d'autres activités non moins essentielles qui, à leur tour, vont alimenter de nouvelles réflexions. Mais, avant de vous en faire part et en guise de conclusion à cette riche période, je voulais partager avec vous les présentations qui ont ponctué mon automne.

Lire la suite...

Management de l'information RDF Web sémantique Sparql Causeries Digital humanities Moteur de recherche RDFa Wikipedia Linked Data —  2 commentaires

Une nouvelle aventure sous le signe du Web sémantique

Comme je l'ai annoncé sur Twitter, j'ai quitté Atos Origin fin juin. Après deux années marquées par la réalisation de beaux projets au sein de cette société et trois ans en SSII qui m'ont permis d'apprendre un métier et les processus qui lui sont attachés, le moment m'a paru opportun pour changer de perspectives et éviter la prochaine réorganisation... Il est donc temps de lever le voile vers ma nouvelle destination : je rejoins la société Antidot, éditeur du moteur de recherche AFS depuis 10 ans. Vous allez me dire « Un moteur ! Quelle drôle d'idée ? ».

Pas tant que cela, en fait, quand on connaît le positionnement de ce moteur et son évolution depuis quelques années, cette nouvelle collaboration est même une suite logique. Nos routes se sont croisées à plusieurs reprises, nous partageons une vision commune du traitement, de l'accès et de la recherche d'information dans laquelle se conjuguent respect des standards, Web et souci constant de la qualité des données. Mais, c'est évidemment autour de l'utilisation des technologies du Web sémantique que nos routes se sont rejointes, Antidot a fait ce pari depuis plusieurs années, à commencer par SKOS qu'ils ont été les premiers à implémenter en tant que format pour l'utilisation des référentiels au sein du moteur jusqu'à devenir aujourd'hui un des enjeux principaux de la société et se concrétiser par la réalisation de plusieurs projets.

C'est donc en tant que consultant spécialisé dans les technologies du Web sémantique que j'intègre la société. A cette occasion, nous ouvrirons une agence à Paris, la société étant jusqu'à maintenant installée à Lyon, Lambesc et la cellule R&D en région parisienne. C'est une décision importante dans l'optique du développement de la société. Mon rôle sera d'aider à poursuivre l'intégration des technologies du Web sémantique au sein d'AFS et d'accompagner les clients d'Antidot dans leurs utilisations et leurs déploiements, mais cela ne s'arrêtera pas là. En effet, Antidot souhaite participer au développement du Web de données et des technologies du Web sémantique en France et, à ce titre, j'étendrai mon activité d'évangélisation menée sur ce blog à mon environnement professionnel avec plus de temps et plus de perspectives. Dans le même ordre d'idée, il me sera possible de mener des missions de conseil et d'assistance qui ne font pas intervenir le produit. Joli programme en vue !

Cette nouvelle aventure n'aura pas été possible sans Christian Fauré (oui, je sais, c'est toujours lui que je remercie mais que voulez-vous, comme il le dit lui-même, certains managers laissent plus de traces que d'autres) qui m'a fait découvrir et rencontrer Antidot. Je ne sais pas si j'ai compris pourquoi il disait que je pouvais apporter quelque chose aux éditeurs de moteur de recherche, mais j'ai une occasion en or de trouver les réponses. Il me faut aussi remercier Fabrice Lacroix, PDG d'Antidot, pour la confiance dont il m'honore et le défi qu'il me propose et, bien-sûr, Manue pour sa patience au cours de ces derniers mois qui n'ont pas été simples.

Dernière chose : la ligne éditoriale de ce blog ne bougera pas d'un iota : veille et réflexion. Je n'ai jamais parlé d'une société plus qu'une autre, de même pour un produit et ça ne va pas commencer aujourd'hui. Antidot possède déjà un blog et j'aurai certainement l'occasion d'y mettre mon grain de sel, tout en continuant à faire vivre cet espace personnel.

Lire la suite...

Management de l'information Web sémantique Causeries Moteur de recherche Perso —  9 commentaires

Une communauté des digital humanities est née

Cette semaine avait lieu le ThatCamp à Paris. Derrière ce nom un peu mystérieux (en réalité, acronyme de « The Humanities and Technology Camp) se cache une non-conférence sur le modèle du barcamp dédiée aux Digital Humanities, « transdiscipline, porteuse des méthodes, des dispositifs et des perspectives heuristiques liés au numérique dans le domaine des Sciences humaines et sociales » (définition issue du Manifeste, cf. plus loin) et auxquelles j'ai fait allusion à plusieurs reprises sur ce blog.

Elle constituait une occasion de revoir plein d'amis, anciens collègues, anciens camarades de jeux et connaissances numériques/virtuels dans un cadre de discussions ouvert sur des sujets variés. Et, je ne fus pas déçu, car ce rassemblement a marqué le véritable acte de « naissance » d'une communauté des digital humanities en France. Naissance actée par un Manifeste rédigé tout au long des deux jours d'ateliers et discuté par tous lors de la session finale. Ce manifeste assoit et légitime l'existence de cette communauté et affirme l'importance des digital humanities dans l'Enseignement supérieur et la Recherche, de manière plus large comme une opportunité professionnelle dans tous les secteurs (et j'en sais quelque chose) et son rôle dans l'apprentissage du savoir au XXIe siècle.

Vous êtes d'ailleurs cordialement invités à signer ce manifeste, si vous vous reconnaissez dans cette communauté et dans les objectifs qu'elle s'est fixés.

Lire la suite...

Système d'information Causeries Conservation Digital humanities —