Les petites cases

De quoi le Big Data est-il le nom ?

Comme l'a justement rappelé Manue sur le Figoblog, alors qu'il a atteint le ravin de la désillusion, le Big Data a désormais dépassé le stade du "buzzword". On peut aujourd'hui en voir les applications concrètes même si celles-ci restent souvent limitées, comme l'explique cette étude de Cap Gemini décryptée par ZDnet qui rappelle que seuls 13% des projets dits de Big Data sont entrés en production ou cet article très complet, "Le Big Data : un enjeu pour les industries créatives", paru sur le site INA Global qui, au-delà des exemples de réalisations, démontre les problèmes nombreux qu'ils restent à résoudre. Les espérances qui ont été placées dans cette évolution technologique doivent-elles être revues à la baisse ? Ou au contraire, est-ce le bon moment pour approfondir et développer les cas d'usage qui ont commencé à émerger ?

De fait, ces premières applications sont aujourd'hui suffisamment intéressantes pour justifier qu'on s'y intéresse de près et qu'on étudie les causes des échecs. Or, il apparaît qu'un des facteurs récurrents d'échec est la donnée elle-même (données de qualité insuffisante, mal agrégées...). Aurait-on oublié de s'intéresser à la donnée elle-même dans le Big Data ? Sans aller jusque là, il semble bien que la donnée, l'attention (pour ne pas dire curation...) qu'on y prête, sa compréhension n'aient pas totalement été au centre des préoccupations jusqu'à maintenant. Or, c'est précisément le rôle du professionnel de l'information. Mobilisant leurs compétences sur les données, ils doivent s'emparer du sujet pour faciliter son appréhension par les "directions métiers". Cela passe par une appropriation de la technologie : les professionnels de l'information ont aujourd'hui besoin de savoir ce qui se cache concrètement derrière ce terme de "Big Data". C'est que je me propose d'initier à travers ce billet.

Lire la suite...

Management de l'information Système d'information Geekeries

La donnée en elle-même n'a plus de valeur marchande et alors ?

Au cours des quatre années que j'ai passées chez Antidot (2010-2014), j'ai assisté à des changements profonds dans la manière de penser la monétisation des données. Un constat s'est peu à peu imposé : la donnée elle-même perd de sa valeur marchande et toutes les organisations dont le modèle économique repose peu ou prou sur la vente de données prennent peu à peu conscience de l'obligation d'inventer de nouveaux modes de rémunération. C'est un changement long et complexe auquel les producteurs de contenus dans leur ensemble doivent faire face et il suffit pour s'en convaincre de voir les déboires que vit la presse. Chacun est à la recherche du ou des services, la seule source actuelle de monétisation acceptée par le consommateur, qui lui permettront de survivre à ces bouleversements, mais, dans la plupart des cas, force est de constater que le chiffre d'affaires qu'ils génèrent ne compense pas la baisse des revenus constatée par ailleurs.

Attention, loin de moi l'idée de me plaindre et de regretter le temps passé, d'autant qu'il faut bien le dire : certains producteurs de contenus s'étaient constitué de véritables rentes qu'ils exploitaient pour un service limité et évoluant peu voire pas. Après tout, cela donne l'occasion de redistribuer les cartes. Pourtant, il existe un point crucial qu'il ne faut pas mettre de côté : même si la donnée n'a plus de valeur marchande en soi, sa création représente toujours un coût. Or, la tentation est grande à l'heure des économies pour un manager dont les yeux seraient uniquement rivés sur le chiffre d'effectuer une coupe drastique dans cette activité si consommatrice de ressources.

Cette décision aurait des conséquences terribles. Au niveau de l'organisation elle-même, elle marque le début de sa lente descente aux enfers, car elle constitue une rupture dans la vocation même de l'organisation. Et de manière plus générale, cela déstabilise l'ensemble de l'écosystème de services qui s'est construit autour des données produites par cette organisation. Et c'est finalement là que réside le paradoxe : alors que nous sommes dans une situation où nous avons de plus en plus besoin de données de qualité pour construire de nouveaux services, nous allons faire face à une pénurie car nous n'aurons plus les moyens de les produire.

Puisque la donnée est la richesse de l'organisation, la base sur laquelle de futurs services peuvent être construits, c'est elle qui doit faire l'objet de toutes les attentions. Ainsi, plutôt que de réduire l'activité de production elle-même, il est nécessaire d'investir pour revoir les processus de production et d'exploitation.

Comment alors réduire les coûts pour s'assurer d'une donnée de qualité et créer de nouveaux usages ?

Lire la suite...

Management de l'information Web sémantique Système d'information Causeries

Petite Poucette au secours de l'Open Data

Dans mon précédent billet, j'avais qualifié l'Open Data « d'échec total » sans beaucoup plus d'explications. Il me semble important de justifier ce propos et de le dépasser, d'autant que cela a pu blesser certaines personnes qui se battent au quotidien pour mettre à disposition ces données ce qui n'était pas mon objectif. Il m'a fallu un peu de temps, car il m'a été difficile de mettre des mots précis sur ce qui relevait plus d'un sentiment ou d'une intuition.

De l'échec de l'Open Data

Si on jette un regard froid et objectif sur les retombées de l'Open Data, on peut évidemment n'être que déçu par le résultat :

  • la transparence : évidemment certaines données sont à disposition et c'est une avancée énorme, mais mes parents n'en connaissent pas l'existence et, quand bien même, ils sont incapables d'exploiter par eux-mêmes ces données, cela est réservé à une nouvelle élite de notre société : les personnes capables de manipuler un programme informatique pour transformer les données, faisons simple : les "geeks", est-ce vraiment cela la transparence que nous appelons de nos vœux ?
  • la réutilisation des données : la transparence passe par la mise au point d'applications et donc par la réutilisation des données, j'ai déjà montré dans mon précédent billet les obstacles qui se présentent aujourd'hui. Conséquences (ou pas...) : on ne peut pas dire que c'est le raz-de-marée, il y a bien des initiatives à droite à gauche, des applications pour téléphone portable, des prototypes ou quelques services qui ont profité des données mises à disposition comme en témoignent les résultats des multiples concours ou les hackatons, mais, et j'espère que cela ne vexera personne, cela reste anecdotique par rapport à tout ce qu'on est en droit d'attendre ou d'espérer ;
  • le marché économique : qui peut prétendre vivre de l'Open Data aujourd'hui ? Existe-t-il un marché ? Je ne parle pas de s'enrichir, je parle simplement de disposer d'un marché économique suffisant pour justifier les investissements publics sur le long terme et privés, déjà, sur le court et moyen terme nécessaires à la mise au point de solutions, de produits, de formations, de services adaptés et à la pérennisation de ces initiatives pour permettre la réutilisation et l'accessibilité des données indispensables pour apporter la transparence sur le long terme auprès de tous.
  • l'innovation : comme le résume Karima Rafes : « #hackaton ou la R&D du pauvre... Un bon titre pour un livre sur l écosystème français #OpenData » Rien de plus à ajouter...

Mais, ces constats m'apparaissent plus comme des symptômes d'un problème plus profond et plus complexe à qualifier. Le billet de Christian Fauré intitulé « Ce n'est pas qu'une histoire de données » offre un début de réponse. Christian y exhorte les institutions à ne pas limiter l'Open Data à la stricte mise à disposition des données et à profiter de ce mouvement pour placer leur activité dans le monde numérique, c'est-à-dire mettre l'activité de l'organisation dans l'espace de partage et de collaboration qu'est le web et ainsi profiter des avantages de ce milieu associé. Mais, cela ne me satisfaisait pas complètement, car, si Christian présente (rapidement) ce qu'il faudrait faire, cela n'explique pas le paradigme actuel et les raisons de son dysfonctionnement.

Lire la suite...

Management de l'information Système d'information Causeries

Exploiter les données en Open Data : encore un doux rêve...

Le temps et le courage me manquent pour alimenter sérieusement ce blog. Si, aujourd'hui, je sors de mon silence, c'est pour pousser une énorme coup de gueule. Alors qu'on nous bassine tous les jours avec l'Open Data et ses promesses tant citoyennes qu'économiques, je constate tous les jours un peu plus le chemin encore gigantesque à parcourir pour exploiter professionnellement et sur le long terme un ensemble de données (dataset) mis à disposition sur data.gouv.fr ou tout autre site équivalent.

Un exemple vaut mieux que des grands discours pour illustrer mon courroux : le recensement des équipements sportifs sur le site data.gouv.fr. Cet ensemble de données est mis à disposition sous la forme d'un fichier zip contenant un fichier XML depuis le 15 juin 2012. Il s'avère que pour les besoins d'un prototype que nous avons mis au point chez Antidot pour démontrer les capacités de nos produits, nous l'avions utilisé. La récupération et le traitement de ce fichier ont donc été paramétrés par rapport à la première version du fichier. Or, il a été mis à jour, il y a quelques jours (le 21 février 2013 pour être précis). Nous pensions donc (naïvement, comme vous pourrez le constater) qu'il nous suffirait de relancer notre chaîne de traitement pour prendre en compte cette nouvelle version. C'était sans compter les nombreux petits changements qu'avait subis entre temps cet ensemble de données :

Lire la suite...

Management de l'information Râleries — 

Information numérique : défintions et enjeux

Alors que j'étais en train de préparer une nouvelle formation, je suis retombé sur différents diaporamas que j'avais constitués à l'époque où je travaillais sur la pérennisation de l'information numérique. Comme je n'en aurai plus vraiment l'utilité, je me suis dit qu'il pourrait être intéressant de les partager, plutôt que les laisser dans un recoin de mon disque dur. Last but not least, cela me permettait d'alimenter ce blog, largement en déshérence ces derniers temps...

Ce diaporama est le résultat de la fusion d'une formation que j'avais mise au point pour présenter les enjeux de la pérennisation de l'information numérique à mes collègues d'Atos Origin, lorsque je travaillais sur le projet SPAR de la BnF et d'une présentation de ces problématiques à destination de décideurs. Vous reconnaîtrez peut-être certaines diapos de Manue, en particulier la fameuse disquette.

Placé sous licence CC-BY, ce diaporama est à votre disposition. N'hésitez pas, c'est fait pour ça.

Lire la suite...

Structuration XML Système d'information Web Causeries Conservation Numérisation —  1 commentaire

Patrimoine et Web de données

Peut-être n'avez-vous pas vu passer l'information sur les différents réseaux sociaux ?

La semaine prochaine, le 8 septembre à 17h pour être précis, aura lieu à la Salle Piazza du Centre Pompidou une rencontre gratuite avec pour thème « Patrimoine et Web de données ». Si vous êtes intéressés de près ou de loin par la valorisation du patrimoine et de ses données, je vous invite à vous inscrire et à nous rejoindre, puisque trois projets seront présentés par les conservateurs eux-mêmes pour montrer la diversité en la matière :

  • Romain Wenz de la BnF présentera le projet Data.bnf.fr dont une 1ère version est sortie au début de l'été
  • Claire Sibille la mise en ligne selon les respects des règles du Web de données du Thésaurus pour l'indexation des archives locales publié par les Archives de France disponible depuis le printemps
  • Emmanuelle Bermès (alias Manue) prendra d'abord sa casquette de Chair de l'incubator Group du W3C Library Linked Data pour nous en présenter les résultats puis changera pour prendre celle de chef de projet du Centre Pompidou Virtuel pour nous parler de ce projet

Lire la suite...

Management de l'information Web sémantique Geekeries Linked Data — 

Retour sur le Web de données

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la troisième et dernière :

Présente dans la feuille de route pour le Web sémantique écrite en 1998 par Tim Berners-Lee, l'expression « Web of data » qu'on traduit de manière littérale par « Web de données » n'a été vraiment utilisée qu'à partir de 2006 suite à la parution de la note « Linked Data » du même Tim Berners-Lee et aux différents aveux d'échecs dressés par la communauté. Cette note est d'une importance fondamentale dans le mouvement actuel puisqu'elle rappelle les buts initiaux poursuivis par le Web sémantique, à savoir établir des liens entre les données exposées et distribuées sur le Web, et elle contient les quatre principes de mise à disposition des données sur le Web grâce aux technologies du Web sémantique.

Ainsi, elle a constitué le point de départ d'une renaissance du Web sémantique avec le projet du W3C « Linking Open Data » visant à placer sur le Web des données structurées en RDF et à offrir des cas d'utilisation réels et simples des technologies du Web sémantique. En novembre 2009, le Web de données était constitué de 13,1 milliards de triplets répartis au sein de différents ensembles de données couvrant les domaines aussi diverses que les données multimédia, les données du Web social, les données géographiques et statistiques, les données bibliographiques...

Lire la suite...

Causeries Linked Data — 

Les technologies du Web sémantique

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la seconde :

Le Web sémantique désigne, en premier lieu, une activité du W3C, l'organisme de normalisation du Web, visant au développement de technologies de mise à disposition des données structurées en vue de leur traitement par les machines sur le Web. Par extension, l'expression désigne à présent l'idée et l'ensemble des dispositifs et briques technologiques qui le composent. Comme nous l'avons montré dans l'historique, le mot « sémantique » ne renvoie pas à la définition communément admise en linguistique, mais fait référence à la définition donnée par le domaine de la logique de description dont le but est de faire émerger du sens à travers la structuration des données et l'expression de la logique qui les relie.

Les différentes technologies du Web sémantique forment des couches dont la compréhension est essentielle pour appréhender au mieux ses possibilités. Mais, au préalable, il est nécessaire de dresser un tableau de l'architecture du Web sur laquelle reposent l'ensemble des fondations du Web sémantique.

Lire la suite...

RDF Sparql OWL RDFa Geekeries — 

Petite histoire du Web sémantique

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la première :

Si le Web sémantique commence à être médiatisé aujourd'hui, ses fondements sont plus anciens, ils remontent aux origines même du Web et ont connu plusieurs évolutions dont l'histoire permet de mieux appréhender les enjeux.

Lire la suite...

Web sémantique Web Causeries Histoire — 

Tablette ou liseuse, telle est la question

Alors que mon Sony Reader PRS-505 me lâche peu à peu et que je fais l'expérience d'une tablette (en l'occurrence, un Ipad 2, machine dont je dois reconnaître, même en tant qu'anti-apple, la très bonne qualité), je me suis posé la question : tablette ou liseuse pour le remplacer ? Quand on voit l'explosion du marché des liseuses et du livre numérique aux Etats-Unis tiré par le Kindle d'Amazon et le Nook de Barnes et Noble, j'en suis venu à me demander si c'était vraiment la bonne question... Pour résoudre ce dilemme, je me suis donc livré à un petit comparatif très personnel dont je vous livre ici le résultat au cas où d'autres se poseraient la même question.

Lire la suite...

Causeries Édition électronique —  7 commentaires