Les petites cases

Exploiter les données en Open Data : encore un doux rêve...

Le temps et le courage me manquent pour alimenter sérieusement ce blog. Si, aujourd'hui, je sors de mon silence, c'est pour pousser une énorme coup de gueule. Alors qu'on nous bassine tous les jours avec l'Open Data et ses promesses tant citoyennes qu'économiques, je constate tous les jours un peu plus le chemin encore gigantesque à parcourir pour exploiter professionnellement et sur le long terme un ensemble de données (dataset) mis à disposition sur data.gouv.fr ou tout autre site équivalent.

Un exemple vaut mieux que des grands discours pour illustrer mon courroux : le recensement des équipements sportifs sur le site data.gouv.fr. Cet ensemble de données est mis à disposition sous la forme d'un fichier zip contenant un fichier XML depuis le 15 juin 2012. Il s'avère que pour les besoins d'un prototype que nous avons mis au point chez Antidot pour démontrer les capacités de nos produits, nous l'avions utilisé. La récupération et le traitement de ce fichier ont donc été paramétrés par rapport à la première version du fichier. Or, il a été mis à jour, il y a quelques jours (le 21 février 2013 pour être précis). Nous pensions donc (naïvement, comme vous pourrez le constater) qu'il nous suffirait de relancer notre chaîne de traitement pour prendre en compte cette nouvelle version. C'était sans compter les nombreux petits changements qu'avait subis entre temps cet ensemble de données :

  • le fichier zip n'est pas téléchargeable pas à la même URL, la page HTML qui décrit l'ensemble des données possède visiblement une URL pérenne mais en l'absence d'une API ou d'un annuaire dans un formalisme traitable par une machine permettant de faire le lien entre l'URL de l'ensemble de données et le lien du fichier lui-même : impossible de trouver le nouveau lien automatiquement ;
  • l'arborescence du fichier zip est différente : le fichier XML est contenu dans un répertoire ce qui n'était pas le cas précédemment ;
  • la structure du fichier XML a été modifiée et en l'absence d'une information le précisant dans une API... (bla bla, vous avez compris l'idée...)

Résultat des courses, il faut intervenir sur la configuration de la chaîne pour pouvoir à nouveau traiter le fichier correctement. Évidemment, ce n'est pas grand chose et cela ne nous a pas pris beaucoup de temps. Mais, tout de même, comment justifier auprès d'un client qui a payé pour construire une application qu'à chaque mise à jour, il lui faudra intervenir à nouveau pour adapter le traitement : est-ce-que vous pensez réellement qu'on peut mettre en place un écosystème économique digne de ce nom si nous n'avons pas confiance dans les sources de l'application ? Sommes-nous condamnés à ne réaliser que des applications "one shot" ou à revoir systématiquement les traitements à chaque mise à jour découverte au petit bonheur la chance ?

Mon propos n'est absolument pas de stigmatiser data.gouv.fr dont est tiré mon exemple, mais plutôt de dénoncer le peu d'attention dont font preuve les porteurs de projets Open Data en France aux moyens nécessaires pour permettre une véritable utilisation professionnelle et sur le long terme des données qu'ils mettent à disposition. Oui, il faut investir plus de temps et d'argent, mais c'est le prix à payer pour que les données soient réellement exploitées, il existe un véritable retour sur investissement. En réalité, cela démontre à quel point l'Open Data n'est aujourd'hui qu'un argument politique, de la poudre aux yeux pour faire preuve d'une soi-disant transparence qui n'en a que le nom, la plupart des citoyens étant incapable d'exploiter les données mises à disposition.

Depuis quelques temps, j'avais le sentiment que l'Open Data tel qu'il est pratiqué aujourd'hui en France est un échec total et ce genre d'exemple ne fait que me conforter dans cette vision. Il est indéniable que la mise à disposition des données est une formidable avancée, mais si elle faite sans réfléchir à leur exploitation, cela ne sert strictement à rien et je ne parle même pas du problème des formats...

Je ne désespère pas pour autant. Et, sans paraître donneur de leçons, les efforts à consentir ne sont pas si énormes pour que les choses puissent avancer dans le bon sens : des URLs pérennes et des métadonnées dignes de ce nom exprimées dans un format directement exploitable par les machines seraient déjà un premier pas (et je ne demande même pas du RDF ce qui serait le must, un simple fichier XML serait déjà énorme...). Finalement, il en va des ensembles de données de l'Open Data comme de la viande de cheval et la viande de porc : la traçabilité est essentielle !

Management de l'information Râleries —