Comme je l'ai annoncé sur Twitter, j'ai quitté Atos Origin fin juin. Après deux années marquées par la réalisation de beaux projets au sein de cette société et trois ans en SSII qui m'ont permis d'apprendre un métier et les processus qui lui sont attachés, le moment m'a paru opportun pour changer de perspectives et éviter la prochaine réorganisation... Il est donc temps de lever le voile vers ma nouvelle destination : je rejoins la société Antidot, éditeur du moteur de recherche AFS depuis 10 ans. Vous allez me dire « Un moteur ! Quelle drôle d'idée ? ».

Pas tant que cela, en fait, quand on connaît le positionnement de ce moteur et son évolution depuis quelques années, cette nouvelle collaboration est même une suite logique. Nos routes se sont croisées à plusieurs reprises, nous partageons une vision commune du traitement, de l'accès et de la recherche d'information dans laquelle se conjuguent respect des standards, Web et souci constant de la qualité des données. Mais, c'est évidemment autour de l'utilisation des technologies du Web sémantique que nos routes se sont rejointes, Antidot a fait ce pari depuis plusieurs années, à commencer par SKOS qu'ils ont été les premiers à implémenter en tant que format pour l'utilisation des référentiels au sein du moteur jusqu'à devenir aujourd'hui un des enjeux principaux de la société et se concrétiser par la réalisation de plusieurs projets.

C'est donc en tant que consultant spécialisé dans les technologies du Web sémantique que j'intègre la société. A cette occasion, nous ouvrirons une agence à Paris, la société étant jusqu'à maintenant installée à Lyon, Lambesc et la cellule R&D en région parisienne. C'est une décision importante dans l'optique du développement de la société. Mon rôle sera d'aider à poursuivre l'intégration des technologies du Web sémantique au sein d'AFS et d'accompagner les clients d'Antidot dans leurs utilisations et leurs déploiements, mais cela ne s'arrêtera pas là. En effet, Antidot souhaite participer au développement du Web de données et des technologies du Web sémantique en France et, à ce titre, j'étendrai mon activité d'évangélisation menée sur ce blog à mon environnement professionnel avec plus de temps et plus de perspectives. Dans le même ordre d'idée, il me sera possible de mener des missions de conseil et d'assistance qui ne font pas intervenir le produit. Joli programme en vue !

Cette nouvelle aventure n'aura pas été possible sans Christian Fauré (oui, je sais, c'est toujours lui que je remercie mais que voulez-vous, comme il le dit lui-même, certains managers laissent plus de traces que d'autres) qui m'a fait découvrir et rencontrer Antidot. Je ne sais pas si j'ai compris pourquoi il disait que je pouvais apporter quelque chose aux éditeurs de moteur de recherche, mais j'ai une occasion en or de trouver les réponses. Il me faut aussi remercier Fabrice Lacroix, PDG d'Antidot, pour la confiance dont il m'honore et le défi qu'il me propose et, bien-sûr, Manue pour sa patience au cours de ces derniers mois qui n'ont pas été simples.

Dernière chose : la ligne éditoriale de ce blog ne bougera pas d'un iota : veille et réflexion. Je n'ai jamais parlé d'une société plus qu'une autre, de même pour un produit et ça ne va pas commencer aujourd'hui. Antidot possède déjà un blog et j'aurai certainement l'occasion d'y mettre mon grain de sel, tout en continuant à faire vivre cet espace personnel.

Cette semaine avait lieu le ThatCamp à Paris. Derrière ce nom un peu mystérieux (en réalité, acronyme de « The Humanities and Technology Camp) se cache une non-conférence sur le modèle du barcamp dédiée aux Digital Humanities, « transdiscipline, porteuse des méthodes, des dispositifs et des perspectives heuristiques liés au numérique dans le domaine des Sciences humaines et sociales » (définition issue du Manifeste, cf. plus loin) et auxquelles j'ai fait allusion à plusieurs reprises sur ce blog.

Elle constituait une occasion de revoir plein d'amis, anciens collègues, anciens camarades de jeux et connaissances numériques/virtuels dans un cadre de discussions ouvert sur des sujets variés. Et, je ne fus pas déçu, car ce rassemblement a marqué le véritable acte de « naissance » d'une communauté des digital humanities en France. Naissance actée par un Manifeste rédigé tout au long des deux jours d'ateliers et discuté par tous lors de la session finale. Ce manifeste assoit et légitime l'existence de cette communauté et affirme l'importance des digital humanities dans l'Enseignement supérieur et la Recherche, de manière plus large comme une opportunité professionnelle dans tous les secteurs (et j'en sais quelque chose) et son rôle dans l'apprentissage du savoir au XXIe siècle.

Vous êtes d'ailleurs cordialement invités à signer ce manifeste, si vous vous reconnaissez dans cette communauté et dans les objectifs qu'elle s'est fixés.

Parce qu'il n'y a pas que Facebook dans la vie et que ce début de printemps fut réellement un grand cru dans le domaine des technologies du Web sémantique, je vous propose une pelote/gazette spéciale "printemps".

Comprendre simplement les technologies du Web sémantique

Et, on commence par le très bon documentaire de Kate Ray intitulé « Web 3.0 ». A travers différents interviews (Tim Berners-Lee, Lee Feigenbaum, Nova Spivack, Clay Shirky pour n'en citer que quelques uns), Kate Ray dresse en 14 minutes un panorama des problématiques, débats et enjeux de l'utilisation des données structurées pour la recherche d'informations et le Web de demain et le rôle du Web sémantique. Évidemment, Clay Shirky (il n'est pas le seul) nous gratifie de sa position habituelle à savoir que le Web Sémantique cherche à imposer une vision du monde par une organisation unique. Quant aux ontologistes, leurs réactions sont tout aussi risibles, lorsqu'une personne suite à une table ronde (qui semble avoir lieu à ISWC 2009) posent la question de la pertinence de l'ontologie... Les deux camps sont comme d'habitude aussi caricaturaux l'un que l'autre. Le documentaire se finit sur la position sage et prudente de Tim Berners-Lee qui refuse de donner son avis sur l'avenir du Web, égal à lui-même.
De mon point de vue, ce documentaire montre une chose essentielle : l'avenir de la gestion de l'information et de la recherche sur le Web passe d'une manière ou d'une autre par les données structurées (et donc au moins pour une partie par les technologies du Web sémantique). Dire qu'on nous annonçait, il y a peu encore, le règne sans partage du texte intégral et de l'algorithme-roi et qu'on raillait allègrement les personnes qui continuaient de clamer l'importance des données structurées, ce renversement de tendances m'amuse beaucoup et me ravit (quoi ? je suis mesquin ? Non ? vous croyez... Peut-être, alors...)
Est-ce-que quelqu'un dans la salle aurait le temps et l'amabilité de faire une petite traduction ? Ce serait, à mon avis, un travail d'intérêt public. Merci d'avance à elle !

Toujours dans le domaine de la vulgarisation, je vous conseille la lecture de cette article sur Usinenouvelle.com : « L'industrie s'empare du Web sémantique ». Les bons articles de vulgarisation sur le sujet dans la presse informatique sont rares, celui-ci en est un. Il présente à la fois des cas d'utilisation concrets, les technologies et les recherches dans le domaine et propose un encadré salutaire intitulé : « La recherche sémantique n'existe pas... encore ». Saine lecture encouragée et à encourager.

Retour le 21 avril au soir : Facebook organise l'événement F8 au cours duquel il va annoncer les évolutions de sa plate-forme à destination des développeurs. A titre personnel, je n'ai pas vu l'annonce dont je n'ai a priori rien à attendre. Un premier twitt de Nicolas attire mon œil :

« Mark Zuckerberg - 3 fois le mot semantic par phrase.. des graphs dans tous les sens avec des connections avec d'autres sites. hmm.. »

Attiré, certes, mais sans grand espoir, je continue à vaquer à mes occupations numériques. Quelques minutes plus tard, première annonce concrète, Facebook met à disposition une « Graph API ». Alors que Régis a l'air enthousiaste, je partage la déception de Nicolas :

« Facebook propose une "Graph API" mais le format = JSON, les bras m'en tombent... http://graph.facebook.com/ via @rgaidot et @cyno »

Ce dernier essaye de me faire voir le bon côté des choses. Il a raison car les annonces ne sont pas terminées et quelques minutes plus tard, Manu Sporny relance nos espoirs en attirant l'attention sur un header de page HTML avec un encodage RDFa montré lors de la conférence :

« I think Facebook just announced RDFa support (the Open Graph Protocol) at F8: http://ow.ly/1Bm2g #rdfa #html5 #f8 (look at the attributes) »

Les soupçons sont rapidement confirmés, Facebook annonce Open Graph Protocol, un vocabulaire RDF très simple pour encoder en RDFa le titre de la page, le type de ressource décrite (vidéo, sport, entreprise, hôtel...), le titre du conteneur de la page et l'URL d'une image (et quelques autres choses..). Dans la foulée, Facebook annonce le support de ce protocole par plusieurs sites importants : IMDB, Microsoft, NHL, Posterous, Rotten Tomatoes...

Dans mon précédent billet, discutant l'expression « digital preservation », j'ai essayé de poser les bases de la gestion de l'information numérique pour en garantir la communication sur le long terme. J'ai ainsi cherché à démontrer que les tâches à effectuer pour l'information numérique ne différaient finalement pas de celles effectuées pour l'information sur le support traditionnel.

Dans ce billet, je voudrais faire quelques remarques sur la notion de collection (Amis, archivistes, j'espère que vous ne m'en voudrez pas d'avoir choisi cette terminologie, vous connaissez mon atavisme pour les bibliothèques ;-) ).

Deux ans que je travaille sur un projet pour mettre en place un « système de préservation » et, finalement, j'en viens à me poser cette question toute simple : l'expression « digital preservation » (traduite par le néologisme « préservation numérique ») est-elle pertinente ?
Rien n'est moins sûr quand je dresse le bilan du travail accompli, je dirais même que cette expression est l'arbre qui cache la forêt. Au final, j'ai l'impression qu'elle a fait croire que le problème se résoudrait par des moyens ou des compétences techniques, alors qu'il n'en est rien, les actions des futurs conservateurs/gestionnaires de collection numérique seront bien les mêmes que leurs collègues qui s'occupent des collections traditionnelles, ce sont les outils et les connaissances qui diffèrent et non les compétences.

Il faut affronter les démons et revenir aux choses simples, une vieille habitude sacrifiée sur l'autel des 140 caractères twitteriens, grands vainqueurs de l'immédiateté et de la synthèse sans analyse, la pelote de liens.

...pour écrire ?

Perdu dans les méandres de mes pensées, noyé dans les tréfonds de mes idées, je n'arrive plus à aligner les mots... Trop de choses ou pas assez, mon cerveau ne sait plus ranger, classer et restituer. Peut-être me faut-il les vider en vrac pour y voir plus clair, les jeter sur l'écran pour mieux les maîtriser ?
Pérennisation, Linked data, données publiques ou gouvernementales, Web sémantique, Sparql, RDF, XML, métadonnées, METS, RDF, Triple store, moteur de recherche, alignement, SKOS, autant de sujets qui m'occupent toute la journée et encombrent ma tête sans pouvoir les ordonner. Je cherche désespérement la clé sans la trouver. Dois-je abandonner l'idée d'écrire ou persévérer tout en laissant en friche les textes inachevés ?

Alors que l'avion nous ramenant en France survole les Etats-Unis et l'Océan atlantique, il est temps de prendre du recul pour tirer les leçons de notre séjour californien à l'occasion de la grande messe annuelle de la pérennisation de l'information numérique, IPRES, qui avait lieu cette année à San Fransisco. La conférence s'intitulait « Moving into the mainstream. Enabling our digital future » et était donc principalement axée sur des problématiques liées à l'organisation, l'économie et les moyens de garantir l'activité même de la pérennisation de l'information numérique. Cet intitulé impliquait l'idée que nous entrions dans une ère de maturité et de production après quelques années de recherche et de développement sur le sujet.

A l'issue de la conférence et des discussions avec les uns et les autres (le plus intéressant dans une conférence !), j'ai un sentiment mitigé. Bien sûr, le chemin parcouru est déjà très important au regard des enjeux et du défaitisme qui avait cours, il y a quelques années. Pourtant, deux tendances me semblent avoir fait leur apparition et viennent limiter ce sentiment de maturité :

le champ des possibles dans le domaine reste terriblement vaste, à la fois en termes de types de ressources numériques à couvrir et de moyens à tous les niveaux pour assurer une pérennisation efficiente
une fracture est en train de se créer entre différentes conceptions de ce que peut/doit constituer l'activité de pérennisation de l'information numérique.

La médiatisation d'un nouveau concept, d'une nouvelle notion, d'une nouvelle technologie et de nouvelles perspectives s'accompagne immanquablement d'analyses plus ou moins farfelues, d'incompréhensions et d'interprétations erronnées (parfois volontairment pour profiter du buzz). Le Web sémantique n'échappe à cette tendance.

A l'instar de James Hendler qui a publié sa FAQ non officielle sur le Web sémantique, je vous propose de mon côté de revenir sur quelques idées reçues sur le Web sémantique.

Les petites cases

Causeries

Une nouvelle aventure sous le signe du Web sémantique

Une communauté des digital humanities est née

Et à part ça ? Encore pleins de choses...

Comprendre simplement les technologies du Web sémantique

Open Graph Protocol : Facebook se met au Web sémantique ?

Quelques considérations sur la notion de collection

L'expression « digital preservation » est-elle pertinente ?

Quoi de neuf en plus de 140 caractères ?

Comment faire...

La pérennisation de l'information numérique, mature ! Vraiment ?

Contrer les idées reçues sur le Web sémantique

Jour après jour

Vous voulez en savoir plus

Vous voulez suivre ce fourre-tout