Les petites cases

Causeries

Retour sur le Web de données

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la troisième et dernière :

Présente dans la feuille de route pour le Web sémantique écrite en 1998 par Tim Berners-Lee, l'expression « Web of data » qu'on traduit de manière littérale par « Web de données » n'a été vraiment utilisée qu'à partir de 2006 suite à la parution de la note « Linked Data » du même Tim Berners-Lee et aux différents aveux d'échecs dressés par la communauté. Cette note est d'une importance fondamentale dans le mouvement actuel puisqu'elle rappelle les buts initiaux poursuivis par le Web sémantique, à savoir établir des liens entre les données exposées et distribuées sur le Web, et elle contient les quatre principes de mise à disposition des données sur le Web grâce aux technologies du Web sémantique.

Ainsi, elle a constitué le point de départ d'une renaissance du Web sémantique avec le projet du W3C « Linking Open Data » visant à placer sur le Web des données structurées en RDF et à offrir des cas d'utilisation réels et simples des technologies du Web sémantique. En novembre 2009, le Web de données était constitué de 13,1 milliards de triplets répartis au sein de différents ensembles de données couvrant les domaines aussi diverses que les données multimédia, les données du Web social, les données géographiques et statistiques, les données bibliographiques...

Lire la suite...

Causeries Linked Data — 

Petite histoire du Web sémantique

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la première :

Si le Web sémantique commence à être médiatisé aujourd'hui, ses fondements sont plus anciens, ils remontent aux origines même du Web et ont connu plusieurs évolutions dont l'histoire permet de mieux appréhender les enjeux.

Lire la suite...

Web sémantique Web Causeries Histoire — 

Tablette ou liseuse, telle est la question

Alors que mon Sony Reader PRS-505 me lâche peu à peu et que je fais l'expérience d'une tablette (en l'occurrence, un Ipad 2, machine dont je dois reconnaître, même en tant qu'anti-apple, la très bonne qualité), je me suis posé la question : tablette ou liseuse pour le remplacer ? Quand on voit l'explosion du marché des liseuses et du livre numérique aux Etats-Unis tiré par le Kindle d'Amazon et le Nook de Barnes et Noble, j'en suis venu à me demander si c'était vraiment la bonne question... Pour résoudre ce dilemme, je me suis donc livré à un petit comparatif très personnel dont je vous livre ici le résultat au cas où d'autres se poseraient la même question.

Lire la suite...

Causeries Édition électronique —  7 commentaires

Roger T. Pédauque II, le retour (1ère partie)

En guise de préambule : le collectif Roger T. Pédauque s'est reformé pour proposer au commentaire un (plusieurs ?) nouveau texte pour étudier les implications du numérique sur la vision du document/information à la lumière des innovations et avancées récentes. Ayant par le passé analysé et critiqué un des textes, j'ai été sollicité par Jean-Michel Salaün pour participer à l'annotation de ce texte collectif. Difficile tâche tant mes journées sont remplies ces derniers temps, le délaissement de ce blog en est la preuve... Néanmoins, j'aimerais partager dans les prochains billets plusieurs réflexions en vrac qui me sont venus à la lecture de ce texte. Je précise que mon objectif n'est absolument pas de polémiquer, mais d'apporter ma pierre à l'édifice avec le ton habituel que j'utilise sur ce blog.

Lire la suite...

Management de l'information RDF Web sémantique Causeries Digital humanities Linked Data —  6 commentaires

Un automne de rencontres autour du Web sémantique

Il y a un temps pour tout : la découverte, la réflexion et l'expérimentation sur ce blog, le partage et la dissémination auprès de nouveaux publics au cours d'événements divers et le temps de l'accomplissement de projets mettant en œuvre ces différentes idées. Ainsi, le silence de ce blog trouve ses raisons dans d'autres activités non moins essentielles qui, à leur tour, vont alimenter de nouvelles réflexions. Mais, avant de vous en faire part et en guise de conclusion à cette riche période, je voulais partager avec vous les présentations qui ont ponctué mon automne.

Lire la suite...

Management de l'information RDF Web sémantique Sparql Causeries Digital humanities Moteur de recherche RDFa Wikipedia Linked Data —  2 commentaires

XML vs RDF : logique structurelle contre logique des données

XML et RDF sont deux modèles différents d'encodage de l'information et, pourtant, ils sont souvent confondus. Le dernier exemple en date est la mise à disposition par la British Library de 14 millions de notices bibliographiques au format, je cite, « RDF/DC ». La confusion est patente de par l'absence d'URI pour identifier les ressources décrites. Or, en tant que lecteur régulier de ce blog, vous savez que l'URI est un des fondements du modèle RDF.

Il est vrai que la distinction n'est pas forcément évidente à appréhender au premier abord et la syntaxe RDF/XML n'arrange pas les choses. J'ai à plusieurs reprises sur ce blog expliqué ce qui différencie les deux modèles : le modèle de l'arbre ou de l'arborescence pour l'un et le modèle de graphes pour l'autre. Mais, ainsi dit, cela n'est peut-être pas clair. Je vous propose donc d'aborder la distinction sous l'angle de la validation des informations pour faire suite à un commentaire sur le Figoblog et la réponse de Manue.

Lire la suite...

Structuration RDF XML Causeries OWL TEI Validation XHTML —  5 commentaires

Une nouvelle aventure sous le signe du Web sémantique

Comme je l'ai annoncé sur Twitter, j'ai quitté Atos Origin fin juin. Après deux années marquées par la réalisation de beaux projets au sein de cette société et trois ans en SSII qui m'ont permis d'apprendre un métier et les processus qui lui sont attachés, le moment m'a paru opportun pour changer de perspectives et éviter la prochaine réorganisation... Il est donc temps de lever le voile vers ma nouvelle destination : je rejoins la société Antidot, éditeur du moteur de recherche AFS depuis 10 ans. Vous allez me dire « Un moteur ! Quelle drôle d'idée ? ».

Pas tant que cela, en fait, quand on connaît le positionnement de ce moteur et son évolution depuis quelques années, cette nouvelle collaboration est même une suite logique. Nos routes se sont croisées à plusieurs reprises, nous partageons une vision commune du traitement, de l'accès et de la recherche d'information dans laquelle se conjuguent respect des standards, Web et souci constant de la qualité des données. Mais, c'est évidemment autour de l'utilisation des technologies du Web sémantique que nos routes se sont rejointes, Antidot a fait ce pari depuis plusieurs années, à commencer par SKOS qu'ils ont été les premiers à implémenter en tant que format pour l'utilisation des référentiels au sein du moteur jusqu'à devenir aujourd'hui un des enjeux principaux de la société et se concrétiser par la réalisation de plusieurs projets.

C'est donc en tant que consultant spécialisé dans les technologies du Web sémantique que j'intègre la société. A cette occasion, nous ouvrirons une agence à Paris, la société étant jusqu'à maintenant installée à Lyon, Lambesc et la cellule R&D en région parisienne. C'est une décision importante dans l'optique du développement de la société. Mon rôle sera d'aider à poursuivre l'intégration des technologies du Web sémantique au sein d'AFS et d'accompagner les clients d'Antidot dans leurs utilisations et leurs déploiements, mais cela ne s'arrêtera pas là. En effet, Antidot souhaite participer au développement du Web de données et des technologies du Web sémantique en France et, à ce titre, j'étendrai mon activité d'évangélisation menée sur ce blog à mon environnement professionnel avec plus de temps et plus de perspectives. Dans le même ordre d'idée, il me sera possible de mener des missions de conseil et d'assistance qui ne font pas intervenir le produit. Joli programme en vue !

Cette nouvelle aventure n'aura pas été possible sans Christian Fauré (oui, je sais, c'est toujours lui que je remercie mais que voulez-vous, comme il le dit lui-même, certains managers laissent plus de traces que d'autres) qui m'a fait découvrir et rencontrer Antidot. Je ne sais pas si j'ai compris pourquoi il disait que je pouvais apporter quelque chose aux éditeurs de moteur de recherche, mais j'ai une occasion en or de trouver les réponses. Il me faut aussi remercier Fabrice Lacroix, PDG d'Antidot, pour la confiance dont il m'honore et le défi qu'il me propose et, bien-sûr, Manue pour sa patience au cours de ces derniers mois qui n'ont pas été simples.

Dernière chose : la ligne éditoriale de ce blog ne bougera pas d'un iota : veille et réflexion. Je n'ai jamais parlé d'une société plus qu'une autre, de même pour un produit et ça ne va pas commencer aujourd'hui. Antidot possède déjà un blog et j'aurai certainement l'occasion d'y mettre mon grain de sel, tout en continuant à faire vivre cet espace personnel.

Lire la suite...

Management de l'information Web sémantique Causeries Moteur de recherche Perso —  9 commentaires

Une communauté des digital humanities est née

Cette semaine avait lieu le ThatCamp à Paris. Derrière ce nom un peu mystérieux (en réalité, acronyme de « The Humanities and Technology Camp) se cache une non-conférence sur le modèle du barcamp dédiée aux Digital Humanities, « transdiscipline, porteuse des méthodes, des dispositifs et des perspectives heuristiques liés au numérique dans le domaine des Sciences humaines et sociales » (définition issue du Manifeste, cf. plus loin) et auxquelles j'ai fait allusion à plusieurs reprises sur ce blog.

Elle constituait une occasion de revoir plein d'amis, anciens collègues, anciens camarades de jeux et connaissances numériques/virtuels dans un cadre de discussions ouvert sur des sujets variés. Et, je ne fus pas déçu, car ce rassemblement a marqué le véritable acte de « naissance » d'une communauté des digital humanities en France. Naissance actée par un Manifeste rédigé tout au long des deux jours d'ateliers et discuté par tous lors de la session finale. Ce manifeste assoit et légitime l'existence de cette communauté et affirme l'importance des digital humanities dans l'Enseignement supérieur et la Recherche, de manière plus large comme une opportunité professionnelle dans tous les secteurs (et j'en sais quelque chose) et son rôle dans l'apprentissage du savoir au XXIe siècle.

Vous êtes d'ailleurs cordialement invités à signer ce manifeste, si vous vous reconnaissez dans cette communauté et dans les objectifs qu'elle s'est fixés.

Lire la suite...

Système d'information Causeries Conservation Digital humanities — 

Et à part ça ? Encore pleins de choses...

Parce qu'il n'y a pas que Facebook dans la vie et que ce début de printemps fut réellement un grand cru dans le domaine des technologies du Web sémantique, je vous propose une pelote/gazette spéciale "printemps".

Comprendre simplement les technologies du Web sémantique

Et, on commence par le très bon documentaire de Kate Ray intitulé « Web 3.0 ». A travers différents interviews (Tim Berners-Lee, Lee Feigenbaum, Nova Spivack, Clay Shirky pour n'en citer que quelques uns), Kate Ray dresse en 14 minutes un panorama des problématiques, débats et enjeux de l'utilisation des données structurées pour la recherche d'informations et le Web de demain et le rôle du Web sémantique. Évidemment, Clay Shirky (il n'est pas le seul) nous gratifie de sa position habituelle à savoir que le Web Sémantique cherche à imposer une vision du monde par une organisation unique. Quant aux ontologistes, leurs réactions sont tout aussi risibles, lorsqu'une personne suite à une table ronde (qui semble avoir lieu à ISWC 2009) posent la question de la pertinence de l'ontologie... Les deux camps sont comme d'habitude aussi caricaturaux l'un que l'autre. Le documentaire se finit sur la position sage et prudente de Tim Berners-Lee qui refuse de donner son avis sur l'avenir du Web, égal à lui-même.
De mon point de vue, ce documentaire montre une chose essentielle : l'avenir de la gestion de l'information et de la recherche sur le Web passe d'une manière ou d'une autre par les données structurées (et donc au moins pour une partie par les technologies du Web sémantique). Dire qu'on nous annonçait, il y a peu encore, le règne sans partage du texte intégral et de l'algorithme-roi et qu'on raillait allègrement les personnes qui continuaient de clamer l'importance des données structurées, ce renversement de tendances m'amuse beaucoup et me ravit (quoi ? je suis mesquin ? Non ? vous croyez... Peut-être, alors...)
Est-ce-que quelqu'un dans la salle aurait le temps et l'amabilité de faire une petite traduction ? Ce serait, à mon avis, un travail d'intérêt public. Merci d'avance à elle !

Toujours dans le domaine de la vulgarisation, je vous conseille la lecture de cette article sur Usinenouvelle.com : « L'industrie s'empare du Web sémantique ». Les bons articles de vulgarisation sur le sujet dans la presse informatique sont rares, celui-ci en est un. Il présente à la fois des cas d'utilisation concrets, les technologies et les recherches dans le domaine et propose un encadré salutaire intitulé : « La recherche sémantique n'existe pas... encore ». Saine lecture encouragée et à encourager.

Lire la suite...

Web sémantique Causeries —  1 commentaire

Open Graph Protocol : Facebook se met au Web sémantique ?

Retour le 21 avril au soir : Facebook organise l'événement F8 au cours duquel il va annoncer les évolutions de sa plate-forme à destination des développeurs. A titre personnel, je n'ai pas vu l'annonce dont je n'ai a priori rien à attendre. Un premier twitt de Nicolas attire mon œil :

« Mark Zuckerberg - 3 fois le mot semantic par phrase.. des graphs dans tous les sens avec des connections avec d'autres sites. hmm.. »

Attiré, certes, mais sans grand espoir, je continue à vaquer à mes occupations numériques. Quelques minutes plus tard, première annonce concrète, Facebook met à disposition une « Graph API ». Alors que Régis a l'air enthousiaste, je partage la déception de Nicolas :

« Facebook propose une "Graph API" mais le format = JSON, les bras m'en tombent... http://graph.facebook.com/ via @rgaidot et @cyno »

Ce dernier essaye de me faire voir le bon côté des choses. Il a raison car les annonces ne sont pas terminées et quelques minutes plus tard, Manu Sporny relance nos espoirs en attirant l'attention sur un header de page HTML avec un encodage RDFa montré lors de la conférence :

« I think Facebook just announced RDFa support (the Open Graph Protocol) at F8: http://ow.ly/1Bm2g #rdfa #html5 #f8 (look at the attributes) »

Les soupçons sont rapidement confirmés, Facebook annonce Open Graph Protocol, un vocabulaire RDF très simple pour encoder en RDFa le titre de la page, le type de ressource décrite (vidéo, sport, entreprise, hôtel...), le titre du conteneur de la page et l'URL d'une image (et quelques autres choses..). Dans la foulée, Facebook annonce le support de ce protocole par plusieurs sites importants : IMDB, Microsoft, NHL, Posterous, Rotten Tomatoes...

Lire la suite...

Web Causeries Indexation RDFa Linked Data —