Les petites cases

Web sémantique

Petite histoire du Web sémantique

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la première :

Si le Web sémantique commence à être médiatisé aujourd'hui, ses fondements sont plus anciens, ils remontent aux origines même du Web et ont connu plusieurs évolutions dont l'histoire permet de mieux appréhender les enjeux.

Lire la suite...

Web sémantique Web Causeries Histoire — 

Roger T. Pédauque II, le retour (1ère partie)

En guise de préambule : le collectif Roger T. Pédauque s'est reformé pour proposer au commentaire un (plusieurs ?) nouveau texte pour étudier les implications du numérique sur la vision du document/information à la lumière des innovations et avancées récentes. Ayant par le passé analysé et critiqué un des textes, j'ai été sollicité par Jean-Michel Salaün pour participer à l'annotation de ce texte collectif. Difficile tâche tant mes journées sont remplies ces derniers temps, le délaissement de ce blog en est la preuve... Néanmoins, j'aimerais partager dans les prochains billets plusieurs réflexions en vrac qui me sont venus à la lecture de ce texte. Je précise que mon objectif n'est absolument pas de polémiquer, mais d'apporter ma pierre à l'édifice avec le ton habituel que j'utilise sur ce blog.

Lire la suite...

Management de l'information RDF Web sémantique Causeries Digital humanities Linked Data —  6 commentaires

Un automne de rencontres autour du Web sémantique

Il y a un temps pour tout : la découverte, la réflexion et l'expérimentation sur ce blog, le partage et la dissémination auprès de nouveaux publics au cours d'événements divers et le temps de l'accomplissement de projets mettant en œuvre ces différentes idées. Ainsi, le silence de ce blog trouve ses raisons dans d'autres activités non moins essentielles qui, à leur tour, vont alimenter de nouvelles réflexions. Mais, avant de vous en faire part et en guise de conclusion à cette riche période, je voulais partager avec vous les présentations qui ont ponctué mon automne.

Lire la suite...

Management de l'information RDF Web sémantique Sparql Causeries Digital humanities Moteur de recherche RDFa Wikipedia Linked Data —  2 commentaires

XML vs RDF : logique structurelle contre logique des données

XML et RDF sont deux modèles différents d'encodage de l'information et, pourtant, ils sont souvent confondus. Le dernier exemple en date est la mise à disposition par la British Library de 14 millions de notices bibliographiques au format, je cite, « RDF/DC ». La confusion est patente de par l'absence d'URI pour identifier les ressources décrites. Or, en tant que lecteur régulier de ce blog, vous savez que l'URI est un des fondements du modèle RDF.

Il est vrai que la distinction n'est pas forcément évidente à appréhender au premier abord et la syntaxe RDF/XML n'arrange pas les choses. J'ai à plusieurs reprises sur ce blog expliqué ce qui différencie les deux modèles : le modèle de l'arbre ou de l'arborescence pour l'un et le modèle de graphes pour l'autre. Mais, ainsi dit, cela n'est peut-être pas clair. Je vous propose donc d'aborder la distinction sous l'angle de la validation des informations pour faire suite à un commentaire sur le Figoblog et la réponse de Manue.

Lire la suite...

Structuration RDF XML Causeries OWL TEI Validation XHTML —  5 commentaires

Quel événement !? Ou comment contextualiser le triplet

L'absence de contextualisation est le principal reproche adressé à RDF par ses adversaires et il est vrai qu'au premier abord cela constitue son principal défaut. En effet, le modèle du triplet à la base de RDF ne permet pas a priori d'exprimer des informations sur le contexte d'application de l'assertion, au contraire d'autres mécanismes de modélisation des connaissances qui offrent nativement des systèmes pour préciser la portée d'une assertion, à l'image, par exemple, des Topic Maps avec l'élément "scope". Ce défaut semble renforcé par deux postulats de base de RDF : chaque assertion exprimée est vraie et chaque triplet est indépendant.

Lire la suite...

Structuration RDF Sparql OWL Geekeries —  8 commentaires

Une nouvelle aventure sous le signe du Web sémantique

Comme je l'ai annoncé sur Twitter, j'ai quitté Atos Origin fin juin. Après deux années marquées par la réalisation de beaux projets au sein de cette société et trois ans en SSII qui m'ont permis d'apprendre un métier et les processus qui lui sont attachés, le moment m'a paru opportun pour changer de perspectives et éviter la prochaine réorganisation... Il est donc temps de lever le voile vers ma nouvelle destination : je rejoins la société Antidot, éditeur du moteur de recherche AFS depuis 10 ans. Vous allez me dire « Un moteur ! Quelle drôle d'idée ? ».

Pas tant que cela, en fait, quand on connaît le positionnement de ce moteur et son évolution depuis quelques années, cette nouvelle collaboration est même une suite logique. Nos routes se sont croisées à plusieurs reprises, nous partageons une vision commune du traitement, de l'accès et de la recherche d'information dans laquelle se conjuguent respect des standards, Web et souci constant de la qualité des données. Mais, c'est évidemment autour de l'utilisation des technologies du Web sémantique que nos routes se sont rejointes, Antidot a fait ce pari depuis plusieurs années, à commencer par SKOS qu'ils ont été les premiers à implémenter en tant que format pour l'utilisation des référentiels au sein du moteur jusqu'à devenir aujourd'hui un des enjeux principaux de la société et se concrétiser par la réalisation de plusieurs projets.

C'est donc en tant que consultant spécialisé dans les technologies du Web sémantique que j'intègre la société. A cette occasion, nous ouvrirons une agence à Paris, la société étant jusqu'à maintenant installée à Lyon, Lambesc et la cellule R&D en région parisienne. C'est une décision importante dans l'optique du développement de la société. Mon rôle sera d'aider à poursuivre l'intégration des technologies du Web sémantique au sein d'AFS et d'accompagner les clients d'Antidot dans leurs utilisations et leurs déploiements, mais cela ne s'arrêtera pas là. En effet, Antidot souhaite participer au développement du Web de données et des technologies du Web sémantique en France et, à ce titre, j'étendrai mon activité d'évangélisation menée sur ce blog à mon environnement professionnel avec plus de temps et plus de perspectives. Dans le même ordre d'idée, il me sera possible de mener des missions de conseil et d'assistance qui ne font pas intervenir le produit. Joli programme en vue !

Cette nouvelle aventure n'aura pas été possible sans Christian Fauré (oui, je sais, c'est toujours lui que je remercie mais que voulez-vous, comme il le dit lui-même, certains managers laissent plus de traces que d'autres) qui m'a fait découvrir et rencontrer Antidot. Je ne sais pas si j'ai compris pourquoi il disait que je pouvais apporter quelque chose aux éditeurs de moteur de recherche, mais j'ai une occasion en or de trouver les réponses. Il me faut aussi remercier Fabrice Lacroix, PDG d'Antidot, pour la confiance dont il m'honore et le défi qu'il me propose et, bien-sûr, Manue pour sa patience au cours de ces derniers mois qui n'ont pas été simples.

Dernière chose : la ligne éditoriale de ce blog ne bougera pas d'un iota : veille et réflexion. Je n'ai jamais parlé d'une société plus qu'une autre, de même pour un produit et ça ne va pas commencer aujourd'hui. Antidot possède déjà un blog et j'aurai certainement l'occasion d'y mettre mon grain de sel, tout en continuant à faire vivre cet espace personnel.

Lire la suite...

Management de l'information Web sémantique Causeries Moteur de recherche Perso —  9 commentaires

Et à part ça ? Encore pleins de choses...

Parce qu'il n'y a pas que Facebook dans la vie et que ce début de printemps fut réellement un grand cru dans le domaine des technologies du Web sémantique, je vous propose une pelote/gazette spéciale "printemps".

Comprendre simplement les technologies du Web sémantique

Et, on commence par le très bon documentaire de Kate Ray intitulé « Web 3.0 ». A travers différents interviews (Tim Berners-Lee, Lee Feigenbaum, Nova Spivack, Clay Shirky pour n'en citer que quelques uns), Kate Ray dresse en 14 minutes un panorama des problématiques, débats et enjeux de l'utilisation des données structurées pour la recherche d'informations et le Web de demain et le rôle du Web sémantique. Évidemment, Clay Shirky (il n'est pas le seul) nous gratifie de sa position habituelle à savoir que le Web Sémantique cherche à imposer une vision du monde par une organisation unique. Quant aux ontologistes, leurs réactions sont tout aussi risibles, lorsqu'une personne suite à une table ronde (qui semble avoir lieu à ISWC 2009) posent la question de la pertinence de l'ontologie... Les deux camps sont comme d'habitude aussi caricaturaux l'un que l'autre. Le documentaire se finit sur la position sage et prudente de Tim Berners-Lee qui refuse de donner son avis sur l'avenir du Web, égal à lui-même.
De mon point de vue, ce documentaire montre une chose essentielle : l'avenir de la gestion de l'information et de la recherche sur le Web passe d'une manière ou d'une autre par les données structurées (et donc au moins pour une partie par les technologies du Web sémantique). Dire qu'on nous annonçait, il y a peu encore, le règne sans partage du texte intégral et de l'algorithme-roi et qu'on raillait allègrement les personnes qui continuaient de clamer l'importance des données structurées, ce renversement de tendances m'amuse beaucoup et me ravit (quoi ? je suis mesquin ? Non ? vous croyez... Peut-être, alors...)
Est-ce-que quelqu'un dans la salle aurait le temps et l'amabilité de faire une petite traduction ? Ce serait, à mon avis, un travail d'intérêt public. Merci d'avance à elle !

Toujours dans le domaine de la vulgarisation, je vous conseille la lecture de cette article sur Usinenouvelle.com : « L'industrie s'empare du Web sémantique ». Les bons articles de vulgarisation sur le sujet dans la presse informatique sont rares, celui-ci en est un. Il présente à la fois des cas d'utilisation concrets, les technologies et les recherches dans le domaine et propose un encadré salutaire intitulé : « La recherche sémantique n'existe pas... encore ». Saine lecture encouragée et à encourager.

Lire la suite...

Web sémantique Causeries —  1 commentaire

Open Graph Protocol : Facebook se met au Web sémantique ?

Retour le 21 avril au soir : Facebook organise l'événement F8 au cours duquel il va annoncer les évolutions de sa plate-forme à destination des développeurs. A titre personnel, je n'ai pas vu l'annonce dont je n'ai a priori rien à attendre. Un premier twitt de Nicolas attire mon œil :

« Mark Zuckerberg - 3 fois le mot semantic par phrase.. des graphs dans tous les sens avec des connections avec d'autres sites. hmm.. »

Attiré, certes, mais sans grand espoir, je continue à vaquer à mes occupations numériques. Quelques minutes plus tard, première annonce concrète, Facebook met à disposition une « Graph API ». Alors que Régis a l'air enthousiaste, je partage la déception de Nicolas :

« Facebook propose une "Graph API" mais le format = JSON, les bras m'en tombent... http://graph.facebook.com/ via @rgaidot et @cyno »

Ce dernier essaye de me faire voir le bon côté des choses. Il a raison car les annonces ne sont pas terminées et quelques minutes plus tard, Manu Sporny relance nos espoirs en attirant l'attention sur un header de page HTML avec un encodage RDFa montré lors de la conférence :

« I think Facebook just announced RDFa support (the Open Graph Protocol) at F8: http://ow.ly/1Bm2g #rdfa #html5 #f8 (look at the attributes) »

Les soupçons sont rapidement confirmés, Facebook annonce Open Graph Protocol, un vocabulaire RDF très simple pour encoder en RDFa le titre de la page, le type de ressource décrite (vidéo, sport, entreprise, hôtel...), le titre du conteneur de la page et l'URL d'une image (et quelques autres choses..). Dans la foulée, Facebook annonce le support de ce protocole par plusieurs sites importants : IMDB, Microsoft, NHL, Posterous, Rotten Tomatoes...

Lire la suite...

Web Causeries Indexation RDFa Linked Data — 

RDFa 1.1 pour corriger les erreurs de jeunesse ?

RDFa est devenu, depuis plus d'un an, un des enjeux des batailles qui se nouent autour de HTML 5. Au cœur de la polémique, c'est ni plus ni moins que l'intégration de RDFa dans HTML 5 qui est en jeu, face au Microdata, principe concurrent proposé par Ian Hickson, un des éditeurs de HTML 5. Je ne vais pas revenir sur les débats qui agitent les spécialistes de la question, d'autant que si certains arguments sont recevables, il en est d'autres qui relèvent plus du combat d'ego. Face aux polémiques qui n'en finissaient plus d'enfler, aux retours des implémenteurs et à l'enjeu que revêtait RDFa suite aux différentes annonces effectués par Yahoo (SearchMonkey) et Google (Rich Snippets) pour ne citer qu'eux, le W3C a décidé de relancer le groupe de travail RDFa au mois de janvier 2010.

Lire la suite...

Structuration RDFa XHTML Geekeries —  1 commentaire

La gazette du Web de données (1er trimestre 2010)

Un petit trimestre est passé depuis mon billet-pelote en forme de thérapie d'écriture. A part sur ce blog, il s'est passé plein de choses et comme plusieurs d'entre vous m'ont fait part de leur intérêt pour ce type de billets, je vous propose une sélection toute personnelle des derniers potins, nouveautés, rumeurs, annonces... dans le domaine du Web sémantique et ses dérivés classée des sujets les moins techniques aux plus techniques qui vous amèneront immanquablement à mettre à disposition vos données selon les principes du Linked Data.

Lire la suite...

Web sémantique Geekeries —  1 commentaire