Les petites cases

Et à part ça ? Encore pleins de choses...

Parce qu'il n'y a pas que Facebook dans la vie et que ce début de printemps fut réellement un grand cru dans le domaine des technologies du Web sémantique, je vous propose une pelote/gazette spéciale "printemps".

Comprendre simplement les technologies du Web sémantique

Et, on commence par le très bon documentaire de Kate Ray intitulé « Web 3.0 ». A travers différents interviews (Tim Berners-Lee, Lee Feigenbaum, Nova Spivack, Clay Shirky pour n'en citer que quelques uns), Kate Ray dresse en 14 minutes un panorama des problématiques, débats et enjeux de l'utilisation des données structurées pour la recherche d'informations et le Web de demain et le rôle du Web sémantique. Évidemment, Clay Shirky (il n'est pas le seul) nous gratifie de sa position habituelle à savoir que le Web Sémantique cherche à imposer une vision du monde par une organisation unique. Quant aux ontologistes, leurs réactions sont tout aussi risibles, lorsqu'une personne suite à une table ronde (qui semble avoir lieu à ISWC 2009) posent la question de la pertinence de l'ontologie... Les deux camps sont comme d'habitude aussi caricaturaux l'un que l'autre. Le documentaire se finit sur la position sage et prudente de Tim Berners-Lee qui refuse de donner son avis sur l'avenir du Web, égal à lui-même.
De mon point de vue, ce documentaire montre une chose essentielle : l'avenir de la gestion de l'information et de la recherche sur le Web passe d'une manière ou d'une autre par les données structurées (et donc au moins pour une partie par les technologies du Web sémantique). Dire qu'on nous annonçait, il y a peu encore, le règne sans partage du texte intégral et de l'algorithme-roi et qu'on raillait allègrement les personnes qui continuaient de clamer l'importance des données structurées, ce renversement de tendances m'amuse beaucoup et me ravit (quoi ? je suis mesquin ? Non ? vous croyez... Peut-être, alors...)
Est-ce-que quelqu'un dans la salle aurait le temps et l'amabilité de faire une petite traduction ? Ce serait, à mon avis, un travail d'intérêt public. Merci d'avance à elle !

Toujours dans le domaine de la vulgarisation, je vous conseille la lecture de cette article sur Usinenouvelle.com : « L'industrie s'empare du Web sémantique ». Les bons articles de vulgarisation sur le sujet dans la presse informatique sont rares, celui-ci en est un. Il présente à la fois des cas d'utilisation concrets, les technologies et les recherches dans le domaine et propose un encadré salutaire intitulé : « La recherche sémantique n'existe pas... encore ». Saine lecture encouragée et à encourager.

RDFa et les CMS

Vous allez dire que je me focalise sur RDFa, mais il faut dire que c'est une des technologies les plus médiatisées ce qui n'est guère étonnant puisqu'elle est à la frontière avec le Web de documents classique. Et s'il fallait encore donner des arguments raisonnables (n'est-ce-pas cher Damien ?) au groupe de travail sur HTML pour l'intégrer à HTML 5, outre Facebook, les développeurs de CMS pourraient s'en charger.

En effet, alors que l'intégration de RDF via RDFa dans Drupal 7 dont nous attendons la sortie officielle est effective, Stéphane Scorlosquet, le mainteneur du module RDF et ancien doctorant (français) du DERI et Lin Clark, contributeur du module RDF, evangéliste et étudiante du DERI, ont rassemblé au sein du site Web : Semantic Drupal l'ensemble des liens, documentations et « screencasts »... sur RDF dans Drupal, dont évidemment l'exposition en RDFa.

Comme l'explique SemanticWeb.com, les autres CMS devront s'y mettre aussi, car RDFa est en train de devenir un enjeu pour l'optimisation du référencement dans les moteurs de recherche (SEO). C'est déjà le cas dans Magento (CMS pour construire des sites de e-commerce) qui dispose d'une extension pour exposer en RDFa avec Good relations, des thèmes ou des plugins sont disponibles pour Wordpress ou Dotclear (Ne manquez pas les explications détaillées). Qui sera le prochain ?

RDF face au défi du stockage

Un des défis les plus importants pour les technologies du Web sémantique me semble être la problématique de la scalabilité pour le stockage des triplets. D'ailleurs, Nova Spivack dont la société, Radar Networks, vient d'être racheté par Evri le rappelait dans un billet en forme de bilan de l'aventure Twine :

« I continue to believe in the promise of semantic technologies, and in particular the approach of the W3C semantic web standards (RDF, OWL, SPARQL). That said, having tried to bring them to market as hard as anyone ever has, I can truly say they present significant challenges both to developers and to end-users. These challenges all stem from one underlying problem: Data storage. »

La solution réside-t-elle dans l'adaptation des différentes solutions qui se réclament du mouvement NoSQL ?
En tout cas, les initiatives, en la matière, ne manquent pas. J'en avais déjà citées dans la précédente gazette, d'autres sont venues les compléter : RDFgrid basé sur Hadoop, rdf.rb basé sur Cassandra, RDF-Mongo basé sur MongoDB. Et, au passage, je vous conseille la lecture de ce billet d'Arto Bendiken (à l'origine des deux première initiatives citées précédemment) issu d'une réponse sur Semantic Overflow et qui explique en quoi les bases de données RDF diffèrent des autres solutions NoSQL.

Modélisons, organisons, qu'ils disaient

Chaque semaine apporte une nouvelle pierre à l'édifice des vocabulaires et ontologies RDF nécessaires à la mise en place du Web de données.

Et lorsque le Web de données rencontre le mouvement de l'ouverture des données publiques, cela donne Data Catalog Vocabulary initié par Richard Cyganiak et Fadi Maali du DERI. Il permet de décrire un catalogue d'ensemble de données publiques mis à disposition. Il s'appuie sur une autre initiative en la matière : Dataset catalog vocabulary, Dublin Core et SKOS. Dans le cadre du Groupe d'intérêt eGovernment du W3C, ont été mis au point des cas d'utilisation et les exigences pour un tel vocabulaire.

Peu à peu, les bibliothèques s'approprient les technologies du Web sémantique (D'ailleurs, mon petit doigt me dit qu'une annonce importante ne devrait pas tarder dans ce sens, mais chut...) Et une nouvelle démonstration nous en est donnée avec ce vocabulaire : Document Avaibility Information Ontology (DAIA). Il permet de décrire la disponibilité des documents en bibliothèques. Intéressant, même s'il aurait gagné à s'appuyer sur FRBR.

Il ne faut pas aller bien loin pour le vocabulaire suivant, puisque c'est à Ian Davis, CTO chez Talis et à l'origine du vocabulaire RDF de FRBR, qu'on doit une importante mise à jour du vocabulaire BIO. On revient aux origines de ce blog avec ce vocabulaire, puisque j'en parlais déjà dans mon premier billet sur RDF et, plus précisément, sur FOAF en septembre 2005. Dans cette mise à jour, Ian Davis s'appuie sur la notion d'événements pour modéliser les différents éléments d'une biographie. Entre ce vocabulaire et LODE (Linking Open Descriptions of Event), les chercheurs, étudiants, ingénieurs en histoire disposent de deux briques essentielles pour modéliser une bonne partie de leurs données. D'ailleurs, je pense que ce sera l'objet de mon prochain prototype.

Cette catégorie devrait être alimentée pour la prochaine gazette par le Vocamp qui a lieu en ce moment même à Paris, les twitts qui nous parviennent sembles prometteurs.

Et la recherche, que nous prépare-t-elle pour demain ?

Deux moments dans l'année focalisent particulièrement la communauté des chercheurs dans le domaine du Web sémantique :

Dans le cadre de WWW2010, plusieurs événements avaient trait directement aux technologies du Web sémantique et comme la plupart des communications sont en ligne, c'est un bon moyen de se faire une idée de l'avancée de la recherche dans le domaine. Outre les communications, tutoriels, démonstrations et séances de posters officiels, plusieurs événements en rapport direct avec le Web sémantique avaient lieu :

Après une période de foisonnement dans la mise à disposition en lignes de données en RDF selon les principes du Linked Data, il m'a semblé que, pour la première fois, on voyait apparaître en force un nouveau thème lié aux problématiques de maintenance, de cohérence et de modélisation des données du LOD. On peut citer par exemple :

Bonne lecture !

Vous pouvez retrouver tous les liens de ce billet sur Pearltrees, en cliquant sur la perle :

Et à part ça ? Encore plein de choses...
Web sémantique Causeries — 

Commentaires

"Plein de choses"... Pas de "s" à "plein" ici.