Au mois de mars, Tim O'Reilly repris par Internet Actu définissait ainsi le but de Freebase : « Créer les synapses du cerveau global ». On y voyait les prémices de la première application concrète et accessible à tous du Web sémantique. Six mois plus tard, je vous propose d'y revenir, alors que le concept de Web of data et Dbpedia ont fait leur apparition.
Dans l'article d'Internet actu, Hubert citait Denny Vrandecic, concepteur de Semantic Mediawiki :
« Metaweb [nda : le concepteur de Freebase et par extension le logiciel qui fait tourner freebase] vient du monde des données structurées, même si la structure est ici flexible et changeante. Semantic Media Wiki vient du monde des données non structurées, qui peuvent être améliorées par quelques éléments de structure pour mettre en relation plusieurs éléments non structurés. ».
Cette analyse me paraît excellente, car elle pose tous les enjeux de Freebase et son mode de fonctionnement. Si on voulait caricaturer, je dirais que Freebase est un wiki structuré OU une base de données dont la modélisation peut changer à la demande de l'utilisateur qui peut librement saisir les données. Choisissez votre camp en fonction de votre origine : données non structurées ou données structurées.
Concrètement, Freebase est organisée sous la forme d'une taxonomie thématique (arts et divertissements, Société, Sport...). Chaque thème comprend des types de ressource (film, acteur, opera, pièce de théâtre, Personne, ville...) auxquels sont rattachés des propriétés. Ces propriétés peuvent relier une ressource à une autre ressource ou à une donnée typée (chaîne de caractères, date, nombre entier...). Si vous suivez ce blog attentivement, vous aurez reconnu le principe d'une ontologie qui présente la particularité d'une structure évolutive à la demande des utilisateurs.
Cerise sur le gâteau, Freebase propose pour gérer cette ontologie une interface très agréable, facile à manipuler et qui permet très simplement d'éditer une donnée, d'en ajouter, de relier une ressource à une autre.
Réaction immédiate : c'est génial, c'est effectivement la première application du Web sémantique ! En apparence et au premier abord, tout y est et il faut l'avouer, c'est impressionnant. Mais, à y regarder de plus près, deux problèmes se posent : l'un est technologique et l'autre est, je dirais, cognitif.
Saviez-vous qu'Emma Watson, alias Hermione Granger dans les adaptations au cinéma d'Harry Potter, est née à Paris ?
Pour ma part, je l'ai découvert en mettant au point une autre série d'exemples d'utilisation de Dbpedia, en m'interressant cette fois-ci aux personnes. Le principe est simple, vous choisissez dans la liste la ville qui vous intéresse, par exemple, Paris et vous découvrirez les différentes personnes nées dans cette ville et présentes dans Dbpedia, c'est à dire dans Wikipédia. La mise en forme et la navigation dans la page de résultat est assurée par l'excellent logiciel/script du projet Simile, Exhibit. J'ai volontairement limité la liste des villes, car le principe est toujours le même. J'en ai profité pour placer un lien directe vers cette page depuis la carte des capitales européennes.
Il y a quelques mois, je titrais mon billet présentant Dbpedia : « Dbpedia ou la puissance du RDF au profit du savoir ». Mis à part deux exemples très simples qui, d'ailleurs, ne fonctionnent plus aujourd'hui avec la nouvelle version de Dbpedia, cette affirmation restait toute théorique.
Pierre Lindenbaum, quant à lui, avait mis au point un exemple plus probant : Wikistory, qui présentait les biographies des scientifiques célèbres présents dans Dbpedia.
A l'occasion de la nouvelle version de Dbpedia, je me suis remis au boulot et j'ai mis au point quelques exemples qui, je l'espère, montreront tout l'intérêt de disposer de données structurées, disponibles sous une forme normalisée, RDF, et interrogeable via un langage de requête et un protocole normalisé, SPARQL. Bref, montrer l'intérêt des technologies du Web sémantique.
Sur ce mini-site, je vais donc rassembler différents exemples. J'ai pour l'instant deux exemples :
En vue d'explorer les possibilités de RDFa, j'ai mis au point une petite application. Dans la barre à droite sur ce billet, j'ai ajouté une boîte dite Knowledge box. Son principe est simple. En cliquant sur un terme, le résumé de sa définition dans Wikipedia et un lien vers la page de la Wikipedia francophone s'affichent.
En soi, l'idée n'est pas révolutionnaire et j'aurais pu le faire sans déployer toute l'artillerie des technologies du Web sémantique, mais ce qui me paraît intéressant dans cette expérience, c'est de montrer les atouts de disposer d'une syntaxe normalisée pour repérer des entités, RDFa, qui peut être exploitée de différentes façons, comme je le montrais dans mon précédent billet sur le sujet,
Si vous avez besoin de vous convaincre de l'utilité des technologies du Web sémantique pour partager, interroger et réutiliser des données structurées, organisées et décrites dans une syntaxe normalisée, je vous engage à aller visiter le site Dbpedia. Ce site, dont Marlène et d'autres ont parlé récemment, est un bon exemple du potentiel de RDF et de Sparql.
Au cours de précédents billets, j'ai à plusieurs reprises mentionné le projet de wiki sémantique autour du logiciel Mediawiki, le moteur de wiki qui fait tourner Wikipedia. A l'occasion de la sortie de la première release public (une version bêta) pendant le mois d'août, on a enfin pu constater que l'attente est à la hauteur des résultats.
Pourquoi donc annoncerais-je la sortie d'un nouveau numéro du BBF consacré aux « bibliothèques sur le Web » ?
Dans un billet de son blog big bang blog intitulé « Ciel, j'ai ma notice dans Wikipedia », Daniel Schneidermann, chroniqueur des médias à Libération et présentateur de l'émission Arrêt sur images, se pose la question de la pertinence et de la validation des informations de Wikipédia en prenant l'exemple de sa propre biographie sur l'encyclopédie en lign
http://soufron.typhon.net/article.php3?id_article=105
Alors que je racontais, il y a peu, une expérience d'un journaliste américain qui était impressionné par le travail de la communauté de Wikipedia, une journaliste (??) française, Ariane Massenet, a, quant à elle, voulu montrer à quel point wikipedia et sa méthode ouverte et sa validation a-posteriori représentait le mal absolu. Elle a donc introduit une erreur dans une notice pendant une émission. Mais, comme le raconte cet excellent article de Jean-Baptiste Soufron, elle n'a pas signalé que moins d'une minute plus tard, l'erreur avait été corrigée.... C'est peut-être cela qu'on appelle la validation de l'information en journalisme et la conscience journalistique.
http://la.wikipedia.org/wiki/Pagina_prima
Qui a dit que le latin était une langue morte ?
En tout cas, pas les wikipédiens qu'on n'arrête plus et qui nous proposent 3724 articles en latin. Pour l'instant, la plupart des articles sont très courts et à compléter. Mais, il faut saluer cette intiative qui montre l'amour de quelques fous furieux de cette langue ancienne et non morte qu'on se le dise.