Les petites cases

Management de l'information

RDFaiser votre blog, 2ème partie : la pratique

Dans le précédent billet, j'ai expliqué en quoi RDFa permettait de décrire la structure du message contenu dans une page Web et comment on pourrait facilement générer du RDFa à partir des données structurées dans la base de données de votre CMS. Je vous propose maintenant de passer de la théorie à la pratique.

Ce tutoriel suppose que vous connaissez XHTML et le principe de base de RDF.

Lire la suite...

Structuration RDFa XHTML Geekeries —  14 commentaires

RDFaiser votre blog, 1ère partie : la théorie

HTML, de même que XHTML, permet de structurer une page Web selon les principes d'un langage à balises. Les différentes balises indiquent de manière hiérarchique le rôle joué par chaque portion d'information dans le contexte de la page Web.

Ainsi, la structure d'un document HTML, comme tout document XML, ne décrit pas le contenu/le message de la page Web, mais reflète la structure de la page Web en elle-même. C'est pourquoi il me semble erroné de parler de « sémantisation », lorsqu'on encode en HTML ou, plus généralement, en XML.

Par exemple, soient les deux portions de code HTML suivants :

<div class="contenu">
       <p class="normal">
                Le <a href="http://barcamp.org/SemanticCampParis">SemanticWeb camp</a> se déroule à Paris
                le samedi 16 février 2008 à partir de 9h30.
        </p>
</div>

<div class="description">
         <ul>
                <li>
                        Le <strong>SemanticWeb camp</strong> se déroule à Paris
                        le <em>samedi 16 février 2008 à partir de 9h30</em>.
                </li>
         </ul>
</div>

Ces deux bouts de code HTML ne sont pas identiques du point de vue de la structure, pourtant, du point de vue du contenu, ils délivrent la même information, le même message. Si certains pourraient y voir une limitation de XML, il n'en est rien. Ce n'est tout simplement pas son rôle.


Lire la suite...

Structuration Moteur de recherche RDFa XHTML Geekeries —  2 commentaires

MOAT : donner du sens à vos tags

La folksonomie constitue une des fonctionnalités phare du Web 2.0. Son principe est finalement très simple : permettre aux utilisateurs de décrire des ressources (billet de blog, page Web, photos, vidéos...) par des mots-clés choisis librement. Elle offre, entre autres, les avantages suivants :

  • Améliorer la recherche d'information dans sa collection de ressources personnelles ;
  • Constituer un vecteur de sérendipité ;
  • Donner aux autres utilisateurs une idée du contenu de sa collection de ressources ;
  • Faire apparaître des réseaux sociaux implicites par l'utilisation commune de tags entre différents utilisateurs.

Peu à peu, les utilisateurs se sont pris au jeu et la folie du tagging s'est emparée de tous les internautes et plus simplement des afficionados du Web 2.0.

La folksonomie est devenue un formidable outil dont les possibilités semblent, d'ailleurs, encore largement sous-exploitées. Oui, mais, voilà, la folksonomie est limitée. Le tag n'est finalement qu'une chaîne de caractères dont le sens exact est connu du seul « taggueur » qu'un autre utilisateur peut éventuellement appréhender, mais en aucun cas une machine qui se repose uniquement sur la morphologie du tag pour l'exploiter. Ainsi, la folksonomie présente les désavantages suivants :

Lire la suite...

Web sémantique Folksonomie Geekeries —  1 commentaire

Du Web sémantique au web de données, 1ère partie

Si le Web sémantique atteint aujourd'hui le grand public, au point que Techcrunch repris par Internet Actu se demande quelle en sera la killer application, il reste une notion souvent mal comprise, objet de méprises voire de fantasmes. Et, pour cause, le Web sémantique est à la rencontre de domaines diverses : l'intelligence artificielle, la linguistique, les sciences de l'information et le Web pour ne citer que les principaux. Cette interdisciplinarité en a constitué à la fois la force et la faiblesse. De ce point de vue, l'article de Tim Berners-Lee, Ora Lassila et Jim Hendler dans Scientific American en 2001 en est un symbole, constituant un premier essai de synthèse entre les apports des différentes disciplines. Pour passer de la théorie à la pratique, sept années auront été nécessaires. Sept années qui ont vu les usages du Web changer, les concepts se préciser, les technologies se mettre en place. Si, aujourd'hui, la synthèse semble en bonne voie d'achèvement, il me semble utile d'en étudier la genèse et l'évolution pour préciser le concept de Web sémantique et ses applications possibles.

Lire la suite...

Management de l'information Web sémantique Causeries — 

Google se met à FOAF

Alors que j'expliquais dans mon précédent billet en quoi FOAF constituait une réponse aux problèmes de contrôle des données personnelles et d'interopérabilité entre les services de réseaux sociaux, Google semble me donner raison avec la sortie d'une nouvelle API : Social graph API. Si Google a longtemps traîné des pieds avant de s'intéresser aux technologies du Web sémantique, nous étions beaucoup à penser qu'il ne leur faudrait pas énormément de temps le jour où il voudrait s'y mettre. Il semble que ce jour soit arrivé.

Qu'en est-il exactement ?

Pour faire simple, Social Graph API permet d'effectuer des requêtes sur les données indexées par Google et encodées avec FOAF, XFN (pour faire vite, l'équivalent de FOAF avec les microformats) et les profils publics de certains services comme MySpace. Grâce à cette API, vous pouvez, par exemple, retrouver les différentes personnes qui sont liées à vous par l'intermédiaire d'un FOAF ou d'un XFN, concaténer en un point unique les informations éparpillées entre vos différentes pages de profils des services auxquels vous êtes abonnés (cf. l'exemple de Plaxo Pulse)...

Lire la suite...

Web sémantique Causeries Indexation Moteur de recherche —  9 commentaires

Retour sur Freebase à la lumière du Web of data

Au mois de mars, Tim O'Reilly repris par Internet Actu définissait ainsi le but de Freebase : « Créer les synapses du cerveau global ». On y voyait les prémices de la première application concrète et accessible à tous du Web sémantique. Six mois plus tard, je vous propose d'y revenir, alors que le concept de Web of data et Dbpedia ont fait leur apparition.

Dans l'article d'Internet actu, Hubert citait Denny Vrandecic, concepteur de Semantic Mediawiki :

« Metaweb [nda : le concepteur de Freebase et par extension le logiciel qui fait tourner freebase] vient du monde des données structurées, même si la structure est ici flexible et changeante. Semantic Media Wiki vient du monde des données non structurées, qui peuvent être améliorées par quelques éléments de structure pour mettre en relation plusieurs éléments non structurés. ».

Cette analyse me paraît excellente, car elle pose tous les enjeux de Freebase et son mode de fonctionnement. Si on voulait caricaturer, je dirais que Freebase est un wiki structuré OU une base de données dont la modélisation peut changer à la demande de l'utilisateur qui peut librement saisir les données. Choisissez votre camp en fonction de votre origine : données non structurées ou données structurées.

Concrètement, Freebase est organisée sous la forme d'une taxonomie thématique (arts et divertissements, Société, Sport...). Chaque thème comprend des types de ressource (film, acteur, opera, pièce de théâtre, Personne, ville...) auxquels sont rattachés des propriétés. Ces propriétés peuvent relier une ressource à une autre ressource ou à une donnée typée (chaîne de caractères, date, nombre entier...). Si vous suivez ce blog attentivement, vous aurez reconnu le principe d'une ontologie qui présente la particularité d'une structure évolutive à la demande des utilisateurs.

Cerise sur le gâteau, Freebase propose pour gérer cette ontologie une interface très agréable, facile à manipuler et qui permet très simplement d'éditer une donnée, d'en ajouter, de relier une ressource à une autre.

Réaction immédiate : c'est génial, c'est effectivement la première application du Web sémantique ! En apparence et au premier abord, tout y est et il faut l'avouer, c'est impressionnant. Mais, à y regarder de plus près, deux problèmes se posent : l'un est technologique et l'autre est, je dirais, cognitif.

Lire la suite...

Management de l'information RDF Sparql Causeries Wikipedia Linked Data — 

Data, web of data, hyperdata : vivent les données !

Le monde du Web sémantique est en pleine ébullition en ce moment. Il ne se passe pas une semaine sans qu'une nouvelle ne fasse sensation et dépasse le cercle restreint des initiés. La dernière en date est sans conteste l'annonce de l'ouverture en bêta restreinte du service Twine qu'il me tarde de découvrir. Cette agitation est alimentée par le buzz fait autour du concept de Web 3.0 que beaucoup assimile au Web sémantique, sans, bien souvent, savoir exactement à quoi il fait référence.

Mais, au-delà du buzzword, il existe une vraie évolution et une réalité. Les technologies du Web sémantique arrivent à maturité, des applications concrètes commencent à poindre leur nez et les données décrites en RDF font peu à peu leur apparition sur le Web. Plus que le pseudo-concept de Web 3.0, la période qui s'annonce devrait être marquée par les concepts que renferment les expressions "hyperdata" et "Web of data". Ces termes montrent la voie que prend actuellement le Web sémantique, plus proche des utilisateurs et de la vision de Tim Berners-Lee que des tenants de l'intelligence artificielle. Il faut alors se souvenir des mots de Jim Hendler en forme de Mea Culpa qui avouait son erreur en intégrant les technologies de l'intelligence artificielle dans le Web sémantique.

Il ne faut évidemment pas tomber dans l'extrémisme et oublier tous les apports que peuvent avoir certaines de ces technologies, mais il est aujourd'hui certain que le Web sémantique ne se créera pas à partir des fondations de l'intelligence artificielle mais plutôt du Web.

J'espère avoir le temps de revenir plus en détail sur les concepts d'hyperdata et de Web of data et leurs conséquences dans de prochains billets. Mais, avant cela, pour vous convaincre ou vous permettre de comprendre, je vous propose trois ressources indispensables

Lire la suite...

Management de l'information Web sémantique Causeries —  11 commentaires

L'information en révolution

Mike Wesch , à l'origine de la superbe vidéo sur le Web 2.0 The Machine is Us/ing Us, a mis à disposition une nouvelle vidéo intitulé Information R/evolution

Lire la suite...

Management de l'information Causeries Folksonomie — 

De la polysémie de "catégorisation" en recherche d'informations

A l'occasion de la lecture de l'article d'Olivier Ertzcheid, Gabriel Gallezot et Eric Boutin sur les perspectives documentaires sur les moteurs de recherche, je suis tombé sur le mot « catégorisation », j'imagine, pour définir la fonctionnalités des « termes associés » d'Exalead. Il s'avère que ce terme est une source d'ambiguïté permanente dans le domaine de la recherche d'informations, faisant référence à plusieurs fonctionnalités et plusieurs technologies différentes. Je vous propose de faire le point afin d'y voir plus clair.

Lire la suite...

Management de l'information Causeries Moteur de recherche —  1 commentaire

Le Web sémantique rencontre....

Preuve de la maturité des technologies et des standards du Web sémantique, les chercheurs et promoteurs du domaine vont à la rencontre d'autres communautés pour leur proposer de nouvelles applications, des idées, des tutoriaux, leurs expertises... Bref, des rencontres se produisent qui amènent des projets qui montrent chaque jour un peu plus la pertinence du modèle. Voici une petite sélection repérée ces derniers jours.

Lire la suite...

Management de l'information RDF Web sémantique Sparql Causeries Folksonomie Moteur de recherche OWL RDFa —  2 commentaires