Les petites cases

Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque

Le 4 mars, 2008 - 03:13 — got

Dans un billet récent écrit à l'occasion des dix ans de XML, Jean-Michel Salaün regrettait que les pistes esquissés dans le second texte de l'initiative Roger T. Pédauque intitulé « Le texte en jeu. Permanences et transformations du document » n'aient pas été suivies. Et, pour cause me semble-t-il, si ce deuxième article, comme les deux autres d'ailleurs, apporte incontestablement des pistes de réflexion et certaines idées intéressantes, il comprend des contre-sens et des erreurs si manifestes qu'il n'est possible de s'en servir comme base de travail qu'après une critique attentive, sans compter sur le style que Jean-Michel Salaün lui-même dans le billet cité plus haut qualifie « d'un peu abscons » et que je qualifierais plus volontiers de charabia jargonnant.

A l'heure où le Web sémantique pointe avec plus de prégnance le bout de son nez, il n'est pas inutile de revenir sur ce texte, comme sur les deux autres, pour construire une nouvelle réflexion. C'était d'ailleurs leur but : susciter le débat et la réflexion, sans présager des évolutions futures et selon l'état de l'art du moment. Or, il semble bien qu'une nouvelle étape est sur le point d'être franchie, si ce n'est pas déjà le cas. A titre personnel, si, à l'époque de rédaction du texte, je n'étais pas en mesure de m'immiscer dans le débat, j'espère, aujourd'hui, pouvoir apporter ma pierre à l'édifice.

Avant d'entrer dans le vif du sujet, je voudrais rappeler, pour mémoire, que cette initiative avait été lancée par le réseau thématiques pluridisciplinaires dédié au document, le RTP-DOC d'où le pseudonyme Roger T. Pédauque pour signer les textes collectifs, placé sous le patronage de feu le département STIC du CNRS. L'objectif était de réfléchir selon une approche pluridisciplinaire à la notion de document dans le contexte des changements induits par le numérique.

Structuration RDF XML Causeries Indexation Moteur de recherche OWL TEI Validation XHTML Xquery XSLT

— 7 commentaires

RDFaiser votre blog, 2ème partie : la pratique

Le 24 février, 2008 - 19:53 — got

Dans le précédent billet, j'ai expliqué en quoi RDFa permettait de décrire la structure du message contenu dans une page Web et comment on pourrait facilement générer du RDFa à partir des données structurées dans la base de données de votre CMS. Je vous propose maintenant de passer de la théorie à la pratique.

Ce tutoriel suppose que vous connaissez XHTML et le principe de base de RDF.

Structuration RDFa XHTML Geekeries

— 14 commentaires

RDFaiser votre blog, 1ère partie : la théorie

Le 24 février, 2008 - 15:15 — got

HTML, de même que XHTML, permet de structurer une page Web selon les principes d'un langage à balises. Les différentes balises indiquent de manière hiérarchique le rôle joué par chaque portion d'information dans le contexte de la page Web.

Ainsi, la structure d'un document HTML, comme tout document XML, ne décrit pas le contenu/le message de la page Web, mais reflète la structure de la page Web en elle-même. C'est pourquoi il me semble erroné de parler de « sémantisation », lorsqu'on encode en HTML ou, plus généralement, en XML.

Par exemple, soient les deux portions de code HTML suivants :

<div class="contenu">
       <p class="normal">
                Le <a href="http://barcamp.org/SemanticCampParis">SemanticWeb camp</a> se déroule à Paris 
                le samedi 16 février 2008 à partir de 9h30.
        </p>
</div>

<div class="description">
         <ul>
                <li>
                        Le <strong>SemanticWeb camp</strong> se déroule à Paris 
                        le <em>samedi 16 février 2008 à partir de 9h30</em>.
                </li>
         </ul>
</div>

Ces deux bouts de code HTML ne sont pas identiques du point de vue de la structure, pourtant, du point de vue du contenu, ils délivrent la même information, le même message. Si certains pourraient y voir une limitation de XML, il n'en est rien. Ce n'est tout simplement pas son rôle.

Structuration Moteur de recherche RDFa XHTML Geekeries

— 2 commentaires

MOAT : donner du sens à vos tags

Le 24 février, 2008 - 01:26 — got

La folksonomie constitue une des fonctionnalités phare du Web 2.0. Son principe est finalement très simple : permettre aux utilisateurs de décrire des ressources (billet de blog, page Web, photos, vidéos...) par des mots-clés choisis librement. Elle offre, entre autres, les avantages suivants :

Améliorer la recherche d'information dans sa collection de ressources personnelles ;
Constituer un vecteur de sérendipité ;
Donner aux autres utilisateurs une idée du contenu de sa collection de ressources ;
Faire apparaître des réseaux sociaux implicites par l'utilisation commune de tags entre différents utilisateurs.

Peu à peu, les utilisateurs se sont pris au jeu et la folie du tagging s'est emparée de tous les internautes et plus simplement des afficionados du Web 2.0.

La folksonomie est devenue un formidable outil dont les possibilités semblent, d'ailleurs, encore largement sous-exploitées. Oui, mais, voilà, la folksonomie est limitée. Le tag n'est finalement qu'une chaîne de caractères dont le sens exact est connu du seul « taggueur » qu'un autre utilisateur peut éventuellement appréhender, mais en aucun cas une machine qui se repose uniquement sur la morphologie du tag pour l'exploiter. Ainsi, la folksonomie présente les désavantages suivants :

Web sémantique Folksonomie Geekeries

— 1 commentaire

SemWeb Camp à Paris

Le 12 février, 2008 - 22:12 — got

En attendant la suite de la série sur le Web sémantique (je bute sur l'écriture du prochain billet...), un billet en forme de publicité.

Samedi 16 février à partir de 9h30 aura lieu le premier SemWeb camp à Paris à la Cantine (151 rue Montmartre, dans le 2ème arrondissement de Paris), qui est, entre autres, le nouveau « quartier général » de la FING, co-organisateur de cette manifestation avec la communauté Websemantique.org. Tout le monde est évidemment le bienvenu pour partager ce que vous souhaitez (en rapport avec le Web sémantique ;-) ), comme il est de règle dans un WebCamp.

L'ambition de ce premier rendez-vous est modeste. Il s'agit essentiellement de se rencontrer, de faire connaissance et de réfléchir à l'organisation de la communauté du Web sémantique en France et d'autres manifestations du même type de plus grande envergure. Ce sera aussi l'occasion pour tous ceux qui s'intéressent au Web sémantique, du débutant au confirmé de partager et de mieux en comprendre les différentes technologies et les enjeux. Un grand merci à Olivier qui a lancé l'idée de ce rassemblement

J'espère donc que je pourrai vous y rencontrer nombreux !

Web sémantique Causeries

— 6 commentaires

Du Web sémantique au web de données, 1ère partie

Le 4 février, 2008 - 01:58 — got

Si le Web sémantique atteint aujourd'hui le grand public, au point que Techcrunch repris par Internet Actu se demande quelle en sera la killer application, il reste une notion souvent mal comprise, objet de méprises voire de fantasmes. Et, pour cause, le Web sémantique est à la rencontre de domaines diverses : l'intelligence artificielle, la linguistique, les sciences de l'information et le Web pour ne citer que les principaux. Cette interdisciplinarité en a constitué à la fois la force et la faiblesse. De ce point de vue, l'article de Tim Berners-Lee, Ora Lassila et Jim Hendler dans Scientific American en 2001 en est un symbole, constituant un premier essai de synthèse entre les apports des différentes disciplines. Pour passer de la théorie à la pratique, sept années auront été nécessaires. Sept années qui ont vu les usages du Web changer, les concepts se préciser, les technologies se mettre en place. Si, aujourd'hui, la synthèse semble en bonne voie d'achèvement, il me semble utile d'en étudier la genèse et l'évolution pour préciser le concept de Web sémantique et ses applications possibles.

Management de l'information Web sémantique Causeries

—

Pour en finir avec Raoul Glaber

Le 2 février, 2008 - 21:11 — got

Pour justifier les « racines chrétiennes de l'Europe », notre schroumpfissime s'est pris, une nouvelle fois, pour Raoul Glaber en faisant référence, je cite, au « long manteau d'églises » que l'on peut admirer en France. Après Guy Moquet, Jean Jaurès et d'autres, notre schroumpfissime et son nègre attitré se sont encore pris les pieds dans le tapis. Cherchant à faire la preuve d'une culture, qu'ils ne possèdent visiblement pas, ils se sont non seulement trompés dans leur citation, mais aussi dans sa signification. Il n'est d'ailleurs pas le seul, puisque, le lendemain, pensant rétablir la citation originale, Jean-Luc Mélenchon, sénateur PS et Nicolas Demorant, animateur de la tranche matinale sur France inter, parlent de « long manteau de cathédrales ».

Petit et rapide cours d'histoire médiévale pour en finir une bonne fois pour toutes avec cette allusion absconse.

Histoire Râleries

— 5 commentaires

Google se met à FOAF

Le 2 février, 2008 - 12:31 — got

Alors que j'expliquais dans mon précédent billet en quoi FOAF constituait une réponse aux problèmes de contrôle des données personnelles et d'interopérabilité entre les services de réseaux sociaux, Google semble me donner raison avec la sortie d'une nouvelle API : Social graph API. Si Google a longtemps traîné des pieds avant de s'intéresser aux technologies du Web sémantique, nous étions beaucoup à penser qu'il ne leur faudrait pas énormément de temps le jour où il voudrait s'y mettre. Il semble que ce jour soit arrivé.

Qu'en est-il exactement ?

Pour faire simple, Social Graph API permet d'effectuer des requêtes sur les données indexées par Google et encodées avec FOAF, XFN (pour faire vite, l'équivalent de FOAF avec les microformats) et les profils publics de certains services comme MySpace. Grâce à cette API, vous pouvez, par exemple, retrouver les différentes personnes qui sont liées à vous par l'intermédiaire d'un FOAF ou d'un XFN, concaténer en un point unique les informations éparpillées entre vos différentes pages de profils des services auxquels vous êtes abonnés (cf. l'exemple de Plaxo Pulse)...

Web sémantique Causeries Indexation Moteur de recherche

— 9 commentaires

La TEI : principes et fonctionnements

Le 28 janvier, 2008 - 21:51 — got

L'ADBS m'a donné l'occasion, la semaine dernière, de me replonger avec grand plaisir dans la TEI à l'occasion d'un 5 à 7. Le but ce cette séance était d'en présenter le principe et le fonctionnement. Ma présentation s'attache donc à montrer les particularités de la TEI et en quoi elle constitue une solution générique à l'encodage des textes en repartant des buts poursuivis par l'encodage et de la démarche particulière de sa conception.

Je me suis inspiré pour la mettre au point des documents, en particulier une présentation de Lou Burnard, Sebastian Rahtz et Matthew Driscoll faite à l'occasion d'une formation à Sofia, mis à disposition sur le nouveau site du consortium TEI dévoilé à l'occasion de son 20ème anniversaire et de la sortie en version finale de la nouvelle version, la P5.

Après toutes ces mois à m'intéresser à RDF, cela a aussi été une opportunité pour préciser dans mon esprit les différences entre RDF et XML et d'affiner mes réflexions sur le concept de texte et de document. Mais, c'est une autre histoire que j'espère pouvoir partager avec vous dans les semaines qui viennent, s'il me reste un peu de temps ;-)

Bonne lecture !

Causeries TEI

—

La montagne, ça vous calme !

Le 9 janvier, 2008 - 20:58 — got

Comme le veut la coutume , je vous souhaite à tous et à toutes une bonne et heureuse année 2008. J'espère qu'elle sera à la hauteur de vos espérances, pleine de joie, de bonheur et de réussite...

Afin de prolonger encore les vacances et avant d'attaquer sur les chapeaux de roue cette nouvelle année qui s'annonce passionnante à tous les points de vue, je voudrais partager avec vous une expérience qui m'a été donnée de vivre pendant mon séjour à la montagne. Pratiquant le ski depuis ma plus tendre enfance, j'ai eu la chance de participer à ce qui pourrait s'apparenter à un must pour tous les fans de cette discipline, à savoir une randonnée.

Causeries Vacances

—

Les petites cases

Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque

RDFaiser votre blog, 2ème partie : la pratique

RDFaiser votre blog, 1ère partie : la théorie

MOAT : donner du sens à vos tags

SemWeb Camp à Paris

Du Web sémantique au web de données, 1ère partie

Pour en finir avec Raoul Glaber

Google se met à FOAF

La TEI : principes et fonctionnements

La montagne, ça vous calme !

Jour après jour

Vous voulez en savoir plus

Vous voulez suivre ce fourre-tout