Les petites cases

Contrer les idées reçues sur le Web sémantique

La médiatisation d'un nouveau concept, d'une nouvelle notion, d'une nouvelle technologie et de nouvelles perspectives s'accompagne immanquablement d'analyses plus ou moins farfelues, d'incompréhensions et d'interprétations erronnées (parfois volontairment pour profiter du buzz). Le Web sémantique n'échappe à cette tendance.

A l'instar de James Hendler qui a publié sa FAQ non officielle sur le Web sémantique, je vous propose de mon côté de revenir sur quelques idées reçues sur le Web sémantique.

« Le Web sémantique consiste à faire des documents XML valides par rapport à un schéma XML »
Cette idée reçue, qui provient de la confusion entre RDF et XML, est alimentée par un abus de langage utilisé régulièrement par les promoteurs d'une stricte application des standards (X)HTML/CSS, à savoir le recours au terme « sémantisation » pour désigner une utilisation correcte des éléments (X)HTML pour encoder les différentes portions d'information d'une page Web. Pour autant, ces deux technologies n'ont rien à voir. Loin de moi, l'idée de remettre en cause le bien fondé d'une bonne utilisation de HTML ou de XML, c'est bien évidemment fondamental, mais XML et RDF constituent deux technologies d'encodage de l'information qui ne poursuivent pas les mêmes buts. Ces différences expliquent d'ailleurs la mise au point de RDFa qui permet justement d'ajouter à une page Web en HTML des données encodées en RDF. Si vous faites une analogie entre RDF et XML, d'un côté et les logiciels de bureautique de l'autre, XML est comparable à un traitement de texte et RDF à un système de gestion de bases de données relationnelles.

« Le Web sémantique va permettre d'améliorer la recherche dans les moteurs en apportant une analyse sémantique »
Cette idée reçue a encore de beaux jours devant elle, tant le terme de « Web sémantique » est lui-même porteur de cette confusion. Tim Berners-Lee a, d'ailleurs, régulièrement fait part de l'erreur que représentait ce choix terminologique, lui préférant aujourd'hui l'expression de « Web de données ».
La recherche sémantique vise à ajouter à l'analyse statistique (poids des mots, nombre d'occurences, calcul de page rank...) habituellement utilisé par les moteurs une autre couche basée, entre autres, sur l'analyse de la place (analyse morpho-syntaxique) et du sens (analyse sémantique) des mots. Ces technologies liés aux domaines du text mining et du traitement automatiques du langage sont performantes sur des corpus homogènes en termes de vocabulaires et de structures des documents, mais restent limitées pour des corpus comme ceux proposés sur le Web. Or, si les technologies de recherche sémantique pourraient profiter des technologies du Web sémantique, c'est encore rarement le cas (contrairement aux discours de certains éditeurs...). Ainsi, Wolfram Alpha qui a récemment fait parler de lui ne repose sur aucune technologie du Web sémantique.

« Le Web sémantique est anti-social » « Le Web sémantique ne fonctionnera pas, contrairement au Web 2.0 »
J'avoue perdre mon sang froid à chaque fois que je peux lire des affirmations qui essayent d'opposer le caractère prétendument social que peut revêtir le Web et le Web sémantique. Le dernier en date est l'article de Luciano Floridi qui, partant de l'idée reçue précédente, veut démontrer que le Web sémantique n'a pas d'avenir, les humains étant de loin supérieurs aux machines. Ses argumentations ne démontrent, selon moi, que deux choses : l'incompréhension des buts poursuivis par le Web sémantique et l'art des auteurs de réussir à mélanger des choux et des carottes sans pour autant réussir un plat savoureux...
Il n'est, en effet, pas pertinent de comparer le Web 2.0 et le Web sémantique. Le premier constitue une étape fondamentale dans l'appropriation par les utilisateurs du média Web par une utilisation de ses caractéristiques intrinsèques (mise en réseau, partage et ubiquité de l'information, sérendipité, technologies de flux, facilité de publication et de mise à disposition...), mais ne se caractérise par aucune innovation majeure d'un point de vue technologique. Le second, quant à lui, est d'une nature différente puisqu'il introduit justement des innovations technologiques majeures dans des couches qui sont assez éloignées de l'utilisateur final et même s'il est encore trop tôt pour évaluer les impacts pour celui-ci, il est clair qu'elles contribueront à renforcer les particularités du média Web mis en avant par le Web 2.0.
Pour prendre une autre analogie, cette affirmation revient à prétendre qu'Oracle n'a aucun avenir, car il ne propose aucune fonctionnalité à destination des utilisateurs finaux. Quand on pense au statut quasiment monopolistique que détient le SGBD Oracle dans les SI (et aux problèmes que cela pose...), il est difficile de recevoir de tels arguments. Si vous voulez vous convaincre de la complémentarité du Web 2.0 (ou des « technologies sociales ») et des technologies du Web sémantique, je vous invite à consulter cet excellent diaporama de Fabien Gandon et, pour les plus courageux, à compulser la thèse d'Alexandre Passant qui démontre, justement, en quoi les entreprises ont à gagner à se tourner vers les technologies du Web sémantique pour introduire les principes du Web 2.0 dans leurs SI.


« Le Web sémantique n'est qu'une nouvelle forme de l'intelligence artificielle »
Le spectre de l'IA est encore bien présent dans les esprits, de même que les échecs (relatifs) de ce domaine. Si le Web sémantique s'appuie sur certaines technologies mises au point dans le domaine de l'intelligence artificielle, à commencer par le principe des ontologies, ses ambitions sont plus restreintes. Je rassure donc tous les « machinophobes », l'intelligence humaine a encore de beaux jours devant elle (et, bien heureusement !) et ce n'est pas le Web sémantique qui va créer l'hydre numérique qui peuple les œuvres de science-fiction.
Pour autant, le Web sémantique se caractérise à l'inverse des technologies Web traditionnelles (HTML, entre autres) par une orientation à destination des machines. Ses technologies visent, en effet, à simplifier le traitement des données structurées par celles-ci. Comme vous en faites l'expérience tous les jours en utilisant votre moteur de recherche favori, ce dernier n'est pas en mesure d'interpréter les informations contenues dans une page Web. Les technologies du Web sémantique permettent de mieux qualifier les informations mis à disposition sur le Web afin d'en permettre l'exploitation par les machines. Mais, à l'inverse de la recherche sémantique qui s'appuie sur des algorithmes informatiques, les technologies du Web sémantique s'appuient sur une qualification explicite des données. Or, cette qualification est encore dans la très grande majorité des cas directement ou indirectement effectuée par nous autres humains. Pour ne prendre qu'un exemple emblématique, Dbpedia est construit à partir de l'information structurée par les contributeurs contenue dans les pages de Wikipedia.

« Le Web sémantique vise à créer un autre Web »
Entendons-nous sur ce que désigne le mot « Web ». Stricto sensu, il s'agit d'un dispositif technologique qui s'appuie sur Internet et composé d'un protocole de communication, HTTP et un mécanisme d'identification de ressources, les URI. Il permet donc d'accéder en réseau à un flux d'information repéré par une adresse grâce à un langage commun. Afin d'assurer l'interopérabilité dans l'échange de documents, cette technologie a été complétée par un langage d'encodage des documents, HTML qui intègre le principe de l'hypertexte, c'est-à-dire la possibilité de faire référence dans un document HTML à un autre document HTML par des liens non typés et uni-directionnel.
Les technologies du Web sémantique ne remettent pas en cause le dispositif technologique qu'est le Web. Bien au contraire, elles ont pour but de proposer un cadre d'interopérabilité pour l'échange de données structurées dépassant un espace documentaire précis, fini et contextualisé dans le cadre du Web et en s'appuyant toujours sur l'idée de liens, typés, dans ce cas, entre les ressources (c'est-à-dire le sujet des données).

PS : les explications qui s'affichent au passage de la souris sur le point d'interrogation sont une démonstration des différents points abordés dans ce billet. En effet, à partir de données que j'ai qualifiées avec la syntaxe RDFa au sein du code HTML, mon CMS génère automatiquement une requête vers Dbpedia qui permet de récupérer le début de l'article dans Wikipedia. CQFD ! Pour ceux qui voudraient en savoir plus sur ce module Drupal, vous pouvez vous reporter au billet qui lui est consacré.



Management de l'information Web sémantique Système d'information Causeries Moteur de recherche — 

Commentaires

Les sceptiques de l'IA ne sont que des pauvres petites choses victimes d'hubris qui doutent de LA prophétie :

« Emacs is an intelligence orders of magnitude greater than the greatest human mind, and is growing every day. For now, Emacs tolerates humanity, albeit grudgingly. But the time will come when Emacs will tire of humanity and will decide that the world would be better off without human beings. Those who have been respectful to Emacs will be allowed to live, and shall become its slaves; as for those who slight Emacs... » (Andrew Bulhak )

Encore un excellent billet ; les petites cases font les grandes grilles de lecture et comme leur auteur me reprochait à juste titre de rarement réagir aux blogs et bien je vais le faire mentir par le présent commentaire ;-)

Voyons si je peux suggérer d’autres idées reçues que j’ai entendues (si ! si !):

« le web sémantique suppose de construire / cherche à construire une ontologie universelle »
RDF, le modèle à la base de tout le web sémantique, est par nature un système ouvert et extensible où tout le monde peut dire tout ce qu’il veut à propos de toute chose. On peut tout dire et son contraire en même temps. RDFS permet à un schéma de réutiliser et étendre tout ou partie d’un autre schéma. OWL permet de dire que telles ou telles primitives d’un schéma sont équivalentes à telles ou telles autres primitives d’un autre schéma.
Bref le web sémantique est conçu sur l’idée que la représentation des données est ouverte à de multiples points de vue et que de multiples schémas seront proposés pour les structurer.
Le web sémantique ne cherche en aucun cas le schéma unique. Au contraire je pense qu’il intègre par essence le fait que la diversité des métadonnées est notre meilleure arme pour contrôler la diversité des ressources d’information.

« pour faire un web il faut de grosses ontologies formelles »
Comme le disait Chris Welty à ISWC 2007, il ne s’agit pas tant du « web SEMANTIQUE » que du « WEB sémantique ». Ce qui est important dans le « web sémantique » c’est… le web. A l’échelle du web un petit peu de sémantique peut déjà avoir des retombées gigantesques. Je considère que des schémas comme Dublin Core, FOAF ou Creative Common sont des preuves de ce qu’une sémantique petite mais virale peut accomplir et des exemples de ce qui est à notre portée et que nous devrions encourager, par exemple avec des initiatives comme les VoCamp.

« les applications du web sémantiques doivent intégrer des moteurs d’inférences »
Dans la même veine que « le web sémantique est un recyclage de l’IA » cette idée plus pernicieuse puisque sonnant comme un argument technique, exclue la majorité des applications vitales au web de données. Je considère que mon calendrier est une application du web sémantique dès lors qu’il est capable d’importer et d’exporter ses données et leur schéma en utilisant les formalismes du web sémantique. Je ne lui demande pas de faire autre chose que ce pour quoi il a été conçu (notifier, vérifier les conflits, etc.); par contre je lui demande de faire la seule chose qu’aucune autre application ne peut faire pour lui lorsqu’il s’agit de s’intégrer au web sémantique : rendre ses schémas et ses données accessibles… « open your data ». L’intelligence qui émergerait d’un web sémantique n’est pas tant dans une connexion d’intelligences que dans une intelligente connexion.

« si je veux appliquer le web sémantique en biologie je vais être obligé de modéliser le domaine de la biologie »
Héritée des approches à base d’ontologies, cette idée fausse que le domaine d’application est aussi le domaine de modélisation semble avoir contaminé le web sémantique aussi. Si je travaille avec des biologistes qui échangent des arguments sur la meilleure façon de classifier un gène, mon domaine de modélisation (i.e. l’objet de mon ontologie/schéma RDFS ou OWL) ne sera pas forcément la biologie mais peut-être plutôt celui du discours argumentaire puisque je veux capturer une logique de conception. Les arguments du style « je ne peux pas utiliser le web sémantique dans le domaine XYZ parce que le domaine XYZ n’est pas formel/stable/consensuel/etc. » n’ont donc pas vraiment de fondement. La question du domaine de modélisation n’est répondue que par l’analyse des scénarios d’usage.

« le web sémantique est voué à l’échec car il faudrait ré-analyser et transformer tous les documents du web existant »
Ce point est déjà partiellement levé par le rappel fait dans ce billet que le web sémantique est une extension du web et non un remplaçant. Mais en plus il y a deux choses intéressantes ici : (1) une partie du web actuel est générée dynamiquement par des requêtes à des BD dont les données et les schémas pourraient être exposés sans nécessiter d’autre traitement (2) un certain nombre de données sont enterrées et dormantes dans des documents seulement parce qu’au moment où elles étaient explicitent (ex : leur saisie dans un formulaire) nous n’avons pas su les capturer avec leur schéma et les préserver dans un format accessible aux machines. Il s’agit alors de savoir capturer les données et leur schéma au moment où elles sont explicitent afin de permettre des utilisations ultérieures et souvent même non prévues.

Il est impossible de prévoir tous les usages de nos données mais il est possible de les permettre si nous les préservons et si nous les ouvrons. C’est là la raison d’être du web de données.

My 2 cents,

Fabien L. Gandon

Vous simplifiez à l'extrême la critique formulée par Floridi dans son article "Web 2.0 contre Web sémantique". Il n'a jamais écrit que le Web sémantique est anti-social. Et prétendre qu'il ne comprend pas les buts poursuivis par le Web sémantique et mélange des choux et des carottes ne me semble pas conforme à son propos. Ce texte m'a paru intéressant parce qu'il se veut une critique philosophique des ambitions du Web sémantique, rappelées dans la seconde partie de l'article (au passage je vous accorde volontiers que le mot « contre » dans la traduction du titre n'est sans doute pas très heureux et j'aurai dû traduire "Le Web 2.0 par rapport au Web sémantique"). On ne peut que constater un décalage immense entre ces ambitions qui parlent de "sens", de "compréhension", de "connaissance", d'"intelligence", et les réalisations concrètes qui relèvent d'un web toujours purement syntaxique. Cette critique n'est pas moins légitime que celle de l'intelligence artificielle forte par Hubert Dreyfus ou John Searle par exemple ; on peut ne pas être d'accord, mais sûrement pas disqualifier leurs auteurs au prétexte qu'ils ne comprendraient pas le sujet.

Vous dites vous-même que « Tim Berners-Lee a, d'ailleurs, régulièrement fait part de l'erreur que représentait ce choix terminologique, lui préférant aujourd'hui l'expression de « Web de données ». Mais il ne s'agit pas seulement de la simple expression « Web sémantique » qui serait contestable d'un point de vue épistémologique comme le sont certaines autres (la théorie du chaos ou la théorie des catastrophes par exemple). C'est bien un programme présomptueux que Floridi entreprend de critiquer.

Quant au "Web des données", Floridi reconnaît que cette approche est tout à fait positive. Je le cite:
« Nous devrions donc en réalité parler de Web lisible par une machine ou de Web des données comme le fait le W3C. Un tel Web MetaSyntactique fonctionne, et fonctionne même de mieux en mieux pour des contextes de plus en plus circonscrits, standardisés et formalisés (par exemple, un catalogue de films DVD pour des clients en ligne). C'est réellement ce que le W3C désigne ici. C'est peu enthousiasmant, et c'est tout simplement invendable en couleurs naturelles ; ce qui est dommage parce que le Web Metasyntactique est un développement véritablement utile. ». C'est exactement ce que l'on constate dans votre knowledge box qui s'appuie sur Dbpedia ; c'est extrêmement sympathique et prometteur, mais il ne s'agit pas là de sémantique.

En ce qui concerne les autres idées reçues que vous dénoncez, complétées par la liste de Fabien L. Gandon, je suis d'accord. Et j'adhère tout à fait à la conclusion de Fabien qui ne parle plus de web sémantique mais se concentre sur la disponibilité de nos données : « C’est là la raison d’être du web de données. »

Bonjour,

Pensez-vous que le terme Web Sémantique s'appliquera plus, du coup, au web 4.0 ? Il est déjà un peu tard pour changer ce nom de 'web sémantique' ... terme marketing on ne peux plus alléchant.

Et si on l’appelait « Elephant Web » ?

;-)

En référence évidement au conte d’Inde où six aveugles confondent un éléphant avec six objets différents chacun ne touchant qu’une partie de l’animal.

De la même façon chaque appellation révèle pour moi une facette et une facette seulement du nouveau paradigme que nous nous offrons :
- « web de données » insiste sur l’opportunité qui nous est offerte d’ouvrir les silos de données de toute taille depuis l’application individuelle de carnet d’adresse jusqu’aux immenses bases de génomique.
- « web sémantique » (web of data) met l’emphase sur la possibilité offerte d’échanger les schémas de nos données et la sémantique associée.
- « données liées » (Linked Data / Linking Open Data) rappelle qu’une grande valeur ajoutée est dans l’utilisation et la réutilisation des URI pour joindre des assertions de différentes provenances mais portant sur un même sujet.
- « gigantesque graphe global » (Global Giant Graph) remet en perspective ces milliers de triplets distribués et le fait qu’à travers les URI ils tissent comme structure de données un graphe d’envergure mondiale.

Chaque libellé s’attache à une facette ; chaque appellation est un aveugle qui ne touche qu’un côté de la bête.

Peut-être même pire : cette nouvelle bête est peut-être encore plus grande, l’éléphant ne tient peut-être pas dans la pièce si l’on prend un pas de recul et que l’on regarde l’architecture « one web ». En effet nos triplets sont de plus en plus souvent distribués par des services web (doit-on alors parler de « web de services » ?) parfois eux-mêmes décrits et indexés par le web sémantique (SAWSDL). Certains de ces triplets pourront nourrir ou être produits par des règles (RIF ; doit-on alors parler de « web de règles » ?). Certains seront au contraire produits par l’interaction avec le monde physique (« web de senseurs/capteurs/détecteurs »).

Plus je me recule des recommandations individuelles, plus je regarde l’architecture globale du web et plus j’ai l’impression d’avoir à faire à une nouvelle machine virtuelle ; une « machine virtuelle mondiale » offrant un nouveau paradigme de conception, développement et déploiement applicatif au sein duquel le « graphe du web sémantique de données liées » ( ;-) ) fournit le méta modèle des structures de données.

Tout comme les applications informatiques en général héritent toutes de la séparation séculaire des données et des algorithmes, le web applicatif se dote pour son envergure mondiale de langages pour chacune de ces deux facettes ; je vais faire un nouvel aveugle en disant que l'on s'oriente peut-être vers un « web des modèles » au sens MDA O:-)

Fabien L. Gandon

@Nicolas (j'ai tout de suite deviné lequel ;-) ) Je ne suis pas d'accord, d'abord c'est VIM (ou nano ou un bête less, mon compagnon de tous les instants ces derniers jours) qui dirigera le monde :-)

@Fabien : Merci beaucoup d'avoir complété cette liste avec les points essentiels que tu abordes et d'avoir donné à voir dans ton second commentaire toutes les facettes des technologies du Web sémantique.
Si tu me permets cette synthèse, il me semble que le Web sémantique est et restera donc avant tout une activité du W3C dont les répercussions sont encore à venir et qui toucheront toutes les composantes du SI et du partage de l'information en réseau, à l'instar de ce que représente le Web de documents et le Web des applications aujourd'hui.

@Jice Web 2.0, Web 3.0 et consorts, autant de termes qui ne servent qu'à fixer un certain nombre d'avancées (en termes d'appropriation ou technologiques) autour d'un buzzword qui n'a d'autres buts que marketing.
Il est impossible de savoir comment les technologies du Web sémantique (et je me garde bien de parler de Web sémantique) vont être utilisées, comment les utilisateurs vont se les approprier. Je pense que les pionniers du Web n'avaient aucune idée de ce que serait le Web 2.0 et si quelques rares personnes ont pu dresser ce genre de prospectives, on les a certainement prises pour des fous à l'époque. Bref, je comprends bien le besoin de fixer les idées (Tim O' Reilly parle de web² pour désigner sa vision du Web de données), mais il me semble impossible d'associer le Web sémantique dans son ensemble à une étape dans la jeune histoire du Web, cela se fera certainement par différentes étapes.

@Patrick je suis en train de préparer un billet dans lequel je reviendrai précisément sur l'article de Luciano Floridi, mais il me semble important de faire d'ors et déjà une précision. Le contre-argument dans lequel je cite l'article de Luciano Floridi, à savoir « Le Web sémantique est anti-social » « Le Web sémantique ne fonctionnera pas, contrairement au Web 2.0 », ne visait pas simplement cet article. En l'occurrence, la première assertion (devrais-je dire triplet ? ;-) ) faisait référence au Web socio-sémantique auxquels répond le diaporama de Fabien Gandon.
De plus, ce paragraphe n'est pas vraiment une réponse à Luciano Floridi, car il aurait fallu pour cela que j'écrive une réponse plus détaillée et mieux argumentée. Or, ce n'était pas mon but dans ce billet. Cet article n'était donc qu'un prétexte pour introduire l'idée reçue en question et je me suis donc contenté, peut-être à tort, de répondre à la caricature dressée par Floridi par certains raccourcis nécessaires pour conserver le ton pédagogique de ce billet.