Les petites cases

Les systèmes de classification et de modélisation des connaissances

Les débats sur la folksonomie et les explications sur le Web sémantique qui fleurissent un peu partout sur le Web autour du pseudo-concept de Web 3.0 font apparaître, bien souvent, une méconnaissance des différents systèmes de classification et de modélisation des connaissances, comme je l'avais montré à propos de l'article de Clay Shirky, l'ontologie est surfaite. Pourtant, la compréhension des enjeux et des technologies du Web sémantique passe par une parfaite maîtrise de ces différents modèles. J'ai à plusieurs reprises fait allusion à l'ontology spectrum, qui classe ces modèles selon un spectre allant de la sémantique faible à la sémantique forte, mais il me semble que cela ne suffit pas et qu'une définition pourrait mieux expliquer leurs différences. J'étais parti pour faire un billet sur ce sujet quand je suis tombé sur ce document : une introduction au Web sémantique de Christine Porquet de l'ENSICAEN dans lequel on trouve précisément une définition à ces différents modèles que je reproduis ici, en espérant que cela ne gênera pas son auteur.

Le vocabulaire contrôlé

C'est un ensemble de termes définis par un groupe (une communauté de pratiques) afin de pouvoir labelliser des contenus, écrire un document. La signification des termes n'est pas forcément définie et il n'y a pas nécessairement d'organisations logiques des termes entre eux.

Exemple : Un index matières dans un ouvrage

Taxonomie

Dans une taxonomie, le vocabulaire contrôlé est organisé sous forme hiérarchique simple. Cette hiérarchisation correspond souvent à une spécialisation. Il existe donc un lien précis entre un terme du vocabulaire et ses enfants. Ce lien donne un sens supplémentaire, une signification. D'un vocabulaire contrôlé, on passe à un vocabulaire organisé.

Exemple : la Dewey

Thésaurus

Un thésaurus est une taxonomie qui fonctionne dans les deux sens. La taxonomie permet d'obtenir une spécialisation des termes employés. Le thésaurus donne de l'information sur les sujets connexes également. On peut donc restreindre ou élargir le champ de connaissance. Cet élargissement se fait en donnant les termes relatifs. Des liens qui permettent la spécialisation, on peut alors dire : c'est une sous-catégorie (spécialisation) ou est « relatif à » ou « voir également » (élargissement).

Exemple : Rameau

SKOS est un vocabulaire RDF qui permet justement de modéliser et de définir des thésaurus ou des taxonomie. cf Skos, l'avenir de la folksonomie.

Ontologie

En fait, un thésaurus ou même une taxonomie sont des formes d'ontologie dont la grammaire n'a pas été formalisée. Lorsque l'on établit une catégorie et une hiérarchisation de cette catégorisation, on établit des dépendances entre ces termes. Ces hiérarchisations ont un sens en dehors du vocabulaire lui-même.
Une ontologie correspond donc à un vocabulaire contrôlé et organisé et à la formalisation explicite des relations créées entre les différents termes du vocabulaire.

OWL est le vocabulaire RDF qui permet de modéliser les ontologies. Cf le mot-clé/tag OWL sur ce blog.

À la lecture de ce rapide tour du vocabulaire, vous allez me demander : « mais quid de la folksonomie alors ? ». Effectivement, la folksonomie ne correspond à aucun de ces modèles, essentiellement par le fait que le vocabulaire est personnel, pas forcément contrôlé, c'est à dire qu'il ne s'agit pas d'une liste fermée de mots-clés/tags/étiquettes mise au point par un groupe, et selon une dynamique de bottom-up, c'est à dire que l'utilisateur crée son propre vocabulaire, l'initiative dans ce cas part bien de l'utilisateur. Ce sont d'ailleurs précisément ces deux points qui font le succès, la force et la faiblesse, selon moi, de ce nouveau modèle. Mais, j'ai déjà suffisamment dit ce que je pensais des limites de la folksonomie pour vous ennuyer à nouveau avec ce sujet.

Web sémantique Causeries Indexation OWL — 

Commentaires

j'ai lu votre article sur la réalisation de l'ontologie de harry potter avec Protégé, je veux savoir comment vous faites la recherche avec cette ontologie
A propos du web sémantique à lire aussi le Bulletin AFIA n° 54 www.afia-france.org
Je suis tombé par hasard sur ce blog très intéressant et que je consulterai désormais régulièrement. Cependant je note ici une erreur : RAMEAU n'est pas un thésaurus ! Je cite la BNF : "à la différence d'un thesaurus, le langage RAMEAU n'est pas constitué a priori mais enrichi au fur et à mesure des besoins de l'indexation, à partir des propositions formulées par le réseau de ses utilisateurs grâce à un Fichier national des propositions RAMEAU" (http://rameau.bnf.fr/informations/rameauenbref.htm). Les thésaurus sont "figés" et leur contenu ne s'enrichit pas au fur et à mesure ; cependant ils peuvent évoluer ponctuellement lors de mises à jour globales donnant lieu à une nouvelle édition. Vous pouvez citer comme exemple le thésaurus de l'Education nationale : Motbis (http://www.motbis.fr/) qui a sorti une nouvelle version (2007) cette année.
@ Emmanuel : il faut pardonner Got qui s'emmêle facilement les pinceaux quand il parle de la bnf :-)

@Emmanuel : Il y a plusieurs choses dans rameau, le fichier d'autorité en lui même, la façon de l'utiliser (ce que la BnF appelle le langage RAMEAU) et sa mise à jour. Donc, je persiste et je signe : Rameau est organisé comme un thésaurus (dit polyhiérarchique), c'est à dire que les différents termes sont organisés hiérarchiquement, peuvent être reliés de façon transverse et chaque terme possède une étiquette standard et des étiquettes alternatives. Maintenant, il est vrai que Rameau se distingue d'un thésaurus traditionnel sur deux plans :

* son utilisation : à chaque fois que Rameau est utilisé, le catalogueur associe un terme géographique, chronologique et thématique et forme ainsi un nouveau sujet composé de ces trois termes.

* sa mise à jour : un service de la BnF est chargé de faire évoluer Rameau et tous les ans sur proposition des utilisateurs, ce service valide l'ajout ou non de nouveaux termes.

J'espère que je suis plus clair maintenant ;-)