Les petites cases

Web sémantique, utilisateurs, stupidité et Google

Il est rare que la société de Mountain view ou un des membres de son personnel commettent une erreur qui pourrait les ramener au rang d'hommes comme vous et moi. Et, pourtant, cela arrive et celle-ci commence à faire quelques remous outre-atlantique. Avec mesquinerie et comme l'information n'a pas l'air d'avoir encore été relayé en France, je m'en vais vous narrer cette anecdote.

Comme le racontent ces articles de Zdnet.com et inquirer, lors d'une keynote de Tim Berners-Lee sur le Web sémantique à l'occasion d'une conférence sur l'intelligence artificielle, Peter Norvig, responsable du département « recherche » de Google (Google director of search) et membre de l'association organisatrice de la conférence prend la parole pour expliquer le point de vue de Google sur le Web sémantique. Et là stupeur, le Web sémantique ne peut pas selon Google fonctionner car les utilisateurs sont incompétents ! Oui, vous avez bien lu, Google considère que les personnes qui les font vivre, qui leur donnent la matière première de leur moteur ne réussiront jamais à rajouter des indications à vocation sémantique dans leurs pages, car ils ne savent pas configurer un serveur Web ou faire des pages HTML correctement. Pour être tout à fait honnête, je précise que Peter Norvig précise bien que Google n'a rien contre les travaux et les recommandations émis sur le sujet au W3C (tu m'étonnes !!...).

Je dois dire que je ne suis pas surpris outre mesure. Google n'a jamais pris en compte les métadonnées laissées dans la balise <meta/> pour calculer la pertinence, de même que leur système de sitemap ne comporte aucune indication sur le contenu de chaque page, alors que cela pourrait leur apporter des informations supplémentaires. Pour Google, il n'y a que le plein texte et éventuellement la balise <title> qui trouvent grâce à leurs yeux. Il me semble que Google se trompe en partie, quand on voit le mouvement autour de la folksonomie, qui, même limité, a le mérite d'habituer les utilisateurs à ajouter du sens à l'information qu'ils mettent en ligne ou la communauté des microformats qui grandit de jours en jours, en particulier les expériences lancées par Tantek Çelik au sein de Technorati.

Pour autant, il faut noter que la remarque de Peter Norvig n'est pas complètement dénuée d'intérêt, car il rappelle les difficultés et le combat que mène Google tous les jours contre les personnes qui essayent de tromper les crawlers pour faire monter leur pagerank et vendre du Viagra. Même si effectivement cela pose des questions intéressantes, et je vous laisse lire la réponse de Tim Berners-Lee d'un flegme so british, c'est la manière qui est surprenante. Il semble que Peter Norvig se soit laissé emporter, se croyant certainement libre de parler dans une telle conférence, mais au niveau communication des petites phrases de ce genre pourraient avoir des répercussions désastreuses.

Évidemment, depuis hier, Planet RDF relaye l'information voire même pour certains membres s'élèvent (avec raison !) contre Google comme Danny Ayers ou Harry Chen ou Frederik Giasson. Et, même si certains essayent de calmer le jeu, l'image de Google pourrait bien être définitivement écorné auprès de cette communauté d'utilisateurs qui apprécient, habituellement, les services proposés par Mountain View dont les donnés leur servent à faire des mashups avec des technologies du Web sémantique.

Comme je suis stupide, je n'ai pas réussi à trouver un titre, alors je l'ai remplacé par des mots-clefs au moins comme cela, Google indexera mes mots-clefs ;-) Oui, je sais, je suis mesquin...

Mise à jour 24/07/2006 : en complément aux précédents articles cités, au commentaire d'Eric et à ma réponse, je vous conseille la lecture du billet de Tim Finnin, chercheur au sein du groupe Ebiquity qui met au point Swoogle, un moteur de recherche spécialisé sur les données en RDF : Google and the Semantic Web

Web sémantique Causeries Moteur de recherche — 

Commentaires

Non seulement les utilisateurs sont incompétents mais en plus, et c'est une des raisons pour lesquelles google n'aime pas les métadonnées : les utilisateurs mentent et trichent. Il y a quelques années les sites avec "mp3, sexe, casino" dans les mots clés étaient légion, même si les sites n'avaient rien à voir avec ces sujets. Résultat ? on n'utilise plus le champ mot clé pour l'indexation et on se base uniquement sur le contenu réel visible par le lecteur (quitte à ce que cette indexation soit moins bonne). Tout ceci ne veut pas dire que le Web Sémantique est mauvais, mais simplement qu'il ne peut pas être la solution à toutes les problématique, et peut être pas celle d'un moteur de recherche grand public.
Je suis assez d'accord avec vous et c'était bien le sens de la remarque de Peter Norvig. Malheureusement, il y aura toujours des tricheurs dans un système aussi ouvert que le Web. Mais, ce n'est pas tant la remarque de Peter Norvig que la manière de le dire surtout en face de Tim Berners-Lee qui m'a choqué, je trouve cela dommage que le plus important moteur de recherche fasse des généralités et mette de côté les technologies du web sémantique au prétexte que certains abusent du système.
De plus, tous les webmasters ne sont pas incompétents. Il me semble qu'il y a quelques années (et vous êtes bien placés pour le savoir ;-) ), on disait la même chose pour le passage des tableaux au full CSS et, finalement, force est de constater que les choses ont évolué.
Pour revenir au Web sémantique, je voudrais ajouter deux choses. Il est presque évident que ces technologies ne sont pas toutes à destination du grand public et qu'elles sont pour la plupart destinées à des communautés bien précises, essentiellement issues des milieux professionnels, de la recherche et de la documentation en général (bibliothèque, archives et centres de documentation). Mais, ce n'est pas une raison pour les dénigrer de cette façon. Surtout, et c'est le sens de ma deuxième remarque (et d'ailleurs de la réponse de Tim Berners-Lee), le Web sémantique intègre la notion de confiance. Les moteurs qui utiliseraient ces techonoloies sémantique devront être en mesure d'identifier la source de l'information et de la traiter en conséquence. Lorsqu'une bibliothèque mettra par exemple à disposition un thésaurus en SKOS, elle constituera une source digne de confiance et les développeurs pourront être en mesure d'appuyer des logiciels d'extraction de l'information, des interfaces de recherche ou de tagging sur ce thésaurus. Je ne pense pas qu'on puisse se satisfaire complètement des résultats proposés par Google, ils sont certes les plus pertinents aujourd'hui, mais imaginons les possibilités avec des moteurs réellement sémantiques.

Je trouves votre article et votre dossier inintéressant, Je vais avoir besoin d'un peu de temps pour bien assimiler le tout quand même. Bonne continuation et longue vie à votre site !

chirurgie esthetique