Les petites cases

Moteur de recherche

Bilan de 15 ans de réflexion sur la gestion des données numériques

Cela fait maintenant deux ans que j’ai rejoint l’Institut national de l’audiovisuel. Deux années qui m’ont permis de donner une nouvelle impulsion à ma réflexion sur la gestion des données numériques. Deux années passionnantes et qui se concrétisent depuis plus de six mois par le développement d’une infrastructure de traitement et de stockage des données, aboutissement (forcément provisoire) d’une vision de l’architecture du système d’information où la donnée occupe une place centrale, à l’inverse de l’approche traditionnelle par le processus. Deux années dont les résultats font en partie l’objet d’un article pour le prochain livre d’Emmanuelle sur l’avenir des catalogues, à paraître aux éditions du Cercle de la librairie et dont l’écriture m’a donné envie de faire revivre un peu cet espace de partage que j’ai laissé en friche ces dernières années.

Mais avant de partager ces nouveaux éléments, il me semble intéressant de dresser un bilan de ces 15 dernières années afin de tracer la ligne directrice et de brosser aussi les réussites, les échecs et les erreurs. La lecture de quelques (excellents) mémoires du master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes m’ont aussi motivé à préciser (ou repréciser) certaines approximations que j’ai pu rencontrer ici ou là.

Alors, voilà, avant de passer à la suite, un bilan de 15 ans de réflexion sur la gestion des données numériques, forcément subjectif et en aucun cas exhaustif. Il se découpe en quatre phases, qui correspondent à des moments de mon parcours professionnel et, ça va de pair, avec les sujets principaux qui ont été au cœur de ma réflexion. Elles sont les suivantes :

  • l’édition électronique ;
  • la conservation sur le long terme de l’information numérique ;
  • le traitement des données structurées et semi-structurées ;
  • l’architecture de données à l’ère du Big data.

Lire la suite...

Management de l'information Structuration RDF Web sémantique XML Système d'information Sparql Web Causeries Conservation Digital humanities Édition critique Édition électronique Histoire Moteur de recherche SHS TEI Perso

Un automne de rencontres autour du Web sémantique

Il y a un temps pour tout : la découverte, la réflexion et l'expérimentation sur ce blog, le partage et la dissémination auprès de nouveaux publics au cours d'événements divers et le temps de l'accomplissement de projets mettant en œuvre ces différentes idées. Ainsi, le silence de ce blog trouve ses raisons dans d'autres activités non moins essentielles qui, à leur tour, vont alimenter de nouvelles réflexions. Mais, avant de vous en faire part et en guise de conclusion à cette riche période, je voulais partager avec vous les présentations qui ont ponctué mon automne.

Lire la suite...

Management de l'information RDF Web sémantique Sparql Causeries Digital humanities Moteur de recherche RDFa Wikipedia Linked Data —  2 commentaires

Une nouvelle aventure sous le signe du Web sémantique

Comme je l'ai annoncé sur Twitter, j'ai quitté Atos Origin fin juin. Après deux années marquées par la réalisation de beaux projets au sein de cette société et trois ans en SSII qui m'ont permis d'apprendre un métier et les processus qui lui sont attachés, le moment m'a paru opportun pour changer de perspectives et éviter la prochaine réorganisation... Il est donc temps de lever le voile vers ma nouvelle destination : je rejoins la société Antidot, éditeur du moteur de recherche AFS depuis 10 ans. Vous allez me dire « Un moteur ! Quelle drôle d'idée ? ».

Pas tant que cela, en fait, quand on connaît le positionnement de ce moteur et son évolution depuis quelques années, cette nouvelle collaboration est même une suite logique. Nos routes se sont croisées à plusieurs reprises, nous partageons une vision commune du traitement, de l'accès et de la recherche d'information dans laquelle se conjuguent respect des standards, Web et souci constant de la qualité des données. Mais, c'est évidemment autour de l'utilisation des technologies du Web sémantique que nos routes se sont rejointes, Antidot a fait ce pari depuis plusieurs années, à commencer par SKOS qu'ils ont été les premiers à implémenter en tant que format pour l'utilisation des référentiels au sein du moteur jusqu'à devenir aujourd'hui un des enjeux principaux de la société et se concrétiser par la réalisation de plusieurs projets.

C'est donc en tant que consultant spécialisé dans les technologies du Web sémantique que j'intègre la société. A cette occasion, nous ouvrirons une agence à Paris, la société étant jusqu'à maintenant installée à Lyon, Lambesc et la cellule R&D en région parisienne. C'est une décision importante dans l'optique du développement de la société. Mon rôle sera d'aider à poursuivre l'intégration des technologies du Web sémantique au sein d'AFS et d'accompagner les clients d'Antidot dans leurs utilisations et leurs déploiements, mais cela ne s'arrêtera pas là. En effet, Antidot souhaite participer au développement du Web de données et des technologies du Web sémantique en France et, à ce titre, j'étendrai mon activité d'évangélisation menée sur ce blog à mon environnement professionnel avec plus de temps et plus de perspectives. Dans le même ordre d'idée, il me sera possible de mener des missions de conseil et d'assistance qui ne font pas intervenir le produit. Joli programme en vue !

Cette nouvelle aventure n'aura pas été possible sans Christian Fauré (oui, je sais, c'est toujours lui que je remercie mais que voulez-vous, comme il le dit lui-même, certains managers laissent plus de traces que d'autres) qui m'a fait découvrir et rencontrer Antidot. Je ne sais pas si j'ai compris pourquoi il disait que je pouvais apporter quelque chose aux éditeurs de moteur de recherche, mais j'ai une occasion en or de trouver les réponses. Il me faut aussi remercier Fabrice Lacroix, PDG d'Antidot, pour la confiance dont il m'honore et le défi qu'il me propose et, bien-sûr, Manue pour sa patience au cours de ces derniers mois qui n'ont pas été simples.

Dernière chose : la ligne éditoriale de ce blog ne bougera pas d'un iota : veille et réflexion. Je n'ai jamais parlé d'une société plus qu'une autre, de même pour un produit et ça ne va pas commencer aujourd'hui. Antidot possède déjà un blog et j'aurai certainement l'occasion d'y mettre mon grain de sel, tout en continuant à faire vivre cet espace personnel.

Lire la suite...

Management de l'information Web sémantique Causeries Moteur de recherche Perso —  9 commentaires

Contrer les idées reçues sur le Web sémantique

La médiatisation d'un nouveau concept, d'une nouvelle notion, d'une nouvelle technologie et de nouvelles perspectives s'accompagne immanquablement d'analyses plus ou moins farfelues, d'incompréhensions et d'interprétations erronnées (parfois volontairment pour profiter du buzz). Le Web sémantique n'échappe à cette tendance.

A l'instar de James Hendler qui a publié sa FAQ non officielle sur le Web sémantique, je vous propose de mon côté de revenir sur quelques idées reçues sur le Web sémantique.

Lire la suite...

Management de l'information Web sémantique Système d'information Causeries Moteur de recherche —  6 commentaires

Yahoo apporte des bananes au Web sémantique, 1ère partie

Annoncé, il y un peu plus de 2 mois, « l’écosystème de développement pour la recherche » de Yahoo est maintenant disponible sous le nom de SearchMonkey. Si, avec cette initiative, le but de Yahoo était de reprendre la main sur Google dans le domaine strict de la recherche, il me semble qu’une partie du chemin a été effectuée. Plutôt, que d’attaquer frontalement Google en mettant en œuvre de nouveaux algorithmes de recherche, par exemple, Yahoo a choisi un angle différent jusqu’alors complètement inexploité et, pourtant, oh ! combien important, à savoir la présentation des résultats.

Et, dans ce cadre, aiguillé certainement par le succès de facebook et de sa plate-forme de développement ouvert, le moteur de recherche a mis à disposition des développeurs une plate-forme pour mettre au point des applications qui agrémentent, selon la volonté des utilisateurs, les résultats de la recherche. Pour ce faire, il rend disponible les données de son index, soit les données structurées avec des microformats, RDFa et eRDF (embeded RDF, un système à peu près équivalent à RDFa) et déjà indexées, par défaut, par Yahoo, soit directement l’ensemble des données de la page Web à partir desquelles le développeur peut créer une extraction personnelle.

La plate-forme SearchMonkey comprend donc trois parties (et donc trois billets pour le présenter…) :

  • Une à destination des utilisateurs ;
  • Une à destination des développeurs ;
  • Une à destination des propriétaires de sites.

Lire la suite...

Causeries Indexation Moteur de recherche RDFa —  9 commentaires

Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque

Dans un billet récent écrit à l'occasion des dix ans de XML, Jean-Michel Salaün regrettait que les pistes esquissés dans le second texte de l'initiative Roger T. Pédauque intitulé «  Le texte en jeu. Permanences et transformations du document  » n'aient pas été suivies. Et, pour cause me semble-t-il, si ce deuxième article, comme les deux autres d'ailleurs, apporte incontestablement des pistes de réflexion et certaines idées intéressantes, il comprend des contre-sens et des erreurs si manifestes qu'il n'est possible de s'en servir comme base de travail qu'après une critique attentive, sans compter sur le style que Jean-Michel Salaün lui-même dans le billet cité plus haut qualifie « d'un peu abscons » et que je qualifierais plus volontiers de charabia jargonnant.

A l'heure où le Web sémantique pointe avec plus de prégnance le bout de son nez, il n'est pas inutile de revenir sur ce texte, comme sur les deux autres, pour construire une nouvelle réflexion. C'était d'ailleurs leur but : susciter le débat et la réflexion, sans présager des évolutions futures et selon l'état de l'art du moment. Or, il semble bien qu'une nouvelle étape est sur le point d'être franchie, si ce n'est pas déjà le cas. A titre personnel, si, à l'époque de rédaction du texte, je n'étais pas en mesure de m'immiscer dans le débat, j'espère, aujourd'hui, pouvoir apporter ma pierre à l'édifice.

Avant d'entrer dans le vif du sujet, je voudrais rappeler, pour mémoire, que cette initiative avait été lancée par le réseau thématiques pluridisciplinaires dédié au document, le RTP-DOC d'où le pseudonyme Roger T. Pédauque pour signer les textes collectifs, placé sous le patronage de feu le département STIC du CNRS. L'objectif était de réfléchir selon une approche pluridisciplinaire à la notion de document dans le contexte des changements induits par le numérique.

Lire la suite...

Structuration RDF XML Causeries Indexation Moteur de recherche OWL TEI Validation XHTML Xquery XSLT —  7 commentaires

RDFaiser votre blog, 1ère partie : la théorie

HTML, de même que XHTML, permet de structurer une page Web selon les principes d'un langage à balises. Les différentes balises indiquent de manière hiérarchique le rôle joué par chaque portion d'information dans le contexte de la page Web.

Ainsi, la structure d'un document HTML, comme tout document XML, ne décrit pas le contenu/le message de la page Web, mais reflète la structure de la page Web en elle-même. C'est pourquoi il me semble erroné de parler de « sémantisation », lorsqu'on encode en HTML ou, plus généralement, en XML.

Par exemple, soient les deux portions de code HTML suivants :

<div class="contenu">
       <p class="normal">
                Le <a href="http://barcamp.org/SemanticCampParis">SemanticWeb camp</a> se déroule à Paris
                le samedi 16 février 2008 à partir de 9h30.
        </p>
</div>

<div class="description">
         <ul>
                <li>
                        Le <strong>SemanticWeb camp</strong> se déroule à Paris
                        le <em>samedi 16 février 2008 à partir de 9h30</em>.
                </li>
         </ul>
</div>

Ces deux bouts de code HTML ne sont pas identiques du point de vue de la structure, pourtant, du point de vue du contenu, ils délivrent la même information, le même message. Si certains pourraient y voir une limitation de XML, il n'en est rien. Ce n'est tout simplement pas son rôle.


Lire la suite...

Structuration Moteur de recherche RDFa XHTML Geekeries —  2 commentaires

Google se met à FOAF

Alors que j'expliquais dans mon précédent billet en quoi FOAF constituait une réponse aux problèmes de contrôle des données personnelles et d'interopérabilité entre les services de réseaux sociaux, Google semble me donner raison avec la sortie d'une nouvelle API : Social graph API. Si Google a longtemps traîné des pieds avant de s'intéresser aux technologies du Web sémantique, nous étions beaucoup à penser qu'il ne leur faudrait pas énormément de temps le jour où il voudrait s'y mettre. Il semble que ce jour soit arrivé.

Qu'en est-il exactement ?

Pour faire simple, Social Graph API permet d'effectuer des requêtes sur les données indexées par Google et encodées avec FOAF, XFN (pour faire vite, l'équivalent de FOAF avec les microformats) et les profils publics de certains services comme MySpace. Grâce à cette API, vous pouvez, par exemple, retrouver les différentes personnes qui sont liées à vous par l'intermédiaire d'un FOAF ou d'un XFN, concaténer en un point unique les informations éparpillées entre vos différentes pages de profils des services auxquels vous êtes abonnés (cf. l'exemple de Plaxo Pulse)...

Lire la suite...

Web sémantique Causeries Indexation Moteur de recherche —  9 commentaires

Naviguer et rechercher dans le Web of data

Preuve supplémentaire de la maturité du Web of data, nous disposons, à l'instar de son grand frère le Web, de navigateurs et de moteurs de recherche spécialisés ne requérant aucune compétence particulière.

Petite revue de détail, en commençant par les navigateurs.

  • A tout seigneur, tout honneur, le premier d'entre eux mis au point par Tim Berners-Lee et son équipe : Tabulator développé en Javascript (Attention, ne fonctionne qu'avec Firefox). Outre la possibilité de naviguer dans des sources en RDF, il offre un moteur SPARQL, la possibilité d'afficher les données géographiques sur une carte, les événements sur un agenda ou une frise chronologique. C'est certainement le plus complet, mais aussi le plus geeky.
  • Dans le même ordre d'idée et proposant des fonctionnalités à peu près équivalentes, OpenLink RDF browser, qui sert de démonstration au produit Virtuoso server qui intègre, entre autres, un RDF store et sparql end point, de l'éditeur Open link software.
  • Plus simple et plus accessible, Disco hyperdata Browser mis au point par l'équipe de Dbpedia (ces types ne s'arrêtent jamais). L'interface est, disons, épurée, mais efficace. Fonctionnalité intéressante, il intègre un cache qui permet de disposer de tous les triples consultés récemment par les utilisateurs pour naviguer dans les sources RDF.
  • Pour finir, celui qui me semble le plus prometteur : Zitgist browser mis au point par Frederik Giasson. Aussi simple que Disco, mais avec une interface très agréable.

Lire la suite...

RDF Sparql Causeries Moteur de recherche Navigateur Linked Data —  3 commentaires

De la polysémie de "catégorisation" en recherche d'informations

A l'occasion de la lecture de l'article d'Olivier Ertzcheid, Gabriel Gallezot et Eric Boutin sur les perspectives documentaires sur les moteurs de recherche, je suis tombé sur le mot « catégorisation », j'imagine, pour définir la fonctionnalités des « termes associés » d'Exalead. Il s'avère que ce terme est une source d'ambiguïté permanente dans le domaine de la recherche d'informations, faisant référence à plusieurs fonctionnalités et plusieurs technologies différentes. Je vous propose de faire le point afin d'y voir plus clair.

Lire la suite...

Management de l'information Causeries Moteur de recherche —  1 commentaire