Les petites cases

Web

Bilan de 15 ans de réflexion sur la gestion des données numériques

Cela fait maintenant deux ans que j’ai rejoint l’Institut national de l’audiovisuel. Deux années qui m’ont permis de donner une nouvelle impulsion à ma réflexion sur la gestion des données numériques. Deux années passionnantes et qui se concrétisent depuis plus de six mois par le développement d’une infrastructure de traitement et de stockage des données, aboutissement (forcément provisoire) d’une vision de l’architecture du système d’information où la donnée occupe une place centrale, à l’inverse de l’approche traditionnelle par le processus. Deux années dont les résultats font en partie l’objet d’un article pour le prochain livre d’Emmanuelle sur l’avenir des catalogues, à paraître aux éditions du Cercle de la librairie et dont l’écriture m’a donné envie de faire revivre un peu cet espace de partage que j’ai laissé en friche ces dernières années.

Mais avant de partager ces nouveaux éléments, il me semble intéressant de dresser un bilan de ces 15 dernières années afin de tracer la ligne directrice et de brosser aussi les réussites, les échecs et les erreurs. La lecture de quelques (excellents) mémoires du master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes m’ont aussi motivé à préciser (ou repréciser) certaines approximations que j’ai pu rencontrer ici ou là.

Alors, voilà, avant de passer à la suite, un bilan de 15 ans de réflexion sur la gestion des données numériques, forcément subjectif et en aucun cas exhaustif. Il se découpe en quatre phases, qui correspondent à des moments de mon parcours professionnel et, ça va de pair, avec les sujets principaux qui ont été au cœur de ma réflexion. Elles sont les suivantes :

  • l’édition électronique ;
  • la conservation sur le long terme de l’information numérique ;
  • le traitement des données structurées et semi-structurées ;
  • l’architecture de données à l’ère du Big data.

Lire la suite...

Management de l'information Structuration RDF Web sémantique XML Système d'information Sparql Web Causeries Conservation Digital humanities Édition critique Édition électronique Histoire Moteur de recherche SHS TEI Perso

Information numérique : défintions et enjeux

Alors que j'étais en train de préparer une nouvelle formation, je suis retombé sur différents diaporamas que j'avais constitués à l'époque où je travaillais sur la pérennisation de l'information numérique. Comme je n'en aurai plus vraiment l'utilité, je me suis dit qu'il pourrait être intéressant de les partager, plutôt que les laisser dans un recoin de mon disque dur. Last but not least, cela me permettait d'alimenter ce blog, largement en déshérence ces derniers temps...

Ce diaporama est le résultat de la fusion d'une formation que j'avais mise au point pour présenter les enjeux de la pérennisation de l'information numérique à mes collègues d'Atos Origin, lorsque je travaillais sur le projet SPAR de la BnF et d'une présentation de ces problématiques à destination de décideurs. Vous reconnaîtrez peut-être certaines diapos de Manue, en particulier la fameuse disquette.

Placé sous licence CC-BY, ce diaporama est à votre disposition. N'hésitez pas, c'est fait pour ça.

Lire la suite...

Structuration XML Système d'information Web Causeries Conservation Numérisation —  1 commentaire

Petite histoire du Web sémantique

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie.
Il s'agit d'une introduction générale en trois parties dont ce billet est la première :

Si le Web sémantique commence à être médiatisé aujourd'hui, ses fondements sont plus anciens, ils remontent aux origines même du Web et ont connu plusieurs évolutions dont l'histoire permet de mieux appréhender les enjeux.

Lire la suite...

Web sémantique Web Causeries Histoire — 

Un automne de rencontres autour du Web sémantique

Il y a un temps pour tout : la découverte, la réflexion et l'expérimentation sur ce blog, le partage et la dissémination auprès de nouveaux publics au cours d'événements divers et le temps de l'accomplissement de projets mettant en œuvre ces différentes idées. Ainsi, le silence de ce blog trouve ses raisons dans d'autres activités non moins essentielles qui, à leur tour, vont alimenter de nouvelles réflexions. Mais, avant de vous en faire part et en guise de conclusion à cette riche période, je voulais partager avec vous les présentations qui ont ponctué mon automne.

Lire la suite...

Management de l'information RDF Web sémantique Sparql Causeries Digital humanities Moteur de recherche RDFa Wikipedia Linked Data —  2 commentaires

Open Graph Protocol : Facebook se met au Web sémantique ?

Retour le 21 avril au soir : Facebook organise l'événement F8 au cours duquel il va annoncer les évolutions de sa plate-forme à destination des développeurs. A titre personnel, je n'ai pas vu l'annonce dont je n'ai a priori rien à attendre. Un premier twitt de Nicolas attire mon œil :

« Mark Zuckerberg - 3 fois le mot semantic par phrase.. des graphs dans tous les sens avec des connections avec d'autres sites. hmm.. »

Attiré, certes, mais sans grand espoir, je continue à vaquer à mes occupations numériques. Quelques minutes plus tard, première annonce concrète, Facebook met à disposition une « Graph API ». Alors que Régis a l'air enthousiaste, je partage la déception de Nicolas :

« Facebook propose une "Graph API" mais le format = JSON, les bras m'en tombent... http://graph.facebook.com/ via @rgaidot et @cyno »

Ce dernier essaye de me faire voir le bon côté des choses. Il a raison car les annonces ne sont pas terminées et quelques minutes plus tard, Manu Sporny relance nos espoirs en attirant l'attention sur un header de page HTML avec un encodage RDFa montré lors de la conférence :

« I think Facebook just announced RDFa support (the Open Graph Protocol) at F8: http://ow.ly/1Bm2g #rdfa #html5 #f8 (look at the attributes) »

Les soupçons sont rapidement confirmés, Facebook annonce Open Graph Protocol, un vocabulaire RDF très simple pour encoder en RDFa le titre de la page, le type de ressource décrite (vidéo, sport, entreprise, hôtel...), le titre du conteneur de la page et l'URL d'une image (et quelques autres choses..). Dans la foulée, Facebook annonce le support de ce protocole par plusieurs sites importants : IMDB, Microsoft, NHL, Posterous, Rotten Tomatoes...

Lire la suite...

Web Causeries Indexation RDFa Linked Data — 

Photos, livres, musiques, what else ?

N'en déplaise à certains. Le manque de courage et les problèmes de structuration de ma pensée ne sont pas les seuls responsables de la diminution drastique des publications de ce blog. J'ai aussi mis à profit ces derniers mois pour développer plusieurs prototypes visant à démontrer les possibilités offertes par les technologies du Web sémantique et les données mises à disposition selon les principes du Linked Data. Je vous avais déjà présenté « la boîte à souvenirs », Manue s'était chargée, comme il se doit, du « Linked Book Mashup », permettez-moi de vous dévoiler aujourd'hui « Linked My Music ».

Lire la suite...

Structuration Sparql Wikipedia Geekeries Linked Data —  3 commentaires

Retour sur Freebase à la lumière du Web of data

Au mois de mars, Tim O'Reilly repris par Internet Actu définissait ainsi le but de Freebase : « Créer les synapses du cerveau global ». On y voyait les prémices de la première application concrète et accessible à tous du Web sémantique. Six mois plus tard, je vous propose d'y revenir, alors que le concept de Web of data et Dbpedia ont fait leur apparition.

Dans l'article d'Internet actu, Hubert citait Denny Vrandecic, concepteur de Semantic Mediawiki :

« Metaweb [nda : le concepteur de Freebase et par extension le logiciel qui fait tourner freebase] vient du monde des données structurées, même si la structure est ici flexible et changeante. Semantic Media Wiki vient du monde des données non structurées, qui peuvent être améliorées par quelques éléments de structure pour mettre en relation plusieurs éléments non structurés. ».

Cette analyse me paraît excellente, car elle pose tous les enjeux de Freebase et son mode de fonctionnement. Si on voulait caricaturer, je dirais que Freebase est un wiki structuré OU une base de données dont la modélisation peut changer à la demande de l'utilisateur qui peut librement saisir les données. Choisissez votre camp en fonction de votre origine : données non structurées ou données structurées.

Concrètement, Freebase est organisée sous la forme d'une taxonomie thématique (arts et divertissements, Société, Sport...). Chaque thème comprend des types de ressource (film, acteur, opera, pièce de théâtre, Personne, ville...) auxquels sont rattachés des propriétés. Ces propriétés peuvent relier une ressource à une autre ressource ou à une donnée typée (chaîne de caractères, date, nombre entier...). Si vous suivez ce blog attentivement, vous aurez reconnu le principe d'une ontologie qui présente la particularité d'une structure évolutive à la demande des utilisateurs.

Cerise sur le gâteau, Freebase propose pour gérer cette ontologie une interface très agréable, facile à manipuler et qui permet très simplement d'éditer une donnée, d'en ajouter, de relier une ressource à une autre.

Réaction immédiate : c'est génial, c'est effectivement la première application du Web sémantique ! En apparence et au premier abord, tout y est et il faut l'avouer, c'est impressionnant. Mais, à y regarder de plus près, deux problèmes se posent : l'un est technologique et l'autre est, je dirais, cognitif.

Lire la suite...

Management de l'information RDF Sparql Causeries Wikipedia Linked Data — 

Dbpedia en action la suite

Saviez-vous qu'Emma Watson, alias Hermione Granger dans les adaptations au cinéma d'Harry Potter, est née à Paris ?

Pour ma part, je l'ai découvert en mettant au point une autre série d'exemples d'utilisation de Dbpedia, en m'interressant cette fois-ci aux personnes. Le principe est simple, vous choisissez dans la liste la ville qui vous intéresse, par exemple, Paris et vous découvrirez les différentes personnes nées dans cette ville et présentes dans Dbpedia, c'est à dire dans Wikipédia. La mise en forme et la navigation dans la page de résultat est assurée par l'excellent logiciel/script du projet Simile, Exhibit. J'ai volontairement limité la liste des villes, car le principe est toujours le même. J'en ai profité pour placer un lien directe vers cette page depuis la carte des capitales européennes.

Lire la suite...

Sparql Wikipedia Geekeries Linked Data —  13 commentaires

Dbpedia en action

Il y a quelques mois, je titrais mon billet présentant Dbpedia : « Dbpedia ou la puissance du RDF au profit du savoir ». Mis à part deux exemples très simples qui, d'ailleurs, ne fonctionnent plus aujourd'hui avec la nouvelle version de Dbpedia, cette affirmation restait toute théorique.

Pierre Lindenbaum, quant à lui, avait mis au point un exemple plus probant : Wikistory, qui présentait les biographies des scientifiques célèbres présents dans Dbpedia.

A l'occasion de la nouvelle version de Dbpedia, je me suis remis au boulot et j'ai mis au point quelques exemples qui, je l'espère, montreront tout l'intérêt de disposer de données structurées, disponibles sous une forme normalisée, RDF, et interrogeable via un langage de requête et un protocole normalisé, SPARQL. Bref, montrer l'intérêt des technologies du Web sémantique.

Sur ce mini-site, je vais donc rassembler différents exemples. J'ai pour l'instant deux exemples :

Lire la suite...

Sparql Wikipedia Geekeries Linked Data —  7 commentaires

qu'est-ce-qui distingue le Web du Web sémantique ?

Les technologies du Web (HTML, XML, CSS...) ont pour but de structurer/afficher des documents et de relier ces différents documents par des liens non typés.

Les technologies du Web sémantique (RDF, SPARQL, RDFa...) ont pour but de structurer/définir les données/les messages des documents et de relier ces différentes données par des liens typés.

Tout est histoire de granularité...

Lire la suite...

Web sémantique Web Causeries —  12 commentaires