Les petites cases

XML

Propositions de stages : Web services, statistiques textuelles et ontologies

Comme les étudiants de l'Université technologique de Troyes n'ont pas l'air intéressés par les stages que je propose, je me suis décidé à les proposer ouvertement sur mon blog. Je propose donc deux stages rémunérés (500 € nets par mois) à l'École nationale des chartes pour une durée maximale de six mois. Ces stages sont parfaits pour un projet de fin d'études d'école d'ingénieurs ou pour des Master 2, mais je suis ouvert aux propositions.

Le premier stage a pour but le développement ou l'amélioration d'outils pour les chercheurs en histoire. D'après ce que j'ai prévu, deux tâches se dégagent :

  1. Créer des fonctionnalités supplémentaires au logiciel eXist : base de données XML native open source en java, qui permet de faire des interrogations en Xquery. Il faudra développer des fonctionnalités pour effectuer de la statistique textuelle (calcul des collocations, comptages de formes, emplacement des formes...) ;

  2. Mettre au point des Web-services en SOAP ou en REST pour permettre l'interrogation à distance d'une base de données bibliographiques et d'un dictionnaire. Il faudra aussi développer l'API qui permettra d'accéder facilement au web service.

Pour ce

Lire la suite...

Web sémantique Causeries Histoire OWL XSLT — 

Structurer, décrire et organiser l'information (2)

Ce billet constitue la suite du billet dédié à la structuration de l'information (voir aussi le troisièmes billet : comment organiser l'information pour y naviguer efficacement ?).

Lire la suite...

RDF XML Causeries Indexation OWL —  1 commentaire

Structurer, décrire et organiser l'information (1)

On a tendance à confondre les trois actes recouverts par les verbes : structurer, décrire et organiser. S'il est incontestable que leur sens est proche, ces verbes désignent dans le processus de création de l'information sur le support numérique des actions qu'il est essentiel de différencier. S'ils ne sont pas dissociés, il existe des risques d'amalgames conduisant à des mauvais choix technologiques.

Je vous propose une série de trois billets permettant de faire le point sur ce problème :

Lire la suite...

Structuration Web sémantique XML Causeries

Sémantique et XHTML

Contrairement à ce que dit un abus de langage répandu, une page Web n'est pas sémantisée, lorsqu'elle est encodée selon la norme XHTML. Si je reprends la définition de Wikipedia, la sémantique est une branche de la linguistique qui étudie les signifiés, c'est à dire le sens des mots et d'après mon vieux Petit Larousse 1994, la sémantique désigne ce qui est relatif au sens, à la signification des unités linguistiques.

Lire la suite...

Structuration Web sémantique XHTML XSLT Geekeries —  2 commentaires

Un nouveau groupe de travail pour les interfaces Web enrichies au W3C

http://www.w3.org/2006/appformats/

Voici une annonce qui devrait ravir beaucoup de mondes à commencer par Fred Cavazza, Tristan Nitot, Laurent Jouanneau et d'autres. Le W3C annonce la constitution d'un groupe de travail pour la mise au point d'un langage pour les interfaces Web enrichies. Pour faire rapide (ça me changera ;-) ), il s'agit de mettre un peu d'ordre au milieu d'une offre de plus en plus importantes dans ce secteur. A la suite de XUL, inventé par la mozilla foundation pour les interfaces de leurs produits dont Firefox, Microsoft annonce XAML à la base du prochain Windows, et Macromedia propose quant à lui MXML.

Espérons que le W3C réussira dans son entreprise de s'appuyer sur l'existant (« This deliverable should be based on an existing application/UI format ») et qu'il n'est déjà pas trop tard...

A signaler que cette annonce fait aussi état d'un autre groupe de travail dont le but est le développement d'une API standard pour le développement des applications Web clientes et dont la première tâche sera la documentation de XMLHttpRequest à la base d'AJAX.

Via Le fil RSS des nouveautés du W3C

Lire la suite...

XML Web Geekeries — 

De la théorie à la pratique : l'ontologie du monde de Harry Potter

Dans mon précédent billet, j'ai tenté de définir ce qu'on entend par une ontologie dans le cadre du Web sémantique et de vous présenter le langage OWL. Or, tester est le meilleur moyen d'apprendre et de comprendre un langage informatique, j'ai donc créé une petite ontologie du monde de Harry Potter grâce à Protege. Je ne pense pas que je maintiendrai cette ontologie, ce n'est qu'un modeste exemple perfectible et contenant certainement des erreurs, mais il faut bien commencer par quelque chose.

Pourquoi Harry Potter ? Tout simplement, parce que j'ai commencé à apprendre OWL et à créer cette ontologie juste après avoir lu dévoré le dernier volume de la série, Harry Potter et le prince de sang mêlé. Finalement, grâce à mon collègue Nicolas (coucou, Nico ;-) ), j'ai appris que j'avais fait un clin d'œil à la série sans le savoir. En effet, the owl signifie en anglais chouette, or, c'est le nom dans la version originale des examens que passe Harry en cinquième année (« Buse » dans la traduction française), donc dans Harry Potter et l'ordre du phénix. Voilà pour l'anecdote.

J'ai donc créé et peuplé mon ontologie grâce à Protege avec l'aide précieuse

Lire la suite...

RDF OWL XSLT Geekeries —  18 commentaires

TEI et les références bibliographiques

J'ai récemment regardé de plus près les éléments offerts par la TEI pour coder les références bibliographiques, à l'occasion d'une rencontre avec une stagiaire-conservateur de l'ENSSIB, Anne-Claire Bernaudin (que je salue amicalement, puisque c'est une lectrice de ce blog), qui encode dans le cadre de son stage une bibliographie en EADet qui voulait faire un comparatif avec TEI et MODS. Pour continuer ma saga de la TEI comme dirait Blogokat, je vais donc vous faire partager le fruit de nos découvertes.

Il existe trois éléments pour décrire une référence bibliographique :

  1. <bibl> contient une référence « vaguement » structurée, c'est à dire que les différents éléments de la référence peuvent être balisés ou non, au choix de l'encodeur ;

  2. <biblStruct> contient une référence très structurée, dans laquelle seules les éléments TEI spécifiques à la description bibliographique sont acceptés ;

  3. <biblFull> contient une référence très structurée qui utilise les éléments autorisés dans l'élément <fileDesc> du header, c'est à dire l'ensemble des éléments qui permettent de décrire un fichier TEI, pour encoder la référence

Lire la suite...

TEI Geekeries — 

Et le W3C améliora le traitement des fichiers XML

Le W3C a mis en ligne, le 3 novembre, huit « candidate recommandations », c'est à dire la dernière étape avant la recommandation finale, concernant le traitement des fichiers XML. Trois d'entre elles sont d'une importance capitale pour l'avenir de XML :

  1. Une nouvelle version de XSLT dite 2.0, le langage utilisé pour transformer un fichier XML vers un autre fichier XML, dont HTML

Lire la suite...

Xquery XSLT Geekeries — 

TEI et les éléments d'un texte, la suite

Reprenons notre découverte de la TEI où nous nous en étions arrêtés, c'est à dire les informations présentes dans une portion d'information, c'est à dire à l'intérieur du <div>. Après avoir vu les différentes façons de coder l'italique qui représentait la partie la plus complexe, attaquons nous à toutes les autres informations.

Les notes

Une note est une information attachée à un endroit précis du texte. Elle permet :

  • de donner une référence bibliographique

  • d'introduire des compléments d'informations qui ne sont pas en relation directe avec le texte, c'est à dire de faire une digression

  • de faire un commentaire

Elle est composée de deux parties : l'appel de notes et le contenu de la note, généralement porté en bas de page ou à la fin du texte. L'appel de notes n'est pas une information à part entière, elle n'est qu'une partie de la note, il est donc normal que cet appel de notes ne soit pas balisé en tant que tel. Par conséquent, en TEI, on place le contenu de la note à l'emplacement de l'appel de notes avec l'élément <note>. L'appel de notes peut être indiqué grâce à l'attribut n et on peut aussi préciser l'emplacement de la note avec

Lire la suite...

TEI Geekeries — 

Pourquoi utiliser une syntaxe XML pour les métadonnées ?

Last week at the Access 2005 conference, I told a room full of mostly library people that their XML standards (I was talking about MODS and MADS in particular) are needlessly complex, inflexible, and awkward; that they were not hacker-friendly. I showed them an alternative schema I’ve been working on that is better, cleaner and much more hacker-friendly XML.

Lire la suite...

Structuration Web sémantique XML Causeries —  2 commentaires