Les petites cases

Réaliser un mashup de données avec Dataiku DSS et Palladio

Dans mon précédent billet sur la préparation des données, j'avais fait part de mon enthousiasme pour la solution DSS de Dataiku dans le cadre de la préparation des données. J'ai donc poursuivi ma pratique du logiciel dans un contexte que j'apprécie particulièrement : la mise au point d'un mashup de données. Cet exercice permet autour d'un exemple concret de faire le tour du traitement des données : recherche, récupération, interrogation, structuration, nettoyage, mise en relation, visualisation. Il est donc parfaitement adapté pour évaluer un logiciel en la matière. Et le résultat fut à la hauteur :

Afin de partager cette découverte, j'ai mis au point un tutoriel qui vise à :

Il a été mis au point pour les besoins de deux cours de trois heures du module "Données" de la deuxième année du master "Technologies numériques appliquées à l'histoire" de l'Ecole nationale des chartes. Il est par conséquent composé de deux parties. La première partie aborde les points suivants :

  • présentation de la notion de mashup et exemples de mashup ;
  • récupération des jeux de données sur Data.gouv.fr ;
  • chargement des jeux de données dans Dataiku DSS ;
  • préparation des jeux de données dans Dataiku DSS ;
  • mise en relation des jeux de données issus de data.gouv.fr.
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie

Attention ! La seconde partie implique la connaissance du langage de requêtes SPARQL qui vise à interroger des données stockées sous la forme d'un graphe RDF (cf. SPARQL, comment illuminer vos mashups en consommant les données du Linked Data ?). Elle aborde les points suivants :

  • récupération dans DSS des données depuis Wikidata via une requête SPARQL ;
  • empilement de plusieurs jeux de données dans DSS ;
  • mise en relation du jeu de données de Wikidata avec ceux issus de data.gouv.fr ;
  • préparation du jeu de données final ;
  • visualisation des données dans Palladio.
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec Palladio - Deuxième partie

Si certains d'entre vous vont au bout de ce tutoriel, n'hésitez pas à m'envoyer un message pour me faire part de vos retours, remarques et questions. Par ailleurs, les deux supports sont disponibles avec la licence CC-BY et peuvent être téléchargés depuis SlideShare.

Amusez-vous bien !

Management de l'information Sparql Digital humanities Outils Geekeries