Dans mon précédent billet sur la préparation des données, j'avais fait part de mon enthousiasme pour la solution DSS de Dataiku dans le cadre de la préparation des données. J'ai donc poursuivi ma pratique du logiciel dans un contexte que j'apprécie particulièrement : la mise au point d'un mashup de données. Cet exercice permet autour d'un exemple concret de faire le tour du traitement des données : recherche, récupération, interrogation, structuration, nettoyage, mise en relation, visualisation. Il est donc parfaitement adapté pour évaluer un logiciel en la matière. Et le résultat fut à la hauteur :
Dataiku testé et approuvé pour réaliser un mashup avec données du @LeCNC sur @datagouvfr, @wikidata, @themoviedb visualisé avec Palladio \°/ pic.twitter.com/0RhqiA3YNu
— Gautier Poupeau (@lespetitescases) January 16, 2017
Afin de partager cette découverte, j'ai mis au point un tutoriel qui vise à :
- acquérir les bases, par un exemple concret, pour réaliser un mashup de données ;
- prendre en main le logiciel DSS de Dataiku dans le cadre de la préparation et de la mise en relation de jeux de données ;
- présenter les possibilités de l'application en ligne Palladio mise au point par le laboratoire Humanities + Design de l'université de Stanford pour la visualisation de données historiques.
Il a été mis au point pour les besoins de deux cours de trois heures du module "Données" de la deuxième année du master "Technologies numériques appliquées à l'histoire" de l'Ecole nationale des chartes. Il est par conséquent composé de deux parties. La première partie aborde les points suivants :
- présentation de la notion de mashup et exemples de mashup ;
- récupération des jeux de données sur Data.gouv.fr ;
- chargement des jeux de données dans Dataiku DSS ;
- préparation des jeux de données dans Dataiku DSS ;
- mise en relation des jeux de données issus de data.gouv.fr.
Attention ! La seconde partie implique la connaissance du langage de requêtes SPARQL qui vise à interroger des données stockées sous la forme d'un graphe RDF (cf. SPARQL, comment illuminer vos mashups en consommant les données du Linked Data ?). Elle aborde les points suivants :
- récupération dans DSS des données depuis Wikidata via une requête SPARQL ;
- empilement de plusieurs jeux de données dans DSS ;
- mise en relation du jeu de données de Wikidata avec ceux issus de data.gouv.fr ;
- préparation du jeu de données final ;
- visualisation des données dans Palladio.
Si certains d'entre vous vont au bout de ce tutoriel, n'hésitez pas à m'envoyer un message pour me faire part de vos retours, remarques et questions. Par ailleurs, les deux supports sont disponibles avec la licence CC-BY et peuvent être téléchargés depuis SlideShare.
Amusez-vous bien !