Le mot de la semaine : data set

On démystifie pour vous le jeu de données.

page.alt
  • data set
  • jeu de données
  • base de données

Le mot de la semaine : data set

Non, non… Les spécialistes data ne passent pas leur journée à jouer avec des jeux de données. Dans cet article vous n’apprendrez pas à devenir aussi habile que Rain Man au poker, mais vous comprendrez peut-être ce qu’est un data set : voici le mot de la semaine.


Définition de data set

Le data set ou jeu de données en français est un ensemble de données où chaque valeur est associée à une variable et un commentaire. Ces données sont stockées dans des tables qui contiennent des colonnes et des lignes comme dans un tableau Excel. Ainsi, une base de données, ou database, est constituée de plusieurs jeux de données, structurés afin d’être exploitables par un programme informatique.

Un jeu de données est renseigné de métadonnées, qui décrivent sa nature. Ces données précisent la variété du data set (un film, un PDF, etc.), son nom, son emplacement de stockage, son heure et sa date de création…

Pop-up de cookies sur une page du site Journal des Femmes Exemple de jeu de données de la SNCF


Pour illustrer ce qu’est un data set, la SNCF a ouvert 95 jeux de données au public sur data.sncf.com depuis 2016. Elle tente ainsi d’informer les usagers et d’accélérer l’innovation ferroviaire. Les mesures de localisation ferroviaire utilisées par la SNCF sont transformées en coordonnées géographiques pour être visualisées sur une carte.


Retour sur la naissance du data set

On entend l’expression “jeu de données” pour la première fois chez IBM. Il désignait alors un “fichier organisé”. Aujourd’hui, sa définition désigne plus globalement un ensemble de données stockées dans un format homogène.


Comment exploiter ces données ?

Les jeux de données structurés sont tous identiques, mais chaque jeu de données non structuré est désordonné à sa manière
Hadley Wickham, directeur scientifique de Rstudio


Les professionnels tentent parfois de mettre en avant certaines données dans leur tableur (gras, cellules colorées) ou abusent d’autres fonctions d’édition pour les mettre en forme. Cela peut poser problème si la cellule en question encode des données, autrement dit si la donnée est traitée de manière codée par le logiciel utilisé. Cela complique l’import du data set dans un autre logiciel de gestion ou d’analyse notamment, parce que ces cellules encodées sont alors difficilement interprétables par des outils tiers.


Jeu de données dans Excel Jeu de données dans Excel

D’autres fois, les données sont correctement formatées. Mais des commentaires placés dans des lignes ou colonnes non prévues à cet effet obligent les spécialistes qui traitent les data sets à les nettoyer pour en assurer une bonne analyse. Il est donc préférable d’avoir des données avec un niveau de granularité élevé dans son data set pour qu’elles soient facilement interprétables.


Bonnes pratiques pour de bons jeux de données

Le premier conseil pour gérer un data set est vraisemblablement de le nommer selon une nomenclature claire pour le retrouver rapidement. Voici quatre autres bonnes pratiques à suivre :

  • Privilégier le format CSV : plutôt que d’enregistrer vos données dans Excel au format .XLSX pour maximiser la compatibilité avec les logiciels d’analyse de données.
  • Trier et renseigner les métadonnées : les jeux de données sont accompagnés de métadonnées, pour plus de traçabilité sur la collecte et la source. Si des colonnes sont cachées, dans Excel notamment, c’est qu’elles ne sont pas utiles et elle peuvent être supprimées.
  • Échantillonner vos données : face au big data, les professionnels doivent apprendre à gérer des jeux de données volumineux. D’où l’intérêt de s’exercer d’abord sur un échantillon représentatif du data set pour l’analyser ensuite dans sa globalité.
  • Mettre à jour automatiquement : créer un jeu de données par source de collecte pour en faciliter la mise à jour.


L’info à retenir

Un data set est une collection de données structurées, renseignées par des métadonnées descriptives (nom, poids, lieu de stockage, etc.). Les data sets peuvent être stockés dans une base de données et sont formatés pour être intégrés dans des logiciels de traitement et d’analyse de données.