Le mot de la semaine : granularité des données

Ou comment extraire la quintessence des données à l’heure du big data.

page.alt
  • granularité
  • données agrégées

Le mot de la semaine : granularité des données

Nous choisisons une expression ou un mot hebdomadaire tiré de l’univers des données pour vous l’expliquer. Aujourd’hui, la granularité des données.


Définition de granularité des données

De manière générale, la granularité désigne le niveau de détails d’une information, d’une donnée, ou de tout autre élément indépendant. Ainsi la granularité d’une phrase est le mot, celle du mot est la lettre.

La granularité représente le niveau de profondeur de renseignements d’une donnée. Moins la donnée est détaillée, plus elle peut être découpée pour obtenir une granularité fine. C’est un peu comme la plus petite et dernière des poupée russes.

Les données ainsi découpées sont stockées dans deux types de modèles du data warehouse (entrepôt de données) :

  • une table de fait qui stocke les indicateurs mesurés, comme la quantité de produits vendus, le chiffre d’affaires…
  • une table de dimension qui comporte les caractéristiques des données précédentes, tel le nom du client, la marque du produit…

Dans le cas d’un département marketing par exemple, les données relevées peuvent être identifiées par exemple par :

  • le code produit,
  • la caisse où l’achat a été réalisé,
  • la référence du point de vente,
  • l’heure et la date d’achat (au cas où un client achèterait le même produit au même endroit).


Une architecture pour l’information

Un site web se structure grâce à une arborescence, dans une logique d’entonnoir qui va du général au particulier. On trouve dans la page d’accueil une présentation générale. Plus l’internaute a un besoin défini, plus il continuera à naviguer vers le contenu recherché et redoublera d’attention, même si les contenus sont plus denses voire plus complexes.

C’est le même cheminement pour le data scientist. L’une des spécificités de la granularité des données, c’est qu’elle peut être modelée selon ses besoins.

Il est possible qu’une même donnée serve à deux opérations de requêtes : des niveaux de granularité coexistent à l’intérieur des données. Il est alors conseillé de mettre en place un processus de gestion des données pour éviter de mauvaises pratiques.

Les données sont souvent agrégées dans des tableaux, Excel notamment, c’est-à-dire rassemblées dans des cellules par des calculs. En data visualisation, ce sont ces graphiques qui les rassemblent. Les données analysées doivent alors devenir des données « atomiques », les plus brutes possibles, sans formule de calcul. Ce niveau zéro de la donnée correspond à son état le plus neutre.


Stockage par granularité

La granularité d’une base de données détermine
la taille de l'espace de stockage nécessaire.


IBM propose un exemple : une base de données contient les données des ventes par jour et par région et celles par mois et par région. La granularité de la première nécessite une base de données plus volumineuse que la seconde puisqu’elle intègre les enregistrements de chaque transaction pour chaque jour, tandis que l’autre représente un total mensuel des transactions réalisées.

C’est un vrai équilibre à trouver : une granularité trop fine générerait une base de données surdimensionnée mais permettrait une analyse très fine. A l’inverse, une granularité trop faible produirait des données pas assez détaillées pour être exploitées par les utilisateurs.

Toutefois, les détracteurs des données très fines leur reprochent d’être peu révélatrices des effets sur le long-terme et d’occulter des tendances de groupe en se focalisant sur l’analyse individuelle, en marketing notamment.


L’info à retenir

La granularité des données est son niveau de détails. Si la donnée n’est pas fine, l’analyse de données par des techniques de datamining par exemple devient difficile pour les data scientist. Le niveau de granularité des données détermine l’espace de stockage requis pour la base de données : une donnée fine est plus lourde à stocker qu’une donnée agrégée.


Article similaire