Le mot de la semaine : data lake

A l’ère du big data, comment stocker l’océan de données ?

page.alt
  • data lake
  • data warehouse
  • stockage

Le mot de la semaine : data lake

Définition de data lake

Un data lake, lac de données en français, est un espace de stockage dans lequel les entreprises déversent des données dans leur format natifs. Elles n’ont pas de but prédéfini au moment d’être stockées et sont regroupées lorsque les professionnels les utilisent pour l’analyse et la visualisation, afin d’extraire des informations et prévisions. Elles peuvent être brutes, issues de bases de données relationnelles, semi-structurées, CSV ou XML par exemple, ou non structurées, e-mails ou tweets entre autres.

Comment fonctionne un data lake ? Chaque donnée rangée dans un data lake possède un identifiant et des mégadonnées renseignées par des mots-clés afin de la retrouver. Les entreprises peuvent interroger le data lake sur leurs questions métiers et les données les plus pertinentes seront extraites pour répondre à leur requête.

Par exemple, une industrie peut collecter et stocker des données issues de nombreuses sources internes comme externes, en lien avec le processus de fabrication et les usages des produits pour les améliorer.


Point historique

Le data lake ou data reservoir est tout d’abord conceptualisé en 1999, par Dorian Pyle dans son ouvrage “Data preparation for Data mining”. C’est ensuite James Dixon, directeur de Penthao, société analytique américaine, qui contribue à formaliser le terme de “Data Lake” en 2011. L’intérêt croissant accordé au data lake par les entreprises appuie leur transformation digitale.


Data warehouse vs datalake

Le data warehouse est un entrepôt de données qui permet de déposer les fichiers de données dans des dossiers contrairement au data lake ou “bassin de données”, qui a une structure moins ordonnée.

A la différence du data lake, le data warehouse organise les données au préalable

Si le data lake était un bien immobilier, il serait sûrement une maison de plain pied construite sur un terrain vague. Le granit, comme la donné brute, sera transformé selon les besoins des propriétaires finaux. A l’inverse le data warehouse serait un appartement cloisonné en plusieurs pièces, chaque salle ayant une fonction bien définie.

Il existe aussi le data mart, un référentiel de données plus petit, davantage tourné vers l’utilisateur final. Il s’agit d’une base de données spécialisée, voire locale pour permettre à l’utilisateur d’exploiter rapidement un ensemble restreint de données.


Tendances data lake

Markets and Markets, un cabinet de recherches américain, estime que le marché du data lake passerait de 2,53 milliards de dollars en 2016 à 8,81 milliards en 2021. Si l’engouement est semble-t-il au rendez-vous, c’est parce que les entreprises estiment qu’elles vont pouvoir :

  • augmenter leur agilité et l’accessibilité aux données,
  • obtenir des analyses approfondies pour renforcer leur avantage concurrentiel,
  • accroître le volume et la variété des données, notamment en introduisant les objets connectés comme collecteurs de données.


Avantages et inconvénients du data lake

Le choix du stockage va conditionner tout projet informatique. Dans quelles conditions opter pour le data lake ? Ce qu’il faut savoir :

Avantages

  • Flexibilité : le data lake n’a pas de limites de stockage puisque l’ajout de nouvelles machines permet d’augmenter la capacité des serveurs.
  • Innovation : en stockant les données sans leur avoir attribué un rôle préalable, on ne restreint pas les possibilités d’analyse.

Inconvénients

  • Mise en place et modification complexe pour la structure de base de données : mieux vaut déterminer une stratégie data claire avant de déployer un data lake.
  • Sécurité et gouvernance des données : autrement dit définir qui est autorisé à accéder à quelles données et sous quelles conditions est un enjeu de taille pour faire de son data lake un projet réussi.


L’info à retenir

Un data lake est un espace de stockage pour les données dans leur format natifs. Elles ne sont pas destinées à une utilisation spécifique au moment du stockage. Les professionnels peuvent donc piocher dans cet amas de données pour répondre à leurs questions métiers et en extraire des informations et prévisions.