Le mot de la semaine :
big data

Définitions, dates, chiffres : aperçu du big data.

page.alt
  • big data
  • small data

Le mot de la semaine : big data

Comme chaque semaine, nous vous expliquons le sens d’un mot tiré de l’univers des données. Aujourd’hui, accédez à une nouvelle dimension : le big data.


Une définition de big data

Le big data, ou “mégadonnées”, est l’ensemble des grands volumes de données collectées notamment grâce aux nouvelles technologies. Il se mesure en pétaoctets et zettaoctets. Les professionnels et particuliers extraient de ces données des informations, des tendances voire des prédictions grâce aux outils d’analyse afin d’anticiper et suivre instantanément des phénomènes.

C’est le cas de Netflix qui cherche à comprendre les goûts de ses 65 millions d’abonnés grâce à l’analyse de l’ensemble de ses données collectées et des mot-clés générés. Son moteur de recommandations nous suggère alors des films et séries qui pourraient nous plaire.


L’histoire du big data

C’est dans les archives de la bibliothèque numérique de l’Association for Computing Machinery qu’on retrouve le terme big data, employé pour la première fois en 1997. A l’époque, sa signification est déjà proche de celle d’aujourd’hui puisqu’elle désignait des grands ensembles de données. Face au volume de données toujours croissant, il a fallu repenser le stockage et leur traitement pour continuer à en extraire des informations rapidement. Ainsi Doug Laney, analyste de l’actuel Gartner, énonçait 4 ans plus tard la règles des 3V pour normaliser une définition du big data :

Les 3 V du Big data Les 3 V du Big data


Un 4e « V » a même été ajouté a posteriori pour “Véracité”. Il s’agit de contrôler si la source est crédible et de qualité avant d’exploiter les données, c’est ce qu’on appelle aujourd’hui le principe de data quality.


Les enjeux du big data

Près de 90% des données ne sont pas structurées.
Vouchercloud


La réussite d’un projet big data dépend en partie de l’intégration de trois facteurs :

  • Qualité des données : les données non structurées et structurées devront passer par une phase de nettoyage pour être utilisables,
  • Budget et infrastructure opérationnelle : des investissements sont à prévoir en termes d’infrastructure matérielle et technique ainsi qu’en compétences informatiques.
  • Décloisonnement des données : il peut être opportun de centraliser l’ensemble des données de différents départements de l’entreprise pour permettre un croisement de données à plus forte valeur ajoutée.


Le stockage du big data

Une fois les informations collectées, elles sont stockées dans des bases de données. Pour traiter toujours plus de données, de nouveaux modes de stockage apparaissent. Ainsi, les entreprises optent de plus en plus pour le cloud computing ou les “supercalculateurs”. Ces ordinateurs sont conçus pour obtenir une vitesse de calcul inégalée, et sont notamment destinés à des centres de recherche. Cependant, ils nécessitent une alimentation électrique puissante et une climatisation pour éviter la surchauffe des serveurs.


L’info à retenir

Le big data est l’ensemble des grands volumes de données collectées qui seront analysés pour en tirer de la valeur. On en extrait des informations, des tendances voire des prédictions grâce aux outils d’analyse appropriés.


Aller plus loin