Le mot de la semaine :
data mining

Cette semaine Matlo vous emmène, pioche à la main, à la découverte du data mining.

page.alt
  • Data mining
  • Analyse de données
  • Exploration des données

Le mot de la semaine : data mining

Chaque semaine, Matlo décrypte un mot lié à l’univers des données. Aujourd’hui, le data mining.

Une méthode d’exploration des données

Le data mining, forage ou exploration des données en français, est un procédé d’extraction d’informations cachées dans de grands volumes de données. Le data mining révèle des liens entre des phénomènes afin de mieux décider. Il établit des schémas récurrents à partir des données (patterns). Le pattern est un modèle auquel répondent les données.

Il y a des patterns issus de techniques variées d’analyse des données :

  • Association : mettre en relation des événements entre eux
  • Analyse de séquence : identifier un événement qui en cause un autre
  • Classification : catégoriser les données homogènes
  • Clustering : regrouper des données et vérifier leurs caractéristiques communes
  • Analyse prédictive : anticiper des tendances
étapes d’un projet data mining Étapes d’un projet data mining

Les actions de data mining peuvent être automatiques ou semi-automatiques par :

  • des algorithmes
  • l’intelligence artificielle
  • la data visualisation
  • des arbres décisionnels
  • l’intégration de règles « si-alors »


N’importe qui, n’importe quand… mais pas n’importe comment

Dès 1960, les statisticiens évoquent la « pêche de données » pour désigner avec mépris l’analyse de données sans hypothèse initiale. Le data mining naît dans les années 1980 pour répondre au besoin d’exploiter plus facilement des bases de données volumineuses. C’est Gregory Piatesky-Shapiro qui formalise le terme dans son livre Knowledge Discovery in Databases.

Bien qu’il s’adresse autrefois à des secteurs centrés sur les données comme les banques ou la grande distribution, le data mining concerne aujourd’hui tous les services comme le marketing, les RH, etc.

Là où les méthodes classiques d’analyse reposaient sur des enquêtes ou des sondages, l’exploration par le data mining se base sur des donnés plus fiables, car émises par le client lui-même, via les réseaux sociaux par exemple.

Une méthode de datamining développée par IBM


Tendances et enjeux du data mining

Le datamining se renouvelle en continu et de nouvelles tendances émergent :

  • Instantanéité :le real time data mining est en plein essor. La donnée n’est plus stockée mais propulsée directement à l’utilisateur final. Il a notamment permis de mettre au point des systèmes de détection-intrusion ou de repérer des fraudes. Le pattern sert alors à détecter une anomalie. Il peut aussi transmettre l’état du trafic via des GPS.
  • Données localisées : le Data Mining spatial se base sur la géolocalisation. Il produit des photos aéro-spatiales ou encore des mesures de distances utiles en astronomie ou aux systèmes d’information géographique. Outre les entreprises, la géolocalisation peut s’appliquer aux individus lambdas par l’extraction de données mobile par exemple. La question de la vie privée et de la sécurité des données se pose alors.
  • Usage facilité : Le Distributed data mining permet d’accéder à des données hébergées dans plusieurs succursales ou organisations d’une même entreprise via des algorithmes. Le Data Mining Query Language (DMQL) tend à apporter un usage interactif et ad hoc au data mining.


Les applications du forage des données

Le data mining ne se limite à aucun domaine. Par exemple, la NBA explore ses images de matchs de basket. Elle analyse les mouvements de ses joueurs pour aider leurs coachs à adopter de nouvelles stratégies.

De même, un directeur marketing s’interrogera : « Comment prédire quel client achètera quel produit ? ». Pour y répondre, il analyse les données de transaction par point de vente et identifie les produits tendance et leurs périodes d’achat. C’est le cas de WalMart qui autorise ses fournisseurs à accéder à ses données pour gérer les inventaires et repérer des opportunités.


Avantage et inconvénients des outils data visualisation

Le datamining explique le passé et prédit le futur en explorant les données. Un vrai gain pour les entreprises qui peuvent :

  • Mettre en place rapidement l’analyse des données
  • Mieux comprendre les comportements et le parcours client
  • Anticiper, mieux décider et agir

La puissance d’analyse du data mining exige toujours une rigueur de collecte pour appuyer sa compréhension sur des données fiables. De même, il est essentiel d’aborder la problématique initiale sous différents angles pour ne pas se contenter de patterns sans réponse.


L’info à retenir

Le data mining, ou l’exploration des données est une méthode d’extraction d’informations cachées dans des données volumineuses. Elle s’ancre dans l’ère du big data et établit des corrélations entre les données à partir de patterns, des modèles qui lient les données de manière récurrente. Le data mining doit permettre de mieux décider, voire prédire des tendances.



Article similaire