Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Le Drill-Down au service du Data Mining


Rédigé par Samuel DODE le 22 Mars 2007



Le Drill-Down au service du Data Mining

L'une des étapes préliminaires aux projets de data mining consiste à explorer les données de façon interactive, afin de pouvoir dégager une première "impression" sur les variables. Le data mining visuel, notamment le Drill-Down Interactif fournit une combinaison d'outils graphiques, d'analyses exploratoires qui vont permettre d'étudier rapidement la distribution des variables, les relations entre elles et d'identifier les observations appartenant à des sous-groupes spécifiques dans les données.

Ce puissant outil graphique, permet de sélectionner tout ou partie des variables étudiées et de regarder interactivement ce qui se passe "à l'intérieur" de chacune d'elles, en cliquant simplement sur des modalités particulières par exemple dans un histogramme.

Comment Fonctionne le Drill-Down Interactif
Dans le contexte du data mining, l’outil vous permet de sélectionner des observations issues de jeux de données gigantesques en sélectionnant des sous-groupes sur la base de modalités spécifiques ou d'intervalles de valeurs de certaines variables intéressantes ; d'une certaine manière, vous pouvez mettre en évidence les "couches les plus profondes" ou les "strates" de vos données en étudiant des sous-ensembles d'observations de plus en plus petits, déterminés par des filtres logiques de plus en plus complexes.

Prenons l’exemple d’une banque qui souhaite étudier la solvabilité selon différents critères sociologiques : type d’emploi (ouvrier, ingénieur, cadre, …), statut marital, nombre d’enfants, type de logement, nombre de prêts au cours des N dernières années …
Le data miner va pouvoir choisir l’une de ses variables puis étudier chacune de ses classes et étudier la solvabilité en affinant étape par étape la décomposition en sous-classes. On définit ainsi des sous-ensembles de données sur lesquels on peut calculer de nouvelles statistiques et mettre en évidence des observations atypiques. Il est alors très facile de poursuivre l’étude en profondeur et/ou de remonter d’un niveau de sélection (Drill-up) pour choisir une autre modalité, un autre groupe et poursuivre l’analyse.

Le drill-down se fait aussi bien sur des variables catégorielles que continues. Pour les variables catégorielles, les catégories sont directement disponibles dans les données. Pour les variables continues, il existe un certain nombre de méthodes pour ventiler les valeurs en catégories. Par exemple, on peut définir un certain nombre de catégories dans lesquelles seront réparties l'étendue des valeurs de la variable continue de drill-down, il est aussi possible de spécifier l’incrément des catégories consécutives ou de spécifier des bornes spécifiques pour les variables continues du drill-down. Par exemple, pour une variable continue Revenu, des tranches de revenu adaptées à l’étude peuvent être définies, puis le data miner réalise une opération de drill-down sur ces tranches afin d'étudier la distribution des variables à l'intérieur de chaque tranche.

STATISTICA Data Miner, solution de data mining de la gamme STATISTICA intègre plusieurs centaines de fonctionnalités de data mining, dont le Drill-Down interactif.