Les Forêts Aléatoires en data mining


Rédigé par Samuel DODE le 12 Janvier 2006

Les forêts aléatoires sont une des dernières techniques statistiques mises à la disposition des entreprises dont les problématiques concerne l’analyse de grosses volumétries de données, en terme de variables explicatives, en terme de nombre de catégories par variables (lot, référence produit, codes …) ou par la présence de valeurs manquantes.



Le module STATISTICA Random Forest est intégré à l’outil de data mining STATISTICA Data Miner.
Il reprend les travaux effectués par Breiman et répond aussi bien à des problématiques de classification que de régression.
Une Forêt Aléatoire (Random Forest) est constituée d’un ensemble d’arbres simples de prévision, chacun étant capable de produire une réponse lorsqu’on lui présente un sous-ensemble de prédicteurs.

Pour les problématiques de classification, la réponse prend la forme d’une classe qui associe un ensemble (classe) de valeurs indépendantes (prédicteur) à une des catégories présente dans la variable indépendante.
Concernant la régression, l’arbre est une estimation de la variable dépendante en fonction des prédicteurs.
Une forêt aléatoire consiste en un nombre arbitraire (un ensemble) d’arbres simples, utilisés pour calculer un vote pour la classe la plus populaire (classification), ou dont les réponses sont combinées (moyennées) pour obtenir une estimation de la variable dépendante (régression).

En utilisant les ensembles d’arbres on obtient une amélioration significative de la prévision (c’est-à-dire une meilleure tendance à prévoir sur les nouvelles données), par rapport aux techniques classiques C&RT, CHART …
La réponse de chaque arbre dépend du sous-ensemble de prédicteurs choisis indépendamment (avec remplacement) et avec la même distribution pour tous les arbres de la forêt.
Dans le module STATISTICA Random Forest, la taille optimale du sous-ensembles de variables prédicteur est donnée par log(M+1), où M est le nombre de variables retenues dans le fichier d’entraînement d’origine.

Les Forêts Aléatoires peuvent s’appliquer sur des données à la fois nominales et continues.
Cette technique est idéale pour les problématiques où le nombre de catégories pour les variables est trop nombreux pour permettre l’utilisation de techniques classiques comme les Arbres de Décision, la Régression Logit …).
De plus, sa faculté de pouvoir faire de la prévision sur un sous-ensemble aléatoire de prédicteurs apporte une solution idéale pour résoudre les problématiques où le nombre de variables à étudier dépasse un certain seuil de compréhension.

Enfin, l’implémentation de l’algorithme Random Forest à STATISTICA Data Miner permet de traiter des fichiers où les variables prédicteurs comportent des valeurs manquantes.
Lorsque le modèle rencontre des valeurs manquantes pour une observation donnée, la prévision faite pour cette observation se base sur le nœud précédant (non-terminal) de l’arbre respectif. Il n’est par conséquent alors pas nécessaire de supprimer de l’analyse les données comportant des valeurs manquantes.

Samuel DODE a rejoint StatSoft France il y a 5 ans. Il y occupe la fonction de Directeur Adjoint StatSoft France = Filiale française de StatSoft Inc, éditeur de la gamme de produit STATISTICA. La gamme StatSoft va du reporting au data mining en passant par les analyses de données classiques en statistiques.



Dans la même rubrique :