Les Forêts Aléatoires en data mining

Le module STATISTICA Random Forest est intégré à l’outil de data mining STATISTICA Data Miner.
Il reprend les travaux effectués par Breiman et répond aussi bien à des problématiques de classification que de régression.
Une Forêt Aléatoire (Random Forest) est constituée d’un ensemble d’arbres simples de prévision, chacun étant capable de produire une réponse lorsqu’on lui présente un sous-ensemble de prédicteurs.

Pour les problématiques de classification, la réponse prend la forme d’une classe qui associe un ensemble (classe) de valeurs indépendantes (prédicteur) à une des catégories présente dans la variable indépendante.
Concernant la régression, l’arbre est une estimation de la variable dépendante en fonction des prédicteurs.
Une forêt aléatoire consiste en un nombre arbitraire (un ensemble) d’arbres simples, utilisés pour calculer un vote pour la classe la plus populaire (classification), ou dont les réponses sont combinées (moyennées) pour obtenir une estimation de la variable dépendante (régression).

En utilisant les ensembles d’arbres on obtient une amélioration significative de la prévision (c’est-à-dire une meilleure tendance à prévoir sur les nouvelles données), par rapport aux techniques classiques C&RT, CHART …
La réponse de chaque arbre dépend du sous-ensemble de prédicteurs choisis indépendamment (avec remplacement) et avec la même distribution pour tous les arbres de la forêt.
Dans le module STATISTICA Random Forest, la taille optimale du sous-ensembles de variables prédicteur est donnée par log(M+1), où M est le nombre de variables retenues dans le fichier d’entraînement d’origine.

Les Forêts Aléatoires peuvent s’appliquer sur des données à la fois nominales et continues.
Cette technique est idéale pour les problématiques où le nombre de catégories pour les variables est trop nombreux pour permettre l’utilisation de techniques classiques comme les Arbres de Décision, la Régression Logit …).
De plus, sa faculté de pouvoir faire de la prévision sur un sous-ensemble aléatoire de prédicteurs apporte une solution idéale pour résoudre les problématiques où le nombre de variables à étudier dépasse un certain seuil de compréhension.

Enfin, l’implémentation de l’algorithme Random Forest à STATISTICA Data Miner permet de traiter des fichiers où les variables prédicteurs comportent des valeurs manquantes.
Lorsque le modèle rencontre des valeurs manquantes pour une observation donnée, la prévision faite pour cette observation se base sur le nœud précédant (non-terminal) de l’arbre respectif. Il n’est par conséquent alors pas nécessaire de supprimer de l’analyse les données comportant des valeurs manquantes.

Samuel DODE a rejoint StatSoft France il y a 5 ans. Il y occupe la fonction de Directeur Adjoint StatSoft France = Filiale française de StatSoft Inc, éditeur de la gamme de produit STATISTICA. La gamme StatSoft va du reporting au data mining en passant par les analyses de données classiques en statistiques.

Abonnez-vous gratuitement à Decideo !

Les Forêts Aléatoires en data mining

NVIDIA AI Foundry crée des modèles d'IA générative Llama 3.1 personnalisés pour les entreprises du monde entier - 24/07/2024

Deepfake, décryptage d’une arnaque - 23/07/2024

La génération augmentée par récupération (RAG) et l'IA générative - 22/07/2024

Mistral AI et NVIDIA dévoilent Mistral NeMo 12B, un modèle d'IA d'entreprise de pointe - 18/07/2024

L’alliance entre l'innovation d'une start-up et l’industrialisation d’une grande entreprise : IBM met le modèle « Large » de Mistral à disposition sur watsonx - 18/07/2024