Hélène Ivanoff, Directeur Associé, Complex Systems
Data scientits, dataminers : une ressource rare
Le datamining et le machine learning procurent un réel avantage concurrentiel, que soit dans le domaine du risque crédit, très tôt exploré, du churn dans les telecoms, pour la prévision des comportements clients et la personnalisation des offres, ou plus récemment pour la maintenance prédictive ou les ressources humaines.
Les entreprises collectent des volumes de données considérables, mettent en place des départements data et engagent des data scientists, pour bénéficier de la puissance du machine learning et de l'analyse prédictive. Mais voilà plusieurs années déjà qu'on annonce la pénurie de ces profils experts. Aux Etats-Unis, on parle d'un manque de 190 000 data scientists d'ici 2018, alors qu'en France, Jérémy Harroch, organisateur du salon Datajob, estime les besoins annuels à 2000 à 3000 data scientists, alors qu'il n'en sort des écoles pas plus de 300.
Une réponse possible est l'automatisation de certaines tâches réalisées par les experts. Le questionnement n'est pas nouveau. En 2014, l'université de Cambridge et le MIT créaient le projet "Automatic Statistician", dont le but est "construire une intelligence artificielle pour la data science, pour aider les gens à donner du sens à leur données".
L’automatisation : tendance lourde de notre époque
Depuis plusieurs siècles et à un rythme de plus en plus élevé, l'automatisation envahit notre quotidien, jusqu'à parfois bouleverser nos vies.
Loin de l'invention de la première machine à calculer au début du 17ème siècle par le scientifique allemand Wilhelm Schickard, suivie de celle de Pascal quelques années plus tard, l'automatisation a dépassé le cadre initial de l'exécution de tâches purement techniques, pour envahir celui de domaines beaucoup plus 'humains".
Aujourd’hui, les journalistes sont déjà en concurrence avec des agents artificiels, les modérateurs de forums secondés par des algorithmes, les médecins assistés dans leur diagnostic par des machines... Même la conduite des voitures sera bientôt déléguée à des véhicules intelligents.
L'automatisation permet d'aller plus vite, de gagner en productivité, mais aussi de dépasser les a priori, d'améliorer la sécurité...
Que peut apporter l'automatisation au datamining ?
L’automatisation intervient sur l'ensemble des process de datamining et de machine learning :
• la préparation automatique des données : les dataminers utilisent leur expertise métier pour traiter et préparer les données brutes, et décider de comment les utiliser dans, par exemple, un modèle prédictif. L'automatisation améliore et raccourcit drastiquement cette étape. Lors de la construction de modèles prédictifs, le dataminer construit différents échantillons pour modéliser puis valider les résultats obtenus. L'automatisation de ces process permet de garantir la représentativité des échantillons et de gagner du temps
• la modélisation des comportements : les logiciels de datamining sont globalement des bibliothèques d'algorithmes, parmi lesquels choisir et paramétrer celui qui semble le plus adapté. A ceci s'ajoutent la sélection des variables initiales et l'analyse des corrélations, qui réservent l'utilisation de ces solutions à des experts. L’automatisation permet de sélectionner l'algorithme le plus adapté et effectue sans intervention humaine tous les tests de validation nécessaires.
• transparence : si certains modèles prédictifs peuvent être appliqués directement, il n'en va pas de même pour ceux ayant une implication stratégique importante. Automatiser la modélisation, c'est aussi permettre aux dataminers mais aussi aux utilisateurs métier de comprendre et d'évaluer les résultats d'un modèle
• facilité de déploiement : les meilleurs modèles ne sont d’aucune utilité s'ils ne peuvent être mis en production rapidement et facilement. Les ressources nécessaires à leur déploiement ne doivent pas dépasser les gains qu'on en espère. L'automatisation a tout son rôle à jouer dans cette étape cruciale, qu'elle soit effectuée en batch ou en temps réel.
• l'élargissement du profil utilisateur : l'automatisation du datamining permet à des profils différents de prendre part à la valorisation des données de l'entreprise : outre les dataminers et data scientists, ce seront des analystes statistiques confirmés ayant peu de possibilité de programmer, ou des analystes métier qui veulent comprendre les comportements clients.
L’automatisation du datamining ne signifie pas la disparition des experts. Il est de leur ressort de comprendre et traduire les problématiques business,et d'expliquer les résultats des analyses aux décideurs. L'automatisation du datamining facilite la montée en compétences et la diffusion de la connaissance client dans l'entreprise, et permet à tous de participer à l'aventure des big data.
Le datamining et le machine learning procurent un réel avantage concurrentiel, que soit dans le domaine du risque crédit, très tôt exploré, du churn dans les telecoms, pour la prévision des comportements clients et la personnalisation des offres, ou plus récemment pour la maintenance prédictive ou les ressources humaines.
Les entreprises collectent des volumes de données considérables, mettent en place des départements data et engagent des data scientists, pour bénéficier de la puissance du machine learning et de l'analyse prédictive. Mais voilà plusieurs années déjà qu'on annonce la pénurie de ces profils experts. Aux Etats-Unis, on parle d'un manque de 190 000 data scientists d'ici 2018, alors qu'en France, Jérémy Harroch, organisateur du salon Datajob, estime les besoins annuels à 2000 à 3000 data scientists, alors qu'il n'en sort des écoles pas plus de 300.
Une réponse possible est l'automatisation de certaines tâches réalisées par les experts. Le questionnement n'est pas nouveau. En 2014, l'université de Cambridge et le MIT créaient le projet "Automatic Statistician", dont le but est "construire une intelligence artificielle pour la data science, pour aider les gens à donner du sens à leur données".
L’automatisation : tendance lourde de notre époque
Depuis plusieurs siècles et à un rythme de plus en plus élevé, l'automatisation envahit notre quotidien, jusqu'à parfois bouleverser nos vies.
Loin de l'invention de la première machine à calculer au début du 17ème siècle par le scientifique allemand Wilhelm Schickard, suivie de celle de Pascal quelques années plus tard, l'automatisation a dépassé le cadre initial de l'exécution de tâches purement techniques, pour envahir celui de domaines beaucoup plus 'humains".
Aujourd’hui, les journalistes sont déjà en concurrence avec des agents artificiels, les modérateurs de forums secondés par des algorithmes, les médecins assistés dans leur diagnostic par des machines... Même la conduite des voitures sera bientôt déléguée à des véhicules intelligents.
L'automatisation permet d'aller plus vite, de gagner en productivité, mais aussi de dépasser les a priori, d'améliorer la sécurité...
Que peut apporter l'automatisation au datamining ?
L’automatisation intervient sur l'ensemble des process de datamining et de machine learning :
• la préparation automatique des données : les dataminers utilisent leur expertise métier pour traiter et préparer les données brutes, et décider de comment les utiliser dans, par exemple, un modèle prédictif. L'automatisation améliore et raccourcit drastiquement cette étape. Lors de la construction de modèles prédictifs, le dataminer construit différents échantillons pour modéliser puis valider les résultats obtenus. L'automatisation de ces process permet de garantir la représentativité des échantillons et de gagner du temps
• la modélisation des comportements : les logiciels de datamining sont globalement des bibliothèques d'algorithmes, parmi lesquels choisir et paramétrer celui qui semble le plus adapté. A ceci s'ajoutent la sélection des variables initiales et l'analyse des corrélations, qui réservent l'utilisation de ces solutions à des experts. L’automatisation permet de sélectionner l'algorithme le plus adapté et effectue sans intervention humaine tous les tests de validation nécessaires.
• transparence : si certains modèles prédictifs peuvent être appliqués directement, il n'en va pas de même pour ceux ayant une implication stratégique importante. Automatiser la modélisation, c'est aussi permettre aux dataminers mais aussi aux utilisateurs métier de comprendre et d'évaluer les résultats d'un modèle
• facilité de déploiement : les meilleurs modèles ne sont d’aucune utilité s'ils ne peuvent être mis en production rapidement et facilement. Les ressources nécessaires à leur déploiement ne doivent pas dépasser les gains qu'on en espère. L'automatisation a tout son rôle à jouer dans cette étape cruciale, qu'elle soit effectuée en batch ou en temps réel.
• l'élargissement du profil utilisateur : l'automatisation du datamining permet à des profils différents de prendre part à la valorisation des données de l'entreprise : outre les dataminers et data scientists, ce seront des analystes statistiques confirmés ayant peu de possibilité de programmer, ou des analystes métier qui veulent comprendre les comportements clients.
L’automatisation du datamining ne signifie pas la disparition des experts. Il est de leur ressort de comprendre et traduire les problématiques business,et d'expliquer les résultats des analyses aux décideurs. L'automatisation du datamining facilite la montée en compétences et la diffusion de la connaissance client dans l'entreprise, et permet à tous de participer à l'aventure des big data.
Hélène Ivanoff est Directeur associée chez COMPLEX SYSTEMS. L'entreprise a très tôt investit dans la recherche en automatisation des processus datamining, avec le lancement de la solution DataLab en 2001, dont les fonctionnalités automatiques de pré-traitement et d'exploration des données ont conquis les utilisateurs de SAS et SPSS. Nous éditons aujourd'hui la solution KNOWLBOX ® , qui décuple la productivité des dataminers et les aide à construire, plus vite et plus simplement, de meilleurs modèles, et donne enfin aux analystes métiers la possibilité d'utiliser les données pour de meilleures décisions.
Autres articles
-
COMPLEX SYSTEMS aborde une nouvelle phase de son développement et se renomme SPINDATA
-
Données dures, données molles, quelles données pour enrichir les bases clients ?
-
Data Marketing : @Belambra choisit la plate-forme KNOWLBOX
-
Kaliscope : nouvelle solution de qualification géomarketing issue du carroyage INSEE
-
TELESHOPPING choisit la plate-forme analytique KNOWLBOX pour mieux connaitre ses clients et augmenter le ROI de ses opérations marketing