Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Pourquoi faut-il automatiser le datamining ?


Rédigé par Hélène Ivanoff, Directeur Associé, Complex Systems le 27 Avril 2016

Donner du sens aux montagnes de données collectées jour après jour nécessite des compétences spécifiques  en data science,  qui sont difficiles à trouver... et difficile à garder.
Et si certaines des tâches effectuées par ces spécialistes pouvaient être facilitées, voire éliminées par l'automatisation et le machine learning ? Par exemple : 
- simplifier et accélérer la préparation des données. Il ne serait plus nécessaire de passer 80% du temps à retraiter les données avant le début de l'analyse.
- construire automatiquement et optimiser les modèles prédictifs. Pour en finir avec les ciblages intuitifs et les process manuels.
- déployer les modèles en un seul clic. Pour raccourcir les temps de mise en production et gagner en efficacité opérationnelle
Voilà qui changerait beaucoup de choses.



Hélène Ivanoff, Directeur Associé, Complex Systems
Hélène Ivanoff, Directeur Associé, Complex Systems
Data scientits, dataminers : une ressource rare
Le datamining et le machine learning procurent un réel avantage concurrentiel, que soit dans le domaine du risque crédit, très tôt exploré, du churn dans les telecoms, pour la prévision des comportements clients et la personnalisation des offres, ou plus récemment pour la maintenance prédictive ou les ressources humaines. 
Les entreprises collectent des volumes de données considérables, mettent en place des départements data et engagent des data scientists, pour bénéficier de la puissance du machine learning et de l'analyse prédictive. Mais voilà plusieurs années déjà qu'on annonce la pénurie de ces profils experts. Aux Etats-Unis, on parle d'un manque  de 190 000 data scientists d'ici 2018, alors qu'en France, Jérémy Harroch, organisateur du salon Datajob, estime les besoins annuels à 2000 à 3000 data scientists, alors qu'il n'en sort des écoles pas plus de 300.
Une réponse possible est l'automatisation de certaines tâches réalisées par les experts. Le questionnement n'est pas nouveau. En 2014, l'université de Cambridge et le MIT créaient le projet "Automatic Statistician", dont le but est "construire une intelligence artificielle pour la data science, pour aider les gens à donner du sens à leur données".
 
L’automatisation : tendance lourde de notre époque
Depuis plusieurs siècles et à un rythme de plus en plus élevé, l'automatisation envahit notre quotidien, jusqu'à parfois bouleverser nos vies.
Loin de l'invention de la première machine  à calculer au début du 17ème siècle par le scientifique allemand Wilhelm Schickard, suivie de celle de Pascal quelques années plus tard, l'automatisation a dépassé le cadre initial de l'exécution de tâches purement techniques, pour envahir celui de domaines beaucoup plus 'humains".
Aujourd’hui, les journalistes sont déjà en concurrence avec des agents artificiels, les modérateurs de forums secondés par des algorithmes, les médecins assistés dans leur diagnostic par des machines... Même la conduite des voitures sera bientôt déléguée à des véhicules intelligents. 
L'automatisation permet d'aller plus vite, de gagner en productivité, mais aussi de dépasser les a priori, d'améliorer la sécurité...
 
Que peut apporter l'automatisation au datamining ?
L’automatisation intervient sur l'ensemble des process de datamining et de machine learning : 
 
• la préparation automatique des données : les dataminers utilisent leur expertise métier pour traiter et préparer les données brutes, et décider de comment les utiliser dans, par exemple, un modèle prédictif. L'automatisation améliore et raccourcit drastiquement cette étape. Lors de la construction de modèles prédictifs, le dataminer construit différents échantillons pour modéliser puis valider les résultats obtenus. L'automatisation de ces process permet de garantir la représentativité des échantillons et de gagner du temps
•  la modélisation des comportements : les logiciels de datamining sont globalement des bibliothèques d'algorithmes, parmi lesquels choisir  et paramétrer celui qui semble le plus adapté. A ceci s'ajoutent la sélection des variables initiales et l'analyse des corrélations,  qui réservent l'utilisation de ces solutions à des experts. L’automatisation permet de sélectionner l'algorithme le plus adapté et effectue sans intervention humaine tous les tests de validation nécessaires.
• transparence : si certains modèles prédictifs peuvent être appliqués directement, il n'en va pas de même pour ceux ayant une implication stratégique importante. Automatiser la modélisation, c'est aussi permettre aux dataminers mais aussi aux utilisateurs métier de comprendre et d'évaluer les résultats d'un modèle
• facilité de déploiement : les meilleurs modèles ne sont d’aucune utilité s'ils ne peuvent être mis en production rapidement et facilement. Les ressources nécessaires à leur déploiement ne doivent pas dépasser les gains qu'on en espère. L'automatisation a tout son rôle à jouer dans cette étape cruciale, qu'elle soit effectuée en batch ou en temps réel.
• l'élargissement du profil utilisateur : l'automatisation du datamining permet à des profils différents de prendre part à la valorisation des données de l'entreprise : outre les dataminers et data scientists, ce seront des  analystes statistiques confirmés ayant peu de possibilité de programmer, ou des analystes métier qui veulent comprendre les comportements clients. 
 
L’automatisation du datamining ne signifie pas la disparition des experts. Il est de leur ressort de comprendre et traduire les problématiques business,et d'expliquer les résultats des analyses aux décideurs.  L'automatisation du datamining facilite la montée en compétences et la diffusion de la connaissance client dans l'entreprise, et permet à tous de participer à l'aventure des big data.

Hélène Ivanoff est Directeur associée chez COMPLEX SYSTEMS. L'entreprise a très tôt investit dans la recherche en automatisation des processus datamining, avec le lancement de la solution DataLab en 2001, dont les fonctionnalités automatiques de pré-traitement et d'exploration des données ont conquis les utilisateurs de SAS et SPSS. Nous éditons aujourd'hui la solution KNOWLBOX ® , qui décuple la productivité des dataminers et les aide à construire, plus vite et plus simplement, de meilleurs modèles, et donne enfin aux analystes métiers la possibilité d'utiliser les données pour de meilleures décisions.




Commentaires

1.Posté par Thierry Vallaud le 29/04/2016 11:31
Hélène tu as raison mais quelques précisions :
L'automatisation ou la conviavilté des interfaces ? Des outils comme Modeler d'IBM, SAS EM, mais surtout des nouveaux Azure ML, Amazon Machine Learning, Data Robot et des freewares : Rapid Miner, Orange ont à la fois la puissance de calcul pour auto adapter leur modèle sur des clusters Hadoop à la volée, la possibilité d'y mettre du code en entrée ou sortie (Python, R, PMML) mais aussi des interfaces objets très conviviales permettant à l'utilisateur "métier" donc assez peu data scientist de faire toutes ces taches et de créer des modèles assez sophistiqués sur un plan statistique et mathématique.
L'interface conviviale "sous windows" permettant de générer le code de manière transparente est plus importante encore que le temps réel finalement même si les deux sont liés. En plus ces outils permettent de publié le modèle en prod instanément et tout cela en mode ASP sur le web. Génial de pouvoir faire des modèles de data mining/machine learning sur des énormes volumes de données en vacances de chez sa mamie.

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store