Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Pourquoi faut-il challenger ses Data Scientists


Rédigé par Olivier FABRE, SocialIntelligence le 25 Janvier 2017

L'objectif de la Data Science peut être la modélisation du comportement du consommateur, être capable de prévoir en fonction de ses caractéristiques (son âge, sexe, taille, ce qu'il a déjà consommé, son niveau d'étude...), son comportement face à une offre produit (appétence produit). Malgré l'utilisation de méthodologies et de techniques mathématiques très évoluées, la Data Science n'est pas une science exacte, mais une science expérimentale.



Olivier FABRE, SocialIntelligence
Olivier FABRE, SocialIntelligence
Ainsi, la quête d'un modèle parfait est une chimère. Dans la réalité d'un projet, la réalisation d'un modèle de Machine Learning est toujours perfectible. D'autre part, pour chaque cas d'usage, les méthodes de travail et algorithmes utilisés pourrons être complètement différents. Dans certains cas ils pourront être très performants et pour le cas suivant s'avérer très décevants. En fonction de son expérience, le Data Scientist devra adapter ses outils aux cas qu'il aura à traiter, sans jamais être sûr de la meilleure solution. A titre d'illustration, il n'est pas rare que les champions de compétitions Kaggle.com se retrouvent parfois en queue de classement. Il faut donc aborder cette discipline avec beaucoup d'humilité.

Fort de ce constat, les entreprises désireuses, à juste titre, de se lancer dans la Data Science doivent être vigilantes à certains écueils.
L'auto-satisfaction : Il est fréquent que de simples modèles de machine learning apportent rapidement une amélioration significative par rapport aux méthodes traditionnelles.
Peut-on faire bien mieux avec un peu plus de temps? Sans doute.

La quête du modèle parfait : A l'opposé, dans le cadre de compétitions, certaines équipes de Data Scientists peuvent passer plusieurs mois à tuner des modèles, pour ne gagner que quelques millièmes de performance.
Peut-on aller plus vite pour des performances proches? Sans doute.

Pourquoi faut-il challenger ses Data Scientists
t, est la durée passée à créer un modèle, plus la durée est longue, meilleur est le modèle. Meilleur le modèle est, plus les retours attendus (gains) sont élevés, mais plus il est coûteux.

- t0 : initialisation du projet, mobilisation de l'équipe de Data Scientists
- t0 → t1 : préparation du modèle le plus simple avant sa mise en production
- t1 : mise en production du modèle
- t2 → t3 : Les modèles mis en production sont (marginalement) rentables. Les gains d'un modèle plus performant couvrent et dépassent les coûts du temps passé à le produire.
- Au delà de t3, les modèles mis en production ne sont marginalement plus rentables. Les gains d'un modèle plus performant ne couvrent pas les coûts du temps passer à le produire.

Ainsi, il s'agit de trouver le bon équilibre entre temps passé à modéliser et performance du modèle. A cet égard, l'intervention ponctuelle d'une deuxième équipe permet de challenger la première. Au delà du challenge à relever entre les deux équipes et la stimulation positive qui doit en ressortir, cela permet de fixer des repères et de bencher ses modèles. Comme nous avons pu le voir plus haut, des méthodes de travail et des algorithmes distincts peuvent aboutir à des performances significativement différentes, difficiles à évaluer a priori.

Nous préconisons ainsi l'intervention en « Fast-Track » d'une équipe tierce, interne ou externe, avec d'autres méthodes et outils, afin d'éviter l'auto-satisfaction et d’arrêter la course à la performance sans ROI.




Commentaires

1.Posté par Vallaud Thierry le 31/01/2017 22:44
Article intéressant et qui m’interpelle par certains aspects

Il n’y pas de modèle parfait, on est d’accord.

La réalisation d’un modèle de machine learning est toujours perfectible mais au-delà d’un certain niveau de prédiction et en fonction du sujet traité il n’est pas toujours nécessaire d’atteindre les niveaux d’ajustement (de sur ajustement souvent) de certaines compétitions.

Avec l’expérience certains modèles sur certaines variables marchent à priori mieux que d’autres et les données vous « parles » dès la phase d’exploration ce celle-ci. Donc la modélisation coule de source. Pour être productiviste vous appliquer en « data scientist expérimenté » plus vite le bon modèle dès le départ. En tout humilité, ce data scientist sait donc à priori qu’elle est la meilleure solution, c’est juste un mix d’expérience et un peu de chance.

Ce qui n’est pas vrai dans les faits, c’est que sur des modèles appliqués au-delà d’une certaine durée de mise au point, au-delà d’un rendement marginal, le modèle risque même de se dégrader. Car à part dans une recherche fondamentale, si vous chercher trop longtemps le « bon » modèle c’est assez mauvais signe.

Donc il faut un temps « juste » et un « juste » temps. On ne peut donc que valider la courbe des rendements de l’article qui s’applique à tous les projets indépendamment de la data science.

Donc au-delà de la deuxième équipe (comme dans un long métrage) je conseille de chercher l’expérience dans la première équipe. C’est l’expérience qui fait trouver plus vite le meilleur modèle en réalité.

Je m’interroge donc sur l’intervention « en plus » en Fast Track d’une troisième équipe et son impact sur le ROI, pour en discuter…

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store