Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Attention: les suppositions mettent en péril la Data Science


Rédigé par le 3 Juillet 2016

Combien de fois avez-vous entendu : « C’est comme ça que cela marche, est-ce vous pouvez prédire les comportements des clients dans ce sens …” ? Quand une personne laisse sa voiture chez le garagiste, elle n’essaye pas d'influencer la méthode de réparation. Elle explique le problème et éventuellement l’usage de sa voiture. Pourquoi procède-t-on différemment pour les projets de Data Science? Pourquoi de nombreuses personnes aujourd’hui considèrent que ce sont de projets faciles, et essaient d'influencer ces initiatives sans aucune compétence professionnelle?



Abed Ajraou, Director Data & Insights chez First Utility.
Abed Ajraou, Director Data & Insights chez First Utility.
Citizen Data Scientists

Ce nouveau rôle souligné par Gartner ne nous aide pas à résoudre ce problème. Il n’est pas rare de voir un inexpérimenté Data bidouilleur utilisant une régression linéaire sur des données en séries temporelles. Cette personne va s'auto-déclarer Data Scientist et créer ainsi de la confusion dans l’entreprise. Pire que cela, la méthode choisie pour ce type de projet est clef. Les initiatives de Data Sciences ne sont pas des projets IT classiques avec des besoins bien définis et un livrable bien qualifié. Nous devons laisser parler complètement la donnée sans aucune intuition ni supposition, qui créerait du bruit et pousserait l’initiative dans la mauvaise direction. Quelques managers sont maintenant tellement excités par ce type de projets, qu’ils ne réalisent pas qu’il faille un background professionnel pour les mener à bien.

Le temps de l’explication est fini!

Les départements Business aiment comprendre et souvent nous avons les répliques suivantes “Pourquoi?” ou “Je ne comprends pas, je ne peux l’utiliser” ou encore “désolé, je ne comprends cette corrélation …”. Encore une fois, combien de personnes sont capables d’expliquer comment fonctionne un smartphone techniquement? Probablement seulement les scientifiques qui travaillent dans ce domaine, n’est-ce pas? Ainsi, pourquoi certains ressentent le besoin de comprendre le résultat d’un algorithme de machine learning? L’exemple classique qui illustre ceci est Amazon. La suggestion de produits n’utilise aucune logique dans la classification des produits, mais plutôt le résultat de ce que les personnes achètent ou veulent acheter.  Il faudrait passer beaucoup de temps pour comprendre pourquoi après avoir acheté un roman d'aventures, Amazon suggère un pot de peinture. Le machine learning n’est pas fait pour donner une explication, mais pour donner le meilleur résultat business pour un problème précis et ceci en utilisant des données souvent complexes.

Quelques conseils pour avancer

Lors du lancement d’un nouveau projet de Data Science, quelques conseils pour maximiser les chances d’avoir un bon rendu:
1. Avoir une très bonne connaissance de l’objectif business. S’il n’est pas clair dès le début, aidez-vous d’un « Business Analyst » pour comprendre quel est précisément le problème que l’on essaye de résoudre.
2. Supprimer toutes hypothèses ou suppositions. Ne vous faites pas influencer par une personne qui souhaiterait tirer un avantage des conclusions ou qui essayerait de diriger le projet en exposant ses idées.
3. Il y a quelques années, je conseillais d’avoir un sponsor. Dorénavant je précise qu’il faut avoir le bon sponsor, c’est-à-dire une personne qui a une responsabilité business dans l’entreprise et qui a une réelle compréhension de la différence entre un modèle statistique et une initiative machine learning.





Commentaires

1.Posté par Vallaud Thierry le 08/07/2016 00:53
Article intéressant Abed mais avec une sorte de changement de position par rapport à tes publications précédentes le data scientist ne serait pas qu'un informaticien ? Quel retournement d'opinion par rapport à des publications initiales. Ce serait donc plus complexe, il aurait un savoir-faire spécifique ? Ah ?

Sur la suppression de toutes hypothèses, mon "expérience" de data scientist me permet d'affirmer que l'on a plus de chance de trouver des choses quand on pressent qu'elles existent, ce qui n'empêche pas de faire en sorte de pouvoir trouver parfois des choses insoupçonnées. Il y a un effet « expérience » qui fait qu’intuitivement on sait selon les projets/models à priori quoi chercher et quels models appliqués.

Sinon c’est de la recherche fondamentale c’est autre chose. Il me semble bien faire la différence entre un modèle statistique et une initiative de machine learning qui sont du reste à ce stade de maturité des démarches appliquées de machine learning/data mining plus que des initiatives.

Après je conseille vivement de comprendre les modèles de marchine learning utilisés et de se les faire expliquer systémariquement pour sortir du coté boite noire avec des mots simples cela est possible. Du reste pour les consommateurs il serait intéressant que les sociétés soient plus transparentes sur les algorithmes qu’elles utilisent pour nous discriminer : lire Black Box Society de Frank Pasqual.

Sur le sponsor opérationel je suis d’accord c’est mieux pour arriver à faire un projet avec un ROI

2.Posté par Abed Ajraou le 10/07/2016 13:45
Ah revoilà Thierry avec ces commentaires toujours aussi pationnants. Merci pour ce nouveau commentaire, mais dénotant une nouvelle fois une lecture en diagonal et comportant une faible notion de logique ... J'ai effectivement argumenté jadis, je le persiste encore, qu'un Data Scientist n'est un Stasticien, mais est-ce que cela veut forcément dire qu'il est un simple informaticien comme tu le précises ??? Voyons Thierry, fait preuve de largesse et ne soit pas si abrupte.

Aussi, si tu relis bien l'article je parle ici des suppositions que certaines personnes business veulent imposer et je ne parlais pas des intuitions du Data Scientists (et pour être plus précis, petite critique sur le Citizen Data Scientist). Encore probablement un raccourci de lecture.

3.Posté par Vallaud Thierry le 11/07/2016 22:02
Pourtant Abed j'ai bien lu ton article et je pense pas avoir d'habitude "une faible notion de logique". Dans le cas précis c'est donc ton articile qui doit me troubler....
Par ailleurs je pense qu'il faut démocratiser la data science par des outils très interfacés utilisateur avec tous les précautions d'interprétation nécessaire mais sans programmation (ou avec une programmation que si l'utilisateur le souhaite). Donc quelque part "toutes les personnes" de l'entreprise pourrait alors devenir data scientist. C'est l'évolution d'outils comme Azure ML, Watson, R Serveur, Data Robot, AWS Machine Learning....C'est la data science qui va vers le "citoyen" si je te paraphrase un peu.

4.Posté par Abed Ajraou le 12/07/2016 11:53
Encore une autre différence d'opinions ... ce n'est pas l'habit qui fait le moine, et c'est en forgeant que l'on devient forgeron! C'est bien là qu'est le risque Thierry, un outil ne remplace pas une méthode.
Ainsi sans aucune notion scientifique, difficile de devenir Data Scientist.

5.Posté par Vallaud Thierry le 12/07/2016 22:53
Je suis d'accord avec ces "citations"....pleines de bon sens
Mais on peut très bien vulgariser la data science avec des outils très interfacés utilisateurs (end users) sans pour autant ne pas y apporté un raisonnement sans une certaine scientificité, l'un n'empêche pas l'autre. Au contraire. Il y a des graduations dans la scientificité et donc évidement différents profiles de data scientists et il y a des scientifiques qui ne seront jamais data scientist et qui auront donc justement besoin d'outil conviviaux de machine learning pour éclairer leurs travaux. Le livre data un peu mais c'était l'idée de Analyzing the analyzers de Harris et Murphy.

6.Posté par Abed Ajraou le 13/07/2016 06:41
Nous pouvons offrir le télescope le plus sophistiqué au monde à un astronome qui n'a pas les bases nécessaires sur les mouvements des astres, sur les constellations ... est-ce que cela fera de lui un astronome? Un astronome du dimanche peut-être.
Sérieusement, chaque métier a ses spécificités et l'outil ne remplace pas les bases et les connaissances. L'outil permet de gagner du temps, d'être encore plus performant, mais ne fait pas l'Homme!

7.Posté par Vallaud Thierry le 13/07/2016 12:47
Avant il fallait un graphiste pour faire des slides et puis un jour il y a eu ¨Power Point. Ce qui n'empeche pas les graphistes de talents d'en faire de beaucoup plus beaux....et plus vite. C'est un peu la même idée.

8.Posté par Abed Ajraou le 13/07/2016 20:01
Merci Thierry, j'aime cet exemple qui montre à quel point on peut dévaloriser un métier par un outil et conforte mon argumentation. Comparer le travail d'un graphiste avec powerpoint, dénote soit une méconnaissance de l'art du graphisme soit une méconnaissance de powerpoint ... ou des deux!

9.Posté par Vallaud Thierry le 15/07/2016 12:28
Hi Hi tu n'as bien lu à ton tour....je dis au contraire que le graphiste fait mieux et plus beaux mais néanmoins le power point permet de faire des présentations par soit même qui sont parfois pertinentes et dans le fond et dans la forme.
Tu penses réellement que j'ai une méconnaissance du Power Point ? Du graphisme par contre je veux bien. J'ai rencontré une petite start up française Malto jeudi qui fait des trucs supers en exploration visuelle des données, un peu comme Toucan Toco
Quoi qu'il en soit les outils de "machine learning" pour se populariser vont vers plus d'interfaces utilisateurs avec à la fois les risques et les avantages que cela incombent, j'en coviens. J'écris un livre la dessus je t'enverrai un exemplaire.

Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.