Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Premières conclusions de l’Etude Métier Data Scientist : une hybridation, pas une révolution


Rédigé par Thierry Valaud, Socio Logiciels le 16 Octobre 2013

Suite à ma précédente contribution Le data scientist c'est du naming, dans laquelle j’expliquais pourquoi le métier de Data Scientist était pour moi plus qu’un nouveau métier, une évolution naturelle du métier de Data Miner ; j’ai décidé d’interroger des experts reconnus du marché par le biais d’un questionnaire ouvert. Objectif : aller au-delà du mythe et recueillir la vision pragmatique de spécialistes reconnus de la Data. Ces experts ont pour point commun d’avoir déjà utilisé le vocable « Data Scientist » dans leurs propos lors de rencontres ou dans la presse spécialisée.



Thierry Vallaud, Socio Logiciels
Thierry Vallaud, Socio Logiciels
Avant l‘analyse quantitative qui sera dévoilée prochainement, les premiers enseignements dégagés confirment ma précédente prise de position.

Définition du métier Data Scientist : une hybridation entre des métiers déjà connus
La plupart des répondants citent le métier de Data Miner en tant que dénomination précédente du métier de Data Scientist. Les termes de « Statisticien », « Chargé d’études statistiques » ou d’ « Analyste Statisticien » apparaissent également. L’un d’eux précise que cela diffère en fonction du pays. Aux Etats Unis, il s’agirait plutôt « d’informaticiens intelligents au solide bagage scientifique » alors qu’en France les profils seraient plutôt des Statisticiens sortis de formations scientifiques de type Grandes Ecoles.

Des compétences multiples aux socles de connaissance déjà existants
Le socle du Data Scientist est bien pour tous les répondants les statistiques. La notion de compétences multiples est très présente dans les réponses des experts et plusieurs avis concordent sur le fait que le Data Scientist doit disposer d’une triple compétence opérationnelle, à savoir :
• la maitrise des techniques du Data Mining et des Statistiques,
• une appétence aux technologies et aux outils informatiques des bases de données
• un savoir-faire métier dans le domaine d’application des données étudiées (le Marketing est principalement cité).
Un répondant s’interroge sur la notion du Data Scientist omniscient, qui cumulerait à lui seul les trois compétences et suggère que la clé du succès résidera certainement davantage dans le fait de faire collaborer managers, statisticiens et informaticiens.

Des missions précédemment dévolues dans le passé aux data miners
Au quotidien, la répartition des tâches incombant à la fonction de Data Scientist est très variable selon les secteurs, les enjeux, et le niveau d’expérience. Néanmoins, les grandes étapes qui structurent un projet sont citées (toutes ou en partie) par la plupart des répondants :
• Comprendre la problématique métier, les enjeux et les objectifs de l’analyse. Traduire un problème « business » en problème mathématiques/statistiques ;
• Obtenir des données adéquates : trouver les sources de données pertinentes, faire des recommandations sur les bases de données à consolider, modifier, rapatrier, externaliser, internaliser, concevoir des datamarts, voire des entrepôts de données (data warehouses) ;
• Evaluer la qualité et la richesse des données, les analyser et en restituer les résultats. Les intégrer dans le système d’information cible.
Certains répondants font remarquer que la plupart de ces missions étaient déjà dévolues au data miners.

Pas encore de formations dédiées
Les formations préconisées par les répondants sont principalement les écoles d’ingénieurs spécialisées en statistique (de type ENSAI, ENSAE, Télécom), les grandes écoles plus généralistes, de type Centrale, Polytechnique ou la formation continue de la CNAM. Dans tous les cas, le cursus doit associer les statistiques et le Data Mining à l’informatique. Certains confirment que le monde universitaire semble pour l’instant peu adapté (les outils récents n’y sont pas enseignés) et le déconseillent. D’autres préconisent même une formation plus pratique que théorique avec l’autoformation ou un apprentissage du Data Mining « sur le terrain ».

Un avenir prometteur, à condition de miser sur la complémentarité des métiers
Les retours des répondants quant à l’évolution de la fonction de Data Scientist sont plutôt positifs et porteurs d’espoirs. Un expert précise même que « Google annonce que c'est LE métier n°1 d'avenir ». En effet, la plupart des interrogés pensent que la fonction sera « de plus en plus reconnue », « de plus en plus demandée ». Les vrais Data Scientists seront d’ailleurs appelés à exercer des fonctions stratégiques au sein des entreprises. La demande étant croissante, l'écart entre demande et offre va continuer de se creuser et certaines fonctions vont nécessairement évoluer vers la fonction de Data Scientist. En pratique, les Data Scientists vont devoir être plus polyvalents dans les technologies et les outils maitrisés. Ils vont également devoir faire preuve de plus de pédagogie et accroitre encore leur maîtrise du Data Mining. Les volumes de données vont bien entendu augmenter, les types de données vont être de plus en plus hétérogènes, les domaines d’application vont s’élargir, et par conséquent le panel des méthodologies à maîtriser augmentera aussi proportionnellement.
Un spécialiste suggère que les fonctions de Data Management, aujourd’hui assumées par le Data Scientist, devraient pouvoir être confiées à des Data Managers encadrés par un Data Scientist afin que ce dernier consacre moins de temps à la préparation des données et davantage à l’analyse et l’interprétation des résultats.

En réalité, il n’y aurait pas finalement pour certains répondants « un Data Scientist » mais des Data scientists avec des compétences différentes qui devraient s’associer ensemble.

Affaire à suivre donc !




Commentaires
Du plus récent au plus ancien | Du plus ancien au plus récent

12.Posté par Thomas le 05/12/2014 15:27
"Pas encore de formations dédiées ".
C'est vrai en ce qui concerne les formations traditionnelles. Avec internet, de la motivation et une connaissance de l'aanglais on peut se former tout seul maintenant. Il y a une foule de ressource ici ( https://skim.it/u/ThomasV/data-science-learning-path )

11.Posté par Thierry Vallaud le 01/11/2013 11:13
@Abded
Votre cours à l'air très intéressant mais je ne pourrai y assister, des documents sont t'ils en ligne
Récemment j'ai lu cela sur la data visualisation sujet qui n'est pas m'a préoccupation principale mais qui m'intéresse néanmoins
http://www.amazon.fr/Convaincre-avec-graphiques-efficaces-powerpoint/dp/2212553994/ref=pd_rhf_sc_s_cp_1_NTZ2?ie=UTF8&refRID=1TYFAFSHS98TC16N8VH5
http://www.amazon.fr/Visual-complexity-Manuel-Lima/dp/1568989369/ref=sr_1_22?ie=UTF8&qid=1383300312&sr=8-22&keywords=data+representation#_
On pourrait imaginer que la data visualisation soit un des métiers spécialisés de la data science peut être plus proche des "arts graphiques" de la "communication visuelle" et de la "sémiologie" que de l'informatique ou de la statistique ?

10.Posté par Abed Ajraou le 30/10/2013 14:38
Et oui Thierry, la visualisation des données est une science très peu connue (et les statisticiens ne sont pas des exceptions à ce constat). Si vous avez du temps et que vous êtes de passage sur Lyon, venez participer à mon cours:
http://www.linkedin.com/groups/CEFAM-premi%C3%A8re-%C3%A9cole-commerce-enseigner-3831218.S.5798742119501807619?qid=7a7d7001-e97b-40c0-bab4-8243e8f7153a&trk=groups_most_recent-0-b-ttl&goback=%2Egmr_3831218

9.Posté par @Abed le 29/10/2013 09:28
@Abed
C'est un peu exagéré de dire que "la construction de tableaux de bord est une méconnaissance du statisticien", dans mon équipe nous travaillons souvent sur le redesign de tableaux de bord pour des directions fonctionnelles ou des DG pour les rendre plus "métier" avec plus de comparaisons, d'évolutions, de conclusions et moins de dimensions dans une même tableau. Présenter la donnée c'est un des savoir faire de l'analyste de données pour ne pas dire "statisticien".
Après évidement on est en ce moment surtout dans un discours de forme sur le reporting dont Capitaine Dash par exemple est une vision un peu extrèmisante mais intéressante.
Après je fais une différenciation entre la data visualisation et le reporting car pour moi la data visualisation en amont des modèles c'est de l'AED (Analyse Exploratoire des Données) dont les plus fervant partisants prétendent qu'une bonne analyse visuelle des données (mais pas que) permet de trouver les relations multivariées entre les variables explicatives et la variable à expliquer et que le modèle ne devient alors que confirmatoire de l'analyse visuelle des données.
Interessant....

8.Posté par Abed Ajraou le 25/10/2013 21:31
@Arnaud, merci pour ce message détaillé. Par contre, pour une personne qui suit mes écrits et mes commentaires, je m'étonne de quelques remarques:
1. Où est-ce que j'ai écrit qu'une personne qui maîtrise les technologies Hadoop est forcément un Data Scientist? Dans les skills de Data Scientist, il y a Hadoop mais cela ne veut pas dire qu'Hadoop implique Data Scientist - vous comprenez la différence?
2. Je suis l'un des premiers à avoir écrit que le Data Scientist doit maîtriser les data mining et aussi d'ailleurs le text mining. Donc il n'y a pas de débat sur ce point, c'est trivial!
Seulement, le Data Scientist couvre plus de domaines d'expertise que le Statisticien et c'est en ça que ce n'est pas le nouveau nom. Maintenant, les personnes de la Business Intelligence doivent aussi évoluer comme nos statisticiens actuels.
@Alain,
Vous citez Tufte c'est très bien, mais est-ce que les principes de Tufte et les lois de Gesalt sont-ils enseignés dans les cours de statisticiens? Qu'en je vois les graphiques que font les statisticiens (et autres d'ailleurs), je suis désolé, mais ces principes ne sont que très peu connus dans l'entreprise.
Aussi, il n'y a pas de guerre de chapelle juste d'échange de points de vue. Il ne faut surtout pas croire qu'il y a une seule vérité sur ces sujets, les débats font avancer les choses - seulement pour ceux qui savent écouter et réfléchir pour s'enrichir :)

7.Posté par Alain GELY le 25/10/2013 15:26
"Néanmoins, il ne suffit pas d'avoir un bon outil pour faire de bons graphiques! Les règles de data visualisation ne sont pas dans les outils, mais dans la manière de construction des dashboards! C'est là encore une méconnaissance des statisticiens"

Je suis d'accord sur le prémisse, mais pas sur la conclusion.
Présenter des données a toujours été important, et il y a d'ailleurs eu une baisse de la qualité dans la présentation quand les outils permettant de générer des graphiques se sont démocratisés et qu'ils ont été utilisés par tout un chacun.
Pour avoir des exemples "anciens", on pourra se référer au travail d'Edward Tufte sur ce sujet, qui ne date pas d'hier. Mais même en jetant un coup d’œil sur des sources plus récentes (par exemple visual.ly), on remarque que plusieurs articles proviennent d'auteurs ayant un bagage statistique (par exemple sur la partie blog, catégorie "data" ).

Ceci dit, je suis d'accord que le but n'est pas de faire une guerre de chapelle, et que l'essentiel est d'avoir les compétences (d’où quelles proviennent) pour remplir la mission. Je râle par principe, parce que je sais qu'on attache beaucoup d'importance aux choix de la visualisation en statistique (en particulier parce qu'il y a de nombreuses manières de faire un mauvais graphique, même dans les basiques)

6.Posté par Arnaud Laroche le 25/10/2013 11:33
Bonjour,

Je suis depuis quelques jours vos échanges sur ce thème, suite à ce billet de Thierry et à d'autres publiés par Abed.
Je pratique les métiers de la Data depuis plus de quinze ans maintenant. J'ai vu passer la Business Intelligence, le Datamining et maintenant le Big Data et la Data Science.
Qu'est ce qui a changé fondamentalement depuis ces années, et qu'est ce qui caractérise aujourd'hui le concept de Data Science ?
Pour moi, c'est avant tout le rapport des entreprises et des décideurs à la donnée.
Il y a longtemps, on faisait de la statistique pour produire des études, des rapports... qui souvent restaient sur le bureau, si ce n'est dans les tiroirs, des décideurs.
On a ensuite mis en place les tableaux de bord, indicateurs de pilotage... qui ont démocratisé et facilité l'accès à l'information de décision pour le management.
Avec le Datamining, on a développé l'analyse exploratoire plus avancée, pour détecter des patterns, identifier des relations (corrélations, causalité), mesurer des élasticités, élaborer des prévisions, tout ceci dans une logique d'éclairage de la décision, avec de nombreux problèmes de remontée de ce "savoir" dans les SI opérationnels (segments, scores...).
Ce qui change aujourd'hui, c'est que la Data n'est plus seulement vue comme un élément de support à la décision, mais comme un élément de plus en plus au coeur de l'action opérationnelle : recommandation de produits temps-réel sur les sites web, retargeting et real-time bidding, smart alarming dans l'industrie, détection de fraude en temps quasi-réel... C'est en partie cela qui génère l'engouement actuel pour le concept, car on y voit une promesse de ROIs concrets et de court terme.
C'est aussi ce qui explique que la discipline se situe de plus en plus à la croisée de la science (stats / maths pour élaborer des modèles relativement complexes), de la technologie (pour récupérer de la donnée de sources très diverses, et industrialiser ces modèles dans les applications opérationnelles) et du Business (pour faire comprendre l'approche et les résultats, et aligner ces approches sur la stratégie de l'entreprise : relation client, asset management...).
Maintenant, l'inspiration fondamentale de tout cela est-elle plutôt statistique, informatique, métier ?...
Penser que les statisticiens sont des gens coupés du monde réel (celui du Business en l'occurence) et de la technologie est une erreur. Avant de construire des modèles d'analyse et de représentation, le statisticien passe en effet son temps à se poser la question de savoir à qui/quoi ils vont bien pouvoir servir, et à manipuler en tous sens de la donnée dans des environnements technologiques (et ce n'est pas parcequ'on manipule aujourd'hui cette donnée dans des environnement Hadoop / NoSQL..., avec des outils comme Pig/HIve.. que cela change fondamentalement la donne par rapport à ce que l'on faisait auparavant avec du SAS, du SQL...). Et ce n'est pas parce qu'on manipule ces nouveaux outils techniques que l'on devient automatiquement Data Scientist !!
A l'inverse, penser que les statisticiens sont forcément les mieux placés pour mettre la Data Intelligence au coeur des applications opérationnelles est probablement une erreur également : il y a là des enjeux d'architecture, des enjeux de qualité de développement, de maintenabilité des applis... sur lesquels ils n'ont probablement pas toutes les compétences, ni forcément l'appétence.
Enfin, penser que les informaticiens sont les mieux placés pour trouver de la valeur Business dans les Data est aussi une erreur : certes il existe aujourd'hui des librairies scientifiques qui permettent d'appeler facilement des algorithmes de clustering, de prévision, de scoring... (Mahout, Weka, Scikit...). Mais il ne suffit pas d'appeler ces algorithmes ; il faut les comprendre, interpréter leurs résultats, mesurer leurs limites, tester leur stabilité, mesurer leurs intervalles de confiance, réfléchir à leur adéquation au problème posé... bref adopter une démarche scientifique à laquelle il faut être formé.
Alors, on a inventé le concept de Data Scientist : ce profil qui fait rêver et qui saurait faire tout cela.
On peut y croire. Cela existe. Je travaille avec des Data Scientists. Mais penser que toute la statégie Data va s'appuyer sur ce profil unique est une erreur et un leurre. La réussite est à mon sens dans le fait de savoir faire travailler ensemble statisticiens, informaticiens et managers pour créer de la valeur autour de la Data.
Cela repose avant tout sur une intention stratégique de l'entreprise et sur une organisation adéquate.
A ce titre, il est un peu dommage de voir que le jeu a à peine commencé, et que l'on commence à voir s'opposer les "clans" : statisticiens contre informaticiens. Voulons-nous vraiment reproduire l'éternelle incompréhension et la lutte de territoire souvent improductive entre Métier / MOA / Système d'information ?
A ce titre, oui Thierry je pense que tu as raison : l'heure est à l'hybridation et à la co-construction.
La seule question que je me pose : est-ce un voeu pieux d'idéaliste ?

5.Posté par Abed Ajraou le 24/10/2013 11:53
Merci Thierry pour ce retour.
Néanmoins, il ne suffit pas d'avoir un bon outil pour faire de bons graphiques! Les règles de data visualisation ne sont pas dans les outils, mais dans la manière de construction des dashboards! C'est là encore une méconnaissance des statisticiens (ou data miners) et qui fait la différence avec un Data Scientist.

4.Posté par Vallaud Thierry le 23/10/2013 01:15
@Abed, ce n'est pas un sondage Abed, c'est un quali auprès de personnes qui ont toutes pris la parole sur la data science à un moment ou un autre en 2013 et qui sont reconnues pour être très bonnes dans le domaine. Elles sont peu nombreuses, c'est une phase exploratoire par guide d'entretien. Le sondage suivra sur un vaste échantillon fin novembre. Mais là c'est un peu la phase exploratoire liminaire. Cela se situe dans un cadre plus vaste qui sera une étude sur la sociologie de l'évolution des métiers des statistiques, du data mining et de l'informatique décionnelle vers la data science qui sortira en juin 2014.
Pour la data visualisation il y a dans les outils de data mining depuis déjà au moins 5/6 ans des solutions de data visualisation très poussées, dans Modeler par exemple il y a un très bon outil de data visualisation pour faire de l'AED. Mon livre Introduction au data mining chez Vuibert contient au moins deux chapitres sur le sujet.
Pour le No SQL je le reconnais à part quelques tests plus ou moins fructueux pour l'instant je ne connais pas encore bien le sujet, mais j'en ai pas eu vraiement besoin malgré des travaux sur de très gros volumes de données depuis des années.
Après dès que l'on va rentrer dans le stockage effectivement là on est plus dans le domaine de l'informatique. Donc il n'y a pas un data scientist mais des data scientists cf Analysing the Analysers http://www.amazon.fr/Analyzing-Analyzers-Introspective-Survey-Scientists/dp/1449371760/ref=sr_1_sc_1?s=english-books&ie=UTF8&qid=1382483630&sr=1-1-spell&keywords=data+scientise

3.Posté par Abed Ajraou le 22/10/2013 17:53
Le comble pour un statisticien n'est-il pas de réaliser un sondage biaisé ?

1 2
Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.