Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Non, « Data Scientist » n’est pas le nouveau nom du Statisticien !


Rédigé par le 27 Septembre 2013

On entend malheureusement beaucoup de définitions erronées concernant le Big Data. La dernière en date est la définition d’un « Data Scientist ». Le jeudi 20 septembre 2013, lors de la conférence « Business Intelligence, Analytics & Big Data » organisée par l’analyste IDC (International Data Corporation), le conférencier d’un grand éditeur a osé affirmer que « Data Scientist » est le nouveau nom du Statisticien !



Abed AJRAOU, Directeur Business Intelligence et Big Data chez SRD Conseil et Professeur à CEFAM
Abed AJRAOU, Directeur Business Intelligence et Big Data chez SRD Conseil et Professeur à CEFAM
De même, lors de la conférence mondiale des statistiques qui a eu lieu à Montréal cet été 2013, les statisticiens de ce JSM 2013 (Joint Statistical Meetings) se sont empressés d’endosser le rôle de Data Scientist … un peu rapide comme raccourci, vous ne trouvez pas ?
Les statisticiens et les professionnels de la Business Intelligence doivent bien comprendre que le monde bouge autour d’eux. Penser que rien ne changera, c’est être comme Nokia, qui, leader à l’époque, n’a pas vu venir la révolution des smartphones.
Les grands analystes, IDC, Forrester & Gartner annoncent une grande pénurie de Data Scientist dans les années à venir, et dénoncent le manque de formations dédiées à cette discipline. Si les Data Scientistes n’étaient que de simples statisticiens, en quoi ces postes seraient-ils sous formés et pourquoi serions nous en pénurie ? Ces grands analystes seraient-ils dans l’erreur ? Je pense, pour ma part, que l’erreur vient d’ailleurs …

Définition du « Data Scientist »

Revenons à la définition d’un Data Scientist et essayons de comprendre en quoi ce rôle est différent de celui d’un statisticien classique.
Le métier de Data Scientist est né du concept de l’analyse des données dites Big Data. Ainsi, le Data Scientist doit répondre aux critères suivants :
• Bien maîtriser le ou les domaines business de son entreprise pour ainsi être support des entités métiers et apporter des réponses pertinentes aux questions posées.
• Savoir analyser aussi bien les données structurées que les non structurées d’entreprise ou extérieur à l’entreprise – c’est-à-dire savoir aussi traiter des données textes, images, son … Le texte mining, la sémantique et les concepts de « machine learning » sont indispensables.
• Maitriser les architectures de données distribuées, « parallélisées » et « multi-processées » où il évolue pour s’assurer que les données sont bien analysées, validées et nettoyées quasiment en temps réel et non plus en mode batch.
• Bien comprendre que cet environnement de travail permet de traiter un grand volume de données et comprendre ainsi que l’échantillonnage n’est plus nécessaire, voire même contre-productif.
• Bien appréhender la « pondération métier » des données, surtout lors de travaux sur la qualité des données. Dans le domaine de l’assurance par exemple, la date de naissance est une donnée majeure pour un contrat d’assurance santé, et totalement inopérante pour la déclaration d’un sinistre.
• Savoir résumer et faire parler les données en s’appuyant sur des visualisations de données pertinentes et en adéquation avec le public visé et du message à partager.
• Présenter les résultats de manière efficace afin de les faire comprendre de la plus simple des façons, c'est-à-dire pratiquer la pédagogie en interne, maitriser l’art du « storytelling ».

Mi Christophe Colomb - Mi Inspecteur Columbo

Pour ma part, j’adhère à la définition imagée de Monica Rogati de chez LinkedIn : « À mon avis, ils sont à moitié pirates, et à moitié analystes. Ils utilisent les données pour créer des produits et trouver des idées. C'est la rencontre de Christophe Colomb et de l’inspecteur Columbo : les yeux éclairés d’un explorateur et la perspicacité d’un détective ».
Ainsi, les algorithmes statistiques, essentiels dans la compréhension de facteurs de corrélation et de catégorisation ne représentent qu’une partie des compétences d’un Data Scientist. Ce dernier doit cependant aller bien au-delà du simple rôle d’un statisticien.




Commentaires
Du plus récent au plus ancien | Du plus ancien au plus récent

1.Posté par Vallaud Thierry le 07/10/2013 16:01
Il me semble que la vision d'origine, le fait d'être un informaticien au départ prisme un peu la perception, comme la mienne surement.
J'ai fait une étude qualitative auprès de 12 data scientists du marché, dont 11 ont répondus, des personnes connus dans la fonction comme référents. Tous sont d'accord pour dire que les fondamentaux statistiques du data scientist sont indispensables, il est d'abord statisticien. Puis il a des connaissance métiers. Si en plus il maitrise l'informatique c'est un plus.... mais pas un plus indispensable, l'absolu nécessaire étant les statistiques.
Après les éléments clefs que vous citez Abed me semblent être les mêmes que l'on citait déjà pour le data miner, évolution des années 80/90 du statisticien. Je vais retrouver ce profile d'alors.
Après il y a aujourd'hui une pénurie de statisciens data miner pour diverses raisons, études difficiles et austères, métier perçu comme peu attrayant sur le plan du developpement personnel par les jeunes diplomés vs d'autres, allergie aux maths, études longues et fastidieuses pour des salaires assez faibles. Cela suit à plus grave la défection des études scientifiques en général.
Je pense que mon étude va sortir après je vous conseille de lire Analysing the Analysers http://www.amazon.com/Analyzing-the-Analyzers-ebook/dp/B00DBHTE56
Il y a aussi tout un débat aux US : scientist donc il faudrait faire de la recherche ? Recherche universitaire ? Publier ?
Thierry

2.Posté par Abed Ajraou le 08/10/2013 18:07
Mon cher Thierry, il faudrait prendre le temps pour bien lire les articles ou bien cela serait juste le moyen de faire de la publicité?

Comme expliqué, les statistiques sont indispensables, mais je m'étonne que vous ne mentionnez jamais des data architecture compatible aux problématiques Big Data. C'est comme sur votre site, on parle de SGBD, OLAP mais rien sur le NoSQL ... C'est bien là une des différences entre le Data Scientist qui maitrise l'environnement où il travaille et les statisticiens qui n'accèptent en entrée que des données structurées ...

Bref, je ne vais réécrire les différences, il suffit de lire l'article ... à quand le votre pour exposer vos idées?

3.Posté par GARROUSTE le 08/10/2013 18:22
bonjour,
Intéressant cette position j'imagine que vous avez voulu délibérément forcé le trait pour faire réagir les 'statisticiens'.

De mon point de vue de "spécialiste du traitement et de l'analyse de la data pour la décision", le métier de statisticien en entreprise est ainsi protéiforme, en outre les différents critères que vous citez comme indispensables à la panoplie du bon data scientist correspondent déjà pour la majorité à la réalité d'un BON dataminer, chargé d'études, statisticien, quant, ... accompli et expérimenté....

Depuis 15 ans, le statisticien a mué et s'est transformé en un poste plus mixte et polyvalent dont les difficultés résident en partie à réaliser un grand écart permanent entre les SI et les métiers, ce qui très simplement correspond à ce qu'on attend du data scientist.

Vous parlez de machine Learning dont bon nombre d'algorithmes sont bien intégrés dans des outils de data mining, il n'y a pas donc pas de méconnaissance particulière par la corporation des méthodes issues de discipline non statistique ( svm, mbr, etc).
Le sens business, la capacité à concrétiser son travail en matière actionnable est ce qu'on attend d'un chargé d'études aujourd'hui donc rien de propre au data scientist.
Quant à connaître les données et en avoir une vision critique et transversale, cela est à mon avis pour le coup le BaBa du métier.

Sur les 7 critères proposés pour définir le data scientist, j'en retiens que 2 sur lequel effectivement le milieu du datamining en France peut être en désaccord ou du moins en débat. Les 5 autres me paraissent sinon évidents en tout cas partagés par la profession.
+ le dogme selon lequel il faudrait absolument travailler sur toutes les données et donc ne plus échantillonner...

+la nécessité de savoir processer les données non structurées : sur ce second point le métier évolue en commençant par le traitement du langage naturel le plus évident en applications Business Marketing, Fraude, Commerce.

De manière générale vous dépeignez un profil très complet, polyvalent et je pense que c'est dans le milieu des profils ayant un bagage économétrie et statistiques que vous retrouverez les parfaits data scientist si tant est que ce soit possible de programmer en java ou en python et de savoir présenter des leviers issus de data à un Directeur Marketing...

4.Posté par Alain GELY le 09/10/2013 15:46
J'ajouterai, pour le coté "Story Telling", qu'une les présentations de Hans Rosling (Gapminder) sont à très forte connotation statistique, et entre pleinenement dans un travail de statisticien (en stat descriptive). ça n'est pas pour rien qu'il est le narrateur du documentaire "the joy of stat".

5.Posté par Arnaud MILLEKER le 09/10/2013 16:26
Le dialogue est assez amusant. Au final j'ai envie de rejoindre l'avis de Thierry Vallaud : "Il me semble que la vision d'origine ... prisme un peu la perception".
On voit ici des profils de mondes différents : informatique, statistique, datamining; qui ont chacun une vision "prismée" ( ;-) ) de la définition.

En bon informaticien, je rejoins la vision d'Abed car je pense que la couche informatique est vraiment nécessaire pour la récupération des données, la qualité des données, l'intégration dans le SI. C'est une couche que le statisticien pourrait assimiler avec de la motivation.
En plus de ça, il me semble qu'il y a une différence entre le datamining qui analyse, et le data scientist qui doit faire du prédictif en utilisant le machine learning. Même si les algorithmes se rejoignent les buts différent parfois légèrement (et parfois plus).

Chacun voit le DS de sa porte, le temps nous permettra de bien réaliser qui ils sont !

6.Posté par Alain GELY le 09/10/2013 19:14
ha... mon précédent commentaire (#4) se voulait un addendum à un commentaire plus long, mais pour lequel j'ai du faire une fausse manipulation à l'envoi.

Je le reprend dans la suite, il faisait initialement réponse au commentaire #3.
Ceci dit, pour avoir un pur background d'informatique et enseigner maintenant dans un département de statistique, c'est vrai qu'il y a parfois dans les deux communautés des vocabulaires différents pour les mêmes notions.

Les limites du métier de statisticien sont toujours un peu changeantes, et ce sont des questions qui ont été soulevés en partie lors de la refonte des programmes du DUT STID (Statistique et Informatique Décisionnelle). Difficile aujourd'hui de former un statisticien qui n'ai pas un minimum de culture informatique (notamment, comme mentionné dans le #5, pour la récupération des données)

Ce qu'on remarque, c'est qu'il y a souvent méconnaissance, de la part d'un public "informatique" des taches auquel un statisticien peut être confronté. De ma propre expérience, j'aurai tendance à appuyer le commentaire précédent (#3], encore que je n'aurai pas exactement cité les deux mêmes points... Mais la majorité de ce qui est présenté dans la liste à points de l'article fait parti de ce qu'un statisticien doit savoir faire.

Je suis d'accord que la question de savoir si l'on doit échantillonner ou traiter de façon exhaustive fait toujours un peu débat. On pourra noter que, même coté "Informaticiens", l'échantillonnage reste une manière facile d'alléger la charge (il me semble que S. Abiteboul cite cette méthode dans sa conférence inaugurale au collège de France lorsqu'il y avait une chaire sur "la science des données").

Le second point qui, éventuellement, peut diverger, pour moi est le point "Maitriser les architectures de données distribuées, « parallélisées » et « multi-processées » où il évolue pour s’assurer que les données sont bien analysées, validées et nettoyées quasiment en temps réel et non plus en mode batch. "

Je ne sais pas si le coté "temps réel" correspond au statisticien, mais clairement, les compétences de nettoyage et de validation des données sont au coeur du métier (comme dit l'adage "Garbage In, Garbage Out".
remarquons tout de même que Hal Varian, chef economiste chez Google, parle du métier de statisticien au sujet du traitement de données en temps réel, et c'était en 2009.

7.Posté par Abed Ajraou le 09/10/2013 22:54
http://en.wikipedia.org/wiki/Data_scientist

8.Posté par Vallaud Thierry le 10/10/2013 23:46
C'est drole de dire que le statisticien n'accepte "que" des données structurées, un livre certe vieux mais écrit pas un éminent data miner http://hfs1.duytan.edu.vn/upload/ebooks/3836.pdf en 1999, 466 pages sur le sujet. Je me dis qu'un truc à du échapper au data scientist....
Après mes expérences les plus récentes me montrent que la donnée non structurée est inversement apporteuse d'enseignement que difficile à préparer....qu'elle n'apporte que peut au modèle global vs le reste des données "structurée" et que structurer la donnée non structurée la rends que plus maniable et utlisable dans les modèles prédictifs....En 2008 à SOCIO je faisais pour Kiabi et Cabestan un modèle de push d'offres sur site en temps réel avec le détail des logs désagrégés individuels récupérés des visiteurs par Nedstat....Je débute mais je m'accroche.

9.Posté par Abed Ajraou le 11/10/2013 10:03
Excellent! Je vois que les statisticiens commencent à bouger dans le bon sens du terme. Ce qui me plait dans le commentaire d'Alain, c'est que comme Rosling a écrit un livre sur les statistiques donc les statisticiens sont des pros du Story Telling? Malheureusement rares sont les statisticiens qui maîtrisent cette science, mais je vois qu'il en a qui s'y intéressent, et c'est déjà pas mal et prometteur pour l'avenir.

@Thierry, pour compléter votre remarque sur le livre de Dorian Pyle, est-ce que vous pourriez nous dire où dans son livre Dorian traite les données non structurées? Car si pour vous l'aspect non structuré se limite à l'exemple qu'il cite sur le café trop chaud ou trop froid, je crois que la définition d'une donnée non structurée est à revoir et ce qui justifie d'autant plus mon commentaire!

10.Posté par GARROUSTE Damien le 11/10/2013 18:23
Pour compléter mon premier message (#3) :

A propos des données non structurées :
Pour compléter le fait que les statisticiens s'intéressent depuis longtemps à la donnée non structurée, on peut citer le livre de "Lebart et Salem" Statistique Textuelle.
A noter que c'est une vision datée car une vision uniquement statistique, aujourd'hui le "text analytics", le "text mining" dépendent de la linguistique qui permet de capturer le contexte dans lequel les mots sont exprimés. La donnée étant la base, la linguistique est donc indispensable.
Doit on conclure que le data scientist doit être également linguiste ? cela paraît difficile.


A propos de Maitriser les architectures de données distribuées, « parallélisées » et « multi-processées »

Je n'en ai pas parlé dans mon premier message qui était déjà long...
J'ai l'expérience de l'environnement telecom où depuis plus de 10 ans les architectures sont distribuées et massivement parallèles (prédominance d'un éditeur dont le nom commence par T) et bon nombre de dataminers de ce secteur ont appris à utiliser nativement les fonctionnalités de la base de donnée MPP, ils connaissent les subtilités et les avantages du travail indatabase.
Néanmoins, je suis d'accord avec ABED, Hadoop reste obscur pour les statisticiens mais n'est ce pas vrai également pour les IT;-) ?

1 2 3
Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store