Decideo - Actualités sur le Big Data, Business Intelligence, Data Science, Data Mining

Abonnez-vous gratuitement à Decideo !


Decideo

 


Non, « Data Scientist » n’est pas le nouveau nom du Statisticien !


Rédigé par le 27 Septembre 2013

On entend malheureusement beaucoup de définitions erronées concernant le Big Data. La dernière en date est la définition d’un « Data Scientist ». Le jeudi 20 septembre 2013, lors de la conférence « Business Intelligence, Analytics & Big Data » organisée par l’analyste IDC (International Data Corporation), le conférencier d’un grand éditeur a osé affirmer que « Data Scientist » est le nouveau nom du Statisticien !



Abed AJRAOU, Directeur Business Intelligence et Big Data chez SRD Conseil et Professeur à CEFAM
Abed AJRAOU, Directeur Business Intelligence et Big Data chez SRD Conseil et Professeur à CEFAM
De même, lors de la conférence mondiale des statistiques qui a eu lieu à Montréal cet été 2013, les statisticiens de ce JSM 2013 (Joint Statistical Meetings) se sont empressés d’endosser le rôle de Data Scientist … un peu rapide comme raccourci, vous ne trouvez pas ?
Les statisticiens et les professionnels de la Business Intelligence doivent bien comprendre que le monde bouge autour d’eux. Penser que rien ne changera, c’est être comme Nokia, qui, leader à l’époque, n’a pas vu venir la révolution des smartphones.
Les grands analystes, IDC, Forrester & Gartner annoncent une grande pénurie de Data Scientist dans les années à venir, et dénoncent le manque de formations dédiées à cette discipline. Si les Data Scientistes n’étaient que de simples statisticiens, en quoi ces postes seraient-ils sous formés et pourquoi serions nous en pénurie ? Ces grands analystes seraient-ils dans l’erreur ? Je pense, pour ma part, que l’erreur vient d’ailleurs …

Définition du « Data Scientist »

Revenons à la définition d’un Data Scientist et essayons de comprendre en quoi ce rôle est différent de celui d’un statisticien classique.
Le métier de Data Scientist est né du concept de l’analyse des données dites Big Data. Ainsi, le Data Scientist doit répondre aux critères suivants :
• Bien maîtriser le ou les domaines business de son entreprise pour ainsi être support des entités métiers et apporter des réponses pertinentes aux questions posées.
• Savoir analyser aussi bien les données structurées que les non structurées d’entreprise ou extérieur à l’entreprise – c’est-à-dire savoir aussi traiter des données textes, images, son … Le texte mining, la sémantique et les concepts de « machine learning » sont indispensables.
• Maitriser les architectures de données distribuées, « parallélisées » et « multi-processées » où il évolue pour s’assurer que les données sont bien analysées, validées et nettoyées quasiment en temps réel et non plus en mode batch.
• Bien comprendre que cet environnement de travail permet de traiter un grand volume de données et comprendre ainsi que l’échantillonnage n’est plus nécessaire, voire même contre-productif.
• Bien appréhender la « pondération métier » des données, surtout lors de travaux sur la qualité des données. Dans le domaine de l’assurance par exemple, la date de naissance est une donnée majeure pour un contrat d’assurance santé, et totalement inopérante pour la déclaration d’un sinistre.
• Savoir résumer et faire parler les données en s’appuyant sur des visualisations de données pertinentes et en adéquation avec le public visé et du message à partager.
• Présenter les résultats de manière efficace afin de les faire comprendre de la plus simple des façons, c'est-à-dire pratiquer la pédagogie en interne, maitriser l’art du « storytelling ».

Mi Christophe Colomb - Mi Inspecteur Columbo

Pour ma part, j’adhère à la définition imagée de Monica Rogati de chez LinkedIn : « À mon avis, ils sont à moitié pirates, et à moitié analystes. Ils utilisent les données pour créer des produits et trouver des idées. C'est la rencontre de Christophe Colomb et de l’inspecteur Columbo : les yeux éclairés d’un explorateur et la perspicacité d’un détective ».
Ainsi, les algorithmes statistiques, essentiels dans la compréhension de facteurs de corrélation et de catégorisation ne représentent qu’une partie des compétences d’un Data Scientist. Ce dernier doit cependant aller bien au-delà du simple rôle d’un statisticien.




Commentaires
Du plus récent au plus ancien | Du plus ancien au plus récent

11.Posté par Vallaud Thierry le 11/10/2013 19:58
Je citais Pyle pour l'aspect préparation des données qui les structure
Abed vous pensez cincèrement que je n'ai pas d'idée très précise de ce qu'est une donnée "non structurée", les logs, les textes....et les outils pour les analyser en les structurant justement.
Ce n'est pas très sympatique....

12.Posté par Abed Ajraou le 12/10/2013 16:48
@Thierry : vous avez écrit "C'est drole de dire que le statisticien n'accepte "que" des données structurées, un livre certe vieux mais écrit pas un éminent data miner http://hfs1.duytan.edu.vn/upload/ebooks/3836.pdf en 1999, 466 pages sur le sujet." Dans ce livre, sauf erreur de ma part, je n'ai pas vu le traitement de données dites non-structurées, donc je vous voulais que vous nous faites part de votre lumière sur ce sujet. Donc j'attends toujours que le passage où Pyle prend en entrée des données non-structurées. C'est aussi simple que ça.

13.Posté par Vallaud Thierry le 14/10/2013 13:48
@Abded
Je citais le livre de Pyle car il est un peu la référence en matière de préparation de données "structurées"
En fait ce qui me chiffonne c'est que quand la données est "non structurée" je passe un temps important du projet à la structurer pour la rendre exploitable. Donc à la fin de cette phase de traitement qui peut être "en temps réel" quoi qu'il arrive la données non strucurée au départ devient structurée. Je n'ai pas de cas pour l'instant ou je la laisserai dans son état non structurée de la données pour de la modélisation. Du reste est ce que certain lecteur la laisse dans cet état là ? Et vous Abded ?
Je travaille beaucoup sur le log, mais là je structure à chaque fois ou sur les données textuelles mais la première partie est de structurer le corpus des concepts receuillis pour ensuite le structurer automatiquement.
Je ne laisse pas la données dans son état initial non structuré dans ce que je fais pour l'instant même sur des corpus textuels très important. Dans des modèles de RTB à la mode en ce moment par exemple, la phase de classification des verbatims est la principale tache initiale, une tache de structuration donc.
J'utilise différents outils sur les données textuels : STAS, Modeler d'IBM, des outils plus analyse du sens mais plus universitaire, Iramuteq parfois
Une référence sur la préparaiton plus sur de la données non structurée textuelle http://www.amazon.fr/Text-Mining-Handbook-Approaches-Unstructured/dp/0521836573/ref=sr_1_3?s=english-books&ie=UTF8&qid=1381750459&sr=1-3&keywords=unstructured+data

14.Posté par Abed Ajraou le 14/10/2013 14:12
@Thierry,
Belle pirouette. Au départ, le livre de Pyle devait être le livre de référence en matière des données non-structurées, et maintenant il s'agit du livre de référence des données structurées.
Maintenant, travailler sur des SGBD ou des bases OLAP pour traiter cela montre, qu'en partie, le gap à franchir pour un statisticien à devenir Data Scientist.

15.Posté par Elmernikh Nabil le 15/10/2013 17:56
@Abed
Quel est le rôle exact du data scientist ?
Doit il uniquement analyser les données et essayer de leur donner du sens.
Si c'est le cas, un bon statisticien ayant un bagage en data visualisation devrait être capable d'assumer ce rôle. Si on veut faire du data scientist un "mouton à 5 pattes" devant maîtriser les "architectures distribuées, parallélisées..." j'ai bien peur que ce profil soit très difficile à trouver.
Cdt,

16.Posté par Abed Ajraou le 15/10/2013 20:42
La lecture ne doit pas être la qualité première de nos statisticiens nationaux.
Pour répondre à la question Statisticien + DataViz =? Data Scientist, non, il manque encore les autres compétences citées dans l'article ... il suffit de lire et/ou de faire un peu de veille.

17.Posté par Vallaud Thierry le 16/10/2013 00:22
@Abed
Cette remarque "la lecture ne doit pas la qualité première de nos statisticiens nationaux" n'est pas très gentile......
Il m'arrive donc parfois de lire des choses de temps en temps et je conseil à tous pour mettre tout le monde d'accord de lire ce petit livre http://www.amazon.fr/gp/product/1449371760/ref=oh_details_o00_s00_i00?ie=UTF8&psc=1 Analyzing the Analyzers: An Introspective Survey of Data Scientists and Their Work à 7€39

18.Posté par François LE CORRE le 20/10/2013 19:48
Bonjour,

Je suis tout à fait en phase avec vous, et vous avez raison de souligner ces différences.

Je partage les compétences nécessaires : maîtrise des domaines business, capacité à analyser des données de toute nature, maîtrise sémantique et machine learning, architectures distribuées, gestion de gros volumes de données, savoir faire parler les data pour son public cible.

Néanmoins, il me semble important de mentionner par ailleurs que le "statisticien classique" d'aujourd'hui possède déjà la majorité de ces savoir-faire, du moins ceux dignes de ce nom : de la compréhension des enjeux business à la restitution orienté "bénéfice client", en passant par le choix et l'orchestration des bonnes méthodologies analytiques et la capacité de traiter de très gros volumes de données sans passer par l’échantillonnage. Il lui manque finalement 2 choses : la maîtrise des machines learning et celle des architectures distribuées, qui sont loin d’être des sujets anodins, je vous le concède. Enfin, dès lors que les « statisticiens classiques » sont à la fois sensibles à l’IT et ont envie d’explorer le champ de l’intelligence artificielle, ne sont-ce pas déjà des « quasi-data scientists » ?

19.Posté par Vallaud Thierry le 22/10/2013 12:50
@ François bonjour, mais si les statisticiens sont des data scientists, tout comme certains informaticiens mais il y plusieurs profile dans le data scientist cf l'article sur l'étude quali que nous avons réalisé

20.Posté par Erick Atangana le 29/10/2013 04:09
Abed a raison :
un statisticien n'est pas un data scientist loin de là! la différence fondamentale se situe au niveau de l'architecuture décisionnelle : un statisticien habituellement se situe au bout de la chaine décisionnelle, il reçoit les données structurées en aval sans que son evironnement de travail ne soit en relation directe avec l'architecture décisionnelle. Là, on parle de la BI classsique, tout le travail de collecte, de contrôle et d'alimentation des datamart et des bases de données est déjà réalisé en amont : le statisticien n'a plus qu'à interroger les bases de donées(dans la mesure du possible) et réaliser ses analyses puis restituer l'information...donc en gros dans le cas du statistcien, il existe un "mur virtuel" entre l'architecture décisionnel et son evironnement de travail...

Mais par contre, dans le cas du data scientist, ce mur est complètement inexistant : son environnement de travail est directement en relation avec l'architeture bi, je dirais même qu'il est totalement imbriqué dans l'architecture décisionnelle : il doit bien comprendre et maîtriser l'architecture du cluster hadoop par exemple, sinon je ne vois pas comment il pourrait lancer et contrôler des job map reduce, d'où compétence au moins sur un langage objet (python, java), et dans la moindre mesure script shell, en outre, il ya la question de la donnée non structurée dont j'ai l'impression que beaucoup ne mesurent pas l'ampleur et les problèmes que cela pose, à ceux-là, je demanderai de m'expliquer comment stocker un document pdf de 500 pages dans une base oracle? un fichier word dans une libraire SAS, ou un fichier audio/video sur teradata? oui quand on parle de données non structurées il n'y a pas seulement la question du traitement, mais surtout du stockage : les bases de données noSQL sont une réponse adéquate à ce problème de stockage, ce qui implique qu'un data scientist doit donc être capable de connecter un outil comme R à une base de données noSQL, de l'interroger, extraire la donnée et la traiter, tout en gérant la qualité de données, et la performance autour du cluster hadoop dont il a la charge... je ne connais pas un statisticien qui l'a déjà fait!

Pour finir le mot data scientist a un sens profond, on peut traduire simplement en "scientifique de la donnée", ce qui veut dire maitrise de toute la chaîne data, donc matrîse de toute la chaine décisionelle, à la fois sur la patie amont : qualité de données, intégration, gouvernance, contrôle; la partie intermédiaire : modélisation statistique économétrique, machine learning etc ; et la partie aval : restitution, visualisation, perspective businness... ce qui est une révolution par rapport à la bi classique où ces trois étapes étaient /sont séparées à la fois en terme de profil et d'environnemnt technique...

1 2 3
Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.