Data Scientist : analyse sans filtre de l'état du marché

14 ans d’observation : Pourquoi ce dialogue ?

En 2012, avec l'article « Datamachin, data qui ? Data quoi? mais non dataminer ! , 2014, puis en 2020 avec « Les métiers de la data science en 2020, le futur d’un passé régénéré », nous avions déjà confronté nos visions sur l'évolution des métiers.
Pour cette nouvelle analyse, à l’heure où l'IA redéfinit les règles, nous avons choisi ce format du dialogue. Il nous permet de confronter en temps réel deux réalités que nous observons chaque jour dans nos cadres respectifs : la vision marché du Chasseur de Tête (Pierre-André) face à la vision métier de l'Expert Data (Thierry).

Le marché ne cherche plus des codeurs, il cherche des architectes…

Thierry Vallaud

Pierre-André : Le marché ne cherche plus des codeurs de modèles, il cherche des architectes de systèmes. Si votre valeur ajoutée est toujours de fine tuner un XGBoost, vous êtes dans une zone à risque. Analyse d'une mutation inévitable.

Thierry : C’est vrai qu’il faut une vision de l’architecture et des flux de données au-delà des savoirs statistiques car les outils low/no code permettent de créer des modèles avec des interfaces objets et du prompt. J’ai toujours préconisé le low code pour la productivité des services data même quand tout le monde ne parlait que de code.

Néanmoins il faut un savoir faire d’inférence sur les données et un savoir « métier » pour se projeter sur des usages réalistes des résultats de modèles, des résultats opérationnels.

C’est souvent le problème des projets d’IA actuel, un four tout, souvent avec peu de résultats opérationnels et peu de ROI tout cela par manque de savoirs-faire « data » et de pragmatisme métier.

Quand l’IA code mieux que l’expert

Pierre-André Fortin

Pierre-André : Au détour d'une conversation récente avec un Chief Data Officer d'un grand groupe, ce dernier me fit le constat suivant à propos de ses équipes :
« Les métiers classiques de data science sont aujourd'hui mis à mal par les ingénieurs en IA. Les Data Scientists se retrouvent avec de moins en moins de modélisation à faire... L'IA remplace une partie de leur savoir-faire. »

Ce phénomène, je l’observe moi-même sur le terrain : les mandats de recrutement se déplacent. La demande pour la "modélisation pure" s'effondre au profit de la gouvernance, du pilotage métier et de l'industrialisation.

En 23 ans d'expertise dans le recrutement technologique, j'ai appris à reconnaître ces cycles. J'ai vu les experts SAS trembler face à l'arrivée du code, puis les spécialistes Hadoop supplanter par ceux du Cloud. Ce n'est pas une simple évolution technique, c'est une crise d'incarnation. En tant que recruteur, je vois le profil "star" glorifié pendant dix ans, le Data Scientist généraliste, perdre sa boussole, pris en étau entre l'ingénieur qui industrialise et l'IA qui code.

La question que je pose aux candidats n'est pas technique, elle est stratégique : "Quelle est votre valeur résiduelle sur le marché quand l'IA code à votre place ?"

Thierry : La valeur est dans la compréhension des problématiques métiers, la capacité à bien choisir les bons outils, les bonnes données, bien les préparer et fournir une réponse automatisée aux outils qui font utiliser les résultats. La valeur est surtout dans la capacité à tirer des insights qui permettent de prendre des décisions à partir des données, décisions qui ont un impact sur le business. Donc un savoir-faire métier, statistique et de ML ops ou d’IA ops…avec une bonne application permettant d’améliorer les performances de l’entreprise.

Depuis le début de la data, on a vu des périodes de low code puis de code et enfin de low code. Comme des cycles c’est vrai, donc là c’est l’agentic et le low code et le ML ops dans les mains des ends users qui doivent connaître un peu plus les architectures techniques en arrière-plan. Mais des solutions comme MS Fabric1 (mais il y a d’autres) permettent à un « homme métier » un peu statisticien et un peu informaticien de presque tout faire. De la data intégration à la mise en ligne des agents. C’est une tendance lourde ce déport des taches IT vers un « skilled end users ».

On a construit le toit avant les murs

Pierre-André : Historiquement, le marché français de la donnée s'est structuré par le contenu avant de consolider le contenant. Entre 2016 et 2020, les entreprises ont cédé à une forme de panique mimétique : recruter des « cerveaux » à prix d’or pour rassurer les directions générales, alors que les fondations logistiques étaient encore mouvantes. Mais pour comprendre ce saut dans le vide, il faut se souvenir de la première secousse.

Pour toute une génération de statisticiens, le passage au Big Data fut un une rupture. Du jour au lendemain, la garantie d'une carrière stable n’était plus le combo SAS/Netezza ou Teradata. Il fallait quitter le confort des interfaces propriétaires pour embrasser le code pur : Python, Hadoop, Hive, Spark.

Ce fut une source d'angoisse profonde pour de nombreux profils qui voyaient poindre la figure du "Data Scientist" avec une inquiétude croissante sur leur propre employabilité. Finalement, en quelques années, les experts apprivoisèrent le serpent (Python). Ils survécurent, mais le marché venait de perdre sa stabilité : le savoir-faire était désormais indexé sur l'évolution technologique, et non plus sur la seule maîtrise d'une science.

Thierry : Oui c’était le début, je me souviens qu’il y avait un certain snobisme du code, avec ces phrases comme « tous codeurs ». Les architectures « big data » étaient soit des appliances assez « simples » intégrées ou des architectures complexes (hadoop et sa suite). La question que je me posais étais à partir de quel volume une donnée est « big »?

Pierre-André : Une fois le code maîtrisé, le marché a basculé dans l'excès inverse : la construction de cathédrales on-premise colossales. On a recruté des orfèvres pour les faire travailler dans des mines de données mal éclairées. Faute de fluidité opérationnelle (le Cloud n'était pas encore la norme), ces talents se sont retrouvés enfermés dans des environnements rigides, passant 80 % de leur temps à faire de la plomberie sur des clusters Hadoop capricieux.

Thierry : Depuis les « plateformes » ont simplifié cela. Les prix des solutions ont beaucoup baissé avec des puissances de calcul qui ont explosé en termes de rapport coût/puissance. Certaines sont presque du plug and play et intègrent plusieurs formes d’IA. Après je relativise, on parlait de « data science » ce qui me semble toujours le bon terme. Il faut quand même avoir une « scientificité » du travail sur la donnée.

Pierre-André : Cette migration forcée a laissé des traces. Contrairement à l'ère précédente où les écosystèmes restaient stables une décennie, l'entrée dans le Big Data a déclenché une accélération brutale de l'obsolescence.
Aujourd'hui, un parcours qui s'est arrêté à l'optimisation de requêtes Hive sur un cluster local porte une dette invisible. Le piège de cette période fut de confondre l'expertise technique avec la simple connaissance d'un outil éphémère. On a appris à « faire tourner la machine » plutôt qu’à générer de la valeur.

Thierry : C’est très vrai. Combien de ces architectures sont aujourd’hui remplacées par des plateformes dans le cloud ? C’est assez « facile » je pèse mes mots de maîtriser assez rapidement des plateformes SAAS comme Azure, par exemple, avec des puissances de calcul facilement scalable et un finopps maîtrisé. Il faut « juste » passer le pas entre le on premise et le cloud en arrivant à un mode des architectures hybrides.

La fin du modèle fait main

Pierre-André : Si l’époque précédente consistait à ériger des réservoirs de données, celle que nous traversons est celle de la mise sous tension opérationnelle. Le Data Scientist « artisan », celui qui travaille sur son Notebook comme un auteur sur son manuscrit, est aujourd’hui pris dans une double tenaille : l'une technique, l'autre financière.

Thierry : Il faut désacraliser l'outil, le Notebook n'est qu'un brouillon pratique, pas une finalité. Aujourd'hui, le marché se polarise. D'un côté, il y a l'élite capable de concevoir des LLM from scratch avec un niveau mathématique exceptionnel, ce sont des profils rares aux salaires démesurés.

De l'autre, il y a ceux qui savent faire marcher ces modèles dans un univers d'entreprise : les nourrir, corriger leurs erreurs et les rendre utiles au métier.

Mais entre les deux, le profil qui sait « juste coder » ou « juste prompter » sans vision systémique se retrouve en grande difficulté.

L'enjeu de l'outillage

Pierre-André : C'est la fin du modèle « fait main » en vase clos. Pour qu'une compétence reste attractive, elle doit s'effacer derrière la capacité d'industrialisation. Prenons l'exemple d'Uber et sa plateforme Michelangelo : avec des pics à 10 millions de prédictions par seconde, on ne parle plus de mathématiques pures, mais de logistique appliquée. L'élégance de la formule s'incline devant la robustesse du déploiement.

C'est là que le couperet tombe en recrutement. Il n'est plus rare de voir des CTO écarter des candidats brillants pour une lacune pragmatique : l'incapacité à sortir le modèle de leur ordinateur local. Sur le marché actuel, un algorithme qui ne sait pas vivre dans un conteneur Cloud n'a plus de valeur marchande.

Thierry : C'est effectivement l'une des clés : savoir déployer une chaîne MLOps simple, intégrée à l'IT existant et à moindre coût, pour injecter les scores directement dans les outils d'activation client. Ce n’est plus de la recherche, c’est de l’ingénierie appliquée. L’un n’empêche pas l’autre, mais le « mouton à cinq pattes » que tout le monde cherche est celui qui cumule la rigueur mathématique, la maîtrise informatique et ce pragmatisme métier capable de faire tourner une chaîne MLOps « avec les moyens du bord ». Ces profils-là sont rares, et donc mécaniquement très chers.

Pierre-André : Le danger de cet artisanat isolé est existentiel. Dans une économie d'agents IA, un modèle qui tourne sur un Notebook est invisible. S'il n'y a pas d'API, il n'y a pas de produit. L'économie bascule vers des échanges machine-à-machine où les décisions sont orchestrées par des algorithmes tiers. Si le travail du Data Scientist n'est pas exposé via des interfaces standardisées, il devient une impasse technologique. Hier, une donnée mal structurée était une gêne interne ; demain, ce sera une disparition commerciale. Le mot d'ordre est clair : Pas d'API = Invisible.

Thierry : Et au-delà de l'API, je dirais surtout : « Pas d'usages concrets = Pas de business ». Le risque est de faire du « projet pour le projet ». Il faut une automatisation des modèles qui produisent des résultats visibles. C'est la seule façon de prouver sa valeur.

Le mur de l'argent

Pierre-André : Ces dernières années, les équipes Data ont bénéficié d'un blanc-seing budgétaire parfois quasi total. Ce temps est révolu. L'IA est devenue un centre de coûts majeur, et chaque cycle de calcul est désormais audité.

Le signal faible est devenu fort avec le cas Dropbox, emblématique de cette reprise en main : en optimisant son infrastructure et en quittant le cloud public pour certaines charges, l'entreprise a économisé près de 75 millions de dollars sur deux ans. Ce signal de frugalité s'est propagé à l'ensemble du marché.

Désormais, une nouvelle dimension de l'expertise devient non-négociable : la conscience budgétaire. Une performance algorithmique brute (+0,5% de précision) qui ne s'accompagne pas d'une mesure de son coût n'est plus un signe de talent, mais une faille de discernement.

En entretien, la question décisive s'est déplacée. Je demande moins souvent « Quel modèle avez-vous utilisé ? » que « Combien coûte votre inférence ? ». Le candidat qui ignore l'impact de ses choix sur le compte de résultat (P&L) est immédiatement perçu comme un risque financier plutôt que comme un atout stratégique.

Thierry : C’est le retour à un principe de bon sens, presque un « conseil de grand-mère » : si tu veux faire quelque chose, commence par regarder ce que tu as à ta disposition avant de demander plus. Il faut privilégier les moyens existants pour obtenir des Quick Wins immédiats, plutôt que de se lancer dans des constructions pharaoniques. Évidemment, cela ne s'applique pas à la création de LLM fondateurs, qui reste une exception gourmande en capitaux.

L'enjeu est d'éviter la redondance des outils et de remettre la modélisation entre les mains des utilisateurs finaux. Nous nous dirigeons vers un monde où l'on créera des agents IA, de la conception à la mise en prod, aussi simplement qu'on fait aujourd’hui une slide PowerPoint. C’est d'ailleurs déjà un peu le cas. La priorité absolue doit être donnée aux projets concrets et aux petites équipes agiles.

Le retour du shadow IT… le shadow AI

Pierre-André : Pendant que les entreprises s’épuisent à ériger des forteresses technologiques parfaitement normées, une révolution plus silencieuse et plus rapide s’opère dans les bureaux d’à côté. C’est le retour du Shadow IT, mais doté d'une puissance de frappe démultipliée : l'IA « sauvage ».
Face à l'impatience généralisée, pourquoi les métiers attendraient-ils l'aboutissement d'un long cycle de modélisation quand un prompt bien tourné sur un LLM offre un résultat « suffisant » en quelques secondes ?
Ce raccourci brise le monopole historique de l'expert sur l'insight de premier niveau. Ce qui était hier une science réservée à quelques-uns devient une commodité accessible en un clic. En situation d'évaluation pour un recrutement, la question n'est plus : « Quel modèle avez-vous construit ? », mais : « Comment avez-vous permis à l'organisation de décider sans s'égarer ? ».
On ne sollicite plus le Data Scientist pour obtenir une prédiction, mais pour valider une certitude. Le marché délaisse les simples producteurs de chiffres pour chercher ce que j'appelle des « Architectes de la confiance », capables d'auditer la boîte noire et de traquer les hallucinations.
Thierry : Je vais t’arrêter sur cette notion d'« architecte de la confiance ». C’est un peu exagéré, presque désopilant : on frôle les discours lénifiants et souvent galvaudés sur l'éthique de l'IA qu'on entend à longueur de journée. Il faut garder un certain second degré face à ces grands concepts.
Mon approche est beaucoup plus pragmatique. Je milite pour un Shadow IT maîtrisé. La DSI ne peut pas tout faire ; elle doit fournir aux métiers les outils pour créer leurs propres applications data dans un cadre sécurisé. L'utilisateur final sait ce qu'il veut : laissons-le faire du quick and not too dirty.
Depuis toujours, je prône le principe de la « boîte transparente » opposée à la boîte noire. L’utilisateur doit comprendre comment les résultats ont été produits. La vraie valeur d'un profil ne réside pas dans de grandes théories sur la confiance, mais dans sa capacité à produire des modélisations ROIstes. Il faut privilégier les petits projets, les quick wins qui produisent des insights concrets, sans compromis sur la fiabilité. C'est ce pragmatisme qui tire les équipes vers le haut.

Les 3 voies…

Pierre-André : Si le constat de ce CDO est si brutal, c'est qu'il acte la banalisation du "Data Scientist presse-bouton". L'époque où l'on pouvait prospérer en appliquant de simples librairies standards est révolue. Ce profil est aujourd'hui pris en étau : trop cher pour faire du simple reporting, et inutile face aux outils d'AutoML gratuits.

Mais la science n'est pas morte, elle s'est déplacée. L'IA remplace le codeur de scripts, elle ne remplace pas l'architecte de la logique. Pour préserver son employabilité, il faut abandonner le profil plat du généraliste pour adopter un profil en "T" radical. Je vois trois voies d'excellence se dessiner:

D'abord, l’Architecte de Systèmes. C'est l'évolution darwinienne du "plombier de données". Il ne s'agit plus de connecter des tuyaux, mais de concevoir des systèmes d'agents autonomes, d'orchestrer des LLMs et de gérer la mémoire vectorielle. L'IA écrit la fonction, mais l'Architecte conçoit le système résilient.

Ensuite, le Stratège du Produit. Dans un monde où la production technique s'effondre en termes de coûts, la valeur bascule vers la définition du problème. Ce profil traduit la douleur métier en spécification algorithmique et maîtrise le "Design de la décision". Il protège l'entreprise du "solutionnisme technologique".

Enfin, le Gardien de la Haute-Science. Puisque les tâches simples sont automatisées, ce profil se concentre sur les problèmes "hors-piste". Que ce soit par la recherche pure (Deep Tech) ou la gouvernance (conformité AI Act), il est le garant de la rigueur et de la vérité dans une ère d'hallucinations synthétiques.

Thierry : À la fin, c'est le pragmatisme qui déterminera le profil réellement recherché et recruté : il faut délivrer. Aujourd'hui, les entreprises nourrissent une immense méfiance vis-à-vis des spécialistes autoproclamés de l’IA qui pullulent sur LinkedIn. Paradoxalement, utiliser le mot "IA" à outrance dans un discours finit par décrédibiliser le candidat.
Quant à cette "Haute-Science" capable de créer des modèles fondateurs, soyons lucides : ce n’est pas le quotidien du marché, cela ne concerne que quelques postes très spécifiques. C'est peut-être le rêve absolu pour un chasseur de têtes, mais ce n'est pas la réalité opérationnelle des entreprises. »

Choisissez votre impact

Pierre-André : Le marché de la Data a fini sa crise de croissance. Le temps de l'expérimentation sans contrainte budgétaire est terminé. Mais la fin du "presse-bouton" ne signe pas la fin de l'expertise. Au contraire : si la "plomberie" s'automatise et que le code devient une commodité, la valeur ne disparaît pas, elle se déplace.
La valeur ne disparaît pas. Elle se concentre. Elle ira à ceux qui maîtrisent la complexité que l’IA ne comprend pas encore.
Ou à ceux qui savent donner un cap là où elle n’a ni volonté ni responsabilité. Le vrai risque n’est pas technologique. Il est intellectuel. Celui de devenir un simple exécutant de pipelines, produisant ce qu’une machine peut générer en une seconde. Il ne s’agit plus de choisir entre les maths et les tuyaux.
Il s’agit de choisir votre impact. Architecte. Stratège Garant. La donnée n’a de sens que si quelqu’un lui donne un but.
Thierry : Je dirai que l’on peut/doit être un peu tout cela ; vous savez le métier le plus « sexy » du 21 ème siècle1. Ce qui fera la différence c’est la tenacité et la créativité. La culture générale aussi au sens large. Plus que jamais la maitrise des théories sous-jacentes aux décisions métiers donnera une vision « data » avec du sens. C’est la capacité a donné un sens. Je paraphraserais « le sens de la data, c’est de lui donner un but »

Les viviers de talents : l'œil du recruteur

Pour conclure cette analyse, Thierry a souhaité partager une liste non exhaustive des cursus dont il apprécie particulièrement le contenu pédagogique.
Attention : il ne s'agit pas d'un classement académique, mais d'une sélection de terrains de chasse privilégiés où il puise régulièrement ses futurs collaborateurs pour leur adéquation avec les réalités du terrain.

Formation / Programme	Établissement	Lien
Data Artificial Intelligence and Cloud	Efrei Paris	Voir le programme
Data Science & Artificial Intelligence	CentraleSupélec (Université Paris-Saclay)	Voir le programme
Master Data Analyst	IAE Paris-Est	Voir le programme
Master for Smart Data Science	ENSAI	Voir le programme
Master Intelligence artificielle et société	PSL	Voir le programme
Master DSBA	ESSEC & CentraleSupélec	Voir le programme
Master MIND	Sorbonne Paris Nord	Voir le programme
Master SEP	Université de Reims Champagne-Ardenne	Voir le programme
Master MVA	ENS Paris-Saclay	Voir le programme
Master of Artificial Intelligence	Grenoble INP – Ensimag	Voir le programme
MSc Data Science & AI for Business X-HEC	HEC Paris	Voir le programme
Master of Science IA	EPITA	Voir le programme
Master Science des données	Université de Lille	Voir le programme
Master Sciences des Données & IA	Université de Rouen Normandie	Voir le programme
Mastère spécialisé IA pour systèmes complexes	ENSIIE	Voir le programme
Master ViCAI	École Polytechnique	Voir le programme
Mastère spécialisé Valorisation des données massives	INSA Toulouse	Voir le programme
Mastère Spécialisé® Expert Big Data Engineer	UTT	Voir le programme
Mastère Spécialisé® IA multimodale et autonome	Télécom Paris	Voir le programme
MS Data Science	ENSAE Paris	Voir le programme

À propos des auteurs

Pierre-André Fortin est conseil en recrutement. Depuis 25 ans, il intervient sur les sujets liés à la data et la connaissance client accompagnant annonceurs, cabinets de conseil ou agences dans leurs recrutements et évaluations. Fondateur du cabinet Anara, il a développé une expertise pointue sur le sourcing avancé et intervient régulièrement comme Chasseur, formateur et speaker auprès d’équipes de talent acquisition pour optimiser leurs processus.

Thierry Vallaud dirige la connaissance clients de ProBTP. Data Scientist, il a écrit une dizaine d’ouvrages et plus d’une centaine d’articles sur la data science et la modélisation, avec de nombreux modèles disponibles sur le marché. Titulaire de 3 doctorats et 6 masters, il mène des travaux de recherche en statistiques, en modélisation des comportements d’achat et en média planning.