Podcast : Raffineur de données, un métier indispensable à l’IA

Imaginez que vous ayez conçu le meilleur moteur de voiture jamais fabriqué ! Efficient, puissant, économe, silencieux, non polluant… il a toutes les qualités, et vous allez révolutionner le monde du transport grâce à votre invention. Seul bémol, il nécessite pour fonctionner un carburant beaucoup plus pur que ce que l’on trouve aujourd’hui dans nos raffineries. Et ce carburant est indispensable à votre moteur révolutionnaire. Sans lui, votre invention n’est qu’un assemblage inutile de pièces de métal.

C’est ce qui arrive aujourd’hui à la majorité des projets d’IA en entreprise. Les modèles sont surpuissants, mais restent de perpétuels adolescents face à la pauvreté des données à partir desquelles vous les alimentez. Vous n’avez pas investi suffisamment dans le raffinage de vos données.

« Mais nous avons un data lake depuis plusieurs années ! », me répondrez-vous. Oui, certes, mais appelez-le plutôt un data débarras ! Vous y déversez des données brutes, sans les indexer, sans les référencer, sans les qualifier, sans les améliorer, sans les organiser… tout cela parce qu’un vendeur de data lake vous a convaincu qu’il contenait un Monsieur Propre qui allait se charger de tout. Reconnaissez que vous avez été bien naïf sur ce sujet… Et vous continuez d’ailleurs puisque vous avez cru cet autre vendeur qui vous a convaincu que l’intelligence artificielle elle-même allait savoir créer ses propres métadonnées, et rendre votre débarras miraculeusement aussi propre et documenté qu’un entrepôt de pièces détachées Airbus !

La donnée brute est devenue abondante, bon marché et disponible. Mais la donnée structurée, connectée, contextualisée, documentée, expliquée, celle qui permet l’automatisation réelle, la prédiction et la prise de décision, reste rare. Forcément, elle est plus couteuse et complexe à produire à partir de la donnée brute. Et surtout elle nécessite un effort humain… ce qui n’est pas à la mode en ces temps d’automatisation à outrance.

Poursuivant notre analogie automobile, la donnée brute, c’est le pétrole sorti des gisements. La donnée raffinée, c’est le carburant, produit par les raffineries. Et plus votre modèle est avancé, plus le raffinage doit être poussé. Essayez de mettre du pétrole brut dans une voiture… ça marchera beaucoup moins bien. Car l’essence que vous utilisez est raffinée. Elle subit des procédés complexes pour : augmenter son indice d’octane, éliminer le soufre et les impuretés, ajuster sa volatilité, et améliorer sa combustion. Le raffinage nécessaire à vos modèles d’IA est encore plus complexe que la transformation de pétrole brut en essence.

En matière de données, c’est exactement la même chose. Utilisez des données brutes dans un modèle, et les résultats seront standards, pas exceptionnels. Vous serez à la portée d’hallucinations et de biais, non pas dus au modèle, mais à vos données. Raffinez vos données et vos modèles pourront enfin s’y appuyer pour produire des résultats exceptionnels.

La valeur n’est plus dans le modèle. Elle est dans la capacité à raffiner la donnée.

Le raffineur est donc le métier le plus créateur de valeur dans la chaine de production de l’intelligence artificielle. Qui est-il ? Quelles sont ses compétences ? Quelles qualités sont nécessaires ?

Je ne tomberai pas dans le piège d’inventer un nouveau métier de Data Refiner. Ce n’est pas le sujet. Tout le monde peut être ou devenir raffineur de données. Mais voici les compétences nécessaires :
- Premièrement une connaissance du métier est indispensable. Le raffineur peut donc venir directement du métier, ou être un analyste d’affaires qui se spécialiserait dans l’analyse des besoins en données des modèles d’IA. On évitera un raffineur venant du département informatique, à moins qu’il ne connaisse parfaitement le métier.
- Une compréhension étendue du concept de métadonnées est nécessaire. Décrire, expliquer, documenter, formaliser, structurer, organiser… cela passe par la création d’une ontologie, d’une couche sémantique commune. Toutes ces compétences sont souvent détenues par des professionnels du document électronique. Documentalistes et archivistes auront ici une carte à jouer. Et les graphes de connaissance n’ont déjà plus de secrets pour eux.
- Et finalement une aptitude à écouter, faire émerger des non-dits, et retranscrire des besoins. Encore une fois, l’analyste métier est à l’aise avec ce mode de fonctionnement. Oreille externe, il cherche à comprendre, à poser les questions, à faire émerger les besoins.

Exprimer les attentes de préparation des données brutes pour alimenter les modèles d’IA me semble donc un projet d’analyse métier. Les parties prenantes sont les informaticiens en charge du projet IA, les métiers demandeurs et futurs utilisateurs, le département juridique ou le DPO pour évoquer les sujets réglementaires. Et les livrables sont le projet permettant le raffinage des données brutes en données exploitables par les meilleurs modèles d’IA.

C’est une spécialisation à intégrer dans une formation sur l’analyse métier !

Podcast : Raffineur de données, un métier indispensable à l’IA

Si vous voulez vous aussi participer à une émission du podcast Decideo, envoyez moi un email à philippe.nieuwbourg@decideo.com. Et si vous avez aimé cet épisode, mettez lui quelques étoiles et un petit commentaire dans votre application de podcasting.

{{date}} {{title}}