Podcast : les prompts sont des données, il va falloir les cataloguer

Selon une enquête de l’Associated Press, déjà 70 % des rédacteurs utilisent l’IA générative pour produire du contenu. Les données sont omniprésentes dans la démarche : dans l’alimentation des modèles, dans les prompts et dans les contenus produits.

Si j’écris demain un article à l’aide d’un traitement de texte, c’est moi qui en serai l’auteur et non Word. Mais si j’écris les prompts qui me permettent de demander à ChatGPT de produire cet article, ou le code d’un logiciel, ce serait donc ChatGPT qui deviendrait l’auteur ? Non, et heureusement, il a déjà été établi par jurisprudence dans plusieurs pays, qu’une IA ne pouvait pas obtenir de droits de propriété sur ses propres créations. L’IA n’a pas de personnalité juridique. C’est l’Humain qui a piloté l’IA qui est reconnu comme auteur de ses créations.

Mais demain, le journaliste, le scénariste, mais également le programmeur, le rédacteur de documentation, ne manipuleront plus directement les mots, mais les prompts qui serviront à les produire. Pourrait-on aller jusqu’à déposer et protéger un prompt, tout comme on protège un livre, un logiciel ou un scénario ? Peut-être est-ce une idée à creuser. Juristes spécialistes de la propriété intellectuelle, je vous lance la perche !

En tous cas, ces prompts, ce sont également des données. Et il faut les collecter, les stocker, et donc peut-être les protéger, afin de faire le lien entre le prompt et le contenu qu’il a produit.

En entreprise, la réplicabilité et l’explicabilité sont des sujets importants. Si je lance deux fois la même requête sur une même base de données, je dois obtenir le même résultat. Sinon, j’ai un problème. Êtes-vous certain que le même prompt lancé dans le même outil d’IA générative, produira le même contenu ? Je ne crois pas, et c’est un vrai problème.

Si j’utilise l’IA générative pour transformer une question en langage naturel en requête SQL, la même question donnera-t-elle toujours la même réponse ? Si non, ça sent le crépage de chignon en réunion du lundi matin. Ça peut faire sourire, mais imaginez que votre tableau Excel donne des résultats différents en fonction de l’heure de la journée, de la météo ou de l’âge du capitaine.

Je vous parle beaucoup en ce moment de gouvernance de l’intelligence artificielle. Une des facettes de cette gouvernance, sera la gestion des prompts. Leur historisation, la traçabilité de leur cycle de vie, le lien entre le prompt et son résultat, etc. Des tas de métadonnées qu’il va falloir organiser.

Je ne sais pas encore comment nous l’appellerons, mais c’est un outil qu’il va falloir inventer. On y retrouvera :
- L’historisation des prompts utilisés, et de leurs métadonnées ;
- La traçabilité, le lineage, qui a mené du prompt au résultat. Quel modèle a été utilisé, quelle version, quelles données d’entrainement, etc..

Cet outil permettra également de vérifier les droits d’accès, la conformité des données utilisées, et produites. Et il assurera la piste d’audit nécessaire pour qu’en cas de besoin, le service conformité ou audit interne, voir une autorité extérieure, puissent remonter l’historique.

Vous voyez que le sujet de la gouvernance de l’IA, et des données qui vont avec, n’est pas une mince affaire. On est loin de votre ado tout fier d’avoir utilisé ChatGPT pour rédiger 10 lignes sur la révolution russe !

Si vous envisagez une utilisation sérieuse, et en production, de l’intelligence artificielle, vous devrez passer par les étapes que je viens de décrire. Et si vous cherchez une idée de business à créer dans le domaine du logiciel, regardez du côté d’une plate-forme de traçabilité des usages de l’IA en entreprise… il y a tout un marché !

Si vous voulez vous aussi participer à une émission du podcast Decideo, envoyez moi un email à philippe.nieuwbourg@decideo.com.

Pour ne manquer aucun épisode du podcast Decideo, abonnez-vous, c'est gratuit !
- Sur Apple Podcast : https://podcasts.apple.com/es/podcast/decideo-data-science-big-data-intelligence-augment%C3%A9e/id1505073603
- Sur Podcast Addict : https://podcastaddict.com/podcast/decideo-data-science-big-data-intelligence-augmentee/4102946
- Sur Spotify : https://open.spotify.com/show/1Cs8jBS1PB7ehZU4s4EiyB?si=ec6b704dd15d4454
Ou sur votre plateforme de podcast préférée, cherchez "Decideo" !

Autres articles

Podcast : les prompts sont des données, il va falloir les cataloguer

Si vous voulez vous aussi participer à une émission du podcast Decideo, envoyez moi un email à philippe.nieuwbourg@decideo.com.

Podcast : Mauvaise gouvernance ? Faut-il empêcher ou interdire ?

Podcast : Découvrons le context engineering avec Dataloma

Podcast : Catalogue de données, LLM et MCP

Podcast : Un catalogue de données social et orienté utilisateurs

Podcast : IA, RH et données, avec José Rodriguez, Cornerstone

Snowflake obtient la certification "Hébergeur de Données de Santé" en France pour accélérer les usages de la donnée et de l’IA dans le secteur - 25/06/2026

De l’avenir de Teradata... - 09/03/2026

MongoDB étend ses capacités de recherche et de recherche vectorielle à ses offres autogérées - 20/09/2025

Neo4j lance Infinigraph: la base de données de graphes la plus scalable pour unifier les charges opérationnelles et analytiques à l’échelle de 100 To+ - 04/09/2025

MongoDB renforce sa plateforme et son écosystème pour les applications IA - 28/08/2025