Le LLM va-t-il devenir l’interface unifiée de la gouvernance des données ?
Récemment j’évoquais les raisons principales d’échec du déploiement de nombreux catalogues de données. En première ligne, l’absence d’adoption suffisante par les utilisateurs métiers. Doit-on refondre les interfaces utilisateurs ? Une nouvelle voie apparait : abandonner l’interface utilisateur ! Et la confier à un LLM qui interrogera, via un serveur MCP, la base de données du catalogue.
L’habitude d’interroger un moteur de recherche pour obtenir une réponse a changé. Le réflexe, en particulier dans la dernière génération, est maintenant de poser toutes ses questions à une IA générative. Le phénomène ChatGPT est devenu une évidence quotidienne. Arrivés dans l’entreprise, les futurs juniors reproduiront ce comportement. Il sera difficile de leur imposer l’usage du moteur de recherche de l’intranet, ou d’apprendre l’interface utilisateur de dizaines d’applications.
L’idée est donc de dissocier la base, contenant les métadonnées qui constituent le catalogue, et l’outil d’interrogation qui devient le LLM. Comment interroger le catalogue central via le LLM ? En choisissant un catalogue compatible avec le nouveau protocole MCP. Ce protocole MCP (Multi-Cloud Protocol) est un cadre technique conçu pour faciliter l’interopérabilité, la portabilité et la gouvernance des données entre différents environnements cloud (publics, privés, hybrides). Il vise à standardiser les échanges de données, les métadonnées et les politiques de sécurité. Il a été développé par Anthropic en 2024. Il s’agit d’un standard ouvert, développé en collaboration avec la communauté et hébergé par la fondation Linux, qui permet une intégration standardisée entre les applications d’IA et les sources de données ou outils externes. Plusieurs implémentations, SDK et serveurs MCP sont disponibles en open source sur des plateformes comme GitHub, encourageant ainsi l’interopérabilité et l’innovation collaborative. Alation, Atlan, DataHub, Datadog (liste non exhaustive) ont déjà annoncé une compatibilité MCP de leurs catalogues de données.
Un pari risqué pour les éditeurs de catalogues de données
Sur le papier, cette nouvelle architecture est séduisante, même pour les éditeurs de logiciels. L’éditeur n’a plus à se préoccuper de l’interface utilisateur métier. Il peut se concentrer sur sa cible privilégiée, le département informatique en charge de la mise en place. L’interface d’administration subsiste ; celle des usages est déléguée au LLM.
Mais il y a un revers à la médaille, la disparition du catalogue de données dans les couches cachées accédées par le LLM. Le catalogue devient invisible ! C’est très bien me répondrez-vous ? Peut-être… sauf pour son éditeur. A la question : « quel est votre outil de catalogage de données ? » posée à un utilisateur métier, ce dernier répondra sans doute « Euh… je ne sais pas… c’est Copilot, Mistral, ChatGPT… ? ». Car pour lui, le catalogue aura disparu, noyé dans son LLM utilisé quotidiennement.
Conséquences pour les éditeurs : une perte de valeur visible et une plus grande interchangeabilité. Car si mon catalogue est une simple base de données, sans interface utilisateur, accédée de manière standard via un serveur MCP, je peux facilement le remplacer par un autre ; et cela sans que l’utilisateur n’en ait conscience.
Du point de vue de l’éditeur, le risque est grand de voir sa valeur perçue réduite à peau de chagrin. Autre question, celle de la responsabilité en cas de réponse erronée. L’utilisateur fera-t-il la part des choses entre les erreurs dans le catalogue, et celles générées par le LLM ? Si l’information de base est correcte dans le catalogue, mais que le LLM répond mal à la question posée par l’utilisateur… à qui la faute ? Et à qui la perception de la faute ?
En conclusion
La standardisation des catalogues de données, accédées par les LLM au travers de serveurs MCP semble donc une évidente amélioration. Pas le LLM standard que vous utilisez à titre personnel, mais un LLM sur mesure, personnalisé et entrainé pour votre organisation, comme va le proposer Mistral avec son offre Forge .
Le LLM deviendra peu à peu l’outil quotidien de chaque employé, qui l’utilisera pour poser toutes ses questions. Le LLM ira alors piocher, via des serveurs MCP, dans les différentes sources de données, catalogue, entrepôt de données, lac de données, applications métier. Le navigateur web était devenu depuis une vingtaine d’années l’interface standard des applications qui migraient vers le cloud. Le LLM sera sans doute la prochaine étape. Cette évolution ne se fera pas instantanément, ni sans conséquences, mais reparlons-en d’ici cinq ans, elle sera sans doute devenue une évidence.
Récemment j’évoquais les raisons principales d’échec du déploiement de nombreux catalogues de données. En première ligne, l’absence d’adoption suffisante par les utilisateurs métiers. Doit-on refondre les interfaces utilisateurs ? Une nouvelle voie apparait : abandonner l’interface utilisateur ! Et la confier à un LLM qui interrogera, via un serveur MCP, la base de données du catalogue.
L’habitude d’interroger un moteur de recherche pour obtenir une réponse a changé. Le réflexe, en particulier dans la dernière génération, est maintenant de poser toutes ses questions à une IA générative. Le phénomène ChatGPT est devenu une évidence quotidienne. Arrivés dans l’entreprise, les futurs juniors reproduiront ce comportement. Il sera difficile de leur imposer l’usage du moteur de recherche de l’intranet, ou d’apprendre l’interface utilisateur de dizaines d’applications.
L’idée est donc de dissocier la base, contenant les métadonnées qui constituent le catalogue, et l’outil d’interrogation qui devient le LLM. Comment interroger le catalogue central via le LLM ? En choisissant un catalogue compatible avec le nouveau protocole MCP. Ce protocole MCP (Multi-Cloud Protocol) est un cadre technique conçu pour faciliter l’interopérabilité, la portabilité et la gouvernance des données entre différents environnements cloud (publics, privés, hybrides). Il vise à standardiser les échanges de données, les métadonnées et les politiques de sécurité. Il a été développé par Anthropic en 2024. Il s’agit d’un standard ouvert, développé en collaboration avec la communauté et hébergé par la fondation Linux, qui permet une intégration standardisée entre les applications d’IA et les sources de données ou outils externes. Plusieurs implémentations, SDK et serveurs MCP sont disponibles en open source sur des plateformes comme GitHub, encourageant ainsi l’interopérabilité et l’innovation collaborative. Alation, Atlan, DataHub, Datadog (liste non exhaustive) ont déjà annoncé une compatibilité MCP de leurs catalogues de données.
Un pari risqué pour les éditeurs de catalogues de données
Sur le papier, cette nouvelle architecture est séduisante, même pour les éditeurs de logiciels. L’éditeur n’a plus à se préoccuper de l’interface utilisateur métier. Il peut se concentrer sur sa cible privilégiée, le département informatique en charge de la mise en place. L’interface d’administration subsiste ; celle des usages est déléguée au LLM.
Mais il y a un revers à la médaille, la disparition du catalogue de données dans les couches cachées accédées par le LLM. Le catalogue devient invisible ! C’est très bien me répondrez-vous ? Peut-être… sauf pour son éditeur. A la question : « quel est votre outil de catalogage de données ? » posée à un utilisateur métier, ce dernier répondra sans doute « Euh… je ne sais pas… c’est Copilot, Mistral, ChatGPT… ? ». Car pour lui, le catalogue aura disparu, noyé dans son LLM utilisé quotidiennement.
Conséquences pour les éditeurs : une perte de valeur visible et une plus grande interchangeabilité. Car si mon catalogue est une simple base de données, sans interface utilisateur, accédée de manière standard via un serveur MCP, je peux facilement le remplacer par un autre ; et cela sans que l’utilisateur n’en ait conscience.
Du point de vue de l’éditeur, le risque est grand de voir sa valeur perçue réduite à peau de chagrin. Autre question, celle de la responsabilité en cas de réponse erronée. L’utilisateur fera-t-il la part des choses entre les erreurs dans le catalogue, et celles générées par le LLM ? Si l’information de base est correcte dans le catalogue, mais que le LLM répond mal à la question posée par l’utilisateur… à qui la faute ? Et à qui la perception de la faute ?
En conclusion
La standardisation des catalogues de données, accédées par les LLM au travers de serveurs MCP semble donc une évidente amélioration. Pas le LLM standard que vous utilisez à titre personnel, mais un LLM sur mesure, personnalisé et entrainé pour votre organisation, comme va le proposer Mistral avec son offre Forge .
Le LLM deviendra peu à peu l’outil quotidien de chaque employé, qui l’utilisera pour poser toutes ses questions. Le LLM ira alors piocher, via des serveurs MCP, dans les différentes sources de données, catalogue, entrepôt de données, lac de données, applications métier. Le navigateur web était devenu depuis une vingtaine d’années l’interface standard des applications qui migraient vers le cloud. Le LLM sera sans doute la prochaine étape. Cette évolution ne se fera pas instantanément, ni sans conséquences, mais reparlons-en d’ici cinq ans, elle sera sans doute devenue une évidence.
Abonnez-vous pour ne manquer aucun épisode du Podcast Decideo
Pour ne manquer aucun épisode du podcast Decideo, abonnez-vous, c'est gratuit !
- Sur Apple Podcast : https://podcasts.apple.com/es/podcast/decideo-data-science-big-data-intelligence-augment%C3%A9e/id1505073603
- Sur Podcast Addict : https://podcastaddict.com/podcast/decideo-data-science-big-data-intelligence-augmentee/4102946
- Sur Spotify : https://open.spotify.com/show/1Cs8jBS1PB7ehZU4s4EiyB?si=ec6b704dd15d4454
Ou sur votre plateforme de podcast préférée, cherchez "Decideo" !
- Sur Apple Podcast : https://podcasts.apple.com/es/podcast/decideo-data-science-big-data-intelligence-augment%C3%A9e/id1505073603
- Sur Podcast Addict : https://podcastaddict.com/podcast/decideo-data-science-big-data-intelligence-augmentee/4102946
- Sur Spotify : https://open.spotify.com/show/1Cs8jBS1PB7ehZU4s4EiyB?si=ec6b704dd15d4454
Ou sur votre plateforme de podcast préférée, cherchez "Decideo" !
Autres articles
-
Podcast : Un catalogue de données social et orienté utilisateurs
-
Podcast : IA, RH et données, avec José Rodriguez, Cornerstone
-
Podcast : Les agriculteurs dépossédés de leurs données, avec Caroline Gans Combe
-
Podcast : Alain Garnier, Jamespot, défend une diversité souveraine
-
Podcast : L’observabilité, attitude et outil du data steward






