Podcast : L’observabilité, attitude et outil du data steward

Observer vient de la racine latine observare, qui signifie « noter ou considérer », mais aussi « garder en sécurité ou protéger ». Quelle belle proximité avec la fonction de data steward ! Or aujourd’hui le rôle du data steward n’est plus simplement de se préoccuper de qualité des données, mais réellement de mettre en œuvre l’observabilité. Plutôt qu’un steward, il est plutôt d’ailleurs un contrôleur aérien de vos data. Il ne pilote pas mais surveille et organisme le trafic et reporte les incidents. À sa disposition, des outils d’observabilité, à chaque version plus complets, et demain des agents qui lui remonteront l’information. Mais avant même les outils, c’est cette attitude d’observation qu’il mettra en œuvre. Observer n’est pas faire ! Il est crucial qu’il le comprenne. Le data steward n’est pas là pour faire à la place des data owners et data consumers, mais pour apporter une supervision transverse des principes de gouvernance. C’est l’observabilité, et elle s’appuie sur les outils du même nom.

Observer l’ensemble de la chaine de traitement de la donnée
La data observability vise à donner une vision continue et intelligente de la « santé » des données : leur fraîcheur, leur volume, leur distribution (anomalies), les changements de schéma, les dépendances (data lineage), et la capacité à diagnostiquer rapidement les racines des incidents.

On peut voir la data observability comme l’évolution du monitoring de données (alertes statiques) vers un système plus proactif, piloté par des métadonnées et des techniques analytiques.
Une donnée circule ; le data steward en a une vision globale, au travers des métadonnées d’usage collectées automatiquement : les flux prévus ont-ils été honorés, l’usage des outils de sécurisation (data platform) est-il respecté, la cohérence est-elle maintenue d’un bout à l’autre du système.

Dans une architecture centralisée, mais surtout dans une architecture fédéralisée autour de data products, sa mission de supervision des processus est indispensable. Si votre data mesh prévoit la mise en place de data contracts, le data steward supervisera leur exécution, et remontera les incidents.

Observer plusieurs dimensions
Initialement focalisé sur la qualité des données, le data steward voit ses missions évoluer. La qualité en reste le cœur, mais il lui revient d’observer l’ensemble des circulations de données. Son attention débute lors de l’entrée des données dans le système d’information. Il se préoccupera alors de vérifier que les contraintes de sécurité et de conformité des données sont respectées. Lors de chaque mouvement d’une donnée, il surveillera la traçabilité (le lineage). En cas d’alimentation d’outils d’IA, il s’assurera du respect des usages de la charte et de la règlementation. Qualité, conformité, sécurité et usages sont les principales dimensions de son action.
Travaillant au plus proche des métiers, le data steward et ses outils d’observabilité permettront de remonter la température de la plateforme de données au comité de gouvernance. En cas de dérive d’un des indicateurs, il est susceptible de faire remonter l’incident pour arbitrage.

Sifflet, Soda.ai… des startups qui montent
Montecarlo, Acceldata, Bigeye, Validio, Metaplane, Sifflet, Soda, figurent parmi les principaux acteurs spécialisés de l’observabilité des données. Les grandes plateformes telles que Collibra, Datadog, New Relic, Splunk, Elastic, proposent également des fonctions ad hoc. Peu de solutions open source semblent disponibles à l’exception de OpenTelemetry, mais qui nécessite de gros efforts de développement.

De l’observabilité des données à celle de l’IA
L’IA est au service de l’observabilité, au travers des agents que les outils envoient pour capter les informations tout au long de la chaine de la donnée. Mais l’observabilité est également au service de l’IA car, tout comme les données, les modèles et usages de l’IA doivent respecter des règles de gouvernance, et donc être observés. Les meilleurs outils d’observabilité incluront donc des fonctions de suivi des modèles, de détection des biais, des discriminations, des hallucinations, des usages non éthiques ou non conformes à la politique ESG de l’entreprise.
L’IA sera également mise à contribution pour détecter les usages non officiels, le shadow AI, le shadow BI, etc.

Du data au AI steward
Cela amènera naturellement notre data steward à élargir ses compétences. Il est passé du monitoring de la qualité à l’observabilité globale. Il passera également de la donnée à l’intelligence artificielle. Le Data & AI Steward, une fonction indispensable pour implémenter de manière pratique, et contrôler l’application des principes de gouvernance.

En résumé, voici quelques idées pour comprendre comment évoluera en 2026 le marché des outils et techniques d’observabilité :
- Consolidation des plateformes
On observe une tendance à intégrer les capacités de data observability dans des plateformes plus larges (analytique, gouvernance, monitoring général). Mais les solutions spécialisées et interopérables proposent plus de fonctionnalités.
- Approche « AI-driven observability »
Les outils intègrent des algorithmes pour automatiser la détection d’anomalies, prévoir les incidents ou suggérer des correctifs dans les modèles d’IA.
- Bring-Your-Own Storage / backends interchangeables
Permettre aux utilisateurs d’utiliser leurs propres lacs de données ou entrepôts comme stockage (plutôt que d’imposer un stockage « shadow ») pour réduire les silos. Attention cependant à la création de nouveaux silos qui ne respecteraient pas les règles de sécurité, de conformité et de gouvernance.
- Observabilité « pipelined » (observabilité de pipelines métadonnées vs télémétries classiques)
La surveillance non seulement des résultats (données) mais du comportement des pipelines eux-mêmes (durée, erreurs, retards) devient centrale.
- Focus sur les coûts, l’évolutivité et le « data observability FinOps »
À mesure que les volumes de données augmentent, les organisations veulent maîtriser le coût de surveillance (stockage, calcul, alertes).
- Extension vers l’observabilité des modèles/IA/ML
Comme les pipelines de données alimentent de plus en plus des modèles ML/IA, l’observabilité s’étend vers le suivi des performances des modèles, la dérive, etc.