Databricks lance le data lineage pour Unity Catalog

Databricks, « The data and AI company » et pionnière du paradigme du lakehouse, annonce une fonction de data lineage pour Unity Catalog, ce qui étend considérablement les capacités de gouvernance des données du lakehouse. Le data lineage décrit la manière dont les données circulent dans une entreprise. Grâce à cette nouvelle fonctionnalité d'Unity Catalog, les clients sont en mesure d'obtenir une visibilité sur l'origine des données de leur lakehouse, qui les a créées et quand, comment elles ont été modifiées au fil du temps, comment elles sont utilisées, et bien plus encore. Le data lineage pour Unity Catalog est disponible en avant-première sur AWS et Microsoft Azure.

Les entreprises sont confrontées à un afflux de données provenant de sources multiples, et il est extrêmement difficile de comprendre d'où viennent ces données, comment elles se déplacent et évoluent, qui y a accès et comment elles sont utilisées. Cependant, cette compréhension est essentielle pour augmenter la confiance et évaluer les risques. Avec le data lineage d’Unity Catalog, les équipes data peuvent voir tous les consommateurs en aval impactés par les changements de données : applications, tableaux de bord, modèles de machine learning ou ensembles de données, etc. Elles peuvent ainsi comprendre facilement la gravité de l'impact pour notifier rapidement les changements aux parties prenantes concernées.

Le data lineage permet aux consommateurs de données, tels que les data scientists, les data ingénieurs et les data analystes, de tenir compte du contexte lorsqu'ils effectuent des analyses, ce qui se traduit par des résultats de meilleure qualité. En outre, les responsables des données peuvent voir quels ensembles de données ne sont plus accessibles ou sont devenus obsolètes afin de retirer les données inutiles, ce qui réduit les risques et garantit que les utilisateurs finaux n'utilisent que des données de haute qualité. Les nouvelles fonctionnalités d'Unity Catalog offrent aux entreprises une vue complète de l'ensemble du cycle de vie des données, afin que les responsables des données puissent comprendre comment celles-ci sont collectées, si elles ont été mises à jour et les processus utilisés.

« Les capacités de gouvernance, telles que le data lineage, sont essentielles à notre travail de conception de la plateforme lakehouse la plus robuste du marché, » déclare Matei Zaharia, cofondateur et Chief Technologist chez Databricks. « Sans un bon data lineage, il est difficile de suivre les processus business et de vérification, dont les organisations data-driven ont besoin pour réussir. Notre objectif est d’assurer que nos clients puissent se concentrer sur les informations et adopter des pratiques de gestion des données proactives grâce à une vue unifiée et transparente de l'ensemble de leur data écosystème. »

Les principales spécificités d'Unity Catalog incluent le lignage automatisé en cours d'exécution pour capturer tout le lignage généré dans Databricks, offrant ainsi plus de précision et d'efficacité par rapport au marquage manuel des données. Ces informations sont capturées pour les tables, les vues et les colonnes afin de donner une image granulaire des flux de données en amont et en aval. En outre, le lignage fonctionne dans tous les workloads pris en charge par Databricks, notamment SQL, Python, R et Scala, ce qui permet à toutes les personnes concernées par les données d'enrichir leurs outils d'intelligence basées sur les données et d'obtenir de meilleures informations. Cela inclut la capture de l'historique des entrées telles que les notebooks, les workflows et les tableaux de bord.

Le data lineage aide également les entreprises à mieux respecter les normes de conformité, en facilitant le suivi des flux de données soumis à des réglementations de conformité telles que le règlement général sur la protection des données (RGPD), la loi californienne sur la protection de la vie privée des consommateurs (CCPA), ou encore la loi sur la portabilité et la responsabilité des assurances santé (HIPAA). Cet élément de traçabilité des données est un ingrédient clé d'une architecture de données moderne qui permet aux clients de répondre à leurs exigences légales.

Autres articles

Databricks lance le data lineage pour Unity Catalog

Les nouvelles fonctionnalités de data lineage donnent aux clients plus de transparence et un contrôle proactif sur la façon dont les données sont utilisées dans leur lakehouse.

Databricks et Microsoft élargissent leur partenariat pour aider les entreprises à intégrer le contexte métier à l'IA d'entreprise

MARGO, Saint-Gobain et Databricks lancent “THE FORECAST GAMES”, un hackathon dédié à la prédiction des ventes

Celonis s'associe à Databricks pour optimiser une IA d'entreprise qui améliore en continu les opérations

Databricks et OpenAI annoncent un partenariat stratégique pour démocratiser l’IA de dernière génération grâce à Databricks Agent Bricks

Qlik renforce son intégration avec la Data Intelligence Platform de Databricks

Databricks et Microsoft élargissent leur partenariat pour aider les entreprises à intégrer le contexte métier à l'IA d'entreprise - 24/07/2026

Comment exploiter la data pour optimiser son entrepôt à 100 % : 5 clés pour un pilotage agile - 23/07/2026

Nouveau convertisseur CAO pour le Digital Thread : la qualité des données, fondement de la continuité numérique - 22/07/2026

VISEO collabore avec Rockwell Automation pour intégrer l’exécution industrielle en temps réel - 21/07/2026

Gurobi lance l’Intelligence Hub afin de rendre l’optimisation mathématique plus accessible à l’aide de l’IA - 21/07/2026