Databricks, « The data and AI company » et pionnière du paradigme du lakehouse, annonce une fonction de data lineage pour Unity Catalog, ce qui étend considérablement les capacités de gouvernance des données du lakehouse. Le data lineage décrit la manière dont les données circulent dans une entreprise. Grâce à cette nouvelle fonctionnalité d'Unity Catalog, les clients sont en mesure d'obtenir une visibilité sur l'origine des données de leur lakehouse, qui les a créées et quand, comment elles ont été modifiées au fil du temps, comment elles sont utilisées, et bien plus encore. Le data lineage pour Unity Catalog est disponible en avant-première sur AWS et Microsoft Azure.
Les entreprises sont confrontées à un afflux de données provenant de sources multiples, et il est extrêmement difficile de comprendre d'où viennent ces données, comment elles se déplacent et évoluent, qui y a accès et comment elles sont utilisées. Cependant, cette compréhension est essentielle pour augmenter la confiance et évaluer les risques. Avec le data lineage d’Unity Catalog, les équipes data peuvent voir tous les consommateurs en aval impactés par les changements de données : applications, tableaux de bord, modèles de machine learning ou ensembles de données, etc. Elles peuvent ainsi comprendre facilement la gravité de l'impact pour notifier rapidement les changements aux parties prenantes concernées.
Le data lineage permet aux consommateurs de données, tels que les data scientists, les data ingénieurs et les data analystes, de tenir compte du contexte lorsqu'ils effectuent des analyses, ce qui se traduit par des résultats de meilleure qualité. En outre, les responsables des données peuvent voir quels ensembles de données ne sont plus accessibles ou sont devenus obsolètes afin de retirer les données inutiles, ce qui réduit les risques et garantit que les utilisateurs finaux n'utilisent que des données de haute qualité. Les nouvelles fonctionnalités d'Unity Catalog offrent aux entreprises une vue complète de l'ensemble du cycle de vie des données, afin que les responsables des données puissent comprendre comment celles-ci sont collectées, si elles ont été mises à jour et les processus utilisés.
« Les capacités de gouvernance, telles que le data lineage, sont essentielles à notre travail de conception de la plateforme lakehouse la plus robuste du marché, » déclare Matei Zaharia, cofondateur et Chief Technologist chez Databricks. « Sans un bon data lineage, il est difficile de suivre les processus business et de vérification, dont les organisations data-driven ont besoin pour réussir. Notre objectif est d’assurer que nos clients puissent se concentrer sur les informations et adopter des pratiques de gestion des données proactives grâce à une vue unifiée et transparente de l'ensemble de leur data écosystème. »
Les principales spécificités d'Unity Catalog incluent le lignage automatisé en cours d'exécution pour capturer tout le lignage généré dans Databricks, offrant ainsi plus de précision et d'efficacité par rapport au marquage manuel des données. Ces informations sont capturées pour les tables, les vues et les colonnes afin de donner une image granulaire des flux de données en amont et en aval. En outre, le lignage fonctionne dans tous les workloads pris en charge par Databricks, notamment SQL, Python, R et Scala, ce qui permet à toutes les personnes concernées par les données d'enrichir leurs outils d'intelligence basées sur les données et d'obtenir de meilleures informations. Cela inclut la capture de l'historique des entrées telles que les notebooks, les workflows et les tableaux de bord.
Le data lineage aide également les entreprises à mieux respecter les normes de conformité, en facilitant le suivi des flux de données soumis à des réglementations de conformité telles que le règlement général sur la protection des données (RGPD), la loi californienne sur la protection de la vie privée des consommateurs (CCPA), ou encore la loi sur la portabilité et la responsabilité des assurances santé (HIPAA). Cet élément de traçabilité des données est un ingrédient clé d'une architecture de données moderne qui permet aux clients de répondre à leurs exigences légales.
Les entreprises sont confrontées à un afflux de données provenant de sources multiples, et il est extrêmement difficile de comprendre d'où viennent ces données, comment elles se déplacent et évoluent, qui y a accès et comment elles sont utilisées. Cependant, cette compréhension est essentielle pour augmenter la confiance et évaluer les risques. Avec le data lineage d’Unity Catalog, les équipes data peuvent voir tous les consommateurs en aval impactés par les changements de données : applications, tableaux de bord, modèles de machine learning ou ensembles de données, etc. Elles peuvent ainsi comprendre facilement la gravité de l'impact pour notifier rapidement les changements aux parties prenantes concernées.
Le data lineage permet aux consommateurs de données, tels que les data scientists, les data ingénieurs et les data analystes, de tenir compte du contexte lorsqu'ils effectuent des analyses, ce qui se traduit par des résultats de meilleure qualité. En outre, les responsables des données peuvent voir quels ensembles de données ne sont plus accessibles ou sont devenus obsolètes afin de retirer les données inutiles, ce qui réduit les risques et garantit que les utilisateurs finaux n'utilisent que des données de haute qualité. Les nouvelles fonctionnalités d'Unity Catalog offrent aux entreprises une vue complète de l'ensemble du cycle de vie des données, afin que les responsables des données puissent comprendre comment celles-ci sont collectées, si elles ont été mises à jour et les processus utilisés.
« Les capacités de gouvernance, telles que le data lineage, sont essentielles à notre travail de conception de la plateforme lakehouse la plus robuste du marché, » déclare Matei Zaharia, cofondateur et Chief Technologist chez Databricks. « Sans un bon data lineage, il est difficile de suivre les processus business et de vérification, dont les organisations data-driven ont besoin pour réussir. Notre objectif est d’assurer que nos clients puissent se concentrer sur les informations et adopter des pratiques de gestion des données proactives grâce à une vue unifiée et transparente de l'ensemble de leur data écosystème. »
Les principales spécificités d'Unity Catalog incluent le lignage automatisé en cours d'exécution pour capturer tout le lignage généré dans Databricks, offrant ainsi plus de précision et d'efficacité par rapport au marquage manuel des données. Ces informations sont capturées pour les tables, les vues et les colonnes afin de donner une image granulaire des flux de données en amont et en aval. En outre, le lignage fonctionne dans tous les workloads pris en charge par Databricks, notamment SQL, Python, R et Scala, ce qui permet à toutes les personnes concernées par les données d'enrichir leurs outils d'intelligence basées sur les données et d'obtenir de meilleures informations. Cela inclut la capture de l'historique des entrées telles que les notebooks, les workflows et les tableaux de bord.
Le data lineage aide également les entreprises à mieux respecter les normes de conformité, en facilitant le suivi des flux de données soumis à des réglementations de conformité telles que le règlement général sur la protection des données (RGPD), la loi californienne sur la protection de la vie privée des consommateurs (CCPA), ou encore la loi sur la portabilité et la responsabilité des assurances santé (HIPAA). Cet élément de traçabilité des données est un ingrédient clé d'une architecture de données moderne qui permet aux clients de répondre à leurs exigences légales.
Autres articles
-
Devoteam et Databricks renforcent leur partenariat en EMEA, avec désormais le plus haut niveau de certification « Elite » et des objectifs ambitieux en matière de transformation via la data et l’IA
-
Discovery Bank favorise la résilience financière de ses clients grâce à l'hyper-personnalisation avec la Data Intelligence Platform de Databricks
-
Databricks dévoile les nouvelles fonctionnalités de Mosaic AI pour aider les clients à créer des systèmes et des applications d'IA de qualité industrielle
-
Databricks lance Unity Catalog Open Source, le seul catalogue universel ouvert pour les données et l'IA
-
Databricks LakeFlow : une solution unifiée et intelligente pour l'ingénierie des données