Databricks, le leader de l'analytique unifiée, permet désormais aux équipes en charge des données d’unifier rapidement sur une seule plateforme la gestion des données, la Business Intelligence (BI) et le Machine Learning (ML). Le nouveau réseau de partenaires Data Ingestion Network pour l’ingestion de données et Databricks Ingest accélèrent la construction d’un Lakehouse, nouveau paradigme de gestion des données, qui combine les meilleurs composants des lacs de données et entrepôts de données, dotant ainsi la BI et le ML de l'ensemble des données d'une entreprise.
« Jusqu’à présent, les entreprises ont été contraintes de diviser leurs données entre données structurées traditionnelles et big data, et de les utiliser séparément pour les cas d'usage de BI et de ML. Il en résulte des données en silos dans des lacs de données et entrepôts de données, un traitement lent, et des résultats partiels trop tardifs ou trop incomplets pour être utilisés efficacement. » déclare Ali Ghodsi, co-fondateur et CEO de Databricks. « C'est l'un des nombreux facteurs à l'origine du passage au paradigme de Lakehouse, qui vise à combiner la fiabilité des entrepôts de données à l'envergure des lacs de données pour servir tous les types de cas d'usage. Pour que cette architecture fonctionne bien, il faut que tous les types de données puissent y être extraits facilement. Databricks Ingest est une étape importante rendant cela possible".
Les clients peuvent désormais charger des données dans Delta Lake, la technologie open source permettant de construire des Lakehouses fiables et rapides à grande échelle, via les partenaires du Data Ingestion Network composé à ce jour de Fivetran, Qlik, Infoworks, StreamSets, Syncsort, autant d’intégrations natives à Databricks Ingest pour le chargement automatisé des données. Les clients de Databricks sur Azure bénéficient déjà d'une intégration native à Azure Data Factory pour ingérer des données provenant de nombreuses sources.
Pour tous leurs cas d'usage de BI et ML, les équipes peuvent charger des données provenant de diverses applications telles que Salesforce, Marketo, Zendesk, SAP et Google Analytics, de bases de données telles que Cassandra, Oracle, MySQL et MongoDB, ainsi que de systèmes de stockage de fichiers tels qu’Amazon S3, Azure Data Lake Storage, Google Cloud Storage dans Delta Lake. En plus de l’intégration du réseau de partenaires annoncée aujourd'hui, celles d’Informatica, Segment et Talend seront bientôt disponibles dans une prochaine version.
De plus, les capacités de chargement automatique permettent aux données de circuler en continu dans Delta Lake, sans avoir à mettre en place et à maintenir des déclencheurs ou calendriers de tâches. Lorsque les données des entreprises apparaissent dans le stockage dans le cloud à partir de différentes sources, Databricks Ingest extrait automatiquement et efficacement ces nouvelles données dans Delta Lake. Cela met fin aux silos, si bien que les données peuvent être utilisées par diverses équipes de l'entreprise pour apporter innovations et valeur ajoutée pour la Data Science, le Machine Learning et l’analytique.
Selon Mike Capone, CEO de Qlik : « Qlik est le leader de l'intégration de données automatisée et en temps réel, pour les entrepôts de données et lacs de données dans le cloud. Pour les plus grandes entreprises au monde, nous avons transféré des données de plus de 200 000 bases de données grâce à notre technologie unique CDC (Change Data Capture). Nos clients bénéficieront de l’accès aux données de Qlik optimisé pour Delta Lake. Les utilisateurs de Databricks disposent désormais d'une rampe d'accès plus fluide pour libérer et diffuser facilement les données provenant de toutes les sources de l’entreprise, y compris des mainframes, de SAP, des bases de données et des entrepôts de données, en mettant en œuvre des Lakehouses ouverts au-dessus de Delta Lake. »
« Jusqu’à présent, les entreprises ont été contraintes de diviser leurs données entre données structurées traditionnelles et big data, et de les utiliser séparément pour les cas d'usage de BI et de ML. Il en résulte des données en silos dans des lacs de données et entrepôts de données, un traitement lent, et des résultats partiels trop tardifs ou trop incomplets pour être utilisés efficacement. » déclare Ali Ghodsi, co-fondateur et CEO de Databricks. « C'est l'un des nombreux facteurs à l'origine du passage au paradigme de Lakehouse, qui vise à combiner la fiabilité des entrepôts de données à l'envergure des lacs de données pour servir tous les types de cas d'usage. Pour que cette architecture fonctionne bien, il faut que tous les types de données puissent y être extraits facilement. Databricks Ingest est une étape importante rendant cela possible".
Les clients peuvent désormais charger des données dans Delta Lake, la technologie open source permettant de construire des Lakehouses fiables et rapides à grande échelle, via les partenaires du Data Ingestion Network composé à ce jour de Fivetran, Qlik, Infoworks, StreamSets, Syncsort, autant d’intégrations natives à Databricks Ingest pour le chargement automatisé des données. Les clients de Databricks sur Azure bénéficient déjà d'une intégration native à Azure Data Factory pour ingérer des données provenant de nombreuses sources.
Pour tous leurs cas d'usage de BI et ML, les équipes peuvent charger des données provenant de diverses applications telles que Salesforce, Marketo, Zendesk, SAP et Google Analytics, de bases de données telles que Cassandra, Oracle, MySQL et MongoDB, ainsi que de systèmes de stockage de fichiers tels qu’Amazon S3, Azure Data Lake Storage, Google Cloud Storage dans Delta Lake. En plus de l’intégration du réseau de partenaires annoncée aujourd'hui, celles d’Informatica, Segment et Talend seront bientôt disponibles dans une prochaine version.
De plus, les capacités de chargement automatique permettent aux données de circuler en continu dans Delta Lake, sans avoir à mettre en place et à maintenir des déclencheurs ou calendriers de tâches. Lorsque les données des entreprises apparaissent dans le stockage dans le cloud à partir de différentes sources, Databricks Ingest extrait automatiquement et efficacement ces nouvelles données dans Delta Lake. Cela met fin aux silos, si bien que les données peuvent être utilisées par diverses équipes de l'entreprise pour apporter innovations et valeur ajoutée pour la Data Science, le Machine Learning et l’analytique.
Selon Mike Capone, CEO de Qlik : « Qlik est le leader de l'intégration de données automatisée et en temps réel, pour les entrepôts de données et lacs de données dans le cloud. Pour les plus grandes entreprises au monde, nous avons transféré des données de plus de 200 000 bases de données grâce à notre technologie unique CDC (Change Data Capture). Nos clients bénéficieront de l’accès aux données de Qlik optimisé pour Delta Lake. Les utilisateurs de Databricks disposent désormais d'une rampe d'accès plus fluide pour libérer et diffuser facilement les données provenant de toutes les sources de l’entreprise, y compris des mainframes, de SAP, des bases de données et des entrepôts de données, en mettant en œuvre des Lakehouses ouverts au-dessus de Delta Lake. »
Autres articles
-
La Data Intelligence Plateform de Databricks permet à Heathrow d'améliorer la satisfaction de ses clients et d'optimiser le flux de passagers
-
Devoteam et Databricks renforcent leur partenariat en EMEA, avec désormais le plus haut niveau de certification « Elite » et des objectifs ambitieux en matière de transformation via la data et l’IA
-
Discovery Bank favorise la résilience financière de ses clients grâce à l'hyper-personnalisation avec la Data Intelligence Platform de Databricks
-
Databricks dévoile les nouvelles fonctionnalités de Mosaic AI pour aider les clients à créer des systèmes et des applications d'IA de qualité industrielle
-
Databricks lance Unity Catalog Open Source, le seul catalogue universel ouvert pour les données et l'IA