Snowflake lance Snowpark Connect pour Apache Spark

Le Data Cloud AI Snowflake annonce la disponibilité en préversion publique de Snowpark Connect pour Apache Spark, qui permet aux utilisateurs de Spark d’exécuter leur code existant directement sur le moteur Snowflake. Cette approche offre des performances optimisées, des économies significatives et une gestion opérationnelle simplifiée pour les organisations souhaitant optimiser leurs charges de travail de données.

L’intégration Snowpark Connect pour Apache Spark s’appuie sur une architecture client-serveur découplée qui sépare le code de l’utilisateur du cluster Spark où il s’execute. Cette conception permet désormais à Snowflake de prendre en charge l’exécution des tâches Spark introduites depuis la version 3.4.

Avec Snowpark Connect, les clients bénéficient du moteur vectorisé haute performance de Snowflake pour leur code Spark, tout en évitant les contraintes liées à l’administration d’environnements Spark autonomes telles que la gestion des dépendances, la compatibilité des versions ou les mises à jour. Tout le code moderne Spark DataFrame, Spark SQL et les fonctions définies par l’utilisateur (UDF) peut être exécuté avec Snowflake.

Snowflake prend automatiquement en charge l’optimisation et la mise à l’échelle, libérant les développeurs de la charge opérationnelle. La centralisation de l’exécution dans Snowflake renforce la gouvernance des données, en assurant une cohérence et une sécurité tout au long du cycle de vie, sans efforts redondants.

Figure 1 : Snowpark Connect enrichit l’expérience des développeurs en permettant d’exécuter du code Spark sur Snowflake sans migration préalable vers Snowpark DataFrames. Pour les nouveaux pipelines ou pour tirer parti des intégrations natives de Snowflake (SQL, AI, pandas), Snowpark offre une suite d’outils simples et performants.

Figure 2 : Il est possible de connecter Spark PySpark (depuis VSCode, Jupyter Notebooks, Apache Airflow, Snowflake Notebook et Spark Submit) pour exécuter des tâches Spark sur la plateforme Snowflake.

Selon une étude menée par Snowflake, les clients utilisant Snowpark Client pour créer des pipelines en Python, Java et Scala constatent des performances 5,6 fois supérieures à Spark managé et 41 % d’économies en moyenne.

Snowpark Connect s’appuie sur l’architecture découplée de Spark Connect, qui envoie un plan logique non résolu à un cluster distant pour traitement. Cette approche client-serveur est au cœur de Snowpark depuis sa création. Snowpark Connect est compatible avec Spark 3.5.x, garantissant l’accès aux dernières fonctionnalités et optimisations.

Cette innovation élimine le transfert coûteux et lent des données entre Spark et Snowflake, tout en simplifiant la gouvernance. Les organisations peuvent désormais exécuter du code Spark DataFrame, SQL et UDF dans Snowflake via Snowflake Notebooks, Jupyter notebooks, procédures stockées, VSCode, Airflow ou Snowpark Submit. L’intégration est fluide avec les stockages Snowflake, Iceberg (interne ou externe) et les options de stockage cloud.

Snowpark Connect pour Spark est compatible avec les tables Apache Iceberg, qu’elles soient gérées en externe ou liées à un catalogue. Les entreprises bénéficient ainsi de la performance, de la simplicité et de la gouvernance Snowflake sans déplacer leurs données ni réécrire leur code Spark.

Snowflake lance Snowpark Connect pour Apache Spark

La nouvelle intégration, en préversion publique, permet aux utilisateurs de Spark d’exploiter la puissance du moteur de Snowflake pour accélérer les performances, réduire les coûts et simplifier la gestion de leurs workloads.

{{date}} {{title}}