Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Snowflake lance Snowpark Connect pour Apache Spark


Rédigé par Communiqué de Snowflake le 4 Août 2025

La nouvelle intégration, en préversion publique, permet aux utilisateurs de Spark d’exploiter la puissance du moteur de Snowflake pour accélérer les performances, réduire les coûts et simplifier la gestion de leurs workloads.



Le Data Cloud AI Snowflake annonce la disponibilité en préversion publique de Snowpark Connect pour Apache Spark, qui permet aux utilisateurs de Spark d’exécuter leur code existant directement sur le moteur Snowflake. Cette approche offre des performances optimisées, des économies significatives et une gestion opérationnelle simplifiée pour les organisations souhaitant optimiser leurs charges de travail de données.

L’intégration Snowpark Connect pour Apache Spark s’appuie sur une architecture client-serveur découplée qui sépare le code de l’utilisateur du cluster Spark où il s’execute. Cette conception permet désormais à Snowflake de prendre en charge l’exécution des tâches Spark introduites depuis la version 3.4.

Avec Snowpark Connect, les clients bénéficient du moteur vectorisé haute performance de Snowflake pour leur code Spark, tout en évitant les contraintes liées à l’administration d’environnements Spark autonomes telles que la gestion des dépendances, la compatibilité des versions ou les mises à jour. Tout le code moderne Spark DataFrame, Spark SQL et les fonctions définies par l’utilisateur (UDF) peut être exécuté avec Snowflake.

Snowflake prend automatiquement en charge l’optimisation et la mise à l’échelle, libérant les développeurs de la charge opérationnelle. La centralisation de l’exécution dans Snowflake renforce la gouvernance des données, en assurant une cohérence et une sécurité tout au long du cycle de vie, sans efforts redondants.
Figure 1 : Snowpark Connect enrichit l’expérience des développeurs en permettant d’exécuter du code Spark sur Snowflake sans migration préalable vers Snowpark DataFrames. Pour les nouveaux pipelines ou pour tirer parti des intégrations natives de Snowflake (SQL, AI, pandas), Snowpark offre une suite d’outils simples et performants.
Figure 1 : Snowpark Connect enrichit l’expérience des développeurs en permettant d’exécuter du code Spark sur Snowflake sans migration préalable vers Snowpark DataFrames. Pour les nouveaux pipelines ou pour tirer parti des intégrations natives de Snowflake (SQL, AI, pandas), Snowpark offre une suite d’outils simples et performants.

Figure 2 : Il est possible de connecter Spark PySpark (depuis VSCode, Jupyter Notebooks, Apache Airflow, Snowflake Notebook et Spark Submit) pour exécuter des tâches Spark sur la plateforme Snowflake.
Figure 2 : Il est possible de connecter Spark PySpark (depuis VSCode, Jupyter Notebooks, Apache Airflow, Snowflake Notebook et Spark Submit) pour exécuter des tâches Spark sur la plateforme Snowflake.
Selon une étude menée par Snowflake, les clients utilisant Snowpark Client pour créer des pipelines en Python, Java et Scala constatent des performances 5,6 fois supérieures à Spark managé et 41 % d’économies en moyenne.

Snowpark Connect s’appuie sur l’architecture découplée de Spark Connect, qui envoie un plan logique non résolu à un cluster distant pour traitement. Cette approche client-serveur est au cœur de Snowpark depuis sa création. Snowpark Connect est compatible avec Spark 3.5.x, garantissant l’accès aux dernières fonctionnalités et optimisations.

Cette innovation élimine le transfert coûteux et lent des données entre Spark et Snowflake, tout en simplifiant la gouvernance. Les organisations peuvent désormais exécuter du code Spark DataFrame, SQL et UDF dans Snowflake via Snowflake Notebooks, Jupyter notebooks, procédures stockées, VSCode, Airflow ou Snowpark Submit. L’intégration est fluide avec les stockages Snowflake, Iceberg (interne ou externe) et les options de stockage cloud.

Snowpark Connect pour Spark est compatible avec les tables Apache Iceberg, qu’elles soient gérées en externe ou liées à un catalogue. Les entreprises bénéficient ainsi de la performance, de la simplicité et de la gouvernance Snowflake sans déplacer leurs données ni réécrire leur code Spark.




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store