Le nouveau connecteur permet d’exécuter des charges de travail Spark directement dans Snowflake.
Snowflake présente le Snowpark Connector, qui permet aux utilisateurs d’exécuter du code Apache Spark directement dans l’entrepôt de données cloud, sans avoir à configurer un cluster distinct.
Plus rapide et moins coûteux
La fonction utilise Spark Connect, une architecture client-serveur permettant aux applications clientes de se connecter à des clusters Spark distants. Chris Child, VP chef de produit chez Snowflake, a déclaré dans The Register que la solution est en moyenne 5,6 fois plus rapide et permet une économie d’environ 40 % par rapport aux environnements Spark traditionnels, avec le même code et les mêmes données.
Grâce au moteur vectoriel optimisé de Snowflake, les utilisateurs n’ont pas à se soucier des dépendances, des versions ou des mises à niveau. Tout le code moderne Spark DataFrame, Spark SQL et défini par l’utilisateur est pris en charge.
Entrepôts de données et lacs de données réunis
Cette étape contribue au rapprochement des plateformes de lac de données et d’entrepôt de données. Le concurrent Databricks, initialement construit autour de Spark, fait de même avec son concept de « lakehouse », tandis que Snowflake ajoute de plus en plus de fonctionnalités de lac de données.
« Nous avons investi dans Snowpark Connect pour permettre aux utilisateurs d’utiliser le code comme ils le souhaitent, » déclare Child. Récemment, l’entreprise a introduit une nouvelle approche analytique avec Cortex AISQL et SnowConvert AI. Elle souhaite également rendre Snowflake AI plus accessible aux data scientists.