Cloudera, éditeur ou plutôt prestataire de services d’une distribution Hadoop vient d’annoncer la semaine dernière à l’occasion de la conférence Strata de New York, un nouvel outil, Impala.
Hadoop est souvent critiqué pour les mauvais temps de réponse qu’il procure et qui rendent difficile la construction d’applications basées sur de l’analyse en temps réel. Parfois, même une requête simple peut prendre plusieurs dizaines de secondes, simplement à cause de la transformation en Map-Reduce.
Cloudera Impala est conçu pour pallier ce problème. Lancer des requêtes rapides et interactives sur une architecture de fichiers Hadoop serait maintenant possible. Pour cela Impala contourne la transformation en Map-Reduce et interroge directement les fichiers de données. Cloudera annonce une réduction des temps de réponse de 3 à 90 fois par rapport à Hive qui sert habituellement d’interface vers le code Map Reduce.
L’architecture et le fonctionnement détaillé de Impala sont présentés sur le blog de Cloudera
Impala est proposé en Open Source par Cloudera, qui le proposera bien sur également en version supportée dans son environnement hébergé. Dans son fonctionnement, Impala peut se rapprocher de Google Dremel que nous avions présenté dans Decideo qui reste lui un outil propriétaire de Google.
La connexion via Hive est utilisée par de nombreux éditeurs d’outils d’analyse, dont Tableau Software. Mais Tableau Software a été choisi par Cloudera comme un des premiers éditeurs à mettre en place cette nouvelle connectivité, directement via Impala. Tableau Software anticipe donc une forte réduction des temps de réponse de son outil d’analyse connecté à une architecture Cloudera Hadoop. Pour l’instant ce connecteur est en phase de test, mais Tableau recherche des clients intéressés à le tester en environnement de production pour le valider.
Cette annonce est importante pour les clients Cloudera (CDH) qui utilisent Tableau comme outil de restitution et vont pouvoir imaginer de nouvelles applications.
Même si Cloudera s’en défend, Impala est un coup de canif dans l’architecture classique Hadoop / MapReduce / Hive. Et si Impala permet d’obtenir de bonnes performances sur des requêtes plus interactives, il n’y a aucune raison de conserver le millefeuille de l’architecture Hadoop. D’autant que cette amélioration des performances permettrait d’imaginer d’autres applications basées sur Hadoop, jusqu’à présent écartées pour cause de manque d’interactivité de l’environnement.
Hadoop est souvent critiqué pour les mauvais temps de réponse qu’il procure et qui rendent difficile la construction d’applications basées sur de l’analyse en temps réel. Parfois, même une requête simple peut prendre plusieurs dizaines de secondes, simplement à cause de la transformation en Map-Reduce.
Cloudera Impala est conçu pour pallier ce problème. Lancer des requêtes rapides et interactives sur une architecture de fichiers Hadoop serait maintenant possible. Pour cela Impala contourne la transformation en Map-Reduce et interroge directement les fichiers de données. Cloudera annonce une réduction des temps de réponse de 3 à 90 fois par rapport à Hive qui sert habituellement d’interface vers le code Map Reduce.
L’architecture et le fonctionnement détaillé de Impala sont présentés sur le blog de Cloudera
Impala est proposé en Open Source par Cloudera, qui le proposera bien sur également en version supportée dans son environnement hébergé. Dans son fonctionnement, Impala peut se rapprocher de Google Dremel que nous avions présenté dans Decideo qui reste lui un outil propriétaire de Google.
La connexion via Hive est utilisée par de nombreux éditeurs d’outils d’analyse, dont Tableau Software. Mais Tableau Software a été choisi par Cloudera comme un des premiers éditeurs à mettre en place cette nouvelle connectivité, directement via Impala. Tableau Software anticipe donc une forte réduction des temps de réponse de son outil d’analyse connecté à une architecture Cloudera Hadoop. Pour l’instant ce connecteur est en phase de test, mais Tableau recherche des clients intéressés à le tester en environnement de production pour le valider.
Cette annonce est importante pour les clients Cloudera (CDH) qui utilisent Tableau comme outil de restitution et vont pouvoir imaginer de nouvelles applications.
Même si Cloudera s’en défend, Impala est un coup de canif dans l’architecture classique Hadoop / MapReduce / Hive. Et si Impala permet d’obtenir de bonnes performances sur des requêtes plus interactives, il n’y a aucune raison de conserver le millefeuille de l’architecture Hadoop. D’autant que cette amélioration des performances permettrait d’imaginer d’autres applications basées sur Hadoop, jusqu’à présent écartées pour cause de manque d’interactivité de l’environnement.
Autres articles
-
Cloudera dévoile un nouvel assistant IA pour améliorer l'efficacité des spécialistes des données
-
Étude Cloudera : Près de 90 % des entreprises utilisent l'IA, mais n’en tirent pas pleinement parti du fait d'une infrastructure obsolète et de compétences insuffisantes
-
Cloudera s'associe à Snowflake et intègre la gestion des données hybrides basée sur Iceberg
-
Cloudera dévoile sa vision d'un véritable cloud hybride lors d’EVOLVE24 New York
-
Cloudera présente un service d'inférence IA avec microservices NVIDIA NIM pour accélérer le développement et le déploiement de la GenAI