Tableau s’appuie sur Cloudera Impala pour interroger Hadoop en temps réel


Rédigé par le 30 Octobre 2012

J’ai bien conscience que ce titre est totalement incompréhensible pour le profane des solutions d’analyse de données volumineuses… Il résume pourtant parfaitement la dernière annonce de Tableau Software. Essayons d’expliquer cela avec quelques mots plus français…



Cloudera, éditeur ou plutôt prestataire de services d’une distribution Hadoop vient d’annoncer la semaine dernière à l’occasion de la conférence Strata de New York, un nouvel outil, Impala.
Hadoop est souvent critiqué pour les mauvais temps de réponse qu’il procure et qui rendent difficile la construction d’applications basées sur de l’analyse en temps réel. Parfois, même une requête simple peut prendre plusieurs dizaines de secondes, simplement à cause de la transformation en Map-Reduce.
Cloudera Impala est conçu pour pallier ce problème. Lancer des requêtes rapides et interactives sur une architecture de fichiers Hadoop serait maintenant possible. Pour cela Impala contourne la transformation en Map-Reduce et interroge directement les fichiers de données. Cloudera annonce une réduction des temps de réponse de 3 à 90 fois par rapport à Hive qui sert habituellement d’interface vers le code Map Reduce.
L’architecture et le fonctionnement détaillé de Impala sont présentés sur le blog de Cloudera
Impala est proposé en Open Source par Cloudera, qui le proposera bien sur également en version supportée dans son environnement hébergé. Dans son fonctionnement, Impala peut se rapprocher de Google Dremel que nous avions présenté dans Decideo qui reste lui un outil propriétaire de Google.

La connexion via Hive est utilisée par de nombreux éditeurs d’outils d’analyse, dont Tableau Software. Mais Tableau Software a été choisi par Cloudera comme un des premiers éditeurs à mettre en place cette nouvelle connectivité, directement via Impala. Tableau Software anticipe donc une forte réduction des temps de réponse de son outil d’analyse connecté à une architecture Cloudera Hadoop. Pour l’instant ce connecteur est en phase de test, mais Tableau recherche des clients intéressés à le tester en environnement de production pour le valider.
Cette annonce est importante pour les clients Cloudera (CDH) qui utilisent Tableau comme outil de restitution et vont pouvoir imaginer de nouvelles applications.

Même si Cloudera s’en défend, Impala est un coup de canif dans l’architecture classique Hadoop / MapReduce / Hive. Et si Impala permet d’obtenir de bonnes performances sur des requêtes plus interactives, il n’y a aucune raison de conserver le millefeuille de l’architecture Hadoop. D’autant que cette amélioration des performances permettrait d’imaginer d’autres applications basées sur Hadoop, jusqu’à présent écartées pour cause de manque d’interactivité de l’environnement.



Dans la même rubrique :