Hadoop est en passe de détrôner le datawarehouse traditionnel

Romain Chaumais, Co-fondateur d’Ysance et directeur des opérations

Jusque-là, la star des technologies Big Data ne supportait que le mode batch. La plus petite des opérations prenait plusieurs minutes... Impossible, dès lors, de rivaliser avec les datawarehouse qui traitent les requêtes décisionnelles à la volée (calculs de chiffre d’affaires, de marges ou de prévisions). Or, avec des projets tels que Yarn, Impala, Spark, Drill ou Presto, les plateformes Hadoop s’ouvrent désormais aux requêtes interactives et instantanées. De même, avec Storm et Kenesis, elles capturent et analysent au fil de l’eau les données transitant dans les flux. Hadoop met ainsi un pied dans le temps réel. Enfin, lorsqu’il est associé à une brique Elasticsearch ou Solr, il se mue en moteur de recherche à la capacité d’indexation quasi infinie.

Stockage, traitement massif, requête interactive, requête transactionnelle, outil de recherche… Hadoop n’a donc plus rien à envier aux datawarehouse. D’autant que la plateforme se montre parfaitement compatible avec les outils de transformation et d’intégration de données, d’une part, et les applications de reporting, d’analyse prédictive et de visualisation, d’autre part.

Autre argument de taille censé faire pencher la balance : le prix. À en juger par les déploiements de nos clients, un projet Hadoop est en moyenne cinq fois moins cher qu’un datawarehouse classique. Ce chiffre comprenant le matériel, le logiciel et le déploiement de l’infrastructure. Sans compter qu’une plateforme Big Data stocke environ cinq fois plus d’informations qu’un datawarehouse traditionnel. Aux données de ventes, sont en effet associées toutes les informations relatives aux comportements des clients en magasin, sur le web ou les réseaux sociaux, etc.

Enfin, si ce n’était pas le cas en 2010, Hadoop est aujourd’hui devenu LA référence du Big Data. De quoi sécuriser au maximum les investissements consentis par les entreprises. Les communautés open source l’ont totalement adopté, notamment la fondation Apache. Même les géants de l’infrastructure s’y rangent (IBM, Microsoft, Oracle, etc). Et sur le terrain, la plupart des grands groupes le testent et envisagent de le mettre en production prochainement. Ces derniers doivent être rassurés : cette technologie est pérenne. Open source, elle n’est « enfermée » par aucun éditeur et jouit d’un écosystème très riche, très actif et très productif.

Se pose pourtant, diront certains, la question des compétences. Peu de profils, en effet, sont à même de déployer ces plateformes et d’investiguer les données qui y sont stockées. C’est vrai, mais là encore, ce frein tend à se résorber. De plus en plus d’outils (en particulier ceux issus des projets évoqués plus haut) n’exigent plus de compétences spécifiques en matière de programmation parallèle. Ils tendent à être accessibles par les mêmes personnes dans les entreprises qui gèrent le décisionnel et exploitent les bases de données.

Pour autant, la fin des datawarehouse n’est pas pour tout de suite. Culture du changement oblige, les deux socles analytiques devraient cohabiter encore longtemps. Mais l’on ne voit pas comment et pourquoi les organisations continueraient à payer le prix fort pour des analyses qui, à terme, seront accessibles à moindre coût via une plateforme incommensurablement plus riche et plus ouverte.

Autres articles

Abonnez-vous gratuitement à Decideo !

Hadoop est en passe de détrôner le datawarehouse traditionnel

Snowflake vs Hadoop : lequel choisir ?

Les évolutions de Hadoop en 2022

[Promotion] Livre Blanc Alteryx : La science des données en pratique

Maîtriser ses données sur le Cloud : l'ESILV apprend aux étudiants à dompter le Big Data sur 120 machines

Cultura fédère de nouveaux clients et gagne en performance avec Gamned! et Ysance

MongoDB étend sa collaboration avec Google Cloud pour aider ses clients à déployer et à mettre à l’échelle de nouvelles catégories d’applications - 15/04/2024

Podcast: DBOS, la nouvelle startup de Michael Stonebraker - 02/04/2024

Dell annonce le lancement du Dell Data Lakehouse qui intègre Starburst et permet d’unifier toutes les données pour accélérer les projets analytiques et d’IA - 29/03/2024

Hive lève 12 M€ en Série A pour permettre à tous d’accéder à un cloud distribué et durable - 27/03/2024

Neo4j s'allie à Microsoft pour optimiser les solutions IA Générative et Data - 27/03/2024