Big Data : Hadoop doit être le cœur de votre système d’information décisionnel

Hadoop permet de relever les défis classiques auxquels les entreprises ont aujourd’hui à faire face : forte croissance du volume des données à traiter, augmentation continuelle des demandes des métiers, complexité des cahiers des charges en matière d’ETL, limite au niveau des fenêtres de traitement, escalade des coûts face à des budgets de plus en plus serrés.

L’approche aujourd’hui recommandée par les conseils indépendants et sérieux, c’est-à-dire pas ceux qui sont juges & parties, consiste à mettre en œuvre une architecture de référence centrée sur Hadoop, de déplacer les traitements batch de l'entreprise sur Hadoop, de faire des données gérées par Hadoop le point de vérité unique de l’entreprise, de massivement réduire le recours aux solutions ETL en assumant notamment la partie transformation avec Hadoop, de conserver sur Hadoop les données à leur niveau de granularité le plus fin pour d’autres traitements ultérieurs, et de renvoyer dans les systèmes en place les résultats pour exploitations par les métiers.

Les grandes entreprises ont besoin d’un système d’information décisionnel complet et les solutions aujourd’hui en place sont complexes, avec des entrepôts de données d’entreprise, des data marts, de nombreux outils d’analyse, de reporting et une intégration poussée avec les systèmes opérationnels qui gèrent les transactions. Les solutions d’entreprise qui utilisent Hadoop doivent être conçues comme des écosystèmes globaux ayant pour objectifs de : réduire les coûts, diminuer considérablement le temps de traitement par lots pour les mainframes et les entrepôts de données ; de conserver et d'analyser les données à un niveau beaucoup plus granulaire, et avec une plus grande profondeur d’historique ; de délivrer de façon fiable la production dans les fenêtres de temps ; d’éliminer en grande partie l'utilisation des outils ETL traditionnels ; de permettre aux utilisateurs métier d’améliorer leurs analyses sur de très grands ensembles de données.

Les distributeurs ont par exemple besoin de s’améliorer dans les calculs de l’élasticité des prix de leurs articles en magasin. C’est-à-dire de répondre plus fréquemment à la question " qu’entraîne une évolution du prix sur la consommation de mes produits ? ". Plus l’élasticité est forte, plus la variation du prix a un effet important sur la consommation. Pour cela il faut prendre en considération les données de ventes par article, ce qui pour un grand distributeur peut représenter plusieurs milliards de lignes, ce qui nécessite de grandes capacités de stockage et de traitement. Avec des moyens traditionnels, la plupart des distributeurs font ce type de calcul trimestriellement, ce qui limite la possibilité de suivre au plus près les évolutions des marchés et de piloter le lancement de nouveaux produits.

Les distributeurs qui aujourd’hui chargent les données nécessaires dans Hadoop (données concernant les offres, les ventes, les prix, les stocks, les magasins, les paramètres d’élasticité …), peuvent maintenant calculer l’élasticité des prix chaque semaine et l’ensemble de données constitué pour cette application permet en outre de développer d’autres analyses particulièrement utiles pour les analystes métiers. Au-delà des cas métiers d’utilisation d’Hadoop dont on pourrait multiplier les exemples dans de nombreuses industries (banque, télécommunication, distribution, assurances …), nous pouvons constater qu’Hadoop sert principalement à : être le point central de collecte directe de données en provenance des systèmes opérationnels, être le lieu de transformation des données, gérer les données au niveau de granularité le plus fin, éliminer les stockages redondants, et au final être la source unique de la vérité d’entreprise.

Mais attention introduire Hadoop dans l’architecture de son système d’information décisionnel n’est pas simple, l’aide d’un conseil indépendant est recommandée, la bonne nouvelle étant qu’il y a déjà beaucoup de grandes entreprises qui ont fait le chemin et dont on peut s’inspirer. Dans cet esprit l’interview du CTO de Sears, ci-jointe, est intéressante à écouter :

Autres articles

Abonnez-vous gratuitement à Decideo !

Big Data : Hadoop doit être le cœur de votre système d’information décisionnel

Snowflake vs Hadoop : lequel choisir ?

Données / estimations / décisions / actions et la difficulté du facteur humain

Les évolutions de Hadoop en 2022

Nous sommes tous impactés par nos propres biais cognitifs

Big Data, statistiques et infographie : les chiffres disent-ils toujours la vérité ?

Podcast : les prompts sont des données, il va falloir les cataloguer - 22/04/2024

Neo4j : La nouvelle norme internationale GQL marque un tournant majeur pour l'industrie des bases de données - 22/04/2024

MongoDB étend sa collaboration avec Google Cloud pour aider ses clients à déployer et à mettre à l’échelle de nouvelles catégories d’applications - 15/04/2024

Podcast: DBOS, la nouvelle startup de Michael Stonebraker - 02/04/2024

Dell annonce le lancement du Dell Data Lakehouse qui intègre Starburst et permet d’unifier toutes les données pour accélérer les projets analytiques et d’IA - 29/03/2024

Abonnez-vous gratuitement à Decideo !

Big Data : Hadoop doit être le cœur de votre système d’information décisionnel

Snowflake vs Hadoop : lequel choisir ?

Données / estimations / décisions / actions et la difficulté du facteur humain

Les évolutions de Hadoop en 2022

Nous sommes tous impactés par nos propres biais cognitifs

Big Data, statistiques et infographie : les chiffres disent-ils toujours la vérité ?

Podcast : les prompts sont des données, il va falloir les cataloguer - 22/04/2024

Neo4j : La nouvelle norme internationale GQL marque un tournant majeur pour l'industrie des bases de données - 22/04/2024

MongoDB étend sa collaboration avec Google Cloud pour aider ses clients à déployer et à mettre à l’échelle de nouvelles catégories d’applications - 15/04/2024

Podcast: DBOS, la nouvelle startup de Michael Stonebraker - 02/04/2024

Dell annonce le lancement du Dell Data Lakehouse qui intègre Starburst et permet d’unifier toutes les données pour accélérer les projets analytiques et d’IA - 29/03/2024

Neo4j : La nouvelle norme internationale GQL marque un tournant majeur pour l'industrie des bases de données - 22/04/2024