Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Différencier un Data Hub, un Data Warehouse et un Data Lake


Rédigé par Youssra El Harrab, Semarchy le 30 Mars 2020

Plus qu'une tendance, les Data Hubs suscitent toujours plus d'attention ! De nombreuses entreprises étudient actuellement les différentes solutions du marché, implémentent les leurs, avec pour objectif à terme, de pouvoir gérer et gouverner leurs données critiques. Cependant, cette technologie est encore parfois considérée comme une alternative aux Data Warehouses (ou entrepôts de données) ou aux Data Lakes.



Youssra El Harrab, Directrice Marketing Global chez Semarchy
Youssra El Harrab, Directrice Marketing Global chez Semarchy
Selon le cabinet d’analystes Gartner (1)., "les requêtes de clients se référant aux Data Hubs ont augmenté de 20% entre 2018 et 2019". Il est intéressant de noter que le cabinet d'analystes a remarqué que "plus de 25% de ces requêtes relèvent en fait du concept de data lake".

Vous êtes-vous déjà demandé si vous avez besoin de mettre en place un Data Warehouse, un Data Lake ou un Data Hub ? Probablement...

Il y a encore beaucoup de confusion autour de ces trois concepts, car ils semblent similaires. En réalité, ils présentent des différences fondamentales que tous devraient pouvoir identifier.

Voici la définition et les capacités de chacun d'entre eux, pour vous aider à mieux les distinguer:

Le Data Warehouse (entrepôt de données)
Le Data Warehouse est un dépôt central de données intégrées et structurées provenant de deux ou plusieurs sources différentes. Ce dispositif est principalement utilisé pour le reporting et l'analyse des données, et est considéré comme un élément essentiel de la business intelligence (BI). Les entrepôts de données permettent de réaliser des modèles d'analyse prédéfinis et reproductibles, distribués à un grand nombre d'utilisateurs dans l'entreprise.

Le Data Lake
Le Data Lake est un dépôt unique de toutes les données structurées et non structurées de l'entreprise. Il héberge des données brutes avec une faible qualité et exige de la part de l'utilisateur un traitement et une valorisation manuelle des données. Les Data Lakes sont, en général, une base solide pour la préparation des données, les rapports, la visualisation, l'analyse approfondie, la data science et le "machine learning".

Le Data Hub
Le Data Hub est à la fois un système de gestion de données, une source de données fiable et un système de référence pour les processus opérationnels et analytiques. Il centralise les données de l'entreprise qui sont essentielles pour toutes les applications et permet un partage transparent des données entre les différents systèmes de stockage, tout en étant le point unique de vérité pour l'initiative de gouvernance des données.
Les data hubs fournissent des données de référence aux applications et aux processus des entreprises. Ils sont également utilisés pour connecter les applications d'entreprise aux structures analytiques telles que les Data Warehouses et les Data Lakes.

Semblables en apparence mais différents en réalité

En bref, les Data Warehouses et les Data Lakes sont des dispositifs de collecte de données qui existent pour soutenir l'analyse de données dans l’entreprise tandis que les Data Hubs servent de médiateurs et de points de partage des données. Les data hubs ne sont pas uniquement axés sur les utilisations analytiques des données.

Dans certains cas, les Data Warehouses et les Data Lakes permettent la gouvernance de données, mais uniquement de manière réactive, tandis que les Data Hubs appliquent de manière proactive la gouvernance aux données présentes dans le système d’information.

Les Data Warehouses, les Data Lakes et les Data Hubs ne se substituent pas les uns aux autres. Néanmoins, ils sont complémentaires et, combinés, ils peuvent soutenir les initiatives “data-driven” et la transformation digitale des entreprises. Le tableau ci-dessous résume leurs similitudes et leurs différences :





Commentaires

1.Posté par Dario Mangano le 21/04/2020 10:25
https://www.amazon.com/Integrated-Data-Next-Generation-Warehouse/dp/1481061402

2.Posté par Léraillé Jacques le 22/04/2020 08:09
Bonjour,
Il me semble qu'il manque la notion de Datamart qui se situe en aval du Data wharehouse. Le data wharehouse est l’entrepôt de la donnée brute, le datamart contient la données retravaillée, avec des agrégats pour être utilisable facileent par les outils de BI

3.Posté par Peltier Julien le 08/06/2020 13:56
Bonjour Jacques,

En effet, vous avez raison. Le datamart n'est pas mentionné dans notre article ci-dessus, mais il fait bien partie des architectures data traditionnelles en aval des DataWareHouse. Le propos était içi de montrer la complémentarité des grands socles de données que sontles DWH, les Data Lake et les Data Hubs, qui se positionnent en amont des deux autres pour proposer un socle de données fiables et gouvernées.

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.