Du Data Warehouse au Data Lake, tirer parti du meilleur des deux mondes

Frédéric Brousse, Directeur Général d’Informatica France

En effet, pour faire face à la croissance exponentielle des données, les entreprises sont amenées à repenser et à organiser le département IT de manière cohérente pour intégrer efficacement les applications à la fois sur site et dans le cloud. Elles doivent ainsi faire le choix entre des bases de données relationnelles "robustes" et des technologies de données plus évolutives, telles que NoSQL et Hadoop.

Qu’est-ce qu’un Data Lake et quelle est sa valeur ?

Le « Data Lake », ou « lac de données », est un concept simple et relativement nouveau qui s’inscrit dans la mouvance du Big Data. L’objectif principal est de pouvoir fournir un stockage / entrepôt global des informations présentes dans une entreprise. Par le passé, la plupart des entreprises n’ont pas eu à gérer cette masse de données en provenance de plusieurs flux entrants, car la quasi-totalité des données était interne à l’entreprise.

Aujourd’hui, les entreprises ont besoin de pouvoir stocker les données internes et externes, brutes ou non, dans un seul et même lieu. Elles sont également confrontées à des exigences en matière de capacité et de flexibilité à traiter et analyser l’information le plus rapidement possible. A la différence d’un Data Warehouse, le Data Lake offre la possibilité de créer sa propre transformation et d’analyser les données sans avoir un chemin particulier imposé par le système ETL (Extract-Transform-Load). Ainsi, chaque utilisateur peut matérialiser son propre besoin et extraire les données sources nécessaires pour son analyse de manière rapide tout en tirant pleinement parti de l’évolutivité et de l’efficacité opérationnelle qu’offre le Data Lake.

A titre d’exemples, les institutions de services financiers sauvegardent et analysent les données transactionnelles et d’autres signaux connexes afin d’enrichir les techniques de détection des fraudes, suivre l’évolution des réglementations mondiales, et ainsi renforcer la confiance des consommateurs sur la sécurité de leurs services fournis.
Dans le secteur de la santé, les organismes conservent les données de dossiers médicaux électroniques afin de proposer des soins plus personnalisés. Le Data Lake permet ainsi, dans un même lieu, de recueillir tous types de données, de les mettre en relation afin de pouvoir les analyser rapidement et en tirer une vraie valeur ajoutée pour améliorer l’expérience client et garantir la confidentialité au patient.

Data Lake vs. Data Warehouse

Mais le Data Lake ne vient pas remplacer le Data Warehouse, au contraire, il le complète.

Le Data Warehouse entrepose des données de façon structurée. Il conserve ainsi une qualité et une fiabilité liées à la structuration des données imposée à l’origine du schéma/processus de stockage. Ainsi, il permet d’avoir accès à des données à forte valeur ajoutée mais répondant à un nombre limité d’algorithmes analytiques qui ne prend en compte que des formats spécifiques de données.

Le Data Lake offre une véritable agilité qui vient répondre à l’évolution du marché et l’explosion de la volumétrie des données, avec l’émergence du mobile computing, des objets connectés et autres changements disruptifs. Ces évolutions entraînent le besoin d’utiliser, d’examiner et de tester des données de toutes sortes et de tous horizons à des fins analytiques ou applicatives, et à faible coût.

Le Data Warehouse possède peu de données mais d’une valeur importante. Le Data Lake conserve quant à lui une multitude de données diverses et variées à faible coût.

Ainsi, il convient aux entreprises en phase de restructuration, de repenser les usages et besoins en matière d’analyse des données à l’ère du digital, avant de se décider à remplacer définitivement le Data Warehouse par le Data Lake. Des outils existent qui permettent de standardiser la gestion des données à travers les deux univers. Il faudrait ainsi tenter de développer une synergie entre les deux approches pour en tirer le meilleur parti.

Autres articles

Abonnez-vous gratuitement à Decideo !

Du Data Warehouse au Data Lake, tirer parti du meilleur des deux mondes

Salesforce intéressé par Informatica

Informatica lance Cloud Data Access Management, la première solution du marché basée sur l'IA pour la gouvernance des données

Etude Informatica : de plus en plus de leaders du secteur des données prévoient de capitaliser sur l'IA générative mais la qualité des données reste le principal obstacle à l'adoption

IA, ESG, Modernisation SAP, Retail : selon Informatica, le Data Management restera au cœur des décisions en 2024

La Fondation La Caixa enclenche sa transformation numérique avec la plate-forme de gestion de données dans le Cloud d'Informatica, alimentée par l'IA

Podcast : les prompts sont des données, il va falloir les cataloguer - 22/04/2024

Neo4j : La nouvelle norme internationale GQL marque un tournant majeur pour l'industrie des bases de données - 22/04/2024

MongoDB étend sa collaboration avec Google Cloud pour aider ses clients à déployer et à mettre à l’échelle de nouvelles catégories d’applications - 15/04/2024

Podcast: DBOS, la nouvelle startup de Michael Stonebraker - 02/04/2024

Dell annonce le lancement du Dell Data Lakehouse qui intègre Starburst et permet d’unifier toutes les données pour accélérer les projets analytiques et d’IA - 29/03/2024

Abonnez-vous gratuitement à Decideo !

Du Data Warehouse au Data Lake, tirer parti du meilleur des deux mondes

Salesforce intéressé par Informatica

Informatica lance Cloud Data Access Management, la première solution du marché basée sur l'IA pour la gouvernance des données

Etude Informatica : de plus en plus de leaders du secteur des données prévoient de capitaliser sur l'IA générative mais la qualité des données reste le principal obstacle à l'adoption

IA, ESG, Modernisation SAP, Retail : selon Informatica, le Data Management restera au cœur des décisions en 2024

La Fondation La Caixa enclenche sa transformation numérique avec la plate-forme de gestion de données dans le Cloud d'Informatica, alimentée par l'IA

Podcast : les prompts sont des données, il va falloir les cataloguer - 22/04/2024

Neo4j : La nouvelle norme internationale GQL marque un tournant majeur pour l'industrie des bases de données - 22/04/2024

MongoDB étend sa collaboration avec Google Cloud pour aider ses clients à déployer et à mettre à l’échelle de nouvelles catégories d’applications - 15/04/2024

Podcast: DBOS, la nouvelle startup de Michael Stonebraker - 02/04/2024

Dell annonce le lancement du Dell Data Lakehouse qui intègre Starburst et permet d’unifier toutes les données pour accélérer les projets analytiques et d’IA - 29/03/2024

Neo4j : La nouvelle norme internationale GQL marque un tournant majeur pour l'industrie des bases de données - 22/04/2024