Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Du Data Warehouse au Data Lake, tirer parti du meilleur des deux mondes


Rédigé par Frédéric Brousse, Informatica le 24 Juin 2016

Selon une récente enquête réalisée par le cabinet de conseil PAC, le Big Data est amené à croître de 35% par an en France d’ici à 2019. Se pose alors la problématique du stockage, de l’intégration, du traitement, de la protection et de l’analyse de cette volumétrie de données, qui devient une ressource clé pour l’entreprise : Comment valoriser les données ainsi obtenues ? Comment optimiser les SI pour une bonne gestion et analyse de ces multitudes de données en provenance de tous horizons ?



Frédéric Brousse, Directeur Général d’Informatica France
Frédéric Brousse, Directeur Général d’Informatica France
En effet, pour faire face à la croissance exponentielle des données, les entreprises sont amenées à repenser et à organiser le département IT de manière cohérente pour intégrer efficacement les applications à la fois sur site et dans le cloud. Elles doivent ainsi faire le choix entre des bases de données relationnelles "robustes" et des technologies de données plus évolutives, telles que NoSQL et Hadoop.

Qu’est-ce qu’un Data Lake et quelle est sa valeur ?

Le « Data Lake », ou « lac de données », est un concept simple et relativement nouveau qui s’inscrit dans la mouvance du Big Data. L’objectif principal est de pouvoir fournir un stockage / entrepôt global des informations présentes dans une entreprise. Par le passé, la plupart des entreprises n’ont pas eu à gérer cette masse de données en provenance de plusieurs flux entrants, car la quasi-totalité des données était interne à l’entreprise.

Aujourd’hui, les entreprises ont besoin de pouvoir stocker les données internes et externes, brutes ou non, dans un seul et même lieu. Elles sont également confrontées à des exigences en matière de capacité et de flexibilité à traiter et analyser l’information le plus rapidement possible. A la différence d’un Data Warehouse, le Data Lake offre la possibilité de créer sa propre transformation et d’analyser les données sans avoir un chemin particulier imposé par le système ETL (Extract-Transform-Load). Ainsi, chaque utilisateur peut matérialiser son propre besoin et extraire les données sources nécessaires pour son analyse de manière rapide tout en tirant pleinement parti de l’évolutivité et de l’efficacité opérationnelle qu’offre le Data Lake.

A titre d’exemples, les institutions de services financiers sauvegardent et analysent les données transactionnelles et d’autres signaux connexes afin d’enrichir les techniques de détection des fraudes, suivre l’évolution des réglementations mondiales, et ainsi renforcer la confiance des consommateurs sur la sécurité de leurs services fournis.
Dans le secteur de la santé, les organismes conservent les données de dossiers médicaux électroniques afin de proposer des soins plus personnalisés. Le Data Lake permet ainsi, dans un même lieu, de recueillir tous types de données, de les mettre en relation afin de pouvoir les analyser rapidement et en tirer une vraie valeur ajoutée pour améliorer l’expérience client et garantir la confidentialité au patient.

Data Lake vs. Data Warehouse

Mais le Data Lake ne vient pas remplacer le Data Warehouse, au contraire, il le complète.

Le Data Warehouse entrepose des données de façon structurée. Il conserve ainsi une qualité et une fiabilité liées à la structuration des données imposée à l’origine du schéma/processus de stockage. Ainsi, il permet d’avoir accès à des données à forte valeur ajoutée mais répondant à un nombre limité d’algorithmes analytiques qui ne prend en compte que des formats spécifiques de données.

Le Data Lake offre une véritable agilité qui vient répondre à l’évolution du marché et l’explosion de la volumétrie des données, avec l’émergence du mobile computing, des objets connectés et autres changements disruptifs. Ces évolutions entraînent le besoin d’utiliser, d’examiner et de tester des données de toutes sortes et de tous horizons à des fins analytiques ou applicatives, et à faible coût.

Le Data Warehouse possède peu de données mais d’une valeur importante. Le Data Lake conserve quant à lui une multitude de données diverses et variées à faible coût.

Ainsi, il convient aux entreprises en phase de restructuration, de repenser les usages et besoins en matière d’analyse des données à l’ère du digital, avant de se décider à remplacer définitivement le Data Warehouse par le Data Lake. Des outils existent qui permettent de standardiser la gestion des données à travers les deux univers. Il faudrait ainsi tenter de développer une synergie entre les deux approches pour en tirer le meilleur parti.




Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.