Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo


 
Glossaire / Lexique
Rechercher :
Lac de données (Data Lake) :
Un lac de données (Data Lake) est un espace de stockage capable de conserver des gros volumes de données structurées, mais également non structurées (voir ces termes). Contrairement à un entrepôt de données (voir ce terme), modélisé et optimisé pour l’analyse de données structurées, relativement stables dans le temps, le lac de données est plus versatile.
Un lac de données est le plus souvent créé en complément d’un entrepôt de données, lorsque l’entreprise s’ouvre au « Big Data » et commence à collecter des données non structurées (données sociales, IoT, emails, documents…).
On y stockera d’une part les données non structurées ou semi-structurées, des données brutes, qui n’ont pas encore été analysées. Une fois analysées, le résultat de ces analyses, qui cette fois sera structuré, pourra être envoyé dans un entrepôt de données. On y stockera d’autre part des données structurées, mais dont on ne sait pas encore sous quel angle elles seront analysées (données en provenance de l’internet des objets par exemple). Elles sont donc dans le lac de données, en attendant que les besoins métiers permettent de la faire remonter dans l’entrepôt de données et de leur affecter alors des dimensions, des hiérarchies, des indicateurs (voir ces termes).
On pourrait comparer l’entrepôt de données à l’entrepôt d’un grand magasin. Les produits y sont rangés, organisés, par type, par couleur, par destination… peu importe, mais la structure est créée avant que les produits n’y soient rangés. A l’inverse, un lac de données est un espace plat, un lieu où sont déversés les informations, sans hiérarchie, sans structure. Elles sont toutes disponibles et c’est au moment de la requête que sera créée la structure, sur la base des données extraites.
Comme moteur du lac de données, on utilise fréquemment une base de données de type NoSQL (voir ce terme), qui permet de combiner données structurées et non structurées; on peut également utiliser une architecture de stockage de gros volumes de fichiers, comme Hadoop (voir ce terme).
Dans tous les cas, l’interrogation directe du lac de données devrait être réservée à l’investigation. Une fois une application analytique développée, les données qu’elle utilise devraient être conservées dans un espace de stockage structuré (data warehouse ou data mart), afin d’industrialiser les accès et d’éviter de répéter les mêmes extractions et les mêmes calculs.
Voir aussi : Architecture d'un système décisionnel, Data Lake, Entrepôt de données (Data Warehouse), Formatage de données (Data Wrangling), Mégadonnées (Big Data)