Pentaho lance un nouveau projet Big Data type pour Hadoop : « Alimenter un data lake »


Rédigé par Communiqué de Pentaho le 13 Juillet 2016

Une nouvelle architecture de référence accélère le pipeline d’intégration et d’analyse des données pour un déploiement Hadoop à grande échelle



Pentaho, société du groupe Hitachi, lance un nouveau projet Big Data type « alimenter un data lake », qui aide les entreprises à concevoir un processus d’intégration moderne, flexible, évolutif et reproductible, visant à injecter des Big Data dans des data lakes Hadoop. Les spécialistes de la gestion des données peuvent désormais se libérer des contraintes que représente la préparation des données et se consacrer davantage à des projets à plus forte valeur ajoutée.

D’après Ventana Research, les projets Big Data obligent les entreprises à passer 46 % de leur temps à la préparation des données et 52 % à la vérification de la qualité et de la cohérence des données. En suivant le projet type de Pentaho « alimenter un data lake », les entreprises peuvent gérer un ensemble de sources de données en constante évolution, reproduire des processus à grande échelle et garantir un contrôle et une gouvernance. Grâce à cela, les développeurs peuvent faire évoluer facilement leur processus d’ingestion et automatiser chaque étape du pipeline des données.

« Dans la mesure où les sources de données se comptent dorénavant par milliers, les transformations manuelles des codes de chaque source prennent un temps considérable et s’avèrent extrêmement difficiles à gérer et à suivre », explique Chuck Yarbrough, Senior Director of Solutions Marketing, chez Pentaho, société du groupe Hitachi. « Les développeurs et les analystes de données doivent pouvoir créer un seul processus capable de prendre en charge les différentes sources de données. Pour cela, il est nécessaire de détecter les métadonnées à la volée et de les utiliser pour générer dynamiquement des instructions qui pilotent automatiquement la logique de transformation. »

D’après un rapport de Forrester Consulting, commandé par Pentaho, 52 % en moyenne des entreprises croisent au moins 50 sources de données pour mettre en œuvre des capacités analytiques, environ un tiers (34 %) en croise au moins 100, et 12 % au moins un millier. Alors que bien des entreprises utilisent Python ou d’autres langages de script pour coder la façon d’accéder à ces sources de données, l’architecture « Alimenter un data lake » réduit la dépendance vis-à-vis des procédures d’ingestion des données codées pour accroître les gains d’efficacité opérationnels, renforcer les économies et alléger les tâches de maintenance.

« Aujourd’hui, l’un des enjeux majeurs des Big Data est de trouver un moyen simple d’alimenter automatiquement des data lakes Hadoop. Notre équipe a tout mis en œuvre pour trouver des moyens itératifs d’accélérer le pipeline d’analyse des Big Data. Elle a notamment mis au point une approche permettant une analyse des Big Data à grande échelle, automatisée et plus agile », ajoute Chuck Yarbrough.

Pentaho a élaboré quatre autres projets types pour aider les entreprises à optimiser et à mener à bien leurs projets Big Data. En savoir plus ici : Optimiser l’entrepôt de données, Monétiser mes données, Optimiser une raffinerie de données et Avoir une vue à 360° des clients.



Dans la même rubrique :