Pentaho Data Science Pack simplifie l’utilisation de R et Weka


Rédigé par Communiqué de Pentaho le 4 Juin 2014

Tirer parti des outils les plus utilisés par les data scientists pour alléger la charge de travail; Elargir la vision du comportement des clients



Selon l’étude Data Scientist Salary d’Oreilly, R est l’outil le plus utilisé par les data scientists, et Weka est une Solution d’algorithmes de Machine Learning open source populaire et largement utilisée. Aujourd’hui, Pentaho Corporation annonce le Data Science Pack, jeu d’outils pour optimiser ces deux technologies couramment utilisées. Via Pentaho Data Integration (PDI), les data scientists réduisent les processus contraignants des flux de données grâce aux composants analytiques de R et Weka. Ainsi, les entreprises peuvent consacrer plus de temps à leur stratégie d’analyses prédictives et avancées pour obtenir une vue plus complète du comportement des clients.

« Jusqu’à présent il y avait un manque, lorsqu’il s’agissait de rassembler des solutions pour aider à la préparation des données, au nettoyage et à l’orchestration des jeux de données analytiques. Le Data Science Pack de Pentaho comble cette carence et simplifie les processus d’intégration de données pour des analyses avancées et prédictives, » déclare Len Krooner, Président d’ESRG. « Avec l’intégration de Pentaho depuis plus de sept ans pour permettre des analyses à distance et à bord des flottes maritimes et des bateaux, Pentaho Data Integration est essentiel à mon équipe. En utilisant Weka avec PDI, nous aidons désormais nos clients à créer une vue à 360° de toutes les sources de données d’équipement afin de permettre une prévention très en amont des potentielles pannes des machines. »

Selon l’étude du cabinet Ventana Research Big Data Analytics Benchmark, les deux tâches Big Data les plus consommatrices en temps sont la résolution de problèmes de qualité et de cohérence des données (46%) et la préparation des données pour l’intégration (52%). Paytronix, client de Pentaho, gère des programmes marketing et de fidélité dans le secteur des restaurants et son équipe de data scientists utilise R avec Pentaho et Hadoop pour l’analyse de données afin d’aider les clients à anticiper les fraudes et le comportement des clients. Saad Khalid, Data Insights Product Manager ches Paytronix explique, « La préparation des données est essentielle, mais les processus sont fastidieux. Pentaho Data Integration avec R nous a permis de fournir pus rapidement à nos clients des analyses et informations détaillées. Ce qui prenait quelques semaines prend désormais quelques minutes. »

« Ayant conçu des projets types des quatre cas d’utilisation des Big Data les plus courants, Pentaho est à l’avant-garde des solutions aux problématiques d’intégration de données, et nous savons que les analyses avancées et prédictives sont les éléments clés de la réussite, » déclare Christopher Dziekan, EVP and Chief Product Officer chez Pentaho. « La plus grande valeur des données provient du mélange de l’anticipation et de la rétrospective pour mener la réflexion et l’action. »

Le Data Science Pack améliore la productivité en exécutant des statistiques descriptives avancées et des algorithmes d’apprentissage machine « à grande échelle » au sein des transformations de flux de données. Parmi les fonctions du pack :

· L’étape R Script Executor permet que plus de 5 500 packages au sein du répertoire CRAN (Comprehensive R Archive Network) soient utilisés dans les transformations de PDI

· L’étape Weka Forecasting utilise des techniques d’apprentissage machine pour générer des jeux de données chronologiques prévisionnels basés sur des observations de l’historique

· L’étape Weka Scoring exécute des modèles d’apprentissage machine pour calculer et ajouter des valeurs de probabilité aux données entrantes


Disponibilité du produit
Le Data Science Pack de Pentaho sera disponible au début de l’été.



Dans la même rubrique :