STATISTICA HP : Technologie In-Memory et Calculs Massivement Parallèles pour les Traitements Big Data


Rédigé par Communiqué de Statsoft le 21 Juin 2013

StatSoft annonce la sortie de STATISTICA HP, dernier né de la plateforme analytique STATISTICA en version 12, développée pour traiter les informations contenues dans de très grandes bases de données en utilisant les calculs massivement parallèles et la technologie In-Memory.



La technologie de STATISTICA Haute Performance (HP) rend accessible aux clients de StatSoft la puissance d’un super calculateur pour l’analyse de leurs données, profitant du fait que les serveurs multiprocesseurs deviennent de plus en plus abordables pour la plupart des entreprises, même petites ou moyennes. Par exemple, il est possible d’acquérir un serveur Microsoft Windows (R) avec plus de 256 processeurs logiques sous Windows
Server 2008 R2, et plus de 640 processeurs logiques sous Windows Server 2012.

« Avec la nouvelle version de STATISTICA HP, nous avons atteint un niveau de performance remarquable dans pratiquement toutes les tâches exécutées, en particulier pour les processus d’analyses de données in-memory sur des serveurs très performants », confie le Dr. Thomas HILL, Vice Président des solutions analytiques de StatSoft.

Par exemple, STATISTICA HP peut calculer un million de corrélations sur un jeu de données comportant un million d’enregistrements avec 1000 champs en quelques secondes à peine (en fonction de la vitesse de l’horloge et de la configuration de la mémoire), en utilisant tous les coeurs des processeurs disponibles d’un serveur 64 coeurs avec 256 GO de RAM.

En outre, l’architecture de STATISTICA HP fournit de nombreuses optimisations permettant l’utilisation de la parallélisation massive lors du processus de construction d’un modèle prédictif ou du processus de scoring.

Dans STATISTICA HP 12, tous les algorithmes avancés – et notamment les modèles les plus performants comme les forêts aléatoires, le boosting d’arbres de décisions, et d’autres – ont été pensés pour utiliser le plus de CPUs et de RAM disponibles afin de construire aussi efficacement que possible des modèles in-memory sur du big data.



Dans la même rubrique :