Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Lancement de la version 9.0 de Statistica


Rédigé par Communiqué de Statsoft le 30 Décembre 2009

STATISTICA 9 offre un grand nombre de nouvelles fonctionnalités dont bénéficie l’ensemble de la gamme de produits STATISTICA. De nombreuses optimisations ont été introduites et affectent les performances globales de STATISTICA. Ces améliorations se retrouvent à la fois dans la version 32-bit et dans la nouvelle version native en 64-bit de STATISTICA.



Grâce aux nouvelles technologies et aux diverses optimisations introduites dans les principales procédures de calcul de STATISTICA, non seulement la version 64-bit mais aussi la version 32-bit de STATISTICA 9 sont significativement plus rapides pour la plupart des opérations, par rapport à la version précédente de STATISTICA 8 (qui était déjà l’une des applications analytiques les plus rapides du marché).

Par exemple :

Les analyses décomposées (calcul de statistiques descriptives réalisées selon plusieurs centaines voire plusieurs milliers de catégories) peuvent être jusqu’à deux fois plus rapides qu’auparavant. Dans certains cas, les calculs sont jusqu’à plusieurs centaines de fois plus rapides lorsque les données comportent de très longues variables textuelles.
Les analyses d’Arbres de Décision (C&RT) s’exécutent au moins deux fois plus rapidement.
Les Réseaux de Neurones sont près de trois fois plus rapides selon le type d’architecture spécifique du réseau de neurones.
Outre ces améliorations sur les procédures analytiques, les performances des feuilles de données ont été encore améliorées afin de minimiser les ressources de calcul nécessaires lorsque vous travaillez sur de gros fichiers de données.

Version Native en 64-bit

Les applications natives en 64-bit permettent de tirer pleinement parti des Systèmes d’exploitation 64-bit, avec une gestion de la mémoire et des performances optimisées. C’est la raison pour laquelle la version 64-bit de STATISTICA 9 est en mesure de traiter des modèles beaucoup plus importants avec des performances accrues, puisque certaines analyses nécessitant de très nombreux calculs pourront être réalisées deux fois plus vite par rapport à la version 32-bit de STATISTICA 9. La version 64-bit de STATISTICA est particulièrement adaptée pour les opérations de data mining, ou d’autres opérations portant sur de grosses volumétries, avec de nombreuses itérations et de nombreux calculs.

Améliorations de l’Interface-Utilisateur

Expérience Utilisateur Plus Intuitive

La navigation à l’intérieur de l’application est beaucoup plus simple et intuitive grâce à l’ajout d’un « Ruban », comme dans Office 2007. Les fonctionnalités les plus fréquemment utilisée sont directement visibles, et il est très facile d’accéder aux autres fonctionnalités. Remarque : les menus et barres d’outils classiques restent accessibles, et vous pouvez passer d’une interface à l’autre à tout moment.



Pour afficher les menus et barres d’outils classiques, cliquez sur le bouton Menus dans la barre d’outils d’Accès Rapide, dans l’angle supérieur gauche du ruban.

Pour afficher le ruban STATISTICA, sélectionnez la commande Ruban dans le menu Affichage.

D’autres améliorations ont été apportées à l’interface-utilisateur avec de nouvelles options permettant de contrôler l’aspect visuel des graphiques, le comportement des feuilles de données et la réactivité globale de STATISTICA. Dans les boîtes de dialogue plus complexes, il est désormais plus facile de définir vos préférences au travers d’une arborescence vous donnant accès aux différentes options de contrôle de l’application [dans la boîte de dialogue Options, accessible par la commande Options de l’onglet Outils (ruban) ou par la commande Options du menu Outils (barre d’outils classique)] ou aux options de contrôle des graphiques [dans la boîte de dialogue Options du Graphique, accessible par la commande Options du Graphique dans l’onglet Mise en Forme (ruban) ou par la commande Options du Graphique du menu Mise en Forme (barre d’outils classique)].



Une manière rapide de spécifier des sous-ensembles d’observations pour vos analyses consiste à cocher l’option Activer les Filtres de Sélection dans la boîte de dialogue Filtres de Sélection de la Feuille de Données. Cette nouvelle option permet de repérer visuellement les observations sélectionnées, en identifiant les observations retenues pour l’analyse par un fond vert clair (par défaut). Vous pouvez ainsi voir rapidement les observations qui seront utilisées pour l’analyse.



De nouvelles améliorations ont également été apportées à la mise en forme des cellules de la feuille de données dont le texte est trop long pour être affiché intégralement dans une cellule, compte tenu de la largeur de la colonne. Dans la version 9, deux améliorations ont été introduites : en utilisant les paramètres par défaut, lorsque les cellules adjacentes sont vierges, l’affichage du texte se poursuit désormais dans ces cellules adjacentes. Une nouvelle option a également été ajoutée pour Renvoyer à la ligne automatiquement le texte trop long des cellules de la feuille de données, afin d’afficher ce texte sur plusieurs lignes.





Améliorations au Niveau des Graphiques

Exploration Visuelle des Données

L’un des atouts de STATISTICA réside dans ses possibilités étendues d’exploration visuelle des données. StatSoft complète sa gamme actuelle par de nouveaux graphiques de synthèse permettant d’explorer la distribution des données, de comparer des variables, et de créer des représentations en couleur de matrices de corrélation dans le module de Statistiques Élémentaires.

Sélectionnez l’option Statistiques descriptives (dans le Panneau de Démarrage du module Statistiques Élémentaires) afin d’accéder à deux nouveaux graphiques de synthèse : Graphs 2 et Comparaison graphique de plusieurs variables. Le bouton Graphs 2 permet d’explorer la distribution des données pour une même variable.



Le bouton Comparaison graphique de plusieurs variables permet de comparer jusqu’à six variables dans un même graphique. L’histogramme et la boîte à moustaches utilisent une échelle commune pour chacune des variables.



Sélectionnez l’option Matrices de corrélations afin d’accéder à une nouvelle option Intensité des Relations. Par exemple, dans l’illustration suivante, nous pouvons facilement voir que les activités professionnelles sont étroitement liées aux temps de transport, mais également aux activités de ménage, aux enfants ou aux courses (dans cet exemple, la codification des couleurs repose sur le niveau de significativité statistique des coefficients de corrélation, comme indiqué dans la légende reportée dans la zone de titre du tableau, et ne fait pas référence au sens [positif ou négatif] de la corrélation).



Le Tracé de dispersion permet d’estimer la dispersion d’un facteur en fonction d’autres facteurs organisationnels et de réaliser des analyses visuelles de décomposition et de data mining. Le Tracé de dispersion peut être utilisé pour créer des graphiques personnalisés.



Comme pour tous les autres graphiques personnalisés, cette option peut vous permettre de gagner du temps, c'est-à-dire que vous enregistrez simplement vos paramètres courants que vous pouvez ensuite appliquer à d’autres fichiers de données.

Catégories de Graphiques

Dans les versions antérieures, le nombre de catégories était limité à 255 pour les graphiques ; cette limite a été portée à 1.000 ; vous pouvez donc désormais créer des boîtes à moustaches multiples avec jusqu’à 1.000 boîtes.

Options pour Enregistrer des Macros de
Personnalisation des Graphiques

L’enregistrement de macros est une option puissante, et l’architecture du modèle-objet des macros dans STATISTICA ainsi que les fonctionnalités de programmation sont aisément accessibles à tous. Aucune connaissance technique particulière de STATISTICA Visual Basic n’est requise. Les tâches courantes peuvent être automatisées ou contrôlées dans les environnements de travail réglementés.

L’enregistrement de macros vous permet d’accéder par programmation à la plupart des aspects et au moindre détail des fonctionnalités du programme. Même les analyses et les graphiques les plus complexes peuvent être enregistrés dans des macros STATISTICA Visual Basic (SVB) que vous pouvez ensuite exécuter à volonté. Vous pouvez également les modifier afin de les utiliser comme blocs de construction pour d’autres applications.

Vous avez désormais la possibilité d’intégrer l’enregistrement de vos options de personnalisation des graphiques. Supposons par exemple que vous souhaitiez produire un tracé curviligne dans lequel vous voulez modifier la couleur et l’épaisseur du trait. Il vous suffit d’ouvrir la boîte de dialogue Options du Graphique et de modifier les options du trait dans le volet Tracé--Généralités. Cochez l’option Enregistrer une Macro en bas de la boîte de dialogue Options du Graphique, puis cliquez sur le bouton OK pour générer une macro.

Cette option puissante s’applique également aux filières d’analyses. Vous pouvez désormais démarrer l’enregistrement d’une filière d’analyses, réaliser diverses analyses, et personnaliser les graphiques résultants. Si vous ré-exécutez la macro de la filière d’analyses, toutes les analyses seront reproduites à l’identique, y compris les personnalisations graphiques.

Améliorations au Niveau des Statistiques

Distributions et Simulation

Nous avons le plaisir d’annoncer la sortie de la version bêta du module Distributions & Simulation. Ce module permet à l’utilisateur d’ajuster automatiquement un grand nombre de distributions sur des listes de variables continues et catégorielles. Toutes les distributions classiques sont disponibles (normale, normale par moitié, log-normale, Weibull, etc...), ainsi que d’autres distributions généralistes et spécialisées (Johnson, Mélange de Gaussiennes, Pareto Généralisée, Valeur Extrême Généralisée) ; STATISTICA va alors automatiquement classer ces distributions en fonction de leur qualité d’ajustement pour chacune des variables sélectionnées.

En outre, vous pouvez sauvegarder l’ajustement des distributions sur la liste de variables sélectionnées ainsi que la covariance entre les variables sélectionnées en vue du déploiement. Le module Distributions & Simulation va utiliser cette information de déploiement pour générer des jeux de données, en mesure non seulement de reproduire fidèlement les distributions respectives, mais également les covariances entre les variables. En résumé, outre le fait de simplifier l’ajustement de distributions sur un grand nombre de variables, ce module vous permet d’ajuster des distributions multivariées généralistes, et d’effectuer des simulations à partir de ces distributions, grâce à des techniques de simulation de pointe (par exemple, la simulation Latin-Hypercube).

Ces méthodes ont prouvé leur efficacité dans des domaines tels que les plans d’expériences modernes, l’ingénierie de fiabilité ou la modélisation du risque.



StatSoft France vous invite à faire part de vos commentaires ou remarques concernant l’ajout de ce nouveau module analytique de STATISTICA. Pour ce faire, merci d’adresser votre message par courrier électronique à l’adresse beta@statsoft.fr.

Statistiques Élémentaires

Un certain nombre de nouvelles statistiques élémentaires ont été ajoutées. Le calcul de la statistique du F de Welch permettant de tester l’égalité des moyennes lorsque les variances sont différentes est désormais accessible dans l’onglet ANOVA & tests, de la boîte de dialogue des résultats de l’analyse Décompositions & ANOVA à un Facteur.

L’estimation des intervalles de confiance pour les différences entre les moyennes avec limites de confiance est désormais accessible dans l’onglet Options de la boîte de dialogue Test t pour des Échantillons Indépendants, par Variables ainsi que dans l’onglet Avancé de la boîte de dialogue Test t pour des Échantillons Appariés.

Optimisation Générale

Le module d’Optimisation Générale, qui est proposé dans le produit STATISTICA Optimisation de Processus, est un module puissant, en architecture ouverte, qui vous permet d’optimiser n’importe quelle fonction, quelle qu’en soit la complexité, à l’aide des méthodes Simplexe, Algorithme Génétique ou Recherche Automatique. Ce module (proposé en version bêta) trouve des applications dans la plupart des domaines où il convient de déterminer les paramètres optimaux qui vont influer sur des processus spécifiques, afin d’obtenir les meilleurs résultats compte tenu de critères personnalisés (par exemple, industries de processus, affaires, finance, sciences). Vous pouvez spécifier la fonction à optimiser à l’aide d’une simple fonction STATISTICA Visual Basic (SVB) ou d’un ensemble de formules. Ce nouveau module a été spécifiquement développé afin de rendre l’appel répété à d’autres fonctions STATISTICA (ou des fonctions externes, comme R) utilisées dans la fonction d’optimisation aussi efficace que possible. Par conséquent, vous pouvez dorénavant configurer et résoudre efficacement les problèmes consistant à optimiser plusieurs modèles de prévision en data mining (par exemple, modèles complexes de coûts) ou à réaliser des simulations (dans le cadre d’une optimisation stochastique, ou pour optimiser la capabilité d’un processus multivarié).

Estimation Non-Linéaire

Des modifications ont été apportées aux analyses Régression personnalisée, moindres carrés et Régression personnalisée, fonction de perte. Lorsque vous créez la fonction à estimer, une option vous permet de visualiser la liste des variables. Il est logique d’examiner la liste des variables avant d’en utiliser une dans la fonction, mais jusqu’alors, vous deviez saisir le nom de la variable dans la fonction. Désormais, vous pouvez visualiser les variables, les sélectionner et les insérer dans la fonction à l’aide du bouton Visualiser vars.

Parfois, pouvaient survenir des conflits entre le nom d’une fonction et le nom d’une variable dans l’analyse Régression personnalisée, moindres carrés. Par exemple, si vous aviez une variable OBS, et que vous utilisez la fonction OBS, vous deviez changer le nom de la variable avant de poursuivre l’analyse. Désormais, vous pouvez utiliser les noms PRED et OBS comme noms de variables dans cette analyse.

ACP « à la Française »

L’onglet Stats descriptives de la boîte de dialogue des Résultats contient un bouton Nuages de Points en 2D. Vous pouvez dorénavant sélectionner plusieurs variables et produire tous les nuages de points d’un seul clic.

Améliorations au Niveau du Data Mining

Data Miner Plus

Le module tant attendu du Data Miner Plus en version définitive est proposé dans le cadre de la version 9 de STATISTICA ; ce module était jusqu’alors disponible en version bêta uniquement. STATISTICA Data Miner Plus est un assistant pas-à-pas, simple et puissant, destiné à vous aider dans vos tâches de data mining ; il est proposé à tous les utilisateurs du data miner de StatSoft. Les novices du data miner peuvent rapidement nettoyer et analyser leurs données, tandis que les utilisateurs experts peuvent travailler plus efficacement en disposant d’une option supplémentaire pour automatiser leurs tâches routinières. STATISTICA Data Miner Plus explore les données et prend les décisions par défaut à votre place. Vous pouvez aisément modifier ces paramètres par défaut dès que vous le souhaitez, et les sauvegarder pour une utilisation répétée.



Autres Améliorations

De nouveaux raccourcis ont été ajoutés pour connecter les nœuds du data miner dans l’espace de travail, et les fonctionnalités glisser/déplacer ont été étendues. Dans les versions antérieures de STATISTICA, vous deviez cliquer sur le second nœud afin de valider une connexion. Vous pouvez dorénavant glisser simplement la flèche de connexion jusqu’au second nœud et relâcher la souris pour établir la connexion.

Des barres de défilement (ascenseurs) ont été ajoutées sur les arbres de classification et de régression trop importants pour être affichés dans une simple fenêtre.

La feuille de données des résultats du module MARSplines, tronquait jusqu’à présent les noms de variables à 8 caractères ; dorénavant, le nom de la variable indépendante apparaît en entier.

Le module Optimisation Générale (voir le descriptif, ci-dessus), qui est proposé en version bêta, est intégré dans le produit STATISTICA Optimisation de Processus. Ce module vous permet d’optimiser n’importe quelle fonction à l’aide des méthodes Simplexe, Algorithme Génétique ou Recherche Automatique. Vous pouvez spécifier la fonction à optimiser à l’aide d’une simple formule ou d’un programme STATISTICA Visual Basic (SVB). Ce nouveau module a été spécifiquement conçu pour pouvoir appeler facilement (et de façon interactive) toutes les fonctions de STATISTICA (ou d’autres applications externes). Par conséquent, vous pouvez dorénavant configurer et résoudre efficacement les problèmes consistant à optimiser plusieurs modèles de prévision en data mining (par exemple, modèles complexes de coûts) ou à réaliser des simulations (dans le cadre d’une optimisation stochastique, ou pour optimiser la capabilité d’un processus multivarié).

Améliorations Diverses

STATISTICA ETL (Extract, Transform and Load)

STATISTICA ETL (Extract, Transform and Load) intègre une boîte à outils puissante pour aligner, fusionner et combiner de façon intelligente des données issues de vos différentes bases de données, afin de les soumettre aux puissantes fonctionnalités de traitement de STATISTICA pour le filtrage, l’agrégation, l’alignement et l’analyse de vos données. STATISTICA ETL permet d’aligner des données issues de sources disparate, en fonction des numéros de batch et des intervalles de temps, et/ou selon un ou plusieurs champs avec identifiants. La fusion de plusieurs fichiers de données en un seul est un scénario courant dans de nombreuses industries manufacturières et de processus.



Par exemple, grâce à STATISTICA ETL vous pouvez aisément transformer des données de production par batch afin d’obtenir des batch de même taille (et ainsi résoudre le problème des “batch de taille différente” pour le contrôle qualité basé sur des modèles de PLS/ACP avec STATISTICA ou STATISTICA Entreprise pour du contrôle qualité en temps réel). Parmi les autres applications possibles, nous pouvons avoir à aligner des données process collectées à des intervalles de temps différents, soit en agrégeant les valeurs des variables collectées le plus fréquemment, soit en répliquant les valeurs des variables collectées le moins souvent (par exemple, pour analyser des données historiques d’un processus qui décrivent les performances d’une chaudière, et où il faut aligner les paramètres de combustion collectés toutes les minutes avec les données de qualité du combustible qui sont collectées quotidiennement). Dans la version 9, le produit a été amélioré pour accroître ses performances et son extensibilité, avec des résultats plus détaillés (par exemple, pour reporter les véritables intervalles dans les résultats).

Rapports de STATISTICA Entreprise

L’interface de reporting de STATISTICA Entreprise vous permet de créer des rapports au format HTML, PDF et RTF. Le système peut désormais envoyer automatiquement par messagerie électronique ces rapports dès qu’ils sont exécutés.



Des modifications ont également été apportées au Journal des Événements qui enregistre dorénavant les dates et heures en temps universel coordonné (UTC). La conversion s’effectue en heure locale lors de l’affichage du Journal des Événements. De cette manière, des utilisateurs situés dans des fuseaux horaires différents ont une information précise du moment exact où des modifications sont intervenues.

Système de Licence de WebSTATISTICA

Le système de licence de WebSTATISTICA a toujours été déterminé par rapport au nombre de processeurs. Désormais, le système de licence permet de déployer plusieurs instances de WebSTATISTICA sur des serveurs distincts sans avoir besoin d’une licence particulière. Par exemple, si un site dispose d’une licence pour 8 CPU, vous pouvez déployer cette licence sur un même serveur disposant de 8 CPU, ou sur deux serveurs distincts disposant chacun de 4 CPU et pointant vers le même fichier de licence.

Installateur MSI (Microsoft Installer)

Avec la version 9, la nouvelle plate-forme d’installation de STATISTICA est désormais en MSI (Microsoft Installer) au lieu du précédent installateur InstallShield, utilisé avec la version 8 et les versions antérieures.

Lorsque vous installez l’application de façon interactive, l’expérience utilisateur n’est pas très différente de celle de la version 8, mais les boîtes de dialogue sont plus conviviales.

Cependant, le véritable intérêt de l’installateur MSI, c’est que vous pouvez désormais intégrer l’installateur de STATISTICA dans d’autres packages d’installation et d’autres outils d’installation propres à l’entreprise. L’installateur MSI permet une installation totalement “silencieuse”, dans laquelle l’information habituellement saisie par l’utilisateur (clé CD, numéro de série, identifiant réseau, code d’installation, et information d’enregistrement de l’utilisateur) peut être transmise directement en paramètres de ligne de commande, ou dans un fichier de paramètres vers lequel la ligne de commande va pointer.

Il existe trois principales applications pour cet installateur MSI :

L’intégration de l’installateur de STATISTICA dans d’autres installateurs.
Le déploiement d’installations monoposte à grande échelle.
Le déploiement des stations de travail pour les solutions en réseau (licences flottantes).
Pour plus d'informations sur ces nouvelles options d’installation, veuillez contacter StatSoft France.

Interfaces Étendues pour les Développeurs

Dans la version 9 de STATISTICA, un certain nombre d’améliorations ont été introduites à destination des développeurs et des intégrateurs de systèmes.

Une nouvelle bibliothèque allégée des feuilles de données STATISTICA est désormais distribuée gratuitement avec STATISTICA. Elle est disponible sans surcoût pour tous les développeurs d’applications tierces qui ont besoin de lire ou d’écrire des fichiers de données STATISTICA. Il s’agit d’une application multi-thread avec une bibliothèque multi-thread distincte pour un accès en .NET.
Les graphiques possèdent une nouvelle interface de gestion des événements, OnGroupingSelect. Cet événement s’applique aux graphiques catégorisés ou agrégés d’une manière ou d’une autre, par exemple, un histogramme (les données sont catégorisées en barres), une boîte à moustaches (les différentes barres représentent des catégories distinctes) ou des graphiques catégorisés. Lorsque vous sélectionnez des éléments dans un tracé, l’événement OnGroupingSelect se déclenche et fournit des informations sur les groupes/catégories représentées par la sélection. Cette nouvelle interface permet ainsi à des applications utilisant des graphiques STATISTICA de mettre en œuvre des fonctionnalités intéressante d’exploration par drill-down
Désormais, STATISTICA n’intègre plus par défaut toutes les références des macros dans les nouvelles macros que vous créez. En revanche, chaque module individuel va ajouter ses propres références spécifiques lors de l’enregistrement de la macro. La suppression de toutes les références permet aux macros de démarrer plus rapidement, mais vous pouvez être confronté(e) à des références non résolues si vous copiez/collez le code d’une macro dans une autre. C’est la raison pour laquelle le programme effectue désormais une vérification lorsque vous copiez/collez entre des macros dont les listes de références sont différentes, et il vous propose de copier les références manquantes.
Une nouveau paramètre en ligne de commande a été ajouté (/MacroArgument) et vous pouvez l’utiliser en complément de l’argument /RunMacro. Vous pouvez ainsi transmettre un paramètre à la macro en cours d’exécution, et la macro va y accéder par l’appel GetScriptArgument.
STATISTICA propose un ensemble complet d’options d’intégration utilisables avec des procédures écrites en R, un environnement et un langage de programmation riche et évolutif pour les calculs statistiques (http://www.r-project.org). Toutes les versions de R (jusqu’à la version 2.9, dernière version disponible à ce jour) peuvent être exécutées depuis STATISTICA. Vous pouvez afficher les résultats de R dans des feuilles de données et graphiques natifs de STATISTICA. Diverses options d’intégration sont proposées, notamment l’exécution de code R sur les serveurs STATISTICA. Voir notre site Web http://www.statsoft.fr/industries/Rlanguage.htm pour plus d'informations.
Les jointures en syntaxe SQL ANSI-92 sont désormais reconnues par STATISTICA Query. Les dernières versions de SQL Server requièrent l’utilisation de ce type de jointures. Par défaut, cette option n’est pas sélectionnée. Vous pouvez activer cette option individuellement pour chaque requête, ou globalement pour l’ensemble des requêtes.




Commentaires

1.Posté par Thierry Vallaud le 24/01/2010 12:31
Je ne suis pas fan mais je trouve les améliorations de l'outils intéressantes et nombreuses
A tester je pense si vous chercher un outil d'analyse de données avant de faire votre choix

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store