Appliances, la révolution in-memory est en marche


Rédigé par Benoit Lafaye, Umanis le 13 Septembre 2012

Les Datawarehouses n’ont jamais été autant d’actualité ! Il faut dire que l’apparition des processeurs multi-cœurs, la baisse du coût de la mémoire et l’utilisation de bases de données vectorielles et la démocratisation des solutions in-memory sont un terreau favorable à l’innovation. Au programme, des performances inégalées et des temps de traitements qui varient largement en fonction des requêtes. Le principe, permettre aux utilisateurs de se concentrer sur l’analyse et l’exploitation des données temps réel et non plus sur la construction des composants de cette analyse. Les éditeurs prônent une nouvelle approche du décisionnel et se livrent une guerre acharnée depuis plusieurs mois. SAP, IBM, Oracle, (…) tous communiquent à outrance sur leurs Appliances mais que se cache-t-il derrière ces effets d’annonce ?



Benoit Lafaye – Directeur de projets & Manager Practice Appliances Umanis
Big Data, temps de traitement rédhibitoires, augmentation constante des utilisateurs, ces facteurs combinés poussent les systèmes décisionnels classiques dans leurs retranchements et à la limite de leur capacités. Actuellement les systèmes ne permettent pas de traiter ni d’analyser dans un délai acceptable les données de détail par nature volumineuses. En général ces données sont souvent chargées la nuit pour ne pas affecter les performances des SI opérationnels mais de plus il faut modéliser les entrepôts de données pour supporter les analyses des utilisateurs afin de garantir des temps de réponse acceptables. Par ailleurs, les applications opérationnelles étant le plus souvent déconnectées des applications analytiques, il est très difficile de réagir à des événements, d’identifier des phénomènes ou de planifier des actions en réponse.

Les appliances ont pour objectif l’accroissement du volume de données analysées mais également le maintien des performances d’accès aux informations (rapidité et optimisation du traitement des requêtes). Elles représentent ainsi une conséquence majeure de l’évolution technologique qui est actuellement en marche et se retrouvent à la croisée de plusieurs facteurs : l’explosion des processeurs multi-cœur, la baisse du coût de la mémoire, l’efficacité croissante des mécanismes de compression des données et enfin l’extension des fonctionnalités (analytique, Big Data et Cloud).

Au fur et à mesure de l’évolution, les appliances sont passées du concept classique d’une alliance « unique et privilégiée » entre un éditeur de SGBD et un constructeur matériel à des solutions de plus en plus ouvertes (1 éditeur SGBD, x Constructeurs matériels ) mais en garantissant les mêmes niveaux de performance et d’optimisation hardware.

Quels sont les enjeux d’une architecture appliance ?
Le premier enjeu de ce type d’architecture n’est pas d’obtenir une architecture « performante » à l’instant T mais de mettre en œuvre une solution « scalable » où le dimensionnement matériel est prévisible dans le futur en fonction de l’utilisation et du volume de données.
Le second enjeu réside dans la capacité à maitriser son TCO, le ROI mais également les investissements de manière centralisée. Le modèle de coûts peut se voir ainsi : des investissements importants au départ puis une diminution des coûts avec la centralisation des données pour parvenir à une évolution des coûts maitrisée sur les futures années.

Dans un second temps, d’autres éléments non négligeables sont à prendre en compte dans ce type d’architecture qui offrent nativement des améliorations sur les fonctionnalités transverses suivantes :
- la gestion du fail over
- des performances de sauvegarde-restauration inégalables
- une gestion plus fine du workload management et des priorités entre les processus utilisant les ressources machine
- une simplification des charges d’administration du système.

Quels sont les concepts techniques des appliances ?
Celles-ci s’appuient sur une architecture MPP (Massively Parallel Processing). L’efficacité de ces solutions réside dans la capacité à déléguer le plus complètement et efficacement possible les opérations « intelligentes » sur la base au niveau matériel.
Deux grands types d’architecture MPP peuvent être mises en place. L’Architecture Shared Nothing, dans laquelle la séparation entre les disques affectés à un processus est complète et l’Architecture Shared Disks, c’est le cas quand une partie des disques est partagée entre plusieurs processus.
Au-delà de ces débats d’architecture techniques qui n’ont pas permis de mettre en exergue une
architecture idéale, l’un des principes qu’il est important de considérer préalablement à la mise en place de l’architecture est la définition du critère de répartition des données sur les différents disques de stockage. L’élaboration de ce critère doit permettre de garder une distribution des données égale sur les disques au moment de l’implémentation mais également sur les prochaines années à venir, les possibilités de choix de ce critère ne sont pas toutes les mêmes selon les solutions ; étudier par avance ce point fondamental permet d’éviter des surprises par la suite. Même s’il est toujours possible de réorganiser les données, cela reste un processus compliqué aux vues des volumétries mises en jeu.

En terme de stockage, c’est le mode « en colonnes » qui a gagné en popularité grâce à ses capacités de compression et ses performances accrues sur des requêtes analytiques. Idéalement il faudrait choisir une solution (Teradata, Oracle,…) permettant d’allier les deux modes stockage (en mode lignes ou en mode colonnes).

Le concept « in-memory » est LE concept du moment, et toutes les solutions (à part Teradata) proposent dorénavant cette composante soit directement dans leur appliance soit dans un module complémentaire ce qui permet de répondre à des besoins de haute performance (temps réel) sur de l’analyse de données (sur des datamarts ou des cubes plutôt que sur des entrepôts de données).

Quels sont les acteurs du marché ?
L’écosystème des appliances fut assez mouvant ces derniers mois en raison des nombreux rachats et annonces de nouvelles offres mais cette tendance semble se calmer. Le marché s’est consolidé avec les principaux acteurs du marché que sont Teradata, Oracle, IBM Netezza, EMC Greeplum, SAP (Sybase IQ & HANA) et Microsoft. Quelques acteurs de niche sont également apparus tels que Vertica, Kognitio ou encore ParAccel. Umanis est d’ailleurs partenaires avec les principaux éditeurs du marché.



Dans la même rubrique :