Decideo - Actualités sur le Big Data, Business Intelligence, Data Science, Data Mining

Abonnez-vous gratuitement à Decideo !


Decideo

 


Faut-il bruler l’entrepôt de données traditionnel ?


Rédigé par le 4 Novembre 2013

Avec HANA, SAP propose une nouvelle approche du décisionnel. Sur le papier, l’in-memory et le stockage en colonnes permettent de travailler sur la donnée brute et non consolidée. Une approche radicale qui démode l’entrepôt de données traditionnel et ses chaines d’alimentation par lots nocturnes. Est-il temps de repartir d’une page blanche ?



Les technologies traditionnelles des entrepôts de données vont devoir cohabiter avec les équipements de nouvelle génération dans les salles blanches.
Les technologies traditionnelles des entrepôts de données vont devoir cohabiter avec les équipements de nouvelle génération dans les salles blanches.
Le Data Warehouse traditionnel est-il démodé ? A écouter les déclarations des VP de SAP, menés à la bataille par le patriarche Hasso Plattner, la page est tournée. Les entrepôts de données statiques, mis à jour en temps différé avec des données agrégées faute de place, ont fait leur temps. Timo Elliott de SAP n’hésite pas à diaboliser (un peu) le directeur informatique en gardien du temple : « We don’t let people access the data warehouse – that would slow it down too much » que l’on pourrait traduire par « Ne laissons pas les utilisateurs accéder à l’entrepôt de données, ça le ralentirait trop. »
Avec l’abaissement des couts de stockage, l’arrivée des SSD et l’augmentation de la puissance des processeurs, réaliser des recherches en temps quasi-réel ou avec des temps de réponses acceptables, sans qu’il soit nécessaire de préparer le travail dans des datamarts, est maintenant une réalité. SAP pousse bien évidemment sa base en mémoire HANA pour conquérir le marché, avec un certain succès. Avec 2.100 clients et un chiffre d’affaires de 149 M€ (+79%) au dernier trimestre, HANA commence à trouver sa place alors que les ventes de licences traditionnelles de SAP s’essoufflent. HANA permet notamment d’accélérer SAP BW qui en avait bien besoin. SAP place désormais HANA en tant que composant central de l’Enterprise Data Warehouse (EDW), l’entrepôt de données global de l’entreprise et pour ceux qui considèreraient HANA comme une solution un peu trop légère vis-à-vis de leurs besoins, SAP leur propose Sybase IQ dès lors que les volumétries deviennent trop importantes. Sybase IQ est rangé dans la classe des bases peta-octiques par son éditeur.

Le data warehouse devient hybride

Jean-Michel Franco, directeur Solutions chez Business&Decision : « On aura toujours besoin des données traditionnelles, mais ce ne sera plus le composant central unique. A ses côtés, on a besoin d’un outil de recherche, de « discovery ».
Jean-Michel Franco, directeur Solutions chez Business&Decision : « On aura toujours besoin des données traditionnelles, mais ce ne sera plus le composant central unique. A ses côtés, on a besoin d’un outil de recherche, de « discovery ».
Pour autant, quelle entreprise a mis au rebus les entrepôts de données « historiques » pour les remplacer par ces logiciels de nouvelle génération ? Mis en place à grands frais voici dix à quinze ans pour certaines, ces bases de données représentent encore la mémoire de l’entreprise et les arrêter risque de s’avérer bien plus compliqué que certains commerciaux SAP ne l’espèrent. Jean-Michel Franco, directeur Solutions chez Business&Decision explique : « Le data warehouse, c’est un peu comme le concept de longue traine : il permet de travailler la donnée dans le temps, sur la durée, mais il peut s’avérer beaucoup moins adapté lorsqu’il s’agit de travailler sur de la donnée non structurée, dont le schéma est établi a posteriori. C’est un nouveau cas d’usage. » Quel utilisateur Oracle Report ou BusinessObjects n’a pas rêvé de disposer d’un outil de type Qlikview pour explorer une idée ou plus simplement chercher l’origine d’une donnée. L’arrivée de salariés voulant disposer d’outils de navigation temps réel dans la donnée a interpelé tous les acteurs du secteur. Michel Bruley, directeur marketing de Teradata/Aster pour l’Europe le reconnait : « Pendant des années, la base de données Teradata devait traiter l’ensemble des besoins des entreprises en termes d’entrepôt de données. Mais, Teradata a évolué. Le Data warehouse a évolué : Cela fait maintenant 3 ans que nous produisons des serveurs intégrant des mémoires SSD et la prochaine version de notre base de données Teradata intègre le « in-memory » depuis sa V 14.10. »

Amaury Prévot-Leygonie, consultant BI et data Warehouse Senior chez Keyrus ajoute : « Pour moi, je vois 2 tendances importantes dans les data warehouses : d’un part l’arrivée des équipements spécialisés (les appliances) tels que j’ai pu tester chez Teradata et le Big Data. Les appliances, avec le stockage en colonnes des données et les SSD, offrent des performances de traitement des données extrêmement élevées, ça offre une toute nouvelle aisance à exploiter les données, les analyses. » L’autre phénomène, c’est Hadoop qui va venir relayer les ETLs sur un certain nombre de traitements où ils étaient à la peine : « i[Certains flux ETL pourront migrer vers Hadoop, je pense notamment au cas du Ministère de la Justice pour l’analyse des dossiers des prévenus. Ces documents peu structurés, tous différents avec de multiples relations internes se prêtent très mal à l’approche classique SQL : la migration vers Hadoop permet de simplifier l’analyse et gagner en vitesse] », explique Amaury Prévot-Leygonie qui ajoute : « Le Big Data, c’est via HDFS, la possibilité de stocker des données sans structure : on sort totalement de l’approche traditionnelle : les chaines de chargements ETL ne sont pas remises en cause, mais avec Hadoop on peut réaliser des calculs que l’on ne pouvait pas réaliser en SQL, c’est le V de variété avec Volume, vitesse et véracité. » Informatica, Talend… tous ont ajouté à leurs offres une brique ou au moins un interfaçage à des solutions MapReduce, et le déport d’un calcul de score sur un cluster Hadoop peut être piloté via l’ETL.

Le ‘Discovery’ se place en complément de l’entrepôt de données

Bousculé par les nouvelles technologies, l’entrepôt de données reste indéboulonnable en tant que fondement de la Business intelligence des entreprises. Il va devoir cependant cohabiter avec de nouvelles briques du système d’informations comme le souligne Jean-Michel Franco : « On aura toujours besoin des données traditionnelles, mais ce ne sera plus le composant central unique. A ses côtés, on a besoin d’un outil de recherche, de « discovery ». C’est ce que propose Teradata avec sa plateforme Aster qui va se positionner comme un outil agile, capable de travailler sur des données non structurées, un outil s’adressant à un nombre plus faible d’utilisateurs. Le concept de base qui fait tout, c’est fini. Même SAP, qui mise sur HANA, a fini par intégrer Sybase IQ dans le périmètre de son offre. Tous les éditeurs l’ont compris et ils ont maintenant tous Hadoop à leur catalogue. » L’enjeu de l’entrepôt de données du futur va être de faire cohabiter ces univers différents, sans multiplier, une fois de plus, les silos. Le Gartner a baptisé cette notion d’entrepôt de données « logique » (Logical Data warehouse) : un entrepôt de données unique d’un point de vue logique, mais constitué de plusieurs entrepôts de données, plusieurs datamarts et avec de multiples technologies sous-jacentes : relationnel, NoSQL, non structuré.

Michel Bruley espère que Teradata sera en avance et convaincre ses clients : « On offre plusieurs plates-formes, dont Aster et Hadoop. L’intégration de toutes nos offres est réalisée avec Teradata UDA (Unified Data Architecture) qui fait en sorte que ces différents composants parlent entre eux. L’entreprise va disposer d’une plate-forme analytique qu’elle va utiliser pour réaliser du discovery puis ensuite elle va industrialiser ses requêtes sur le data warehouse. »

L’entrepôt de donnée monolithique est mort, il est temps de passer à l’hybride !




Commentaires
Du plus récent au plus ancien | Du plus ancien au plus récent

1.Posté par Jean-Michel Franco le 05/11/2013 11:26
Petite précision pour rebondir sur cet excellent article, sur la notion de longue traîne évoquée ici, et que j'utilise régulièrement pour expliquer ces tendances par une analogie avec le marché de la distribution. Amazon, et beaucoup d'autres e-commerçants appliquent le principe de la longue traîne qui leur permet d'avoir un catalogue de références infinis. Cela ne les empêche pas pour autant de s'appuyer sur des entrepôts en propres. Simplement, à côté de ces entrepôts il y a d'autres modèles, comme celui de la Marketplace. Pour Amazon, la marketplace représentait en 2012 pas moins que 40% des ventes (25 Milliards de dollars).
A mes yeux, le Big Data appliqué à la Business Intelligence, c'est appliquer ce même principe de longue traîne. S'ils continuent à s'auto contraindre à ne rendre disponibles que les données disponibles dans leur entrepôt, les spécialistes BI s'exposent à de grands risques tout en passant à côté d'énormes opportunités. Un peu comme certains distributeurs traditionnels aujourd'hui en grande difficulté face au modèle Amazon.

Il ne faut pas pour autant "jeter le bébé avec l'eau du bain" : l'entrepôt de données reste un composant central d'un système d'information au même titre que les entrepôts sont restés des composants clés dans la distribution "longue traine".
Il faut par contre trouver des alternatives quand leurs principes se heurtent aux enjeux de vitesse (le juste à temps notamment), de variété (le type de données gérées) et de volume (notamment lié au coût de stockage) ; ou encore que les données sont souhaitées par les utilisateurs, mais non produites par les systèmes d'information existants dans l'entreprise ; d'où cette quête d'architectures hybrides.

1 2
Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.