Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Intégration 2.0 : quel nouveau souffle pour les ETL


Rédigé par par Philippe NIEUWBOURG le 18 Novembre 2010

Depuis que l’informatique existe et même avant dès l’époque de la mécanographie, il a toujours été question de transformation de données. Une machine existait même à l’époque pour mélanger deux fichiers suivant un caractère commun, l’interclasseuse. Mais sans remonter à cette préhistoire, tout programmeur en simple Basic a connu le développement des « moulinettes ». La manipulation de données s’est professionnalisée avec l’apparition des ETL très utilisés dans les projets décisionnels. Ascential, Informatica, Sunopsis, Integration Services, Talend, Syncsort… pour ne citer que ceux qui me passent par l’esprit à cet instant.



Intégration 2.0 : quel nouveau souffle pour les ETL
Extraction, transformation, chargement. Ils passent tous par ces trois étapes, et c’est justement ce qu’on leur demande. Comment les choisir ? Les performances, l’ouverture à telle ou telle source de données, la simplicité de paramétrage, le coût, les critères sont nombreux et aucun outil ne sort réellement du lot. Ils parviennent tous à convaincre chacun certains clients.
Ces dernières années l’innovation chez les fournisseurs d’outils d’intégration est passée par trois évolutions :
- le temps réel : ou plus raisonnable la réduction des délais d’intégration et la multiplication de la fréquence de rafraichissement. L’objectif est de répartir le plus rapidement possible vers les applications de destination, les données dès qu’elles ont été modifiées dans une application source. Indispensable dans quelques métiers comme la banque ou la finance de marché, utile dans d’autres comme la distribution ou la téléphonie, et totalement hors de prix pour ceux qui n’en ont pas l’utilité. L’extrême de cette évolution est appelé CDC (Change Data Capture), une technique où l’on n’intègre plus un ensemble de données, mais au fil de l’eau les modifications des données sources dès qu’elles sont détectées.
- Le Master Data Management (MDM), c’est à dire la gestion des données de référence. Evolution de la gestion des méta-données que les ETL savent faire depuis de nombreuses années, le mariage du MDM et de l’intégration de données est logique. Il permet de créer des « hubs » par lesquels transitent toutes les informations et où elles peuvent être référencées. Le mythe du dictionnaire de données unique et toujours à jour est tenace, mais reste un mythe.
- La qualité des données est un des problèmes majeurs auxquels sont confrontées les entreprises face à l’explosion du volume des données traitées. Si l’entreprise a mis en place un de ces « hubs », le moment et le lieu sont idéaux pour vérifier et si nécessaire corriger la qualité des données avant que d’éventuelles erreurs ne se propagent dans le système et ne deviennent incorrigeables. Les outils d’intégration ont donc intégré cette dimension.
Qu’il s’agisse de développement chez les uns, de rachats chez les autres ou de simples accords de partenariat, les outils d’intégration couvrent aujourd’hui plutôt bien les trois domaines d’extension cités ci-dessus.

Mais alors quel potentiel d’évolution et d’innovation leur restent-ils ? Dans quelles directions les départements R&D des éditeurs de ce marché vont-ils regarder ? Je me suis posé la question et tenté d’en savoir plus. Intéressant de constater tout d’abord que ce marché des outils d’intégration n’est pas très transparent. Les plans de développement ne sont pas ou très peu publiés. Les prochaines versions sont annoncées au dernier moment. Corollaire positif, on est bien loin du « vaporware » de certains éditeurs qui démontrent une Beta presque un an avant d’envisager la disponibilité du produit (suivez mon regard…). Difficile donc de savoir sur quoi travaillent les équipes de développement des grands éditeurs d’ETL. Mais je pars de l’axiome qu’ils travaillent… aux nouvelles versions.
Si par hasard ils manquaient d’idées, j’ai identifié deux sujets sur lesquels ils pourraient se pencher : l’intégration en mémoire, et le « cloud to cloud ». J’aimerais ici les partager avec vous afin d’ouvrir le débat.

Des outils d’intégration adaptés aux nouvelles bases de données « in memory »

Même si SAP en convient lui-même, le remplacement des bases de données opérationnelles relationnelles par les architectures en cours de développement de bases de données de nouvelles générations, n’est pas pour demain. Il faudra une dizaine d’années avant que ces nouveaux standards démontrent leur efficacité à traiter du transactionnel, et s’imposent dans les entreprises. Mais dans le domaine du décisionnel, cette évolution est déjà en cours. Qu’il s’agisse des Teradata, Netezza, Vertica, Sybase IQ, QlikView… ou du projet HANA chez SAP qui fait couler beaucoup d’encre électronique ces dernières semaines, on sent bien que de nouveaux modèles voient le jour. L’augmentation des volumes, de la fréquence des analyses et de leur profondeur… toutes ces évolutions comportementales conduisent les utilisateurs à rechercher de nouveaux outils plus performants. Mais il faut bien les alimenter. Les outils actuels d’intégration semblent adaptés à ces nouvelles bases, mais elles sont encore peu mises sous pression. Le jour où elles se généraliseront où les volumes augmenteront, tout comme les requêtes des utilisateurs analystes, les outils d’intégration devront certainement s’adapter. Je n’ai pas vu à ce jour d’éditeur d’outil d’intégration proposer un positionnement adapté à ces nouvelles bases. Quelles fonctions devront évoluer ? Quelle architecture devra être adoptée ?

L’intégration « cloud to cloud »

Le « cloud computing » vous a convaincu ? Parfait. Vous avez commencé la migration de certaines applications vers un cloud privé, d’autres vers un cloud public comme Amazon, Microsoft Azure ou un autre. Au fur et à mesure que vos applications se retrouveront dans les nuages, avez-vous vérifié que vos processus d’intégration ne seront pas en plein brouillard ? Comment ces applications hébergées vont-elles communiquer entre elles. La communication d’un « service » à un autre est plutôt bien encadrée, et votre application de CRM peut sans doute accéder à votre historique comptable en temps réel. Mais si ce n’est pas le cas, et si de multiples interfaces doivent continuer à être réalisées au quotidien pour mettre à jour chaque application avec les données dont elle a besoin... La plupart des outils d’intégration vous proposera tout simplement de descendre de votre nuage, au second comme au premier degré, c’est à dire de rapatrier toutes les données d’un nuage sur votre serveur pour les renvoyer ensuite vers un autre nuage. L’intégration « nuage à nuage » est encore inconnue de la plupart des applications. Cela fait certainement partie des axes de travail des éditeurs d’outils d’intégration pour leurs prochaines versions. Des outils qui vous seront alors proposés également en mode hébergé, vous utiliserez et peut-être paierez en fonction des données migrées ou des processus exécutés. Libre à vous de descendre les données sur votre système local si vous le souhaitez, mais ce ne sera plus une contrainte, juste un choix.
Se poseront tout de même des questions de cadencement, de priorité, de sécurité, d’authentification. Si ma chaîne de traitement suppose la mise à jour nocturne de plusieurs applications, que se passe-t-il si une des interfaces hébergées dans le nuage est en retard sur le planning. En mode hébergé, je contrôle forcément moins bien qu’un système dont je suis le seul utilisateur. Quelles réponses proposeront les fournisseurs ?

Que pensez-vous de ces deux axes ? Hadoop jouera-t-il un rôle clef ? Connaissez-vous des outils d’intégration plus avancés que les autres sur ces deux sujets ? Voyez-vous d’autres sujets de réflexion pour aider les éditeurs d’ETL à innover ?




Commentaires

1.Posté par Benoit CAYLA le 18/11/2010 12:07
L'innovation n'est pas une tâche aisée ... d'autant que l'innovation doit aller de pair avec un marché économique porteur.
Personnellement et d'après mes diverses expériences passées, le décisionnel -si je reste cantonné dans ce domaine pour ce commentaire- arrive (en France) aujourd'hui à une phase clé de son développement. Je m'explique: durant ces dix (voire plus) dernières années les entreprises n'ont eu de fait que d'intégrer dans leur Datawarehouse de nouvelles données, il fallait intégrer pour intégrer, les objectifs étant alors jusque là quantitatifs. S'était presque à qui aurait le plus gros Datawarehouse ! Aujourd'hui on constate de plus en plus de problèmes liés à cette inflation permanente des volumétries : fenêtres de tirs qui se réduisent, volumes de données qui explosent, données qui se complexifient : bref des problèmes récurrents qui ont -bien souvent- pour conséquence finale d'avoir de gros impacts sur les performances.
Mais ces problèmes de performances sont-ils le réel problème ? n'est-ce pas la face cachée de l'iceberg ? On pourrait d'ailleurs très bien se résoudre à les contrecarrer via des acrobaties comme utiliser un spécialiste de la perf (comme Syncsort) sur certains chargements, faire de l'ELT, du Real time Datawarehouse, etc. Mais bien souvent cela amènera à des solutions & architectures très complexes, difficiles à maintenir et qui deviendront à terme -c'est presque certain- des usines à gaz.
Pour moi, la solution comme toujours est celle du bon sens : regarder la source du problème et donc s'attaquer aux données source ! et cela se traduit pas un meilleur apprentissage (avec du profiling par exemple) pour mieux les choisir mais aussi et surtout mieux les maîtriser. Et cela ne peut passer que par la gestion de la qualité de données, et par rebond logique le MDM.
Ce n'est pas super innovant (ce n'est pas le dernier terme à la mode comme le cloud) certes mais ces technologies sont matures aujourd'hui. Innover oui mais pour quel besoin ? ne faut-il pas déjà consolider les initiatives existantes ? l'innovation ne doit donc elle pas aussi passer par la fiabilisation et l'amélioration de la productivité dans des initiatives telles que la qualité de données, et le MDM ?
Quand aux autres domaines -hors BI- de l'intégration de données il est clair que le Cloud va jouer un rôle de plus en plus important, car un service sans données ... ça ne sert pas à grand chose !

2.Posté par François Nguyen le 18/11/2010 22:36
Sur le commentaire précédent, totalement en phase sur l'histoire et le diagnostic à date... C'est même brillamment résumé - Plus perplexe sur le rôle de MDM... qui comme l'indique Philippe Niewbourg reste un mythe !

Pour le In-Memory, c'est peut être du coté de l'EAI qu'il faut regarder. Tibco est connu pour son bus EAI, il a aussi une solution décisionnelle in-memory (spotfire). Ils ont une plateforme qui permet par exemple de récupérer des évènements de vos systèmes amonts, de les agréger, d'y appliquer des règles métiers avant de... les charger in-memory dans leur outil décisionnel... Le graphique de monitoring de vos processus critiques peut passer ainsi du vert au rouge en cas d'alerte.


3.Posté par Didier Schreiber le 10/12/2010 09:29
Bonjour,
Je souhaite notamment apporter un éclairage sur ces 2 sujets, avec 2 innovations chez Informatica.
1) Memory Management
Informatica dispose d'une technologie appelée Auto Memory Management, qui permet de ne pas sur-allouer ou sous-allouer la mémoire sur l'une des composantes du sytème, ce qui en améliore considérablement la performance.
2) Cloud et Hadoop
Informatica dispose d'un partenariat technologique avec Cloudera, spécialiste de la gestion des grands volumes de données hétérogènes reposant sur Hadoop. Les utilisateurs d’Informatica peuvent déployer la "Cloudera’s Distribution for Hadoop (CDH)", éprouvée et supportée par Cloudera, en profitant de tous les avantages de la gouvernance complète proposée par la plate-forme Informatica, qui apporte entre autres la traçabilité, la conformité et la confiance totale dans les données. Très utile donc pour analyser des énormes volumes de données, de l'échelle du Petabyte.

4.Posté par Najjar le 16/03/2011 01:50
Bonjour ,
SVP, je voulais savoir la relation entre un ETL Cloud Computing et comment puis-je avoir un ETL gratuit pour le tester
Merci d'avance

Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.