Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


ETL 2.0 : redéfinir l’intégration de données


Rédigé par Steven HADDAD, Syncsort le 17 Octobre 2011

Selon une enquête BeyeNETWORK, près de 70 % des informaticiens estiment que leurs outils d’intégration de données les freinent dans la réalisation des objectifs stratégiques de leur entreprise.



Steven HADDAD, Senior Software Architect, Syncsort
Steven HADDAD, Senior Software Architect, Syncsort
L’ETL 2.0 est sur le point de redéfinir l’intégration de données dans les entreprises. Outre ses avantages en termes de réduction du coût total de possession et de gestion de votre environnement d’intégration de données, l’ETL 2.0 va vous permettre de capitaliser sur le Big Data pour doper votre compétitivité et réaliser vos objectifs stratégiques.

Une vidéo pédagogique est également disponible sur : http://www.syncsort.fr/Solutions/ETL2.aspx

Comment l’ETL a perdu son « T ».

Jusqu’à présent, les efforts d’amélioration des outils d’ETL et d'intégration de données se sont concentrés sur l’ajout de fonctionnalités, aux dépens de deux facteurs essentiels : la facilité d’utilisation et l’évolutivité sans perte de performance. Confrontés à la diversité, à la vélocité et aux volumes croissants de données – le fameux phénomène du « Big Data » – les départements informatiques sont contraints de recourir à des solutions coûteuses et inefficaces pour surmonter leurs problèmes de performance :

Les opérations d’optimisation s’avèrent fastidieuses et mobilisent un personnel informatique expérimenté. L’ajout de matériel coûte cher à l’achat comme à l’usage, pour des gains de performance marginaux
L’affectation des opérations de transformation à la base de données et le codage manuel de scripts SQL génèrent une complexité accrue, compromettent la traçabilité des données et réduisent la flexibilité de l'entreprise − sans oublier l’augmentation des coûts liés à la base de données

Le « T » a désormais disparu de l’ETL. À tel point que moins d’un tiers des informaticiens utilisent leurs outils d’ETL pour la transformation de données. Résultat : un réseau complexe de transformations exécutées en divers points – un vrai casse-tête en termes de maintenance, de développement et de gestion.

ETL 2.0, pour une intégration de données rapide, efficace, simple et économique. Ni plus, ni moins.

L’ETL 2.0 vous offre tout ce dont vous avez besoin pour réduire considérablement le coût et la complexité des environnements actuels d’intégration de données. Ce nouveau concept consiste à transférer toutes les transformations vers un moteur ETL haute performance opérant en mémoire. Vous réduisez ainsi les opérations de staging des données et/ou l’envoi des transformations dans la base de données (« push down »). Au menu :

Élimination de la phase de staging et l’off-load dela base de données. La lecture, la transformation et le chargement des données s’effectuent à des vitesses d’E/S maximales. Les transformations s’opèrent en mémoire, sur du matériel standard, pour accélérer les performances tout en éliminant les besoins en capacités supplémentaires des bases de données.
Des performances et une efficacité optimales, sans besoin de tuning. L’intégration de données traditionnelle s’effectue manuellement et de manière statique, avec pour conséquence une utilisation sous-optimale des ressources. Grâce à un moteur ETL dynamique qui s’adapte en temps réel aux changements de conditions du système, l’ETL 2.0 offre des performances optimales, avec en prime un pipelining et un parallélisme automatiques.
Connexion des utilisateurs à leurs données. L’ETL 2.0 fait appel au collaboratif et à des frameworks de développement flexibles pour rapprocher l’utilisateur de ses données. La simplicité d’utilisation et les réglages automatiques permettent également aux équipes informatiques de consacrer moins de temps aux opérations de maintenance, pour se concentrer davantage sur le besoin croissant d’information des entreprises.
Accélération des déploiements Hadoop. L’ETL 2.0 exploite et développe les frameworks Big Data comme Hadoop, pour faciliter le développement et améliorer les performances des tâches MapReduce.
Réduction du TCO. Performances décuplées, baisse de 75 % du taux d'utilisation processeurs, stockage divisé par 10… l’ETL 2.0 vous permet de réaliser des économies considérables tout en améliorant vos objectifs SLA. Grâce aux moteurs d’optimisation automatique, vous réduisez les heures de main d'œuvre informatique nécessaires à la maintenance de votre environnement existant d’intégration de données.

Conclusion : l’ETL 2.0 redéfinit l’intégration de données dans les entreprises, exploite la problématique du Big Data pour le transformer en avantage compétitif. Mais ce n’est pas tout : l’ETL 2.0 permet aussi aux entreprises de réaliser leurs objectifs stratégiques, tout en réduisant leur coût total de possession tout en en assurant la maintenance de leur environnement d’intégration de données.




Commentaires

1.Posté par Bernard Dufresnes le 18/10/2011 15:57
Vous parlez d'ETL 2.0 ... mais ne l'expliquez pas, domage.

Par ailleurs vous mettez en titre "Comment l’ETL a perdu son « T ». " et expliquez plus loin que "La lecture, la transformation et le chargement des données s’effectuent à des vitesses d’E/S maximales" ....bref j'ai pas compris grand chose sinon que vous mettiez en exergue votre EL (sans le T donc) ... mais un ETL sans le T ... ça sert à rien ! la valeur des données n'est pas dans son transfert mais dans son traitement ! a quoi celà sert de transporter des millions de lignes si on ne sait pas quoi en faire ?

Bref faire de la performance c'est bien, mais pour moi le vrai succès d'un projet d'intégration réside dans la sélection et la manipulation des données ! j'introduirais aussi à ce niveau la qualité des données qui est vitale.
Les entreprises ne s'y trompent plus d'ailleurs et investissent plus dans ce type de mise en œuvre (projet qualité de données, MDM, etc.) que dans la performance pure. D'ailleurs j'aimerai savoir où vous avez pu trouver une statistique telle que "moins d’un tiers des informaticiens utilisent leurs outils d’ETL pour la transformation de données" ? statistique qui me parait tellement loin de la réalité terrain.

Bref faire du volume, de la performance c'est bien mais n'est-ce pas quelque peu dépassé ? d'autant que les autres ETL du marchés suffisent amplement dans ce domaine.

2.Posté par JFK le 19/10/2011 17:01
"moins d’un tiers des informaticiens utilisent leurs outils d’ETL pour la transformation de données. Résultat : un réseau complexe de transformations exécutées en divers points – un vrai casse-tête en termes de maintenance, de développement et de gestion. "

et bien qu'ils apprennent à se servir d'un ETL ! que pouvons nous dire de mieux ?

par ailleurs, douter de "la facilité d’utilisation", concernant Informatica : je en vois pas de problème... mais bon, les autres peut etre alors....

3.Posté par JCa le 19/10/2011 17:49
ETL 2.0 -> Voilà juste un concept marketing qui se veut surfer sur le succès du WEB 2.0 ! malheureusement sans rien de concret derrière.
Je rentre de chez un client qui processait +100 gigas de données/jour, il avait besoin de réduire sa fenetre de tir et se demandait comment. En 1/2 journée, après analyse on a réduit ce nombre à 3 Go/jour, simplement en ne prennant que ce qui était nécessaire : Malheureusement un cas courant !

4.Posté par ETL 3.0 le 21/10/2011 12:01
So funny !

5.Posté par Jean-Pierre Riehl le 25/10/2011 09:20
Comme les autres commentaires, je ne retrouve pas du tout mon quotidien dans votre article.
Les outils sont performants, puissants, riches et sont utilisés (pas suffisament peut-être). Avec un bon architecte, l'ensemble des problèmes que vous citez n'existent pas (plus).

Bref, je ne vois aucune révolution de l'ETL dans votre article.

En revanche, si on doit parler d'ETL 2.0, j'irai plutôt vers le self-service ETL où les utilisateurs finaux intègreraient eux-mêmes leurs données ou appliqueraient des règles d'entreprise sur les données qu'ils injectent.
Cette révolution est en marche avec toutes les poussées du MDM. Des outils arrivent, dans le cloud, dans Excel. Pour moi, ce sera ça l'ETL 2.0.

6.Posté par Steven Haddad le 25/10/2011 14:00
Bonjour, quelques éléments de réponses aux remarques sur mon article:

1) La performance
Une grande banque française refond sa BI RB avec DataStage et Teradata. Dès le départ du projet, ils compte utiliser le "pushdown" dans la base cible.
Un opérateur téléphonique israelien opère un DWH avec un serveru INFA 24 coeurs et appelle à l'aide parce qu'il dépasse ses fenêtres de tir.
Un opérateur telco francais me dit que 100% des transformations ont été poussées dans ses bases de données sources et cibles, et que son coût de possession TD explose. Son ETL n'est plus qu'un chargeur de données de luxe.
...
J'ai des 10aines d'exemples de ce type, et ce travers n'est pas nouveau. Considérez que la grande nouveauté de SAS est son module de push-down dans teradata.
Je suis heureux d'apprendre que certains n'ont pas de problèmes de temps de traitements avec leur ETL, mais je puis affirmer et démontrer que ce n'est pas le cas général. Banques, Telcos, fourniseeurs TV, et retailers croulent sous les données opérationnelles, et voient arriver les Big Data, alors que chaque année elles investissent 54% de leur budget informatique pour absorber les augmentations de volumes sur les applications déjà déployées.

2) Apprendre à se servir d'un ETL ?
Eh oui, les ETL phares du ùarché ont besoin qu'on apprenne à s'en servir. Et pas qu'un peu !
Les véritables experts valent des fortunes, et pourtant eux seuls sont capables de faire des flux vraiment performants avec DataStage ou PowerCenter. Un ami me disait avoir réduit le temps d'exécution d'un flux DataStage de 1 heure à 5 minutes lors d'une mission d'expertise.
Or, l'un des 1ers messages des éditeurs d'ETL est justement de proposer des solutions n'ayant pas besoin d'expertise! Nous en sommes loins, très loins.

3) Le concept marketing ETL 2.0
C'est exact, cet article ne fait qu'introduire le concept, et poser le problème.
Je présenterai dans un 2ème article ce que sont des élémets accélérateurs et comment ils solutionnent des cas d'écoles de la BI.

4) Les initiatives MDM et Cloud
Pour le gartner, les solutions sont les initiatives de gouvernance et de data quality. Chacun voit midi à sa porte. Pour ma part, j'attends encore de voir une initiative ed gouvernance implémentée avec succès, ou un client utilisant ses logiciels de DQ avec agilité. Cependant, même les initiatives de MDM souffrent des énormes volumes de données qu'elles intègrent et redistribuent au SI. Quand au cloud, à part Amazon et Google, mes clients me présentent des initiatives qui sont plus du domaine de la veille technologique que de la véritable implémentation opérationnelle. Le gartner a relevé 8% de clouds opérationnels sur des entreprises engagées dans al réflexion sur les big data, et 13% d'intention d'implémentation. Mes efforts pour trouver des utilisations privées agiles et intelligentes restent vains.

Chaque jour, des équipes projets BI me consultent parce que leur solution empiette sur les plages utilisateurs. Chaque mois, des entreprises me contactent pour étudier des solutions à l'explosion des coûts de possession de leur SGBD BI (qui fait trop de "T").

Merci pour vos commentaires, j'attends vos réactions sur ces éléments de réponses et prépare mon 2ème article sur l'ETL 2.0.

Cordialement,
Steven Haddad






7.Posté par Jean-Pierre Riehl le 26/10/2011 10:25
En effet, il faut des spécialistes pour bien mettre en place des flux d'intégration de données capables d'encaisser de la charge. Après, je ne sais pas ce que vous appeler "une fortune". C'est sûr que si vos clients cherchent des ressources à 350 ou 400€, ils n'auront jamais d'expert à ce tarif.
Et je ne parle pas de venir faire 40 jours de consulting. Bien souvent, 3/4 jours suffisent.

Je comprends les problématiques que vous soulevez mais ce qui me gêne c'est que vous dites que maintenant il faut faire du 2.0 pour les résoudre sans dire ce que c'est, ni comment.
Si on parle juste de traiter plus de data, je pense que c'est exagéré car les outils et les infra actuelles savent encaisser cela, avec des compétences adéquats évidemment.

Je suis toutefois en phase avec le côté Big Data pour lequel il faut revoir sa conception du stockage et du requêtage mais pour moi, on est au delà des 100To pour y être éligible.


J'attends votre prochain article pour approfondir le sujet (qui m'interpelle vous l'auez compris) ;-)

Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.