Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Quelle est la différence entre le data wrangling et l’ETL ?


Rédigé par Wei Zheng, Trifacta le 19 Avril 2017

Ces dernières années, le data wrangling (également connu comme préparation préalable des données) s’est imposé comme un créneau en plein essor sur le marché de l’analytique. Les technologies de data wrangling, autrefois assimilées à un véritable « goulet d’étranglement d’analyse » au regard du fastidieux travail de préparation de données hétéroclites pour du reporting et de l’analyse, ont considérablement progressé.



Wei Zheng, CTO Trifacta
Wei Zheng, CTO Trifacta
Quelle est la différence entre le data wrangling et l’ETL? Compte tenu des chevauchements fonctionnels entre ces deux espaces technologiques, la question mérite d’être posée et le marché se doit de définir plus clairement l’un et l’autre. 
Afin de mieux cerner la ligne de démarcation entre data wrangling et ETL, j’exposerai les trois différences principales entre ces deux technologies.

1. Les utilisateurs sont différents
Un principe essentiel régit les technologies de data wrangling : ce sont ceux qui connaissent le mieux les données qui doivent les étudier et les préparer. Autrement dit, les analystes fonctionnels, les utilisateurs métiers et leurs responsables (entre autres) sont les utilisateurs cibles des outils de data wrangling. Pour ma part, je peux témoigner des efforts considérables qui ont été déployés, tant au niveau créatif que technique, pour mettre au point un produit qui permet aux lignes métiers de s’acquitter eux-mêmes de ces opérations sans dépendre d’autres départements au sein de l’organisation.
À titre de comparaison, les technologies ETL s’adressent à des informaticiens. En fonction des critères formulés par leurs collègues des divisions métiers, ces professionnels de l’informatique mettent en œuvre des chaînes de traitement ou workflows au moyen d’outils ETL afin de délivrer les données souhaitées aux systèmes dans les formats requis. 
Les utilisateurs métier sont rarement en présence de technologies ETL ou ne les exploitent qu’exceptionnellement lorsqu’ils manipulent des données. Avant de pouvoir utiliser des outils de data wrangling, leurs interactions avec les données s’opéraient exclusivement via des tableurs ou des outils décisionnels.

2. Les données sont différentes
La montée en puissance des solutions logicielles de data wrangling s’est imposée par la force des choses. Si, aujourd’hui, un éventail croissant de sources de données peut être analysé, les analystes ne disposent pas des outils adéquats pour explorer, nettoyer et organiser ces données au format approprié. En effet, les analystes de données doivent faire face à un volume sans cesse croissant et une variété en terme de structure et de format toujours plus complexe, les outils traditionnels comme Excel ne sont alors plus adaptés. Les solutions de data wrangling, sont spécifiquement conçues, y compris au niveau de leur architecture, pour gérer des données aussi hétérogènes que complexes, dans un contexte ou les volume de données sont de plus en plus important. 
L’ETL est conçu pour gérer des données qui sont, en règle générale, parfaitement structurées, bien souvent issues d’une multitude de systèmes opérationnels ou de bases de données que l’entreprise entend utiliser pour générer des rapports d’activité. Les contextes nécessitant un traitement massif de sources de données brutes et complexes exigeant des processus substantiels d’extraction et de manipulation pour obtenir des données structurées ne sont pas les points forts des outils ETL. 
Par ailleurs, un nombre croissant d’analyses s’effectue au sein d’environnements où le schéma de données n’est ni défini, ni connu à l’avance. L’analyste en charge du data wrangling décide donc des modalités d’exploitation des données ainsi que des schémas nécessaires aux analyses.

3. Les scénarios d’utilisation sont différents
Les scénarios d’utilisation observés pour les solutions de data wrangling se veulent, en général, plus exploratoires et sont d’ailleurs souvent suivis par de petites équipes ou de petits départements avant d’être déployés dans l’entreprise toute entière. Les utilisateurs de technologies de data wrangling s’efforcent d’ordinaire de s’appuyer sur une nouvelle source de données, ou une nouvelle association de sources de données, dans le cadre d’une initiative analytique. Force est également de constater que les solutions de data wrangling rendent les processus d’analyse en place plus efficaces et plus précis puisque les utilisateurs ont constamment les yeux rivés sur leurs données au fur et à mesure de leur préparation. 
Les technologies ETL ont gagné en popularité dans les années 1970, sous la forme d’outils principalement dédiés à l’extraction, à la transformation et au chargement de données dans un entrepôt d’entreprise centralisé, à des fins de reporting et d’analyse, via des applications décisionnelles. Il s’agit, encore et toujours, du principal scénario d’utilisation des outils ETL, pour lequel ils sont parfaitement adaptés.

Chez certains clients, nous constatons le déploiement de solutions de data wrangling et ETL en complément de la plate-forme de données de l’entreprise. Le pôle informatique met à profit les outils ETL pour transférer et gérer des données, et les utilisateurs métiers ont toute latitude d’explorer et de préparer les données adéquates avec des solutions de data wrangling.




Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.