Talend Data Preparation décharge l’informatique de la préparation des données


Rédigé par le 16 Février 2016

Talend a annoncé la semaine dernière un nouvel outil, qui vient compléter sa gamme de gestion des données. Il s’agit d’un logiciel d’aide à la préparation (nettoyage, qualité, homogénéité) des données : Talend Data Preparation. Il sera disponible officiellement au deuxième trimestre 2016, mais vous pouvez en tester la version open source dès aujourd’hui.



Le développement de la BI en libre service a multiplié les besoins de préparation des données en vue d’être analysées. Des outils comme Tableau ou Qlik ont été conçus pour mettre des forme des données déjà préparées. La manipulation des détails d’un jeu de données n’est pas leur point fort, même si au fur et à mesure des versions, leurs éditeurs ont ajouté certaines fonctions. Résultat, bien souvent, les utilisateurs s’en remettent aux services informatiques, en leur demandant de préparer les données. Ces derniers rechignent parfois (j’ai entendu “souvent” chez certains grands comptes) à la tâche. On les a dépossédé de la construction des rapports, analyses et tableaux de bord, maintenant pris en charge par les utilisateurs d’affaires; mais ces derniers en revanche, sont bien contents de leur laisser la basse besogne, celle bien ingrate qui consiste à nettoyer et préparer les données en vue de leur analyse.
Toutes proportions gardées, la préparation des données c’est un peu l’épluchage des pommes de terre; quand la construction des graphiques d’analyse, est l’équivalent du dressage de l’assiette par le Chef.

Talend, dont les outils étaient jusqu’à présent réservés à des utilisateurs avertis, se lance donc sur le marché de la préparation des données en libre-service; avec un message clair : libérer le service informatique de la tâche de préparation des jeux de données.

Talend Data Preparation est disponible en open source, pour PC et Mac

Talend Data Preparation est déjà disponible, en version locale, installable sur PC et sur Mac. Félicitations à Talend - tout comme Tableau en a déjà pris conscience il y a trois ans - pour avoir compris que le Mac est aujourd’hui une plate-forme analytique très utilisée par une catégorie de professionnels. Et Talend Data Preparation est gratuit, open source comme Talend s’y engage toujours. Bien sur, une version commerciale viendra par la suite, vendue et non offerte, avec des fonctions supplémentaires, en particulier pour s’intégrer en entreprise dans un environnement de production. Mais avec cette version gratuite, dont on nous assure qu’elle restera gratuite et continuera d’évoluer, Talend fait un beau cadeau à ceux qui doivent nettoyer au quotidien des fichiers de données.

Le principe est simple, vous chargez dans l’outil un fichier de données, et il est ensuite présenté à l’écran comme dans un tableur.
Talend Data Preparation va commencer par l’analyser. Il va par exemple en haut de chaque colonne, indiquer par un code couleur, vert, orange ou rouge, la part des lignes dont la donnée est de bonne, moyenne ou mauvaise qualité.
Les fonctions ne manquent pas pour automatiser l’harmonisation des données.
Vous avez une colonne “nom” et une colonne “prénom” ? Parfois certains clients saisissent dans le mauvais sens, le nom à la place du prénom. A l’aide d’un dictionnaire, Talend va repérer que John est le prénom et Doe le nom, et intervertir. Ou plutôt proposer d’intervertir, car Talend Data Preparation ne vous oblige à rien. Talend propose, l’utilisateur dispose.
Autre petite astuce, l’harmonisation des majuscules et minuscules dans les noms; la suppression des espaces redondants; la création d’agrégats; et beaucoup d’autres.
Toutes ces fonctions peuvent être regroupées dans un script, si vous avez de manière régulière à corriger le même fichier.

Franchement, en 15’ vous aurez compris le principe et pris possession de l’outil !

De Talend à Tableau en un clic

Une fois votre fichier propre et prêt à être analysé, vous pouvez le ré-exporter en CSV par exemple, mais Talend Data Preparation propose aussi de créer directement un fichier Tableau, le fameux .TDE en utilisant une API fournie par Tableau. Attention, il semble que cet export ne fonctionne pas encore sur Mac, mais Tableau a livré récemment son API sur Mac et Talend va pouvoir développer cet export également.

Disponible au deuxième trimestre, en même temps que la version 6.2 de Talend Studio, Data Preparation en deviendra un des composants. Les jeux de données pourront être partagés, le logiciel installé sur un serveur, des droits affectés aux utilisateurs, etc.
Mais pour l’instant, l’éditeur n’annonce aucun prix. Il faudra patientier. Attention également le produit n’est disponible pour l’instant qu’en version anglaise; la version française viendra par la suite. On surveillera alors la compatibilité des dictionnaires en français et en anglais. Reconnaître John Doe c’est bien, mais reconnaître Jean Dupont, ce sera également nécessaire.



Dans la même rubrique :