Après avoir travaillé plusieurs mois en collaboration, IBM et Trifacta ont révélé fin juin leur partenariat. Il semble que IBM ait confié à Trifacta le développement d’un outil de préparation des données, connecté à l’écosystème IBM. La « data preparation », dont Trifacta revendique la paternité, est un nouveau marché. Les « ETL » sont des outils techniques, destinés aux équipes informatiques, et à l’industrialisation des projets. Les outils de préparation de données sont plus orientés utilisateurs, plus agiles, mais aussi moins rigoureux. Ils prennent une place entre Excel et les ETL.



Comme le souligne très bien Trifacta, la différence entre deux projets de science des données n’est pas vraiment dans les algorithmes. La plupart sont disponibles en open source et ouverts à tous. Mais plutôt dans les données qui alimenteront ces algorithmes. Et ces données doivent être nettoyées, préparées, et référencées.

Les utilisateurs avancés ont pris l’habitude d’utiliser ces nouveaux outils de préparation. Mais ils ne sont pas sans défauts ! Plutôt que de supprimer les silos de données, ils ont plutôt tendance à en recréer de nouveaux. Chaque jeu de données, nettoyé et préparé, est sauvegardé par son utilisateur, qui créé ainsi un nouveau silo, bien souvent non référencé et non partagé…



Trifacta propose de nommer, étiqueter, et partager ces jeux de données dérivés. Et dans le cadre du partenariat avec IBM, l’idée est de combiner ces nouveaux jeux de données avec l’outil de gouvernance IBM Watson Data Catalog.



Que deviendra ce partenariat par la suite ? Impossible à deviner. Mais si IBM y voit une opportunité d’affaires intéressante, il n’hésitera pas à racheter Trifacta afin de s’assurer la maitrise et le futur de cette solution de préparation des données.