Métadonnées : le poids lourd au cœur de l’intégration des données

Matt Casters, Chief of Data Integration chez Pentaho

Une étape clé de n’importe quel projet d’intégration de données consiste à définir les métadonnées, que les développeurs appellent « les données sur les données ». Les spécialistes des données distinguent quatre niveaux d’abstraction en matière de métadonnées : les données, les métadonnées, les modèles de métadonnées et les Metadata Object Facilities (MOF). Ces niveaux d’abstraction de données simplifient la tâche des personnes qui utilisent les données ou les métadonnées pour décrire des données aux autres ou à un logiciel.
De la même façon dans le processus ETL (extraction, transformation et chargement), on distingue également des niveaux d’abstraction, le premier niveau étant le logiciel d’ETL. Les développeurs continuent à effectuer beaucoup de tâches d’ETL manuellement, convaincus qu’il s’agit d'un processus ponctuel et peu coûteux. En réalité, ce processus exige une maintenance régulière et devient onéreux parce que les environnements informatiques où résident les applications sont en perpétuelle évolution. Cette réalité donne lieu à un deuxième niveau d'abstraction, les outils ETL qui génèrent automatiquement du code en fonction de paramètres prédéfinis ou de « métadonnées ETL ». Ce niveau nécessite bien moins de codage mais requiert toujours compilation, intégration et déploiement, d’où la nécessité d’un troisième niveau d’abstraction ETL.Ce niveau ne nécessite ni code, ni compilation, ni intégration ou déploiement. Il comporte deux composantes distinctes : les métadonnées ETL, qui décrivent la charge de travail et un moteur pour l’exécuter.
Les outils ETL, tels que le projet Open Source Pentaho Kettle que j’ai créé, ont changé la façon dont les entreprises réalisent l'intégration de données. Le codage de bas niveau peut désormais être remplacé par des interfaces utilisateur dans lesquelles les métadonnées ETL peuvent être introduites. Les API de programmation de bas niveau ont été remplacées par des outils visuels, notamment des débogueurs qui peuvent être gérés de manière centrale, permettant ainsi aux développeurs d’assurer et de contrôler diverses tâches de travail.
Cependant, ce n’est pas le moment de nous reposer sur nos lauriers. Nous n’avons pas encore éliminé la programmation des charges de travail liées à l’intégration de données, nous l’avons seulement simplifiée. Grâce au Cloud, les données à la source et à destination sont totalement automatisées, hébergées dans certains cas sur des centaines de serveurs à différents endroits sur des machines virtuelles, laissant ceux qui utilisent des outils d’ETL classiques livrer une difficile bataille.
Puis il y a ces « inconnues connues». Par exemple, lorsqu’un utilisateur transfère une feuille de calcul vers une application SaaS, il se peut que le service informatique connaisse à l’avance le nom du fichier et la table de base de données dans laquelle archiver l’information, mais pas le format réel du fichier, les calculs et manipulations à effectuer. Ces types de tâches impliquent un quatrième et un cinquième niveau d’abstraction ETL.
Le quatrième niveau concerne le cas que nous venons de décrire. Nous créons un modèle avec un ensemble incomplet de métadonnées ETL qui décrit la charge de travail et nous insérons les éléments manquants, juste avant de réaliser le travail. Le même modèle peut ainsi être utilisé non seulement pour une feuille de calcul, mais pour des centaines ou des milliers de tâches identiques, ce qui évite que le travail soit fait manuellement.
Kettle supporte déjà depuis quelques années le quatrième niveau d’abstraction consistant à l’injection de métadonnées ETL et devient de plus en plus populaire. Les développeurs n’ont plus à bricoler péniblement des centaines de transformations pour transférer d’aussi nombreuses tables de base de données. Il leur suffit simplement de créer un modèle et une transformation pour y insérer des détails. Le cinquième niveau d’abstraction renvoie à la programmation, mais uniquement pour les métadonnées ETL qui décrivent la tâche à effectuer. Cela constitue un énorme potentiel, mais au prix de réintroduire une certaine complexité de programmation.
La règle d'or des métadonnées nécessite un retour sur investissement, tel qu’une maintenance réduite, de la transparence etc. Pour les niveaux quatre et cinq, nous réduisons les investissements liés aux métadonnées en accédant à ces dernières à partir de sources immédiatement disponibles, telles que des catalogues de base de données, des services Web, sources de données XML ou JSON. Cependant, nous augmentons également l’investissement parce que nous augmentons la complexité ou réintroduisons le besoin de codage. Le projet Kettle prend également en charge le cinquième niveau d’abstraction ETL sous forme d’une API Java pour la programmation de métadonnées ETL.
Cette synthèse permettra d’évaluer les options possibles face aux problématiques de l’intégration de données.

Autres articles

Métadonnées : le poids lourd au cœur de l’intégration des données

Hitachi Vantara annonce Pentaho 8.0 incluant le traitement des données en temps réel pour accélérer l’accès des entreprises à des informations approfondies

Pentaho annonce 134% de croissance annuelle de ses commandes IoT

Pentaho étend Spark à toute l’entreprise

Que se passera-t-il en 2017 ? Préparez-vous à l’inattendu !

Pentaho 7.0 comble l’écart de données entre les métiers et le service informatique

SAP rachète Reltio : un pari stratégique pour muscler son IA d'entreprise - 01/04/2026

Yamaha Motor accélère son innovation grâce à la solution de Master Data Management basée sur l'IA d'Informatica, synonyme de fiabilité des données et d'informations pertinentes - 23/09/2025

Informatica nomme Laurent Carrière à la tête de la région EMEA South - 09/09/2025

Fivetran acquiert Tobiko Data et ouvre la voie à une nouvelle génération de transformation de données avancée, conçue pour l’IA - 03/09/2025

Fivetran officialise son partenariat avec S3NS - 25/08/2025