Mettre en œuvre une gestion en temps réel de la qualité des données : comment corriger de manière efficace les données erronées ?


Rédigé par Stéphane JOUAUX, Information Builders le 8 Novembre 2012

Utiliser des données de mauvaise qualité peut s’avérer onéreux. Le Data Warehouse Institute (TDWI) estime que les données erronées coûtent près de 600 millions de dollars par an aux entreprises. L’usage de données incorrectes peut avoir de nombreuses répercussions : service client médiocre, ventes manquées, perte de chiffre d’affaires, définition d’une stratégie peu pertinente.



Stéphane Jouaux, Country Manager, Information Builders France
La gestion en temps réel de la qualité de données est le moyen le plus efficace de minimiser les risques financiers et opérationnels découlant d’informations erronées. Cependant, ce n’est pas la méthode la plus utilisée pour détecter et corriger les problèmes liés aux données en entreprise.

Au commencement était le traitement en mode différé

Le traitement en mode différé est une méthode traditionnelle, fréquemment utilisée pour gérer la qualité des données. L’une des principales raisons de cet état de fait tient à ce que beaucoup d’entreprises utilisent encore des systèmes propriétaires. Dans la plupart des cas, les outils de qualité de données sont directement intégrés aux processus d’extraction, de transformation et de chargement des données (ETL). Les données sont évaluées et nettoyées lorsqu’elles sont déplacées depuis des bases de données ou d’autres systèmes sources vers des entrepôts de données.

Cette technique, bien que largement utilisée, n’est pas idéale car elle engendre une exposition importante aux risques. Supposons que pour la plupart de ces entreprises, le passage des données, depuis les systèmes sources vers les référentiels, se fasse chaque nuit. Les utilisateurs courront alors le risque de prendre des décisions critiques ou de mener des actions essentielles en se basant sur des données qui pourront être incorrectes depuis 24 heures. Les informations incorrectes tendant à se diffuser dans toute l’organisation, de nouveaux problèmes surgiront et iront d’un système et d’une personne à l’autre. La gravité de ces problèmes augmentera probablement à un rythme étonnant, jusqu’à ce que les données en cause soient identifiées et corrigées.

Le quasi temps réel ne résout pas le problème

Certaines entreprises ont tenté de s’attaquer au problème via des méthodes de gestion de la qualité des données en quasi temps réel. Les données sont envoyées à intervalles réguliers vers des outils spéciaux pour évaluer leur qualité et les nettoyer si nécessaire. Ces intervalles sont bien plus rapprochés que pour
le traitement en mode différé (le délai peut atteindre une heure), ce qui représente une réelle évolution.

Mais les risques sont encore trop grands. Dans l’univers de l’entreprise, de nombreux événements peuvent survenir en une heure ! Imaginez un centre d’appels très demandé, qui reçoit des centaines d’appels par heure. Durant ces 60 minutes, quelques données clients erronées peuvent se traduire par une réponse inadaptée à des questions ou à des problèmes, et par la proposition d’un service inapproprié à des dizaines d’appelants. Les informations erronées auront un impact sur les autres métiers de l’entreprise : comptabilité, marketing, etc.

Une seule solution : La gestion en temps réel de la qualité des données

Un problème majeur pouvant survenir dès qu’un enregistrement erroné est réalisé dans une base de données, la gestion de la qualité des données doit être proactive et instantanée. Les données endommagées ou invalides doivent être identifiées et rectifiées au moment même de leur saisie, évitant d’emblée qu’une information inexacte ne soit diffusée dans l’environnement.

Toute stratégie en matière de gestion de la qualité des données, ainsi que les outils utilisés, doivent donc être capables de surveiller et d’évaluer l’ensemble des entrées possibles des données dans l’entreprise qu’elles soient recueillies manuellement ou de manière automatisée.

Appliquer la gestion en temps réel de la qualité des données tout au long du cycle de vie de la donnée.

Dans une entreprise, les données entrent, circulent et ressortent, au gré des activités quotidiennes.
Tout au long de ce cycle, il faut gérer leur intégrité en temps réel.

• En amont : Si une donnée erronée, saisie par un utilisateur interne, recueillie dans le cadre d’un échange B2B avec un partenaire, ou entrée par un client via un portail en self-service, s’introduit dans les systèmes de l’entreprise, les dommages qu’elle peut engendrer sont quasiment illimités. C’est pourquoi les règles automatisées et les normes de qualité de données doivent être appliquées sur le point d’origine. Et le problème se complique encore avec l’apparition de nouveaux canaux d’information et l’augmentation du nombre de points de contacts.

• Au sein d’un processus : Dans le cadre d’échanges commerciaux ou à des fins de reporting et d’analyse, les informations sont diffusées au sein de l’organisation, d’un utilisateur à un autre. Elles sont alors souvent modifiées, enrichies ou associées à d’autres enregistrements. Là encore, elles peuvent être altérées par un utilisateur, ce qui aura un impact négatif sur tous les utilisateurs et les processus. Une mise en place de contrôles et de bilans en temps réel est donc indispensable, afin d’éviter que les informations soient dupliquées, associées à d’autres données de manière inappropriée ou mal placées. Une fois l’erreur introduite au sein de l’infrastructure, il sera difficile de la corriger.

• En aval : Le reporting et l’analyse sont des missions critiques, et ce, quels que soient le secteur d’activité et la taille de l’entreprise. Tout au long de la journée, de manière continue, des informations sont extraites d’une multitude de sources (entrepôts de données, datamarts, cubes multidimensionnels et applications de back-end) pour orienter la stratégie de l’entreprise et mener des missions critiques. Si ces informations sont redondantes, incohérentes, difficiles d’accès ou tout simplement erronées, elles peuvent avoir un impact négatif sur l’efficacité opérationnelle, les performances de l’entreprise et la rentabilité. Et d’autres problèmes peuvent survenir si ces informations sont partagées ou transmises à des tiers tels que des organismes de réglementation, des clients ou des partenaires.

Si l’information erronée est identifiée dès sa création - en amont, en aval ou au sein d’un processus
- il suffit de corriger une erreur unique et non une multitude de données incorrectes. Cela optimise les délais et les coûts liés au traitement de cette erreur, et préserve pleinement l’intégrité des informations. Par conséquent, les processus métier critiques issus de cette information seront bien plus fiables et efficaces.

Mettre en œuvre une gestion en temps réel de la qualité des données.

La gestion en temps réel de la qualité des données doit couvrir l’ensemble de l’infrastructure traitant de l’information. Elle ne peut pas être facultative ou ne concerner que quelques systèmes. Elle doit faire partie intégrante de l’environnement et impliquer chaque composant de l’architecture, utilisateur ou processus automatisé qui crée ou utilise des données. En outre, les processus de qualité des données doivent être intégrés à toutes les bases de données de back-end.

Les problèmes d’intégrité des données ne se limitent jamais à un système unique. Un seul enregistrement erroné aura un impact sur d’autres systèmes au cours de ses mouvements en amont, en aval ou au sein d’un processus interne. Le temps nécessaire pour corriger ce problème sera proportionnel à son étendue. Il faudra alors davantage de temps, d’efforts et d’argent pour corriger l’erreur une fois identifiée et diffusée au sein des différents environnements.

La clé est de concevoir et de mettre en œuvre des services de qualité des données qui soient réutilisables, afin de pouvoir les exposer à tous les systèmes et applications de l’environnement.
Les mêmes règles et outils de qualité des données, tous gouvernés dans le cadre d’un plan unique, doivent être utilisés dans toute l’entreprise, quel que soit le niveau de latence des opérations. Le fait d’arrêter les mauvaises données dès qu’elles se présentent est le seul moyen de garantir la cohérence et l’exactitude de toutes les données, dans toute l’entreprise.



Dans la même rubrique :