Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


L’eldorado des outils d’amélioration de la qualité des données


Rédigé par le 15 Décembre 2005

Pour une très large majorité des utilisateurs de systèmes décisionnels, la qualité des données est le principal souci actuel. Ils sont à la recherche de solutions pour détecter et éventuellement corriger les erreurs identifiées.



L’eldorado des outils d’amélioration de la qualité des données
La qualité des données stockées dans votre système décisionnel est-il un problème pour vous ? Assurément oui !
Vous n’êtes que 6 % à considérer n’avoir aucun problème de qualité de données… ou à ne pas les avoir encore découverts. 12 % des utilisateurs de systèmes décisionnels ont un peu d’avance, car ils ont identifié ces problèmes, et déjà mis en place des solutions pour détecter et éventuellement corriger les problèmes de qualité des données.

Mais pour la très large majorité de nos lecteurs, 52 %, les problèmes de qualité sont permanents, et se révèlent un sujet clef sur lequel ils travaillent en ce moment. Cet indicateur confirme donc un autre chiffre extrait de notre baromètre Decideo 2006 ; pour près de 40 % des utilisateurs, la qualité des données est un des facteurs clefs de succès d’un projet décisionnel. Cet item arrive en troisième position, juste après la pertinence de l’analyse des besoins, et l’adhésion des utilisateurs.

A ces 52 % de personnes concernées en permanence, il faut ajouter les 30 % d’utilisateurs qui avouent avoir parfois des problèmes de qualité des données, et chercher à actuellement des solutions.

Au total, ce sont donc encore aujourd’hui 82 % des utilisateurs de systèmes décisionnels qui sont à la recherche de solutions pour améliorer la qualité de leurs données. Un marché considérable, pourtant encore mal ciblé par les éditeurs spécialisés.
En effet, quelques éditeurs d’outils d’alimentation proposent des modules complémentaires destinés à détecter et éventuellement corriger en partie les valeurs aberrantes avant qu’elles ne viennent polluer l’entrepôt de données.
Le seul domaine sur lequel la qualité des données est aujourd’hui réellement maîtrisable, est celui des adresses postales, email ou numéros de téléphone. En effet il s’agit de trois types de données normés, pour lesquels des règles de qualité peuvent plus facilement être programmées. Les spécialistes du marketing direct et de la vente par correspondance ont très tôt compris le retour sur investissement immédiat lié à l’amélioration de la qualité de ces données.
Mais les données financières, les données clients diverses, les données produits, sont encore difficiles à évaluer sous l’angle de leur qualité. Entre intelligence artificielle et intelligence humaine, il n’est pas évident de déterminer si un chiffre est potentiellement juste ou potentiellement erroné. Sans augmenter le nombre de « faux positifs », il faut diminuer le nombre d’erreurs stockées dans l’entrepôt de données. Et pourtant on sait combien des données fausses peuvent avoir des conséquences désastreuses si elles engendrent des décisions inadéquates. Le marché des solutions informatiques d’amélioration de la qualité des données est donc largement ouvert. Aux éditeurs de savoir le saisir.




Commentaires

1.Posté par Sandro Ubizzo le 16/12/2005 17:24
Il aura fallu très longtemps avant d’arriver à cette prise de conscience. C’est dans cette optique que nous développons depuis des années des solutions de Data Quality Management s’intégrant parfaitement aux logiques d’entreprises.

Jusqu’à présent, beaucoup de décideurs considéraient la non qualité des données comme un centre de coûts et non comme un centre de profits.
Mais à force de voir achopper des projets stratégiques en raison de la non qualité des données, la balance s’est inversée.
Sans la qualité des données, les projets décisionnels sont des centres de coûts. A force de consacrer des budgets aussi importants à la correction et à la qualification des données qu’aux projets décisionnels eux-mêmes, les entreprises ont bien conscience qu’il leur faut maintenant s’attaquer à la racine même du problème.

Et si nous sommes encore dans une logique de gestion « a posteriori », de la qualité des données, je ne doute pas que les entreprises et les DSI, ne découvrent très bientôt les bienfaits de la gestion de leur données « a priori ».

Le plus gros problème que rencontreront les entreprises dans la gestion de leurs données ne sera pas tant la mise en place d’outils permettant les contrôles de fond, ou de forme mais beaucoup plus dans l’intégration des contrôles métiers permettant ainsi la garantie de la qualité de données, dès la naissance de la donnée et tout au long de son processus de vie.

Notre expérience montre que la réussite d’un projet tient autant à l’implication des acteurs, qu’à la technologie utilisée. On ne peut plus considérer la donnée comme statique, car elle vit au rythme de l’entreprise, qu’elle démarre sur un ticket de caisse, et qu‘elle finisse sur un bilan consolidé, elle se sera transformée, modifiée, agrégée tout au long de son cycle de vie.

Lorsque l’on aborde la qualité des données, la seule chose qu’il faut garder à l’esprit, c’est le bon sens. Il faut savoir s’attaquer aux causes et non plus aux effets.
Avec mon autocar, que faut-il privilégier, mettre 20 personnes dans l’autocar pour le pousser jusqu’à la prochaine pompe parce que je ne sais pas quand je tomberai en panne ou mettre une jauge à essence et prévoir mes ravitaillements 


Sandro Ubizzo, chef de produit SPAD Data Quality Management