Fouille de Données : une démarche en cinq étapes


Rédigé par Michel Bruley, Directeur Marketing de Teradata France le 21 Novembre 2006



Pour mettre en place une approche de fouille de données, il ne s’agit pas uniquement de choisir la bonne technique statistique. Il faut bien plus qu’une bonne technique statistique. Chez Teradata nous avons développé un cadre formel de fouille de données qui couvre en particulier deux activités primordiales de ce type d’approche : la gestion de projet et le transfert des connaissances. La fouille de données doit être organisée selon cinq étapes consécutives : identification des problèmes de l’activité, préparation de l’architecture, préparation des données, analyse et livraison des connaissances.

Durant la première étape, il convient d’identifier, de préciser et de qualifier les questions pour la fouille de données. Il s’agit d’identifier aussi la meilleure démarche à mettre en œuvre pour répondre aux questions sachant qu’il existe de nombreuses techniques d’analyse commerciale et que parmi celles-ci la fouille de données est celle qui nécessite le moins de ressources. Il faut se poser les questions suivantes pour définir si la fouille de données convient : Les réponses aux questions nécessitent-elles la compréhension de relations complexes entre plusieurs variables ? Y a t il des questions pré requises auxquelles il faut répondre ? Quelles sont-elles ? Les réponses aux questions nécessitent-elles des déductions relatives à un phénomène ou à l’avenir ? Les réponses décriront-elles des phénomènes complexes ? Quel est le niveau de technologie requis pour gérer la complexité des réponses aux questions ?

Durant la préparation de l’architecture, il convient d’étudier les aspects techniques de la démarche et d’élaborer un plan. Par exemple, il faut envisager et planifier les implications techniques de l’ajout d’un modèle d’analyse et de nouvelles infrastructure à l’architecture logicielle et matérielle actuelle. Il faut aussi identifier les logiciels d’analyse qui conviennent pour répondre aux questions définies, définir les rapports entre les modèles d’analyse et d’autres applications, identifier le besoin d’autres technologies, mettre en lumière les contraintes et les limites au niveau de l’infrastructure, décrire les caractéristiques de l’environnement de production requis pour utiliser et maintenir les modèles analytiques et définir tous les problèmes de transport de données entre le modèle analytique et les environnements de production.

Lors de la préparation des données, il faut en outre identifier, extraire et valider de grands échantillons de données, les déplacer dans l’environnement d’analyse, tester leur pertinences par rapport aux problèmes à résoudre et enfin développer, affiner les modèles préliminaires afin de garantir des résultats encore plus solides.

La préparation des données n’est pas une tâche insignifiante. Elle représente en général 70% du délai. Les entreprises qui ont déjà nettoyé et transformé leurs données dans un entrepôt ont une longueur d’avance, mais il leur reste quand même du travail. En effet, les seuils de qualité des données pour la fouille de données sont bien plus élevés que ceux pour les utilisations habituelles d’un entrepôt de données. Par exemple, il est nécessaire de passer les données en revue à la recherche des valeurs nulles qui sont inacceptables dans le cadre de certaines techniques d’analyse. Une fois que les valeurs nulles sont connues, il faut décider soit de remplacer ces valeurs nulles par des valeurs raisonnables et utiles ou soit tout simplement de supprimer les enregistrements correspondants. Il faut évaluer également le caractère variable de chaque élément pour s’assurer que les données ont suffisamment changé pour garantir des inférences fiables et valides. Enfin, alors que les premières informations sélectionnées sont mieux connues il faut explorer d’autres données qui pourraient venir les compléter. Il n’est pas rare de tester de grands échantillons de données avant de trouver la sélection de données pertinentes pour répondre aux objectifs et aux critères de qualité.

Ensuite il convient de passer à la phase d’analyse qui recouvre le développement, l’essai et la validation des modèles analytiques. La modélisation analytique marque le début des choses sérieuses et à la fin de cette étape les réponses aux questions que se posait l’entreprise sont données et documentées. Lorsqu’il a été vérifié que le modèle fournit des résultats valides et utiles, l’application pour les utilisateurs peut être développée afin que les modèles puissent être intégrés dans les processus habituels de l’entreprise. A ce stade il convient d’organiser plusieurs séances de formation pendant la livraison des connaissances destinées à ceux qui utiliseront, entretiendront et rafraîchiront les modèles.

La durée moyenne d’un premier projet de fouille de données est de trois mois. Mais il convient de noter que les différents projets de fouille de données que Teradata a réalisé pour ses clients ont duré 4 semaines pour certains et 6 mois pour d’autres. La complexité des problèmes, les exigences au niveau de l’architecture et des technologies, l’importance de la préparation des données, la complexité des analyses et l’ampleur du transfert de connaissances influencent la durée d’un projet de fouille de données.

Tant tout les cas il est impératif de très bien définir le problème à résoudre et de s’assurer que la fouille de données est la solution la plus adaptée. Les questions les mieux traitées grâce à la fouille de données sont celles qui décrivent ou expliquent un phénomène relativement complexe ou qui ont une inférence sur des événements ou un comportement futur. Les questions qui nécessitent une synthèse ou une simple description à l’aide de quelques variables sont traitées plus efficacement avec les techniques traditionnelles de prises de décision et les statistiques descriptives.

Pour ce type de projet, il convient de sélectionner des individus qui sont curieux et qui sont intéressés par la fouille de données, qui font preuve d’une capacité de réflexion analytique et qui ont d’excellentes aptitudes en technologies de l’information. Un diplôme en statistiques ou en mathématiques appliquées est souhaitable, mais pas indispensable. D’autre part, une participation active des experts de l’activité et des utilisateurs des résultats de la fouille de données est critique pour la réussite de tout projet de fouille de données. Les individus qui ont travaillé en tant qu’analystes d’entrepôt de données ou qui ont assuré la liaison entre les spécialistes de l’activité et les spécialistes des technologies de l’information possèdent de nombreuses aptitudes au niveau de la résolution de problèmes et jouissent de l’expérience nécessaire pour assurer la réussite des projets de fouille de données. Les collaborateurs expérimentés qui ont développé des entrepôts de données et qui connaissent leur utilisation complexe sont d’excellents candidats car ils connaissent déjà le sens que revêt l’entrepôt de données pour l’entreprise et le pourquoi et le comment des éléments développés. L’apprentissage des techniques analytiques et statistiques requises pour un projet de fouille de données particulier prend bien moins de temps que la compréhension en profondeur du contenu et de la logique de la base de données.

Enfin d’un point de vue technique, il est préférable de réaliser les qualifications, les examens et les analyses des données au sein de l’entrepôt de données autant que possible. Comme cela a été dit plus haut, l’identification de données pertinentes et d’excellente qualité occupe la plus grande partie du temps. Cela s’explique pour deux raisons : tout d’abord, lorsque des données ne satisfont pas aux critères de qualité, il faut revenir dans la base de données afin d’y rechercher d’autres éléments à évaluer. Plus vous en apprenez sur les données, plus vous découvrez de nouvelles options et de nouveaux points de vue qui peuvent requérir un raffinement de l’approche analytique et la sélection d’autres données. Globalement ce processus implique de nombreuses itérations et tout cela est facilité si les opérations se font au sein de l’entrepôt de données..

Pour aller plus loin sur ce sujet, vous pouvez utilement consulter le lien suivant :
http://www.teradata.com/t/page/87116/index.html




Dans la même rubrique :