Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Quelques questions et réponses au sujet de la fouille de données (exploration de données ou data mining)


Rédigé par le 20 Octobre 2010

Qu’est-ce que la fouille de données ? La fouille de données correspond à la mise en œuvre d'une variété de techniques statistiques pour découvrir et interpréter à partir de données détaillées, des modèles inconnus auparavant qui apportent un éclairage, un savoir utile pour résoudre des problématiques de toute nature, en entreprise en particulier dans les domaines du marketing, de la vente, de la maintenance et de la gestion des risques.



Michel Bruley, Directeur Marketing & PR Teradata Europe de l’Ouest
Michel Bruley, Directeur Marketing & PR Teradata Europe de l’Ouest
Qu'est-ce qu'un modèle ? Un modèle est un ensemble de règles logiques ou une formule mathématique, qui décrivant comment les données sont liées, fournit des indications utiles pour éclairer une problématique. Une fois qu'un modèle a été construit, basé sur un ensemble de données, il peut être réutilisé pour rechercher le modèle découvert dans d'autres données similaires. Les modèles sont parfois appelés « modèles de prévision », car ils peuvent être utilisés pour prédire les comportements correspondant aux modèles découverts.


Qu'est-ce qu’une évaluation par score ? Une évaluation par score (ou un score), est une valeur calculée qui représente une caractéristique de l’objet scoré. Un score est créé en appliquant un modèle de données, c’est la façon la plus commune d’utiliser les modèles issus de la fouille de données. L’évaluation par score revient à créer une variable à partir d’un ensemble de données pour représenter la probabilité que l’objet scoré se comporte d'une manière particulière. Par exemple, un modèle de défection créera une note d’attrition qui représente la probabilité de chaque client de faire défaut.

En quoi la fouille de données est différente de l’OLAP (Online Analytical Processing) ? L’OLAP oblige l'utilisateur à formuler une question précise qui fait l’objet d’une requête ad hoc pour fournir un résultat factuel. Par exemple, vous pouvez demander, « Combien de chaussures de taille 9 ai-je vendu ces trois derniers mois ? ». Le résultat permet de valider une hypothèse ou apporte une information en vue d’une appréciation. L’OLAP ne fait que des comptages et pas de prévisions. La fouille de données, quant à elle, est une forme d'analyse exploratoire, où statistiques et algorithmes sont utilisés pour faire des découvertes, des estimations, des prévisions. Des techniques d'exploration sont appliquées pour trouver à partir d’un ensemble de données des relations, souvent complexes, et des modèles inconnus qui ont du sens. Par exemple, « Combien de chaussure d’été de taille 9 devrais-je commander pour la saison prochaine ? ». L’OLAP se concentre généralement sur des faits actuels, des utilisations prédéfinies de données agrégées, l’établissement de résultats factuels par des requêtes ad hoc finalisées sous la forme de rapports. La fouille de données se concentre généralement sur des tendances ou des résultats futurs, exige des données détaillées, met en œuvre des techniques statistiques, des algorithmes, et établit des modèles.

En quoi la fouille de données peut aider une entreprise ? La fouille de données concerne pratiquement tous les domaines fonctionnels de toutes les entreprises quelque soit l’industrie. Par exemple dans le domaine marketing vente, elle peut fournir des indications, des prévisions sur le comportement des clients et des tendances commerciales, tout ceci permettant à l’entreprise de prendre des mesures immédiates ou des mesures préventives pour modifier ses résultats. Concrètement il s’agit de :

déterminer des segments de clients de façon à personnaliser les communications et les offres,
évaluer les propensions à acheter ou à faire défaut,
calculer le potentiel aux différentes étapes du cycle de vie du client,
optimiser les investissements dans les différents canaux de distribution,
etc.

Comment puis-je savoir si j'ai un problème de fouille de données ? Si la question métier peut être traitée par des outils OLAP pour produire une réponse factuelle, ce n'est probablement pas un problème d'exploration de données. Si le problème de l'entreprise exige une prévision ou des estimations sophistiquées qui nécessitent des analyses pour mettre en lumière les relations complexes entre les données, c’est probablement un problème de fouille de données.

Que faut-il pour faire de la fouille de données ? La fouille de données est une approche multidisciplinaire qui requiert un ensemble de compétences spécialisées : des utilisateurs métier, des informaticiens qui maîtrisent le système d’information en place et un ou plusieurs spécialistes de l'exploration de données. Le plus efficace consiste à créer un centre d’expertise dédié.

Pour aller plus loin vous pouvez utilement lire mes autres articles sur le sujet :
http://www.decideo.fr/bruley/Approches-Analytiques-de-pointe,-Data-Mining-ou-Fouille-de-Donnees_a3.html




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store