Datamining et marketing : l'illusion du Titanic


Rédigé par Hélène IVANOFF, Complex Systems le 29 Juin 2015

Nombre de démonstrations de datamining portent sur la prévision de survie des passagers du Titanic. En réalité elles ne montrent que la petite partie émergée de l'iceberg.



Hélène IVANOFF, co-fondatrice de Complex Systems
Le datamining recouvre l'analyse de tous types de données avec des méthodes sophistiquées pour comprendre et prévoir des comportements, chose que les approches traditionnelles de BI, requêtes, tableaux de bord, reporting, n’ont aucune chance de découvrir.
Peut-être à cause de la fascination qu'il exerce, le naufrage du Titanic sert souvent de support aux démonstrations datamining. Le fichier des passagers comporte l'age, le sexe, la classe...et le "résultat" (statistiquement parlant), c'est à dire survivant ou non. On découvre rapidement qu'il valait mieux être en 1ère classe, une femme, ou un enfant , sauf un enfant en 3ème classe pour survivre à l'accident du 15 avril 1912.

Avec de telles démonstrations, simples et même souvent lumineuses, les utilisateurs métier pourraient facilement penser que finalement le datamining et l'analyse prédictive ça n'est pas si compliqué

Les propositions suivantes semblent en effet s'enchaîner logiquement :
1/ Les données du Titanic permettent de faire facilement du datamining
2/ J'ai des données (sur mes clients)
3/ Donc, je peux faire (facilement) du datamining (sur mes données clients)

Exemple type d'un raisonnement, d'apparence logique, sans aucun doute séducteur, mais totalement faux.

En effet :
Le fichier du Titanic est une vue "à plat" des passagers à un instant donné : les caractéristiques des passagers (âge, classe) décrivent leur état à l'embarquement. Dans les bases de données clients réelles en revanche, les informations ne sont pas disponibles à plat, mais proviennent de plusieurs tables ; ces informations brutes doivent être retraitées et transformées pour obtenir cette vue à plat. Par exemple, l'âge est calculé à partir de la date de naissance dans la table clients, la fréquence de visites sur un site à partir des dates et heures d'une table de visites, le CA à partir des lignes d'une table commandes etc. Sans compter qu'il faudra combiner des informations provenant de plusieurs tables, par exemple, le ratio du nombre de commandes et du nombre de visites sur le site. La difficulté pour un utilisateur qui n'est pas dataminer est donc dans un premier temps de transformer les données brutes des différentes tables de la base en informations porteuses de sens. Cette étape est loin d'être simple, elle nécessite de nombreuses manipulations de données, complexifiées par le fait que, selon les analyses (exploratoire, descriptives, prédictive), les calculs devront être effectués à des dates différentes : exemple, pour comprendre pourquoi un abonné à une newsletter se transforme en client il faut caractériser son profil avant son premier achat et non à la date d'aujourd'hui. Sachant que la date de premier achat est potentiellement différente pour chaque client.
Bien entendu, il faudra encore tenir compte des "trous" (les valeurs manquantes dans les données) et des "aberrations " (les dates de naissance à 01/01/1900, les montants d'achat anormalement élevés...). Le parcours est semé d'écueils.
Il est traditionnellement admis que tous ces traitements représentent globalement 80% du temps d'une analyse. C'est donc 80% de la réalité du datamining qui sont occultés lors des démonstrations sur des datasets prêts à l'emploi, comme celle du Titanic. Coïncidence, 80% c'est aussi à peu près la proportion du volume caché des icebergs.

Mais ce n'est pas tout. Cent ans et quelques après le Titanic, nous sommes plongés dans l'océan des big data. Et les vraies questions sont aujourd'hui "comment penser à toutes les informations à prendre en compte dans l'analyse? Comment être sûr de ne pas oublier un élément qui pourrait se révéler capital pour la prévision d'un comportement ?" Si on a peu de chance de passer à côté lorsque dispose de quelques données comme celle qui décrivent les passagers du Titanic (environ 2200 passagers et 10 champs de données) c'est loin d'être aussi évident, aujourd'hui.
Avec l'apparition de sources de données nombreuses et variées, telles que réseaux sociaux, transactions, comportements de visite, réactivité aux différents types de sollicitation, modes d'utilisation des canaux, il est illusoire de croire que la seule logique métier puisse suffire pour identifier toutes les dimensions d'une analyse. L'analyste, qu'il soit expert dataminer ou expert métier, est donc confronté à un double problème de temps, à la fois pour imaginer toutes les métriques dont il a besoin, et pour les construire.

On en arrive au paradoxe que plus on dispose de données, moins on les analyse (faute de temps). Même appréciée en valeur relative, l'idée est dérangeante. Et ce aussi bien pour les dataminers, dont on comprend aisément les frustrations, que pour les acteurs du marketing, qui investissent de plus en plus dans des stratégies data driven, reposant sur la connaissance client.

A COMPLEX SYSTEMS, nous brassons des données depuis près de 20 ans, et menons une R&D active pour repousser les limites de la connaissance client. Avec la solution KNOWLBOX(R), nous avons inventé une technologie d'exploration automatisée des données client, analysant directement les bases de données client, qui supprime tout besoin de dataset (le fichier plat), qui crée et évalue automatiquement des milliers de critères discriminants. Pour en terminer avec la métaphore, nous avons fait disparaitre la partie immergée de l'iceberg.
Ça change tout, pour les dataminers comme pour les utilisateurs métiers.



Dans la même rubrique :