Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Le Big Data : un cadeau empoisonné pour les Data Miners?


Rédigé par Didier Gaultier, Coheris le 14 Septembre 2012

Didier Gaultier, Directeur du Développement SPAD et Datamining chez Coheris, analyse les évolutions de l’analytique à l’ère du « Big Data » et s’interroge sur le rôle du Datamining en 2012.

« Big Data » est l’une des expressions à la mode en 2012 dans le monde du Data Mining, et les entreprises ressentent de plus en plus comme une pression le fait de devoir s’en emparer rapidement. Dans ce cadre, l’analyse des contenus audio et vidéo est annoncée par certains acteurs du logiciel comme étant presque à portée de main. Techniquement, la possibilité existe : il s’agit par exemple de transformer ces contenus en texte-libre, à partir d’une reconnaissance initiale, puis d’utiliser le text-mining*. Quand on dit « Big Data » on pense plus généralement à la pléthore d’informations existant dans les réseaux sociaux, et que beaucoup de professionnels du marketing aimeraient bien pouvoir mieux exploiter pour leur campagnes, mais quid de la qualité de ces données dites « non-structurées » et de leur utilité pour l’entreprise ?



Didier Gaultier, Directeur du Développement SPAD et Datamining chez Coheris
Didier Gaultier, Directeur du Développement SPAD et Datamining chez Coheris
Depuis la naissance de l’informatique, un principe né en 1963 à New York est en effet toujours resté particulièrement vrai de nos jours. Il stipule « Garbage in, Garbage out ». Un input de données aberrantes sera traité par un ordinateur, mais il n’en ressortira qu’un résultat absurde ou une absence de résultat. Un moteur statistique peut trier les données ineptes à la manière d’un tamis, mais si leur fiabilité est globalement trop compromise, il ne faut pas espérer de miracle. A partir de là, seul un contexte bien contrôlé autour d’un contenu libre, permet vraiment d’espérer en déduire de la connaissance utile.

L’Analytique face au « Big Data »

L’enjeu pour les entreprises face au « Big Data » ne se situe donc pas tant dans la capacité d’analyse elle-même qu’autour de 2 problématiques qui ont tendances à être trop souvent ignorées :
➢ Le mode de collecte des données doit rester connu et maitrisé pour être certain qu’une analyse de Data Mining ne produise pas d’effets contre-productifs pour l’entreprise.
➢ L’analyse de grandes quantités de données ne doit pas se faire au détriment de leur qualité. Toutes n’ont pas la même utilité et ne permettent pas à l’entreprise de dégager de la valeur.

Comme nous l’expliquons souvent à nos clients en Data Mining, que ce soit dans le cadre de l’utilisation d’un logiciel comme COHERIS SPAD, ou tout autre logiciel du marché, l’analyse statistique impose ainsi certaines règles de base sur les données, et ces règles ont très peu à voir avec la quantité de données. En ne les respectant pas, on s’expose au mieux à une absence de résultats, voire à des résultats faux et trompeurs. Une de ces règles d’or est ainsi de toujours utiliser le même instrument de collecte sur un jeu de données. Par exemple, une partie des données d’enquêtes venant d’un site internet ne peut donc pas être mélangé directement avec une autre partie (portant sur les mêmes questions) dont l’origine est une enquête téléphonique. Au risque sinon d’obtenir des données dont nous dirons par la suite pour simplifier qu’elles présentent une qualité dégradée.

Cette contrainte de base a souvent été oubliée, avec des conséquences qui ont pu être grave pour les entreprises. Il existe d’autres contraintes à respecter en Data Mining. Ainsi en 2008, pendant la crise des subprimes, une partie des ordres de bourse passés par certains automates programmés à la hâte était aberrante, car les modèles prévus par les organismes financiers initialement conçus et testés pour fonctionner dans un marché boursier fluide, ne prenaient pas en compte que la spécificité de la crise sur les actifs toxiques violait certaines hypothèses statistiques.

Des algorithmes qui marchaient parfaitement en période d’activité financière « normale », ont cessé d’être pertinents. Ce n’est bien sûr pas la raison première de la crise, mais c’est un des facteurs de son aggravation, il ne s’agit donc pas d’un sujet mineur.

Analyser le « Big Data » : l’exemple des réseaux sociaux

Ainsi, pour analyser le « Big Data » en récupérant des données sur un réseau social, if faut impérativement être capable de comprendre le contexte de collecte pour arriver à un résultat exploitable. Par la suite, il sera possible de faire une analyse plus globale sur tous les résultats de ces analyses de premier niveau grâce à une méthodologie comme l’AFM (Analyse Factorielle Multiple) qui peut prendre en compte la disparité des sources et des contextes.

Mais pour cela, il faut bien avoir conscience que cette situation se présente. Or, certains entrepôts de données orientés « big data » n’ont pas nécessairement été conçus au départ par des statisticiens, et cet aspect particulier peut avoir été négligé dans leur conception. Par la suite, un tel entrepôt de données s’avèrera en partie inexploitable malgré la très grande masse de données qu’il peut contenir.

Il faut d’ailleurs noter qu’à l’heure actuelle, générer des leads pour une entreprise en utilisant seulement les réseaux sociaux, à part dans des contextes média très particuliers, fait partie du domaine de la prospective pure.

Les réseaux sociaux ont, par contre, un vrai rôle à jouer dans les relations publiques et pour l’image des entreprises. Le text-mining permet par exemple de classer les commentaires qui circulent sur Internet comme « bons » ou « mauvais », et de les associer à des types récurrents de remarques. Il est également possible de savoir si ces avis sont vraiment le fait de vrais consommateurs ou d’une campagne de billets ou une campagne de « like » organisée et en règle. Une entreprise qui surveille sa réputation de cette manière, peut par exemple identifier une campagne de dénigrement, car les outils de text-mining sont maintenant en mesure de recouper les commentaires pour identifier s’ils viennent tous d’une source similaire.

Trop d’informations tue l’information

Un autre aspect de bon sens à considérer est qu’une très grande quantité de données ne constitue pas une garantie d’une information de qualité, bien au contraire, on dit souvent que « trop d’informations tue l’information ».

C’est un principe qui, dans une certaine mesure, et contrairement aux idées reçues, reste vrai en Data Mining. Introduire une quantité astronomique de nouvelles données dans un modèle qui fonctionne n’introduit que très rarement de l’information réellement actionnable supplémentaire pour alimenter le modèle. Pire encore, certains modèles de Data Mining fonctionnent bien mieux, sont plus robustes et précis lorsque qu’on évite de les alimenter avec des données supplémentaires (trop pauvres en informations) en entrée. Avoir un modèle prédictif avec des dizaines voire des centaines de paramètres, est en soi une aberration, car on cherchera toujours à élaborer un modèle pour qu’il soit le plus performant possible d’une part, mais surtout fonctionnant avec le nombre minimum possible de variables d’autre part. Le fait d’introduire une grande quantité de sources supplémentaires en espérant qu’une d’entre elle fera « par chance » l’affaire, est à comparer à une pratique que les marketeurs appellent dans un autre domaine le « SPAM » avec un effet inverse à celui qu’on veut créer. Le principe de simplicité s’applique donc en Data Mining, car plus un modèle est simple, plus il est puissant.

L’autre raison pour laquelle on cherche principalement des modèles de Data Mining simples, réside dans leur pouvoir explicatif. Plus un modèle est simple, plus il permet de comprendre ce qu’il se passe. Simplicité est donc synonyme de puissance explicative. Devenu trop complexe, un modèle de Data Mining n’explique plus rien et devient difficile à mettre en œuvre.

Il ne faut donc jamais perdre de vue l’objectif du Data Mining qui est de créer de la connaissance client et de la valeur, qui n’est donc, loin s’en faut, pas garanti par l’accumulation d’une énorme masse de données dont on a même parfois oublié jusqu’à la provenance voire l’utilité.

Quel rôle pour le Data Mining en 2012 ?

Aujourd’hui, quand on parle d’analyser de l’audio et de la vidéo en grande quantité, en termes d’impact sur l’entreprise, on s’éloigne donc sans s’en rendre compte des raisons d’existence originelles des outils d’analyse. Il faut se poser la question : où est l’intérêt pour l’entreprise ?

Cet intérêt est évident pour un constructeur informatique qui cherche, à raison d’ailleurs, à promouvoir son matériel, notamment en capacité de stockage, capable de servir de support à des bases dépassant le Pétaoctet de données. Par contre, pour l’utilisateur ou le marketeur lambda, cette quantité monumentale ne garantit nullement un bon ROI, car dans un contexte « Big Data », les contraintes statistiques sur la qualité des données continuent en effet de s’appliquer pleinement.

C’est donc se réjouir trop vite que d’associer la masse de données récoltées à un volume de connaissance réellement actionnable par l’entreprise. Selon le principe du « Garbage in, Garbage out », il vaut mieux avoir moins de données mais qui seront parfaitement maitrisées et de bonne qualité.

L’essentiel de la connaissance utile pour le marketeur reste en effet issue des outils statistiques traditionnels. Cela fait maintenant plusieurs dizaines d’années que ces méthodes existent. Le progrès a eu lieu principalement sur la convivialité des outils, leur accessibilité et leur performance, ainsi que sur les garde-fous qui évitent à l’utilisateur de produire des résultats erronés.

Le fait d’ajouter des montagnes de données à ces process, ne rajoutera pas mécaniquement de la qualité en termes de valeur des données, bien au contraire, le risque est d’alourdir les temps d’analyse et d’en menacer la cohérence. Le Big Data n’est donc pas automatiquement une bonne nouvelle pour le dataminer ni pour le marketeur, mais plus une éventuelle difficulté à gérer, même si certains exemples précis, montrent que ce n’est pas non plus une fatalité.
En jouant parfois sur l’ignorance des gens, le risque du discours autour du Big Data est de renvoyer le Data Mining à un rôle qui n’est pas le sien : analyser toutes les données, quelles qu’elles soient et quelles que soient leurs origines. Ce serait un dévoiement, dans le sens où son rôle est avant tout de s’emparer de données collectées avec un objectif bien défini et d’en extraire de la connaissance précisément en rapport avec cet objectif. Cette intention initiale est fondamentale.

Enfin, le maillon faible de l’analyse de Data Mining reste le processus de collecte des données, qui en assure la qualité. Ce maillon est trop souvent négligé, alors que son impact sur une entreprise construite en silos peut être dévastateur. Si le service statistique qui analyse les données n’échange pas régulièrement avec celui qui les collecte (le plus souvent un département de la DSI), le risque est important d’utiliser des méthodes inappropriés de Data Mining et de sacrifier sans le savoir la qualité du résultat. Au-delà de l’enjeu technique se pose donc une question de culture à acquérir.

Au final, si une entreprise souhaite analyser le « Big Data », la prudence s’impose. Il lui faudra de préférence créer des groupes de travail entre statisticiens, DSI et intervenants métiers pour définir leurs besoins en termes de données. Ensuite, il faudra apporter une attention toute particulière aux processus de collecte et d’alimentation des entrepôts de données afin de mettre un terme au mythe qui veut qu’une énorme masse de données ce soit forcément mieux : ce n’est pas systématiquement le cas.

*Text-mining (ou Fouille de textes): technique qui automatise le traitement de grands volumes de contenus textuels, en extrait les informations principales et utilise la méthode statistique pour les répertorier.




Commentaires

1.Posté par lacassaigne le 14/09/2012 22:43
Twitter
Les BIG DATA sont à terme l'exploitation en valeur de l'ensemble des traces et des indices qui permettent de comprendre au fil de l'eau les comportements de consommateurs, clients et utilisateurs quelque soit le canal utilisé. Avec la prolifération des canaux et l'infinie des parcours clients, les technologies BIG DATA s'organiseront en 3 axes
Un axe de stockage mais qui reste un interprétant des données du passé
Un axe temps réel avec une sélection des données à fort potentiel et d'en dégager l'intelligence.
Un axe d'abstraction pour gagner en compréhension et non en extension

D'une logique de stock les BIG DATA répondent à une logique de flux et le lien qu'elles entretiennent avec l'entreprise se conçoit sous l'angle de l'agilité. Effectivement, les métiers vont évoluer. Alors que le datamining vise à l'analyse des grands volumes de données, les profils de demain auront la tâche avec les nouveaux outils du BIG DATA de représenter les données de manière plus intelligible. L'analytique laissant probablement se place à la synthèse, l'interprétation à l'action.


2.Posté par Pierre Bourguet, Consultant BI, Eozen, Groupe SQLI le 17/09/2012 21:01
Finalement, pour distiller une connaissance utile à partir de données non-structurées, il faudra :

• d’abord les structurer, via un « instrument de collecte » comme vous le nommez très justement, la plupart du temps par l’industrialisation d’une requête spécifique Hadoop : Oops !
• ensuite, les intégrer dans le Data Warehouse sur lequel est fondé le Système d’Information Décisionnel de l’entreprise, encore faut-il qu’il soit modélisé en conséquence !
• enfin, construire l’application analytique de Business Intelligence capable de répondre aux questions de connaissance que se posent les fonctionnels, et à celles-là seulement !

Alors, les Data Miners pourront honorer la promesse de leur art, en valorisant les sources de minerai que représentent les réseaux sociaux, les sites et les bases documentaires internet, les capteurs de toutes sortes - RFID, GPS, caméras de vidéosurveillance, boucles de détection du réseau routier, lecteurs de badges, radars (!) - et un jour peut-être l’Open Data …

Et si d’aventure le projet était stratégique à l’origine, il restera à mesurer le ROI du modèle de connaissance, dans le strict respect des « hypothèses statistiques » posées au départ, comme vous l’avez souligné, sous peine d’aggraver une situation qu’on voulait amender !

Les Data Miners ne prétendent pas être magiciens, même si leurs résultats font rêver …

Pierre Bourguet, Consultant BI, Eozen, Groupe SQLI

3.Posté par Axa Technology Services le 18/09/2012 11:37
"Or, certains entrepôts de données orientés « big data » n’ont pas nécessairement été conçus au départ par des statisticiens, et cet aspect particulier peut avoir été négligé dans leur conception". Monsieur, Concevoir un modèle de données en informatique a pour but de retranscrire un contexte dans un formalisme compréhensible par la machine tout en étant le plus proche de la réalité. On conçoit pas pour répondre au besoins de tels ou tels utilisateurs. Pire, les statisticiens sont loin de pouvoir concevoir un modèle conceptuel de données. Ils ont leurs domaine, la statistique. Enfin, selon Crisp-dm toute une étape de préparation de données est nécessaire. On peut tres bien disposé d'une masse importante de données sans pour autant tout l'utiliser. Suivez la technologie, elle y est depuis 10 ans aux états unis et a fait ces preuves avec google, yahoo, facebook et amazon. Si vous avez peur de Mahout, développez vous implémentations en map reduce. C'est mieux que de nager contre le courant :)

4.Posté par Didier Gaultier le 18/09/2012 23:12
Merci à Pierre Bourguet pour son commentaire avisé qui montre qu'il a très bien compris la problématique exposée. D'accord avec sa démarche. Merci d'avoir rappellé que les hypothèses statistiques doivent être vérifiées, et que le big data n'y fait pas exception (par une sorte de passe droit parcequ'on appelle cela du big data)

Didier Gaultier

5.Posté par Cédric Quaghebeur le 21/09/2012 09:07
Cet article montre bien que les entreprises françaises sont toujours dans leur ancien paradigme, elles cherchent à faire du big data sur les anciennes architectures techniques, et forcement ça coince. Rien de plus facile aujourd'hui que de sous-traiter le stockage via du cloud (concept de SI producteur consommateur) et utiliser les nouvelles technos de type Mapreduce pour faire du datamining de type big data (c'est à dire distribué).
Pour moi il faut revenir au fondamental : Bien identifier les problématiques fonctionnelles, écouter les métiers, s'imprégner du terrain et seulement après définir les modèles datamining.
Ensuite la technique suivra, Google, Facebook et autre nous le montrent bien, et vont d'ailleurs jusqu'à diffuser "toutes" leur documentation afin que tout le monde s'y mette (Haddop, Map Reduce, Scala, etc...)

6.Posté par Didier Gaultier le 24/09/2012 07:09
Voilà bien des discussions intéressantes. Il y a quelques amalgames entre stockage, utilisation, et analyse du Big Data. On peut stocker toutes les données qu'on veut ou qu'on peut, c'est une question de puissance machine et stockage. On peut techniquement utiliser les données stockées, cela n'en fait pas un système intelligent pour autant. Mon propos porte sur les techniques d'analyse uniquement. Hadoop n'est pas la panacée qu'on croit, certaines analyses ne s'accommodent pas du tout de stockage et de traitements distribué, ou alors, il faut rapatrier toutes les données au moment du traitement. Essayez donc de faire une ACM suivie d'une typologie en Hadoop sans avoir à centraliser les données !

7.Posté par Clicsteam/M2H le 24/09/2012 20:56
Sans avoir l'expertise de l'auteur, j'avais aussi évoqué certaines des problématiques qu'il expose en relation avec des articles d'autres auteurs (+ liens vers d'autres articles) :
http://www.decideo.fr/Introduction-de-la-7eme-edition-de-l-Universite-d-ete-GS1-Big-Data-et-GS1_a5429.html

8.Posté par Didier Gaultier le 25/09/2012 11:26
@Pierre Georget : Votre article sur le Big Data, est intéressant et montre bien que la problématique de qualité de collecte doit rester au cœur du projet.

9.Posté par Vallaud Thierry le 01/10/2012 08:58
Moi je crois que le big data c'est une invention de "stockeurs" de données et évidement là plein de solutions existent, vont existées et c'est super : mais c'est de la tuyauterie avec des flux en temps réels et volumineux et il y a des spécialistes pour la gestion techniques de ces tuyaux
Maintenant le data mining c'est de l'analyse de données, des statistiques, des mathématiques, du marketiing, des sciences sociales c'est autre chose. Par exemple on peut s'intéroger sur la pertinence client du "marketing en temps réel", c'est une vraie question.
Sur le modèle conceptuel de données le statisticien (avec de l'expérience) peut fortement contribuer à ne rien oublié et à permettre aux multiples dimensions des univers décisionnels de ne pas pouvoir se croiser entre elles comme c'est souvent le cas dans certains datamart derrière des outils décisionnels de reporting par exemple.
Donc ne mélangeons pas les genres, à l'informatique les tuyaux et le stockage et les languages de gestion des flux aux analystes de de données la modélisation et l'interprétation et la synthèse. Sur la synthèse je me méfie car il faut quand même un minimum d'analyse pour arriver à une bonne synthèse et la BI laisse parfois croire que les deux se confondent. Les KPI sans interprétation ne raconte pas d'histoire.
Par ailleurs sur le volume de données ou la suite des outils qu'il faut pour tirer des leçons pertinentes des données je n'ai pas forcément besoin de beaucoup de volume de données et d'une suite ETL/DW/BI pour tirer toute la connaissance de ces données : là c'est une question de pratique et laisser croire qu'il faut d'abord tout plein d'outils pour arriver à faire quelque chose de ses données est du marketing d'éditeur de solutions. Il en faut un que l'on maitrise bien, si on l'a c'est mieux, mais on n'est obligé de créer une usine à gaz informatique pour tirer des enseignements de ses données : voir même c'est contre productif. Je conseillerai même de faire d'abord les analyses de données, voir les enseignements que l'on peut en tirer puis faire les outils pour rendre éventuellement ces enseignements récurrents mais en ayant circoncrit la cible.
Après que pour des raisons capitalistes les éditeurs se confondent c'est autre chose si ils savent différencier les cibles de leurs offres.
Thierry

Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.