Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Quand les BIG DATA modifient le rapport à l'information


Rédigé par Philippe LACASSAIGNE, Réseau'nable le 17 Septembre 2012

Les BIG DATA se situent à 3 niveaux : le stockage, le temps réel et l'abstraction. Le temps réel implique un traitement au fil de l'eau et la mémorisation de l'information signifiante face à une logique de stockage de l'ensemble des données disponibles.



Philippe LACASSAIGNE, Réseau'nable
Philippe LACASSAIGNE, Réseau'nable
Face à ces deux approches, bien que la logique de stockage soit plébiscitée aujourd'hui, une troisième voie apparaît qui est celle de l'abstraction, c'est semble t'il la plus prometteuse! En effet, l'objectif de cette 3ème voie est de gagner en compréhension (intelligibilité) et non en extension. Les BIG DATA obligent par exemple de ne plus penser nos systèmes sous la forme de processus et sous l'angle du stockage mais, du flux, du temps réel et de l'abstraction. Face à l'existant, les big data constituent donc un changement de paradigme qui va bouleverser notre manière d’appréhender l’information. Les entreprises en seront directement impactés. Comment ?
Concrètement, nous savons que l'entreprise agit à partir d'un modèle de son environnement et d'une stratégie d'adaptation à cet environnement. Le modèle décisionnel de l'entreprise! Dans son cas, le modèle d'analyse décrit l'état du marché et permet de faire des prévisions sur son évolution. C'est le principe de la Business intelligence qui « comprime » les données en fonction de leur pertinence. Celle-ci est déterminée par le modèle qui permet d'estimer les performances de l'entreprise et de valider sa stratégie. Or, cette dernière est constamment remise en question. Face au déluge des données, et dans un environnement où elle doit s'adapter très rapidement, l'entreprise exploite ces données pour se fixer un cap. Or, celle-ci devient vite sujette à une problématique de pertinence. En effet, plus elle doit traiter des grands de données plus la pertinence de l'analyse de ces données diminue. Le modèle soumit aux données en masse de nature hétérogènes dans un environnement changeant devient inopérant. C'est tout le risque des technologies héritées des méthodes datamining portées sur l'analyse des faits passé pour prédire, simuler face à des technologies portées sur l'action opérationnelle. D'un coté, la prise de décision sur un modèle d'analyse, de l'autre des transformations de données dans une logique de réajustements dans l'action. D'un coté, l'analyse, de l'autre, la synthèse. C'est ce second axe que nous légitimons ici. Pourquoi ?

La capacité analytique peut être augmenté jusqu'à un certain moment (principes d'Heisenberg et de Godel). L'atteinte d'un seuil critique de cette capacité analytique fait que la pertinence baisse. Ainsi, la pertinence est inversement proportionnel aux données stockées. Les entreprises s'épuisent et doivent « courir de plus en plus vite pour rester sur place. L'analyse des données massives devient alors un facteur coût majeur pour les résultats réellement escomptés. Les entreprises prennent tout et s'épuisent. Aussi, l'on ne peut pas continuer à penser comme les systèmes d'avant sinon dans ce cas, l'on ne fait pas du BIG DATA. Considérant que tout l'information stockée est accessible, le volume augmente mais la pertinence baisse. On dépense une énergie considérable pour traiter des choses qui ne sont plus pertinentes. Et cela de manière exponentielle d'où la prochaine problématique du décisionnel face à la pénurie d'énergie. Il est nécessaire de se concentrer sur l'essentiel afin de séparer le bon grain de l'ivraie (principe d'essentialité). L'ère de la donnée est analytique et l'ère du big data est synthétique. Le décisionnel va laisser sa place (ged, bi, stockage) au synthétique. Et, les entreprises devront s'entourer de compétences capables de faire des synthèses des données massives. Le temps réel n'est pas une logique de la donnée mais une logique du flux en continu. Toutefois, le flux augmente au même titre que la volume de données ce qui se caractérise par une perte en temps de réaction et en pertinence. Que va t'il se passer ?

Les technologies actuelles conçues à partir de règles déductives vont évoluer vers des technologies intégrant des mécanismes cognitifs et temps réel issus de l'induction. Jean Pierre Malle, concepteur des processeurs situationnels, illustre parfaitement ce changement de cap.

"Dans la méthode déductive, un problème a quelques solutions alors que dans la méthode inductive, un problème à une très grandes possibilités de réponses. L'approche inductive permet par ailleurs de se concentrer sur l'essentiel par rapport à la problématique. En effet, puisque l'on ne se situe pas dans l'analyse pour la prise de décision car prendre une décision c'est connaitre. Or, il n'y a pas de causes à effet en induction juste des possibilités d'agir pour lesquelles l'on se contente de ce que l'on a, rien de plus, rien de moins ! L'opération N+1 est plus riche que N. Ce qui est bien plus efficient que l'analyse. L'on touche moins un problème d'efficacité que d'efficience avec une recherche de sa maximisation. L'approche inductive va permettre de se concentrer sur l' essentiel c'est à dire des éléments intelligibles dans des sous ensembles d'où un besoin de techniques de synthèse : mise en commun de x à n(x), et de techniques d'abstraction. Selon cette approche, il sera moins question de sélection que de transformation des données en compréhension. L'échec est de vouloir garder toutes les données. L'on réalise une transformation qui fait passer d'une logique de description en extension vers une description en compréhension. Cette problématique est la clé du succès. Il faut tenir compte des éléments significatifs indépendamment du métier des données, sinon il y a une perte d'efficacité des données abstraites. Il ne faut pas qu'elles soient orientées pour faire des investigations dont l'on n'a pas aujourd'hui connaissance. Le problème des systèmes formels actuels serait alors dans les choix d'une prise en compte et de la pertinence avec pour conséquence une multiplication des interactions entre les données et le temps. Or, puisqu'en induction, la relation de cause à effet n'existe pas comme en déduction, les technologies inductives se situent davantage dans une épistémologie constructiviste où les choses sont induites d'autres choses avec une diminution du temps, de l'espace et une création de valeur. Plus les volumes de données augmentent, plus l'analyse perd en pertinence. Moins les modèles d'analyse basés sur la logique formelle sont efficaces."

C'est dès à présent que les entreprises doivent réfléchir au changement. Le prochain Ouvrage de Philippe Niewbourg devrait offrir un cadre théorique et une feuille de route pour l'action. C'est aujourd'hui que les entreprises envisagent l'avenir!




Commentaires

1.Posté par Michael ALBO le 02/10/2012 04:30
Ok sur le principe. Mais comment expliquer le principe d'essentialité à une machine ? Comment lui faire identifier, parmi toutes les données disponibles, celles qui seront pertinentes pour une analyse... et celles qui ne génèreront que du "bruit" sur une question donnée ? Envisagez-vous de travailler selon un schéma probabiliste ? ou selon le principe des heuristiques et des algorithmes approchés ?
Connaissez-vous des systèmes qui effectuent déjà le type d'analyse inductive que vous préconisez sur de grands volume de données ?

2.Posté par lacassaigne le 02/10/2012 17:40
Twitter
Voilà d'excellentes questions !

Le traitement s'appuie sur des principes issus de la cognition humaine qui accorde une large place à l'induction. On observe des faits et on généralise à l'inverse de la déduction qui fait des hypothèses à partir de règles établies. D'un coté on ouvre, de l'autre on fige. Le principe d'essentialité se pose ici. En effet, on va moins s'intéresser aux récurrences qu'aux singularités. Concrètement, cela implique par exemple de ne garder que 5% des 95% d'informations récurrentes et de nous intéresser aux 5% de singularités. D'ailleurs, trouvez vous un intérêt à préserver 95% des données récurrentes qui ont tjs servi à prédire l'avenir? à l'inverse, tenir compte des 5% de singularités a bien plus de sens.

Selon moi, c'est intéressant car prendre en compte les singularités modifie le rapport à l'information et fait tendre vers une culture de l'action. En effet, des singularités, on doit être capable d'agir et ce qui est observés aujourd'hui est une opportunité dans l'instant. . à l'inverse, la récurrence défend encore la culture de la réaction, on agit par réajustements par rapport à un T-1. Exemple typique de l'analyse du rapport comptable!

Oui je connais des systèmes inductifs. D'ailleurs, je collabore à un projet en mode PAAS qui doit faciliter le développement de nouveaux services. Nous communiquerons prochainement sur cette plateforme.

Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.