Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Big Data : un nouvel air souffle sur la Business Intelligence


Rédigé par le 30 Juillet 2012

Selon une récente étude d’IDC, le Big Data reste encore un terme flou pour 46% des responsables IT. Et pourtant, « ce mot qui fait partie des mots les plus confus de cette décennie » comme le dirait Philippe Nieuwbourg, est en train d’offrir le renouveau tant attendu par les professionnels du monde du décisionnel. En fait, les 3 V (volume, variété et vélocité) du Big Data vont (enfin !) pouvoir donner un nouveau souffle à la Business Intelligence.



Abed Ajraou, 
Responsable du Centre de Compétence EIM, Devoteam
Abed Ajraou, 
Responsable du Centre de Compétence EIM, Devoteam
Ce n’est plus trahir un secret que d’affirmer que la Business Intelligence, dite traditionnelle, atteint ses limites :
• Un datawarehouse de quelques téraoctets est très compliqué à maintenir et à faire évoluer.
• Les données non-structurées n’ont jamais été abordées par la Business Intelligence – pensant que les données structurées étaient suffisantes pour la prise de décision – tel un nombrilisme méprisant.
• La BI temps réel – grand paradigme de ces dernières années – n’a été atteinte qu’au prix d’architectures ultra-complexes, coûteuses et dont le retour sur investissement a toujours été contesté.

Pourquoi remuer le couteau dans la plaie de la Business Intelligence aujourd’hui ? Pour au moins deux bonnes raisons :
1. Se limiter à quelques téraoctets dans l’entrepôt de données n’est aujourd’hui plus possible. L’accroissement de la volumétrie des données à analyser dans l’entreprise suit une loi dite exponentielle et il est urgent de traiter ce problème avant d’être complètement submergé.
2. Les données semi-structurées, voir non-structurées, sont de plus en plus présentes dans l’écosystème de l’entreprise (fichiers de logs, RSE, catalogue produits, blogs …) ; et les données externes à l’entreprise sont de plus en plus prisées (réseaux sociaux, articles de presse, vidéo …). En effet, il est impossible d’exploiter ses informations avec les techniques classiques de la Business Intelligence sans monter des architectures et des infrastructures extrêmement alambiquées et qui de plus ne cibleront qu’un seul type de besoin.

L’éléphant jaune ouvre de nouvelles perspectives à la Business Intelligence

Lorsque l’on parle de volume, de variété et de vélocité, on pense naturellement à Google, Yahoo, Facebook, Linkedin … Et c’est bien ces deux premiers géants qui ont commencés à réfléchir à ces problématiques (il y a déjà plusieurs années) et qui nous ouvrent aujourd’hui la voie vers des possibilités que l’on croyait totalement utopiques il y a à peine quelques mois !

Hadoop – ce petit éléphant jaune, mignon soit-il - est en fait tout un framework open source qui permet de disposer d’une architecture logicielle scalable (massivement processing parallèle) grâce à un cluster de machines. Quésako ? C’est assez simple à vrai dire : la philosophie d’Hadoop déporte la problématique technique (hardware) du stockage de la donnée vers une gestion logicielle. Hadoop HDFS – c'est-à-dire le stockage de l’information sur les fichiers systèmes – permet de gérer intelligemment des données en exploitant au maximum les machines serveurs en réseaux (cluster de machines). Comment fait-il ? Tout simplement en gardant le principe du «zero fault tolerance» … Vous remarquerez qu’il est extrêmement rare de voir Google ou Facebook en panne. Ceci est dû au fait que si un serveur est débranché, il n’y aura aucun impact car d’autres serveurs prendront le relais – tant en terme de service rendu qu’en terme de stockage de l’information ! Hadoop stocke effectivement toute l’information trois fois et en fragments distribués sur les différentes machines du cluster.

Et … c’est tout ? Non, comment l’interrogation des données est aussi rapide sur Google ? Parce que Google est le précurseur du framework map/reduce qui fait partie du monde Hadoop. Map/Reduce permet d’exploiter ici la puissance de chaque machine et de réduire l’interrogation en petites interrogations et ensuite rassemble l’ensemble des résultats en un résultat final. Le temps de réponse sur une volumétrie très grande est juste édifiant !

Donc, nous avons une meilleure disponibilité des données, un traitement des données très rapide … En quoi cela permet d’avoir une BI plus évoluée ? Ce serait un grand manquement que de parler d’Hadoop sans évoquer le NoSQL et en particulier de HBase. HBase est une base de données orientée colonne. Elle est totalement adaptée à la recherche d’information car sa structure est basée sur le principe du « Clé, Valeur » ce qui permet le lien de toutes les informations entre-elles. En clair, le stockage de l’information est beaucoup plus intelligent et adapté à la recherche de données et donc à la Business Intelligence. Au passage, les bases NoSQL sont automatiquement compressées ce qui donne plus de souplesse au niveau de l’optimisation de l’espace de stockage.

Le renouveau des architectures décisionnelles

Tous les professionnels de la Business Intelligence savent qu’une architecture type de données est constituée d’un ODS (Operational Data Storage), un DWH et des DataMarts. Ces strates de données ne sont pas obligatoires mais assez classiques et sont alimentées, en règle générale, par des techniques dites ETL (extraction, transformation et chargement - via un logiciel ou en programmation pure). Les puristes me diront qu’il manque la « Staging Area », cette couche de données qui n’est en fait qu’une copie des données sources.
Quelle est donc la nouvelle architecture des données via le petit éléphant jaune qui supporterait le volume, les données non-structurées et la vélocité ?

Voici un petit face à face entre les architectures de données de la BI classique et le framework Hadoop :
• L’ODS serait Hadoop HDFS car il stocke les données brutes des différents systèmes. Certains diront qu’il s’agit là plus de la Staging Area, je ne suis pas vraiment convaincu car nous pouvons par exemple concaténer des fichiers sources disparates directement dans Hadoop HDFS.
• La nouvelle génération d’ETL serait le framework Map/Reduce – les plus sceptiques diront que le fait de coder du java pour utiliser le framework Map/Reduce est une régression vu les interfaces des logiciels ETL actuels. Mais il n’en n’est rien ! Pig – ce logiciel faisant partie du monde Hadoop - permet justement cette abstraction Java et le langage de programmation de Pig est à la portée de n’importe quel informaticien.
• Le datawarehouse serait Hive qui utilise directement le framework map/reduce pour toutes requêtes SQL d’alimentation et de sélection … Ce qui permet un temps de calcul extrêmement rapide lorsque l’on traite des hautes volumétries et ceci permet ainsi de disposer d’une architecture « quasi-temps réel » à moindre frais.
• Pour les datamarts et les cubes multidimensionnels, nous avons l’embarras du choix au gré des circonstances. En effet, nous avons Hbase comme vu ci-dessus, mais il en existe plusieurs qui peuvent répondre à des besoins spécifiques. Citons par exemple Neo4j qui est une base NoSQL en graphes – idéale lorsque l’on souhaite exploiter et analyser des réseaux de liens (réseaux sociaux, ou encore réseaux de neurones …)- ou encore MongoDb qui est une base NoSQL documentaire – idéale pour le stockage de documents dans le cas où l’on souhaite exploiter ou analyser des articles web, des articles de presse…

L’architecture décisionnelle se voit complètement transformée :
Big Data : un nouvel air souffle sur la Business Intelligence

Un accélérateur pour l’analyse de données.

Comme le dit si bien Laurence Hubert, le Big Data est en fait un supercalculateur à la disposition de tout le monde. Je suis de cet avis.

Lorsque l’on souhaite faire des analyses sur une population assez grande, chaque statisticien sait que le plus long du travail consiste à échantillonner cette population, en l’étudiant en profondeur car l’échantillonnage va être un facteur clé de réussite du sondage à effectuer. Le petit éléphant jaune va aussi bouleverser cela.

L’échantillon était réalisé car il était impossible, en termes de temps et de budget, d’analyser l’ensemble de la population. Cette méthode indispensable dans le monde des statistiques est aujourd’hui remise en cause. Nous sommes effectivement aujourd’hui dans la capacité de stocker et d’analyser très rapidement une volumineuse masse d’information. Alors pourquoi se priver de l’exploitation de l’ensemble de l’information réelle ?

Jeffrey Breen a comparé un sondage réalisé par ACSI (The American Customer Satisfaction Index) et les tweets récoltés sur le réseau social Tweeter au sujet de leurs satisfactions sur les compagnies d’avions américaines (les résultats de cette étude ont été communiqués lors du « Boston Predictive Analytics Meet Up »). Il s’avère que les conclusions montrent que l’analyse des tweets (en faisant une analyse de sentiments) donne des résultats très proches du sondage réalisé.

Dans ce monde ultra-connecté aux réseaux, il devient indispensable d’exploiter l’ensemble de ses informations qui peuvent conduire à de nouvelles analyses et donc permettre de nouvelles opportunités d’affaires.

Nous verrons dans un autre billet, les changements potentiels en termes de reporting et d’outil d’analyse.

Les intérêts business du Big Data

Il va sans dire qu’il ne servirait à rien d’évoquer cela s’il n’y avait pas d’intérêts potentiels pour les entreprises. Ces nouvelles architectures ouvrent en effet la voie vers de nouveaux horizons jusque là inexplorés.

Pour illustrer ces nouveaux potentiels dans chaque domaine métier de l’entreprise voici, par exemple, quelques cas d’emplois :
• Dans le domaine du CRM : segmentation attitudinale en exploitant les goûts et sentiments des clients/prospects récoltés sur les réseaux sociaux.
• Dans le domaine du Marketing : analyses de tendances permettant d’optimiser les chances d’introduction de nouveaux produits.
• Dans le domaine de la Finance : contrôle en temps réel des transactions frauduleuses ou à risques.
• Dans le domaine des Ressources Humaines : exploitation des données LinkedIn (par exemple) pour anticiper la volonté de départ d’un collaborateur clé.
• Dans le domaine de la Logistique : optimisation des flux de transport en temps réel en fonction du trafic routier.

Les nouvelles possibilités introduites par ces nouvelles architectures sont quasi-infinies !

En conclusion, le Big Data apporte un bol d’oxygène à la Business Intelligence et va pouvoir replacer la Business Intelligence sur le plan stratégique des entreprises. L’analyse de ces données dites « Big Data » va ouvrir la route vers de nouvelles prises de décision et comme le disait fort bien Bill Gates : «How you gather, manage and use information will determine whether you win or lose ». Pensez-y ☺




Commentaires
Du plus récent au plus ancien | Du plus ancien au plus récent

1.Posté par Francois Nguyen le 30/07/2012 23:31

Très bon post - beaucoup de choses vraies - après, pas totalement persuadé qu'il faut opposer la vieille BI avec la nouvelle. Mais oui, c'est un profond changement d'architecture qui se profile.

Vous m'avez fait un peu pensé au personnage de Dilbert dans ce post ;-)

http://post-it-bi.blogspot.fr/2012/07/dilbert-et-le-big-data.html

2.Posté par Abed Ajraou le 31/07/2012 05:30
Merci François pour ce retour.

Je ne connaissais pas cet épisode de Dilbert, c'est excellent! Par contre, à part les cheveux, je ne vois pas mon rapport avec Dilbert ;) Surtout que je pense que le Big Data a un intérêt réellement business et il est loin d'être le diable ... enfin, cela dépend de ce que nous en faisons :)

Merci encore François!

3.Posté par Abed Ajraou le 01/08/2012 06:20
J’ai reçu un deuxième message sur le pourquoi de confronter la BI traditionnelle au Big data. C’est super car cela suscite le débat. J’aime ça ! Je vous dois donc une réponse publique sur ce sujet.

Comme j’ai tenté de l’expliquer, nous sommes de plus en plus confrontés à des problématiques de volume dans la BI classique (et ce n’est pas un constant de consultants mais se sont des problématiques d’entreprises !). C’est le problème le plus souvent cité que j’ai pu constater. Le deuxième problème soulevé par la BI traditionnelle est la vitesse d’exécution des batchs d’alimentation et de la performance des tableaux de bords. Même si les outils « in-memory » nous ont fait beaucoup de bien ces dernières années, il reste encore le problème de la vitesse d’alimentation des données.

Ainsi, pour ces deux bonnes raisons (volume, vélocité), une architecture « Big Data » convient parfaitement et cette architecture est très bien capable de faire de la BI traditionnelle et en plus à moindre coût – inutile d’un gros sac plein de dollars cf : Dilbert :) Et en en plus, elle ouvre la voie vers des possibilités quasi-infinis.

Néanmoins, je vous concède, qu’en France, nous sommes encore un peu réticent à exploiter les données non-structurées pour en tirer de l’intelligence – même si cela commence à changer, de mon avis, c’est bien dommage pour nos entreprises Françaises car aux Etats-Unis, c’est déjà rentré dans les mœurs ! Il suffit de prendre le cas de Target qui est sortie de la faillite en devenant une entreprise « Data Driven » … Cela vaudrait peut-être le coup de faire un post spécifique sur ce sujet …

4.Posté par Sicsic le 02/08/2012 10:19
Très bien ton article visionnaire et veille techno !!!

Merci pour cet éclairage.

A bientôt,
Frédéric

5.Posté par Abed Ajraou le 02/08/2012 11:59
Merci Frédéric, c'est toujours agréable d'avoir ce genre de retour :)

6.Posté par Francois Nguyen le 03/08/2012 22:56
Pour aller plus loin sur le fait qu'il ne faut pas forcément opposer BI traditionnelle versus Big Data, j'aime assez (pour pas dire beaucoup) l'analyse de Shawn Rogers qui parle d'un hybrid data Eco system

http://blogs.enterprisemanagement.com/shawnrogers/2012/04/16/embracing-hybrid-data-ecosystem/

Regardez les drivers et en particulier les points 3 & 4.


7.Posté par Philippe Nieuwbourg le 03/08/2012 23:32
Ah mon ami Shawn, le roi du consensus ! Certes c'est la réalité dans l'entreprise, mais attention tout de même à nos amis analystes américains, passés maîtres dans l'art de préserver la main de ceux qui les nourrissent :-)
Mais sur ce point, il a certainement raison et la "réconciliation" entre départements informatique et utilisateurs serait forcément bénéfique. Comme dans un couple, à chacun de faire un pas vers l'autre.

8.Posté par Abed Ajraou le 04/08/2012 06:31
Merci François et Philippe pour ces éclairages.
@ François, il est vrai que si une entreprise a investie déjà lourdement sur un datawarehouse, il est bon ton d'exploiter cette richesse ... et justement l'architecture de données ci-dessus, dite "New BI", intègre aussi les données structurées.
Néanmoins, et là je suis persuadé qu'au bout d'un certain temps, lorsque l'on voit la puissance de traitement de map&reduce, l'entreprise ne souhaitera plus être contrainte par la lenteur d'alimentation d'un datawarehouse (dit classique) pour disposer de ses KPI ... d'autant plus nous ne sommes plus sur des prix logiciels et infrastructures exorbitants comme le mentionne Shawn.
Dans tous les cas, merci pour ces éclairages, car, et là je pense qu'il y a unanimité, l' "Hybrid Data Ecosystems" est en marche ...

9.Posté par Stéphane D le 08/08/2012 17:51
Article très intéressant mais le point de vue reste ambigu malgré les derniers commentaires ...
Est-ce ce soleil sur le graphique qui m'éblouit (comme il est absent dehors :-x) mais à ce que je comprends vous voulez remplacer la BI traditionnelle par une BI Big Data only ?
Et faut-il abandonner son ETL favori en sachant que dans la nouvelle version l'éditeur a justement rajouté de nouveaux connecteurs reposant sur le framework hadoop ?
J'attends le prochain billet sur le reporting avec impatience !

10.Posté par Abed Ajraou le 08/08/2012 20:59
Merci Stéphane pour ce retour et cette contribution.
Attention aux effets d'annonces de certains éditeurs (juste certains :)) ! Lorsque l'on parle de connecteurs sur hadoop, on parle de quoi au juste ? S’agit-il d’une vrai utilisation du framework map&reduce ou d’un tour de passepasse pour sortir le mot hadoop lors de la prochaine compagne de communication? Malheureusement, lorsque se pense dans le détail des annonces, dans la plupart des cas, il s’agit d’une interface en aval de Hadoop hdfs et map&reduce ce qui ne permet pas une exploitation du moteur map/reduce, ce qui est bien dommage si l’on souhaite vraiment de la vitesse. En terme de reporting, et encore là, attention au effet d'annonce, l'intégration des éditeurs du marché ne se fait en général que sur Hive (ce qui n'est pas étonnant car c'est le seul composant qui n'est pas NoSQL!). Mais promis, je vous dois un billet là-dessus, promis !
Enfin, pour répondre à votre question sur le remplacement de l’architecture décisionnelle (et avoir un soleil rayonnant :)), oui il va bien falloir dans un futur très, très proche gérer, exploiter et analyser des données de plus en plus volumineuses, des données non-structurées et cela de plus en plus vite et mais toujours en songeant au gain business escompté (au passage, ce n’est pas les exemples qui manquent)… Dans cette optique, si on croit qu'avec les outils et les techniques classiques actuels, on est capable de s’en sortir.... il y en a qui ont essayé et ils ont eu des problèmes ... comme dirait Chevalier et Laspalès !

1 2
Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store