Les sept vérités du Big Data

Mustafa REKIK, BIA IT Services

1- Les 3 Vs :

a- Volume : l’explosion des volumes de données est une réalité qui oblige les entreprises à créer de nouvelle pratiques et méthodes afin de les exploiter d’une manière optimale.
Ces données peuvent provenir des salariées, partenaires, clients, prospects et machines. Par exemple : les millions de smartphones actifs génèrent en permanence (24 sur 24 et 7 sur 7) une quantité conséquente de données (ce que nous n’avions pas il y a quelques années) potentiellement intéressantes à intégrer/exploiter pour toutes entreprise souhaitant analyser le comportement de leurs propriétaires.
b- Vélocité : Le mode batch devient de plus en plus minoritaire dans le panorama des traitements de données de l’entreprise. C’est fini le bon vieux temps où le monde s’arrêtait à la fermeture du TP pour faire tourner les traitement batch … la puissance des serveurs était suffisante pour gérer les données disponibles, ce qui n’est plus le cas car les sources de données se sont multipliées avec, notamment l’arrivée des réseaux sociaux et la banalisation des smartphones.
En effet, les données arrivent en masse et en mode streaming. Il n’est, donc, plus possible d’attendre la nuit pour les traiter, ce qui nécessite une puissance scalable de traitement beaucoup plus élevée.
c- Variété : il n’est plus possible de maitriser/prévoir la myriade de types et formats de données en input de l’entreprise : Données texte, audio, vidéo, GPS, relationnelles, documents, sms, pdf, … Données structurées, semi ou non structurées, en streaming … Données simples ou complexes…
Mais, il faut tout intégrer et analyser en profondeur d’une manière agile.

Certains y ajoutent un quatrième V comme Valeur afin de s’inscrire dans une logique de création de la valeur et non seulement pratiquer une nouvelle technologie pour faire de la nouvelle technologie.

Néanmoins, se lancer dans le Big data (POC, cadrage ou mise en œuvre) ne nécessite pas forcément le rassemblement des 3 ou 4 Vs citées ci-dessus, c’est même déconseillé car cela augmente le risque d’échec. Il est préférable de cibler un domaine/sujet qui représente un ou deux Vs afin de démarrer les premiers tests avec l’objectif de générer rapidement des petits succès capables de séduire les décideurs et sponsors avant d’actionner le grand virage du Big data.

2- Pourquoi fait-on du Big data ?
Les problématiques à résoudre par l’entreprise ne sont plus les même. Qui dit nouveaux enjeux, dit nouvelles solutions …
Ces nouveaux enjeux peuvent être :
a- Métiers : comme la création de nouvelles opportunités par l’invention de nouveaux business models (Uber, Airbnb, Assurance auto connectée, …), la compréhension et l’anticipation du comportement des clients (vision 360°, …)
b- Techniques : comme la nécessité d’intégrer et stocker des volumes conséquents de données disparates avec les bons rythme et cadence afin de les analyser et permettre d’actionner les bons leviers
c- Financiers : comme la nécessité de faire plus avec moins de budget (recourir à de l’open source, opter pour le cloud, …) afin de rester compétitif

Je préciser que le Big data en tant que réponse à ces enjeux n’est pas née par un phénomène de big-bang mais plutôt en faisant évoluer des concepts déjà présents depuis des décennies.

3- Comment le penser ?
Qui dit nouveaux enjeux, dit aussi nouvelles méthodologies de cadrage et de mise en œuvre.

De nouvelles architectures ont été créées afin de concrétiser les concepts du big data comme l’architecture lambda (avec ses trois couches : Batch, Streaming/Speed, Serving).
Les méthodologies agiles se sont conviées aux réunions de pilotage des projets Big data. Cela permet de sortir des méthodes traditionnelles adaptées aux longs cycles de vie vers une approche MVP (Minimum Viable Product) permettant des mises rapides sur le marché de produits/fonctionnalités/…
De nouveaux concepts d’analyse de la donnée ont vu aussi le jour avec la naissance du Data science et la banalisation du concept du DIY (Do It Yourself).

4- Les technologies d’implémentation :
Difficile de lister en quelques lignes l’ensemble des outils qui permettent de réaliser un projet Big data. Le Magic Quadrant du Gartner est un bon tableau de bord sur ce point.
Voici les principales technologies d’implémentation :
a- D’abord, Hadoop qui a su profiter de l’élan du Big data pour s’imposer comme plateforme de référence. Il faut dire aussi qu’il a été porté par les géants du web ou GAFA (Google, Apple, Facebook, Amazon).
Les principaux piliers du socle de base d’Hadoop sont : Le système de stockage HDFS (Hadoop Data File System), l’algorithme distribué MapReduce et le gestionnaire de cluster YARN.

Après, tout un écosystème existe autour d’Hadoop, représenté par un ensemble de logiciels (qui l’exploite/enrichie/évolue) d’acteurs utilisateurs et/ou distributeurs.

b- L’Open source d’une manière générale (en grande partie, grâce à Hadoop) s’est trouvé une place naturelle dans l’écosystème du Big data. Les entreprises apprécient le fait de tester (faire des POC, …) librement avant de s’engager sur une solution technique et surtout, constatent que l’Open source évolue et s’auto-améliore plus vite que les logiciels payants grâce aux communautés qui fleurissent spontanément autour.

c- Le NoSql : il est évident que les bases traditionnelles ne sont pas adaptées à la gestion des données des plateformes Big data car trop contraignantes face à des flux de données qui bougent en permanence.
Les bases Nosql (Not Only SQL) offrent plus de scalabilité, performance et disponibilité contre un peu moins de stabilité, intégrité et atomicité (on ne peut pas tout avoir …) et se marient bien à des Frameworks Big data comme ceux d’Hadoop.

5- La « Big data BI » ne remplace pas la BI classique, mais la complète !
Le Big data apporte, certes, une nouvelle vision sur la stratégie de l’entreprise et une nouvelle valeur ajoutée significative, mais n’offrent pas une BI qui couvrent l’exhaustivité des besoins de l’entreprise.
En effet, il y aura toujours besoin de données gouvernées qui permettent de produire des indicateurs connus et prédéfinis basés sur des modèles structurés et dimensionnels. La Big data BI est plus ouverte aux structures/sources moins connues/maitrisées/gouvernées à l’avance et permet de produire des analyses interactives et prédictives.

Avec la BI classique, nous sommes habitués à répondre à des questions comme :
a- Quelle est la répartition de mon CA par Région/Catégorie d’âge/… ?
b- Quel est le taux d’adhésion/radiation de mes clients ?
c- Quels sont le nombre et pourcentage de projets réussis sur les 3 dernières années ?
Tandis qu’avec la Big data BI, nous adressons de nouvelles questions comme :
a- Qu’est-ce que mes clients et prospects disent et pensent ?
b- Ou se trouvent mes utilisateurs et partenaires et qu’est ce qu’ils font ?
c- Qu’est ce qui change dans l’environnement de mon secteur d’activité (comparaison d’image géographique, de données médicales, de profils financiers, …) ?
On comprend qu’un projet de migration des Datawarehouses et Datamarts de l’entreprise existants vers un lac de données ne serait pas une bonne idée …
En revanche, l’évolution des mœurs, connaissances et compétences BI et une nécessité pour comprendre et mesurer les enjeux et réussir les projets Big data.

6- Maturité du Big Data en France :
Selon l’IDC, la France fait partie des pays les plus avancés en Europe car plus de la moitié de ses entreprises ont déjà démarré un projet Big data (en tenant compte des POC et projets en perspective de MEP dans les 12 prochains mois).
Le marché français du Big data a accéléré sa courbe de maturité en 2016 avec une estimation de croissance (logiciels, matériels et services) de plus de 24% par rapport à 2015.
Les principaux cas d’usage adressés sur les projets Big data en France sont : la mise en corrélation des données issues des différents canaux et créer une vision 360 du parcours client, l’excellence opérationnelle (optimisation des coûts, performance, qualité de service, agilité) et l’amélioration de la sécurité, la gestion des risques et la prévention de la fraude.
Les principaux freins aux projets Big data en France sont : le cout de mise en œuvre, de conduite du changement, le manque de compétences et les obstacles culturels et organisationnels.

7- Qualité de données :
Certains ajoutent un cinquième V aux quatre cités dans le premier paragraphe : la véracité en référence à l’incertitude de la donnée.
Comment faire confiance et baser des décisions stratégiques de l’entreprise sur des données non maitrisées, non structurées, qui proviennent en (grande) partie de sources externes incertaines (réseaux sociaux, …) ?
Il est certain que le Big data donne plus d’ampleur à la problématique de la qualité de données (déjà présente dans le monde de la BI classique).
Le pari du Big data Quality est le suivant : Au lieu de faire parler la donnée en la forçant à rentrer dans un format et des règles prédéfinis, nous préférons la laisser s’exprimer d’elle-même.
Ce sont les données (vu leur volume et variété) qui vont nous dire au fur et à mesure de leur intégration leur types, règles, …
Les concepts de qualité de données comme le profiling, la standardisation, le matching, le nettoyage ou l’enrichissement peuvent être implémentée sans modèles/bases prédéfinis. Par exemple : la donnée « civilité » des abonnées d’un réseau social peut très bien être contrôlée/corrigée/standardisée (d’une manière dynamique) en se basant sur les tendances du lac de données composé de quelques millions de personnes …

Autres articles

Les sept vérités du Big Data

Voici une sélection des sept principales vérités du Big data.

[Promotion] Livre Blanc Alteryx : La science des données en pratique

Maîtriser ses données sur le Cloud : l'ESILV apprend aux étudiants à dompter le Big Data sur 120 machines

De quelle façon trois générations de disques durs Toshiba ont aidé le plus grand laboratoire de physique du monde à conserver, chaque seconde, des centaines de téraoctets de données générées par les expériences du LHC

Big Data & Big Brother : de l’intérêt de connaître notre ADN

Livre : Big Data, le traitement streaming et temps réel des données

Apache Kafka : 15 ans pour réconcilier la technique et le métier - 07/11/2025

La validation proactive des données, levier clé pour des opérations résilientes à long terme - 30/10/2025

IA sans conscience : progrès ou menace silencieuse ? - 09/10/2025

Du classeur à la stratégie : l'évolution discrète du métier de documentaliste - 07/10/2025

Élaborer une stratégie GenAI pratique et axée sur la valeur dans le secteur de l'assurance - 07/10/2025