Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Définition du Big Data


Rédigé par le 13 Mai 2012

Face à l'importance grandissante du sujet dans les médias et dans les discussions; face à la gourmandise marketing de certains vendeurs "historiques", il est plus que nécessaire de se poser la question d'une définition objective du big data.
Une définition dont je vous avoue compter pour servir de colonne vertébrale au premier chapitre du livre que je suis en train d'écrire sur le sujet. Alors quels sont les critères qui permettent de dire ce qui est, et par corollaire d'exclure ce qui n'est pas du big data ?



Définition du Big Data
Une synthèse des opinions exprimées par les analystes et cabinets de conseil influents dégage trois critères essentiels qui recueillent l'unanimité des voix : volume, vitesse (ou vélocité) et variété. Nous pourrions ainsi établir la formule marketo-mathématique : Big Data = Data x V3. Mais il est plus que nécessaire de détailler chacun des éléments.

Volume

C'est évidemment le premier critère qui vient à l'esprit. Mais aux jeunes commerciaux pré-pubères je rappellerai que la notion de volume est relative dans le temps. Lorsque IBM met sur le marché en 1958 le RAMAC, premier disque dur de 5 Mo, le marketing de la compagnie aurait refusé le développement d'un modèle de 10 Mo pensant qu'il n'auraient pas la possibilité de le vendre, personne ne sachant comment remplir 10 Mo à cette époque. Lorsqu'il y a trente ans, Teradata adopte ce nom, c'est que le téraoctet est un objectif, encore ambitieux; alors qu'aujourd'hui un disque de 1 To coute moins de 200 euros.
Qu'est-ce donc à l'aune du Big Data que de gros volumes de données ? Les entreprises dont les entrepôts de données décisionnelles ont dépassé le Péta-octet commencent à se multiplier. La limite du big data est-elle au-dessus ? A l'exaoctet, au zettaoctet ? La même limite doit-elle être utilisée dans tous les secteurs d'activité (sociétés commerciales, recherche scientifique, organismes publics…) ?
Le volume est d'évidence un critère majeur du big data. Mais son évaluation est délicate.
Elle est par ailleurs fortement évolutive. Maintenant que le monde de l'internet des objets est en plein développement. Que les voitures, les téléphones, les machines à café et demain les objets de notre quotidien communiqueront avec un point central et entre eux, les volumes concernés vont encore dépasser les plus ambitieuses des estimations. Comment quantifier la limite de ce qui est "big data" et de ce qui n'en est pas ?

Vitesse

Il est bien loin le temps des traitements "batch" où les données pouvaient être tranquillement collectées avant d'être analysées par paquet. Aujourd'hui les applications sur Internet, les réseaux sociaux, les objets connectés, produisent des données en permanence. Impossible d'arrêter, ne serait-ce qu'un instant, de les collecter, le retard accumulé serait vite impossible à rattraper. Il y a un an, Twitter comptabilisait 177 millions de tweets par mois, soit 66 tweets par seconde. Un constructeur de voitures serait en train de mettre en place un système de remontée de 150 millions d'événements par jour. De tels volumes imposent de traiter l'information au fil de l'eau pour au moins sélectionner celle qui devra être analysée et écarter le reste. Et si votre activité impose une réaction en temps réel, vous n'aurez pas d'autre choix que de construire votre système d'analyse également en quasi-temps réel.
Le big data consiste donc également à analyser de gros volumes de données dans des délais très courts; de se rapprocher du temps réel.

Variété

Il faudrait d'ailleurs préciser tout de suite variété et complexité, deux critères que j'aurais tendance à regrouper dans le même paragraphe. "Variété" car le traitement de gros volumes de données structurées n'est ni récent, ni compliqué. Les entrepôts de données des banques, des assureurs, des distributeurs, des compagnies de télécommunication gèrent depuis plusieurs décennies de très gros volumes de données structurées.
L'originalité et la nouveauté sont de pouvoir maintenant analyser de gros volumes de données semi-structurées ou non structurées. Des données semi-structurées, souvent sous forme de structures XML, combinent des données non-structurées et des données structurées générées (automatiquement ou pas) à partir des premières. Des données non structurées (images, vidéos, audio, textes…) qu'il sera certainement possible dans un futur proche d'analyser de manière aussi simple que des champs numériques ou textes.
Bien sur les données sociales font partie de ces nouvelles informations analysables, mais également des données venant du monde de la santé, des sciences de la vie et de la terre, des informations qualitatives difficiles à exprimer sous forme d'un simple curseur, etc.

Choisir, c'est renoncer !

Une application, un outil, un service "Big Data" pourraient ainsi s'exprimer par la combinaison de ces trois critères : de très gros volumes de données, générées sous forme d'un flux rapide, et de différents types. La combinaison de ces trois critères permettrait de définir ce qui est, et ce qui n'est pas du big data.
Car définir c'est choisir. Et choisir c'est renoncer, comme l'a dit André Gide. Une solution de facilité serait de laisser tout le monde se prévaloir du big data sans limite. Mais ce serait accorder du crédit à ceux qui ont déjà pris les devants et attribué le titre de mot-clef le plus confus de la décennie au Big Data. Le risque corollaire est de voir fleurir des sous-ensembles purement marketing, tout comme le "cloud" est devenu "public", "privé", "hybride"… Ne tombons pas dans ce panneau et osons définir, c'est à dire restreindre. Et tant pis pour ceux qui ne se retrouveront pas dans la définition. Il y a une vie en dehors du big data !

Alors qu'en pensez-vous ?

Voyez-vous d'autres critères qui devraient être ajoutés pour définir ce qu'est le Big Data ?
Et pour chacun des critères mentionnés, comment établir une grille d'évaluation ? Pas forcément chiffrée, mais comment définir "un gros volume de données", "des données variées" ?
Merci par avance de vos commentaires qui nous permettront de faire ensemble avancer le sujet.




Commentaires

1.Posté par Stéphane D le 14/05/2012 12:56
Certains rajouteraient un 4ème V, celui de la variabilité :
http://nosql.mypopescu.com/post/18376617501/big-data-causes-concern-and-big-confusion-a-big-data

2.Posté par Steven Haddad le 14/05/2012 17:53
Un analyste célèbre d'une société d'analyse célèbre a établi lors du salon Big Data Paris que le 4ème "V" (last but not least) veut dire "Valeur". Probablement le "V" le moins abouti des tentatives actuelles ...

3.Posté par Nassim Hartani le 21/05/2012 14:45
Effectivement on aurait tort de limiter le concept de Big Data au seul critère du volume des données. 3V, 7V ou 12V selon les analyste, le plus important est que ces critères soient représentatifs des challenges et opportunités auxquelles font face les organisations en matière de données et la variété et la vitesse en font clairement partie.

Cependant bien que cette définition soit plus en adéquation avec la réalité et constitue un consensus au sein de l'industrie, elle ne permet pas de dire si une organisation est effectivement confronté au Big Data ou pas. Le Big Data est quelque chose de relatif, ce qui peut être du Big Data pour une organisation peut-être une bagatelle pour une autre. Pour moi, toute la question est celle que vous posez en fin d'article. Sur quelle base évaluer le Big Data ? à partir de quand peut-on considérer que l'on est en plein Big Data ?

La meilleure analyse que j'ai lu sur le sujet jusqu'à présent est celle de Mike Gualtieri (Forrester) :
http://blogs.computerworlduk.com/app-dev-and-programme-management/2012/05/whats-your-big-data-score/index.htm

Ou il propose une méthode simple d'évaluation du Big Data se basant sur la capacité de l'organisation à stocker, traiter, requêter ses données par rapport à chacune des dimensions : volume, variété, vitesse.

4.Posté par le divorce le 10/01/2013 10:28
Tim Berners-Lee a dit “Demain celui qui contrôlera les métadonnées, contrôlera le web“

Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.