Big Data, Le livre en français

Into the river: des réflexions intéressantes mises en forme dans un petit livre

"How Big Data, the long tail, and situated cognition are changing the world of market insights forever".

Intérêt : ★:★★☆☆
Valeur : ★:★★☆☆
Mon opinion : Une approche originale du big data au travers de l'évolution des métiers dans l'entreprise

Tony Cosentino a de bonnes idées. Vous ne le connaissez pas ? Moi non plus ! Mais il a eu une bonne idée supplémentaire, celle de développer ses réflexions dans un petit ouvrage de 106 pages, au prix très raisonnable de 12,69 euros chez Amazon. Un ouvrage auto-publié
La ligne directrice suivie par Tony Cosentino est de comparer l'évolution des métiers de l'analyse de données (market research) et de la mise en pratique (market insights). Selon l'auteur, ces deux métiers sont beaucoup trop déconnectés : les premiers ne s'impliquent pas et ne sont pas évalués sur les décisions prises; les seconds délaissent le travail des premiers et vont jusqu'à rejeter la faute sur eux si les décisions prises aboutissent à de mauvais résultats.
Mais dans un monde de la donnée, où la vitesse d'exécution prend de l'importance, et ou ces données sont à la base d'une majorité de décision, cette situation conflictuelle ne peut pas perdurer sans dommages pour l'organisation. Tout particulièrement dans le monde des technologies dans lequel l'auteur a bâti sa carrière.
Sans trop de prétention, ce petit livre est simple, bien écrit - je dirais même très bien écrit, dans un anglais qui nous change des livres aussi riches en vocabulaire que des diaporamas Powerpoint… vous aurez sans doute besoin comme moi d'un dictionnaire à portée de main - et il pose les bonnes questions, pointe du doigt les bons problèmes à résoudre, et suggère quelques bonnes évolutions.
Alors bien sur, lire ce livre ne changera pas l'organisation de votre entreprise, mais il vous aidera à prendre conscience de certaines choses.
Concernant le big data, vous aurez l'impression de faire rapidement le tour du sujet, mais Tony Consentino l'aborde sous un angle qui vous sortira des éternelles incantations sur Hadoop, et nous parle enfin des usages !

Par Philippe Nieuwbourg le Lundi 30 Juillet 2012 | 0 commentaire

Big Data Glossary : un livret qui porte mal son titre

Intérêt : ★:★☆☆☆
Valeur : ★:☆☆☆☆
Mon opinion : A acheter uniquement si vous avez vraiment déjà lu tous les autres livres !

Vendu 15,50 euros chez Amazon (qui prend 55 % de marge auprès de l'éditeur), le petit livre "Big Data Glossary" porte mal son nom. Publié par O'Reilly et signé de Pete Warden, il n'est en réalité par un glossaire, mais plutôt un catalogue partiel.
Ce livret (difficile de parler de livre avec 44 pages seulement) donne l'impression par son titre qu'il serait un glossaire expliquant les différents termes de ce secteur du Big Data. En fait il faut analyser le sous-titre "A guide to the new generation of data tools" pour comprendre que l'auteur a plutôt voulu recenser quelques nouveaux outils et services dédiés à l'analyse de données.
Ce glossaire n'est d'ailleurs pas présenté par ordre alphabétique, mais par chapitre (bases de données NoSQL, MapReduce, Serveurs, Visualisation…); un assemblage un peu hétéroclite et loin d'être exhaustif. Il est plutôt la synthèse de l'expérience de l'auteur qui a testé certains nouveaux outils. Les outils présentés (parmi lesquels Cassandra, MongoDB, BigTable, Gephi, Pig…) sont résumés sur une demi-page et l'auteur partage son opinion.
C'est en effet le parti-pris de l'auteur, mais n'y sont présentés que des outils nouveaux (Greenplum mais pas PostgreSQL par exemple) et quelques services en ligne. Ce n'est donc pas non plus un catalogue ou un panorama.
En résumé, vous y apprendrez certaines choses et découvrirez peut-être quelques outils, mais cela ne vaut vraiment pas les 15,50 euros demandés.

Par Philippe Nieuwbourg le Samedi 28 Juillet 2012 | 0 commentaire

Le Big Data sur France 5 dans "C dans l'air"

On parle de Big Data à la télévision française ! Et c'est dans l'excellente émission quotidienne de France 5, C dans l'air, habituellement présentée par Yves Calvi.

"Un pas de plus vers Dieu", c'est le titre de l'émission du 20 juillet que vous pouvez revoir sur le site de France 5. Une émission réalisée à l'occasion de la découverte du boson de Higgs, mais au cours de laquelle les invités de Axel de Tarlé : Sandrine Laplace, Alain Cirou, Mathieu Grousson et Jean-François Colosimo, abordent bien des sujets liés à la découverte de l'univers et du monde dans lequel nous vivons.

Les trois reportages qui segmentent l'émission sont passionnants :
- un reportage sur le CERN et la découverte de ce fameux boson
- un reportage sur le super-calculateur du CEA installé par Bull à Bruyères-le-Chatel
- et un reportage sur les big data, au travers de l'analyse des médias sociaux par MFG Labs, et du séquençage de l'ADN à l'Institut Curie.

L'Institut Curie a d'ailleurs relayé l'information sur son site en expliquant comment un déluge de données déferle sur la recherche biomédicale. J'ai sollicité Philippe Hupé, bioinformaticien à l'Institut Curie, afin de le rencontrer dans la perspective de mon livre, mais je me permets de recopier ci-dessous le texte explicatif mis en ligne par l'organisme.

L'institut Curie nous explique que :

"Si les physiciens ont été les premiers à produire des masses considérables de données, la recherche biomédicale leur emboîte désormais le pas. L’arrivée des technologies de séquençage à haut débit permet aujourd’hui de lire l’ensemble du génome d’une tumeur en quelques jours. A la fin du séquençage, on récupère un fichier informatique sorte de livre qui contient l’ensemble des mots composant le génome des tumeurs. Mais attention, les mots sont dans le désordre et le livre est très volumineux : 6 milliards de mots de 100 lettres, soit pour les fans de Victor Hugo, l’équivalent de 200 000 fois Les Misérables. Ce comparatif explique bien pourquoi on parle de « Big Data ».

Ainsi à l’Institut Curie, les données du séquençage représentent un peu plus de 1 téraoctet par semaine, soit mille gigaoctects. « Pour avoir un ordre de grandeur, explique Philippe Hupé, responsable de la plateforme de bioinformatique, si votre smartphone pouvait contenir 1 téraoctet de MP3, vous pourriez écouter de la musique pendant 2 ans sans interruption ! »

Une fois l’ordre rétabli dans les « mots » du génome, il faut comparer le génome tumoral au normal. « Nous utilisons des algorithmes pour identifier les petites mutations ou les grands déplacements de séquences d'ADN dans la cellule cancéreuse » explique Philippe Hupé. Comme les données sont très volumineuses, on n’utilise pas un seul ordinateur mais plusieurs dizaines voire centaines.

Ces approches constituent l’essence même de la médecine personnalisée puisqu’elles permettent de découvrir des signatures génomiques prédisant les risques d’évolution des tumeurs ou encore de mettre en avant l’existence d’une altération pour laquelle on dispose d’un traitement spécifique. L’un des défis supplémentaires des « Big Data » en recherche biomédicale, c’est qu’ils doivent pouvoir être exploitées dans un temps compatible avec la clinique. L’Institut Curie dispose des atouts essentiels pour réussir son entrée dans cette nouvelle ère de la médecine avec entre autres, une plateforme de séquençage haut débit placée sous la responsabilité de Thomas Rio-Frio et une plateforme de bioinformatique co-dirigée par Emmanuel Barillot et Philippe Hupé. En 2011, ces capacités de l’institut ont d’ailleurs été reconnues à travers la labellisation Site de Recherche Intégrée sur le Cancer (SIRIC) par l’INCa et le financement obtenu dans le cadre de l’appel à projets des « équipements d’excellence» (Equipex) pour le projet ICGex, dédié à la génomique du cancer."

Tout cela est extrêmement intéressant et va dans la droite ligne du contenu de mon livre, tout sauf un manuel d'Hadoop ! On y parlera de ces frontières que franchissent l'analyse des données massives (ou volumineuses) et de l'impact de ce Big Data sur l'Homme.

En attendant, regardez cette émission sans tarder, je ne sais pas pendant combien de temps elle restera accessible !

Un pas de plus vers Dieu

Par Philippe Nieuwbourg le Jeudi 26 Juillet 2012 | 0 commentaire

Big Data : Tarsus veut transformer le plomb en or...

Formule malheureuse comme accroche à la conférence Big Data organisée par Tarsus pendant le salon Cloud & IT Expo fin octobre. Le titre de ces assises du Big Data est en effet "Big Data : comment transformer l’information en décision… comme le plomb en or ?"... Faites-vous la même lecture que moi ?

A ma connaissance, l'homme n'a jamais réussi à transformer le plomb en or. Et ce n'est pas faute d'avoir essayé; il suffit de jeter un oeil aux pratiques du moyen-âge, à la sorcellerie, etc...
Récemment, les scientifiques auraient démontré que cette transformation est possible... en théorie. Il "suffit" en effet d'enlever à chaque atome d'or trois protons et huit neutrons, et le tour est joué !
Un article explique même comment il faut procéder : http://atchimiebiologie.free.fr/transmutaion/transmutaion.html et établit que la production d'un gramme d'or à l'aide d'un cyclotron couterait "environ" 2,68 milliards d'euros... pas très rentable donc...

Qu'ont alors voulu dire les organisateurs de cette conférence ? Que personne ne parviendrait jamais à transformer l'information en décision ? Que le Big Data n'est qu'un rêve, que personne ne saura jamais réaliser à moins de dépenser des milliards d'euros ? Le titre est accrocheur, mais je trouve le message inversement proportionnel à l'objectif recherché !

Et vous qu'en pensez vous ?

Par Philippe Nieuwbourg le Mardi 24 Juillet 2012 | 0 commentaire

Panorama et cartographie des fournisseurs du Big Data

Qui fait quoi ?

Un des défis que j'ai décidé de relever pour enrichir le contenu de mon livre sur le Big Data est celui d'une cartographie complète des fournisseurs de ce marché. Qui vend quoi ? Cela semble une question simple... mais la réponse est complexe !
D'abord il y a tous les fournisseurs "classiques" qui ont accolé le terme de "Big Data" à leur offre commerciale pour être dans le vent.
Et puis il y a tous les nouveaux; de jeunes sociétés dont personne n'avait jamais entendu parlé, et qui se développent discrètement, priorisant leurs clients aux actions marketing; il faut donc aller à la pêche aux jeunes pousses.

Dans mon recensement, j'en suis aujourd'hui à plus de 100 fournisseurs de solutions "Big Data". Et je ne compte pas les fabricants de disque durs ou d'imprimantes à gros volume :-)

Plus de 100 fournisseurs, et j'en ajoute de nouveaux chaque jour. Quelques-uns ont d'ailleurs aussi disparu, aussi vite qu'ils étaient apparus.
C'est donc une veille quotidienne et quelques outils informatiques m'aider à scruter le web à la découverte de ces nouveaux fournisseurs.

Mais il faut ensuite les classer, les cartographier, car une simple liste ne peut suffire. Et classer, c'est dire non ! Choisir une fonction, rejeter une autre, etc.
J'utilise pour cela une technologie très moderne, celle du tableau blanc et des Post-it.
Un grand tableau sur le mur de mon bureau, un début de catégories (je garde encore secret pour le moment le découpage choisi), et des post-it de couleurs pour coller les fournisseurs dans la bonne case et pouvoir ainsi les faire évoluer dans le classement.

Je publierai sans doute une version expurgée de ce classement dans le livre, mais j'espère bien également mettre à disposition cette cartographie sous forme d'un poster, imprimé ou téléchargeable... si vous avez des idées, je suis preneur.

Par Philippe Nieuwbourg le Mardi 24 Juillet 2012 | 2 commentaires

Big Data, choisir le titre du livre

C'était évident ! Pourquoi faire compliqué quand on peut faire simple et quand on est le premier. D'après les recherches de mon éditeur, notre livre devrait bien être le premier en français sur ce sujet du Big Data. Il n'est donc pas déraisonnable d'occuper le terrain en l'appellant tout simplement "Big Data".

Mais ce n'est pas une raison pour ne pas en débattre !

Les pour :
- le titre est court, facile à référencer
- il est parfaitement descriptif du contenu du livre
- Il est court, et tient donc dans la maquette des couvertures de la collection InfoPro de Dunod

Les contre :
- Big Data quand on écrit en français... c'est un peu contre-nature... mais à part mes amis québécois, cela ne choquera personne !
- Ce n'est pas protégeable, et tous les prochains livres pourront aussi titrer "Big Data"... mais je resterai le premier :-)

Après, tout est dans le sous-titre, qui figure sur la couverture, et semble d'après l'éditeur important pour les moteurs de recherche.
Nous avons émis plusieurs idées, mais il reste encore un peu de travail... attendons donc un peu avant de le dévoiler.

Par Philippe Nieuwbourg le Lundi 23 Juillet 2012 | 0 commentaire

Bibliographie Big Data

Alors, forcément, ce n'est pas facile de constituer une bibliographie sur un sujet aussi nouveau que le big data. C'est pourtant une étape essentielle avant d'écrire, il faut lire ! Pour plusieurs raisons à mon sens : tout d'abord pour apprendre, car je crois que personne n'invente rien. Nous apprenons, et notre cerveau entame ensuite un processus que j'appelle la mastication. Il consiste à préparer les aliments intellectuels, les informations lues, pour faciliter leur digestion. Et c'est de cette digestion que nait l'énergie. Je n'irai pas plus loin pour éviter de sombrer dans le scatologique, mais la digestion intellectuelle produit également ses rejets; ces excréments intellectuels sont les brouillons, les mauvaises idées, les fausses pistes... un processus indispensable pour que naissent tout de même quelques vraies bonnes idées.
Avant donc d'écrire sur le Big Data, je vais lire sur le Big Data. Bien sur j'ai déjà lu des centaines d'articles, des dizaines de livres blancs, écouté des dizaines de séminaires qui souvent rabâchent la même chose et tournent en rond.
Mais à bien regarder, il n'y a encore que très peu d'ouvrages sur le Big Data. Aucun en français, c'est acquis, mais également peu en anglais. Plusieurs sont prévus en sortie au cours du 4ème trimestre 2012, mais pour l'instant, difficile de trouver des milliers de pages intéressantes sur le sujet.
Beaucoup plus du côté des eBooks, mais mon expérience me conduit à être très prudent sur le sujet. Prendre le temps de lire un livre c'est de l'argent. Et si le contenu se révèle sans intérêt c'est de l'argent et de l'énergie perdus. Or du côté des eBooks, il est parfois difficile de faire le tri.
Il faut en effet : éliminer les eBooks commerciaux, qui ne sont que la version moderne du livre blanc des années 90; éliminer les eBooks opportunistes qui ne font que compiler ce que l'on a déjà lu ailleurs; et éliminer les eBooks sans intérêt, qui ne se retrouvent sous forme de eBooks que parce qu'aucun éditeur n'a souhaité les publier en format papier.
Je sais, cette vision hiérarchique du livre peut paraitre désuète, mais elle est bien réelle. L'éditeur est un filtre, tout comme la publication en papier en est un également, financier. Un livre sans éditeur c'est un livre dont l'auteur n'a pas pu, ou pas voulu passer sous les fourches caudines d'un censeur commercial. C'est parfois un choix délibéré de sa part, mais c'est aussi parfois en eBook que l'on retrouve des ouvrages que personne n'aurait voulu prendre le risque de publier sur papier.
Un peu comme dans la presse au début d'Internet, publier un eBook ne coute pas grand chose; Donc même un contenu médiocre peut prendre le risque de trouver son marché... ou pas.
Je privilégie donc les livres imprimés sur papier, pour des raisons pratiques de lecture, d'annotation, de travail; et les eBooks publiés par un éditeur, si possible publiés à la fois en version papier et en version électronique.

Alors parce qu'il faut bien quand même lire ce qui a déjà été écrit, j'ai passé commande des ouvrages suivants :
"Taming the Big Data Tidal Wave: Finding Opportunities in Huge Data Streams With Advanced Analytics" - Franks, Bill; Relié; EUR 41,32
"Privacy and Big Data" - Craig, Terence; Broché; EUR 14,99
"Big Data Glossary" - Warden, Pete; Broché; EUR 16,59
"Big Data: High-Impact Strategies - What You Need to Know: Definitions, Adoptions, Impact, Benefits, Maturity, Vendors" - Roebuck, Kevin; Broché; EUR 32,08
"Into the River: How Big Data, the Long Tail and Situated Cognition Are Changing the World of Market Insights Forever" - Cosentino, Tony; Broché; EUR 12,69

Je vous dirai dans quelques semaines lesquels je vous conseille éventuellement de lire également.

Par Philippe Nieuwbourg le Dimanche 1 Juillet 2012 | 0 commentaire

> A LIRE EN CE MOMENT SUR DECIDEO

Big Data, Le livre

"How Big Data, the long tail, and situated cognition are changing the world of market insights forever".

On parle de Big Data à la télévision française ! Et c'est dans l'excellente émission quotidienne de France 5, C dans l'air, habituellement présentée par Yves Calvi.

Qui fait quoi ?

Cartographier les flux de données : un nouvel impératif de gouvernance

Marionnaud sélectionne Equadis pour acquérir l’ensemble des données produit de ses partenaires et vise 100% de qualité de données produit

Snowflake renforce sa collaboration avec AWS avec un investissement de 6 milliards de dollars

Starburst dévoile l’Enterprise Intelligence Platform à AI+Datanova, offrant aux entreprises une voie plus rapide vers une IA de confiance

Veeam renforce la confiance dans les données avec la nouvelle version de la Veeam Data Platform, présentée en avant-première au VeeamON (New York)

Un an après sa création, Myriade s'impose dans l'analytique IA des grandes entreprises

Scality s’impose comme l’acteur clé du stockage informatique des hôpitaux français

Podcast : Mauvaise gouvernance ? Faut-il empêcher ou interdire ?

SAP dévoile l’Entreprise Autonome

Celonis lance Context Model pour éliminer les angles morts opérationnels de l’IA d’entreprise et annonce l’acquisition d’Ikigai Labs, leader de l’intelligence décisionnelle alimentée par IA