Le Big Data sur France 5 dans "C dans l'air"

"Un pas de plus vers Dieu", c'est le titre de l'émission du 20 juillet que vous pouvez revoir sur le site de France 5. Une émission réalisée à l'occasion de la découverte du boson de Higgs, mais au cours de laquelle les invités de Axel de Tarlé : Sandrine Laplace, Alain Cirou, Mathieu Grousson et Jean-François Colosimo, abordent bien des sujets liés à la découverte de l'univers et du monde dans lequel nous vivons.

Les trois reportages qui segmentent l'émission sont passionnants :
- un reportage sur le CERN et la découverte de ce fameux boson
- un reportage sur le super-calculateur du CEA installé par Bull à Bruyères-le-Chatel
- et un reportage sur les big data, au travers de l'analyse des médias sociaux par MFG Labs, et du séquençage de l'ADN à l'Institut Curie.

L'Institut Curie a d'ailleurs relayé l'information sur son site en expliquant comment un déluge de données déferle sur la recherche biomédicale. J'ai sollicité Philippe Hupé, bioinformaticien à l'Institut Curie, afin de le rencontrer dans la perspective de mon livre, mais je me permets de recopier ci-dessous le texte explicatif mis en ligne par l'organisme.

L'institut Curie nous explique que :

"Si les physiciens ont été les premiers à produire des masses considérables de données, la recherche biomédicale leur emboîte désormais le pas. L’arrivée des technologies de séquençage à haut débit permet aujourd’hui de lire l’ensemble du génome d’une tumeur en quelques jours. A la fin du séquençage, on récupère un fichier informatique sorte de livre qui contient l’ensemble des mots composant le génome des tumeurs. Mais attention, les mots sont dans le désordre et le livre est très volumineux : 6 milliards de mots de 100 lettres, soit pour les fans de Victor Hugo, l’équivalent de 200 000 fois Les Misérables. Ce comparatif explique bien pourquoi on parle de « Big Data ».

Ainsi à l’Institut Curie, les données du séquençage représentent un peu plus de 1 téraoctet par semaine, soit mille gigaoctects. « Pour avoir un ordre de grandeur, explique Philippe Hupé, responsable de la plateforme de bioinformatique, si votre smartphone pouvait contenir 1 téraoctet de MP3, vous pourriez écouter de la musique pendant 2 ans sans interruption ! »

Une fois l’ordre rétabli dans les « mots » du génome, il faut comparer le génome tumoral au normal. « Nous utilisons des algorithmes pour identifier les petites mutations ou les grands déplacements de séquences d'ADN dans la cellule cancéreuse » explique Philippe Hupé. Comme les données sont très volumineuses, on n’utilise pas un seul ordinateur mais plusieurs dizaines voire centaines.

Ces approches constituent l’essence même de la médecine personnalisée puisqu’elles permettent de découvrir des signatures génomiques prédisant les risques d’évolution des tumeurs ou encore de mettre en avant l’existence d’une altération pour laquelle on dispose d’un traitement spécifique. L’un des défis supplémentaires des « Big Data » en recherche biomédicale, c’est qu’ils doivent pouvoir être exploitées dans un temps compatible avec la clinique. L’Institut Curie dispose des atouts essentiels pour réussir son entrée dans cette nouvelle ère de la médecine avec entre autres, une plateforme de séquençage haut débit placée sous la responsabilité de Thomas Rio-Frio et une plateforme de bioinformatique co-dirigée par Emmanuel Barillot et Philippe Hupé. En 2011, ces capacités de l’institut ont d’ailleurs été reconnues à travers la labellisation Site de Recherche Intégrée sur le Cancer (SIRIC) par l’INCa et le financement obtenu dans le cadre de l’appel à projets des « équipements d’excellence» (Equipex) pour le projet ICGex, dédié à la génomique du cancer."

Tout cela est extrêmement intéressant et va dans la droite ligne du contenu de mon livre, tout sauf un manuel d'Hadoop ! On y parlera de ces frontières que franchissent l'analyse des données massives (ou volumineuses) et de l'impact de ce Big Data sur l'Homme.

En attendant, regardez cette émission sans tarder, je ne sais pas pendant combien de temps elle restera accessible !

Un pas de plus vers Dieu

Le Big Data sur France 5 dans "C dans l'air"

On parle de Big Data à la télévision française ! Et c'est dans l'excellente émission quotidienne de France 5, C dans l'air, habituellement présentée par Yves Calvi.

Databricks et Microsoft élargissent leur partenariat pour aider les entreprises à intégrer le contexte métier à l'IA d'entreprise

Comment exploiter la data pour optimiser son entrepôt à 100 % : 5 clés pour un pilotage agile

Une ontologie ? Pas utile chez nous, tout est simple et compris !

Nouveau convertisseur CAO pour le Digital Thread : la qualité des données, fondement de la continuité numérique

Le 2 août 2026, les dirigeants deviennent comptables de l'intelligence artificielle

VISEO collabore avec Rockwell Automation pour intégrer l’exécution industrielle en temps réel

Gurobi lance l’Intelligence Hub afin de rendre l’optimisation mathématique plus accessible à l’aide de l’IA

Simplifier avant d’automatiser : la nouvelle équation de l’IA

NetApp acquiert DataPelago pour sa technologie de traitement des données pour l’IA

Open Semantic Interchange devient Apache Ossie et rejoint le programme Apache Incubator