Decideo - Actualités sur le Big Data, Business Intelligence, Data Science, Data Mining

Abonnez-vous gratuitement à Decideo !


Decideo

 


Des statistiques traditionnelles à la Data Science : plus qu’un simple rebranding !


Rédigé par Youssef Bennani, Margo le 14 Juin 2019

« Datascience is statistics on a Mac ». Au-delà de la caricature portée par cette affirmation, l’idée que la « data science » se veut ni plus ni moins qu’un « rebranding » des statistiques est aujourd’hui partagée par de nombreux ingénieurs en statistiques, jusque-là simplement présentés comme tels... Karl Borman, professeur de statistiques de l’université du Wisconsin la rejette ainsi : « La Data Science, c’est les statistiques. Quand les physiciens font des mathématiques, ils ne disent pas qu’ils font de la science des nombres. Ils font des maths. ». Si la critique est intéressante et audible, il n’en demeure pas moins que l’appellation « data science » a pourtant de solides raisons d’exister, et que les 1ers à avoir appelé à élargir les statistiques en une science des données ne sont ni plus ni moins que des statisticiens de renommée, il y a de cela un demi-siècle !



La data science : l’apprentissage à partir des données ?

Youssef Bennani, Senior Data Scientist, Margo
Youssef Bennani, Senior Data Scientist, Margo
Dans un article de 1962, John Turkey, célèbre statisticien américain, expliquait pourquoi il pensait que la recherche scientifique en statistiques était trop étroitement ciblée, si ce n’est nuisible à l’activité d’analyse des données, appelant ainsi à ce qu’elle devienne une nouvelle science plus globale, capable d’apporter des réponses aux différents défis (mathématiques, informatiques...) posés par de nouveaux types de données. Son point de vue, partagé et appuyé par d’autres scientifiques de la branche, repose ainsi sur l’élargissement de leur champ au concept inclusif d’apprentissage à partir des données. De manière plus récente, c’est bien le succès des GAFA qui a permis de valoriser la donnée et au terme de « data science » d’envahir finalement les médias grand public. L’occasion de faire le point sur quelques idées reçues concernant les termes de « statistiques » et « data science » qu’il convient bien de distinguer.

De la distinction des compétences...

Avant toute chose, il convient de revenir sur la principale idée reçue qui voudrait que la data science ne serait que la statistique appliquée au big data ? En réalité, les statisticiens traitent les données quelle que soit leur volumétrie ! Historiquement, les statisticiens ont traité des quantités de données considérables à l’échelle des populations des pays. Est-il donc bien légitime d’inventer une nouvelle science, du seul fait que nous produisons et traitons aujourd’hui des quantités de données plus importantes ?... L’une des premières distinctions repose surtout sur la maitrise de certaines compétences spécifiques aux data scientists, le plus souvent informatiques. En effet, prenons l’exemple de l’utilisation de Hadoop, servant à répartir des ensembles de données sur un cluster d’ordinateurs. Est-ce une compétence qui résout le problème de l’analyse des données ou est-ce simplement une solution à un artefact d’ordre organisationnel ? Dans les structures dédiées au big data, l’infrastructure du traitement des données de production est déjà bien établie. Dès lors que le flux de données est assuré, c’est donc le retour à la case départ : il faut dès lors parvenir à produire des analyses pertinentes.

...à celle de l’approche même du traitement des données

Mais ce qui distingue aujourd’hui plus fondamentalement la data science des statistiques, c'est la différence dans l’approche de la valorisation des données : l’approche générative ou l’approche prédictive. La première cherche à établir la structure d’un modèle adapté aux données, puis à tirer des conclusions sur le mécanisme générateur de donnée, alors que la seconde donne la priorité à la prédiction, ne s’intéressant pas au mécanisme sous-jacent à la production des données et préférant se concentrer la précision de la prédiction des algorithmes. C’est aujourd’hui bien la modélisation prédictive qui est l’un des moteurs essentiels de l’intelligence artificielle, permettant l’utilisation des données pour aider l’ordinateur à l’automatisation, et l’une des innovations les plus marquantes de ces dernières décennies ! Les avancées qu’a connu le « Machine Learning », sur lequel est basé l’essentiel des systèmes d’IA modernes, vers davantage de prédiction constituent sans aucun doute l’un des principaux fossés existants aujourd’hui entre les statistiques traditionnelles et la data science.

Elle a donc aujourd’hui de solides raisons d’exister, ne se résumant pas à la seule combinaison des statistiques et de l’informatique. Et pour cause, pour résoudre des problèmes concrets, un data scientist devra s’acquitter des tâches qui dépassent sa formation traditionnelle, faisant notamment appel aux succès des techniques du deep learning pour tester plus largement et répondre plus spécifiquement.




Commentaires

1.Posté par Rémi LISSAJOUX le 26/06/2019 12:56
La rupture (à améliorer) entre la statistique traditionnelle et la data science contemporaine n'est qu'apparente, mais surtout temporaire.

L'accès facile et à bas coût aux données de tous types a effectivement les data scientists a largement privilégié l'approche prédictive à coup de 'machine learning' tout en amplifiant le besoin en ingénierie de la donnée. Il fallait il est vrai explorer tout le potentiel du machine learning. Les approches 'génératives' dans les approches ont du coup été délaissées, et les compétences peu se raréfient.

Mais l'apprentissage automatique, profond ou pas, qui est si en vogue actuellement a ses limites. Et pour les dépasser, les data scientists devront se tourner tôt ou tard vers des approches conjointes mêlant machine learning, statistiques fréquentistes ou probabilistes, approches symboliques, etc. Du coup, le manque de compétences en statistiques classiques vont se faire sentir; beaucoup le ressente déjà.

2.Posté par Vallaud Thierry le 10/07/2019 23:09
Bsr
Il me semblait avoir déjà commenté ce poste
Je ne vois pas fondamentalement de différence entre la data science et les statistiques voir le machine Learning a part peut être que l'informatique s'est emparée du sujet à cause de l'accroissement des données. Le mot data science aurait pour origine le Dr Wu professeur à la Gorgia Tech qui dans fin des années 80 cherchait un nom plus sexy pour les statistiques qui étaient délaissées par des formations en management. Après on est dans les hype cycles qui remplacent des termes par d'autres. Je disais déjà en 2013 que tout cela c'est du "naming".

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.