Lancé en 2007 par des membres de la communauté scientifique Python, le projet Scikit-learn a connu une accélération dans le cadre de travaux de recherche menés par Inria sur l'imagerie fonctionnelle du cerveau. Aujourd'hui dix ans plus tard, Inria annonce la création d'un consortium regroupant des entreprises mécènes en vue de les associer à la définition des priorités de développement. Dataiku, compte parmi ces entreprises, aux côtés de Microsoft, NVidia, Intel, AXA, Boston Consulting Group et BNP Paribas Cardiff.
Méconnu du grand public, Scikit-learn est le fleuron français dans le domaine de pointe de l'apprentissage automatique. Le consortium espère qu'au-delà des moyens financiers, il permettra au projet d'avoir une visibilité plus grande parmi les institutionnels.
« Aujourd'hui plus 500 000 data scientists utilisent quotidiennement Scikit-learn de par le monde. Leur salaire cumulé et la valeur créée par ces utilisateurs de Scikit-learn est supérieure à 100 Milliards par an. En France, on peut donc imaginer que la valeur créée par les utilisateurs de Scikit-learn est d'au moins 2 milliards. Si on imagine que Scikit-Learn correspond à un gain de productivité de 10% au moins pour les data scientists (ce qui est plutôt conservateur) la valeur créée rien qu'en France est d'au moins 200 millions d'euros. C'est un volume de retombées exceptionnel ! En devenant mécène de ce consortium nous faisons le meilleur investissement qu'on puisse faire aujourd'hui en France » déclare ironiquement Florian Douetteau, CEO de Dataiku.
La motivation est aussi technologique. « Nous intégrons Scikit-Learn à notre offre depuis 2013. Nous fournissons dans Dataiku une version « cliquable » de Scikit-learn pour permettre à tous de l'utiliser, face à la pénurie de data scientists. Ceci correspond à une tendance de fonds des technologies, où les avancées scientifiques sont rendues accessibles plus rapidement grâce à l'open source, puis par tout un chacun par le travail des éditeurs de logiciels », précise t-il.
Bibliothèque logicielle développée en Python, Scikit-learn est dédiée à l'apprentissage statistique (machine learning). Ses modèles prédictifs simples et puissants permettent d'extraire de la compréhension de données, du modèle linéaire efficace sur les textes aux forêts aléatoires, bien adaptées aux bases de données hétérogènes. Les concurrents de Scikit-Learn sont Tensorflow, soutenu par Google, et SparkML, soutenu par l'américain DataBricks, qui sont également intégrés à Dataiku. Par rapport à TensorFlow qui se focalise sur l'apprentissage profond (Deep Learning), Scikit-Learn fournit une diversité inégalée d'algorithmes.
Aujourd'hui, Scikit-Learn est utilisé par les plus grands acteurs de la Technologie : AirBnb pour la détection de fraudeurs[1], Uber pour la prédiction de la demande[2], ou encore par Spotify pour la recommandation de musique.
[1] https://medium.com/airbnb-engineering/overcoming-missing-values-in-a-random-forest-classifier-7b1fc1fc03ba#.1104o9tnm
[2] https://eng.uber.com/tag/scikit-learn/
Méconnu du grand public, Scikit-learn est le fleuron français dans le domaine de pointe de l'apprentissage automatique. Le consortium espère qu'au-delà des moyens financiers, il permettra au projet d'avoir une visibilité plus grande parmi les institutionnels.
« Aujourd'hui plus 500 000 data scientists utilisent quotidiennement Scikit-learn de par le monde. Leur salaire cumulé et la valeur créée par ces utilisateurs de Scikit-learn est supérieure à 100 Milliards par an. En France, on peut donc imaginer que la valeur créée par les utilisateurs de Scikit-learn est d'au moins 2 milliards. Si on imagine que Scikit-Learn correspond à un gain de productivité de 10% au moins pour les data scientists (ce qui est plutôt conservateur) la valeur créée rien qu'en France est d'au moins 200 millions d'euros. C'est un volume de retombées exceptionnel ! En devenant mécène de ce consortium nous faisons le meilleur investissement qu'on puisse faire aujourd'hui en France » déclare ironiquement Florian Douetteau, CEO de Dataiku.
La motivation est aussi technologique. « Nous intégrons Scikit-Learn à notre offre depuis 2013. Nous fournissons dans Dataiku une version « cliquable » de Scikit-learn pour permettre à tous de l'utiliser, face à la pénurie de data scientists. Ceci correspond à une tendance de fonds des technologies, où les avancées scientifiques sont rendues accessibles plus rapidement grâce à l'open source, puis par tout un chacun par le travail des éditeurs de logiciels », précise t-il.
Bibliothèque logicielle développée en Python, Scikit-learn est dédiée à l'apprentissage statistique (machine learning). Ses modèles prédictifs simples et puissants permettent d'extraire de la compréhension de données, du modèle linéaire efficace sur les textes aux forêts aléatoires, bien adaptées aux bases de données hétérogènes. Les concurrents de Scikit-Learn sont Tensorflow, soutenu par Google, et SparkML, soutenu par l'américain DataBricks, qui sont également intégrés à Dataiku. Par rapport à TensorFlow qui se focalise sur l'apprentissage profond (Deep Learning), Scikit-Learn fournit une diversité inégalée d'algorithmes.
Aujourd'hui, Scikit-Learn est utilisé par les plus grands acteurs de la Technologie : AirBnb pour la détection de fraudeurs[1], Uber pour la prédiction de la demande[2], ou encore par Spotify pour la recommandation de musique.
[1] https://medium.com/airbnb-engineering/overcoming-missing-values-in-a-random-forest-classifier-7b1fc1fc03ba#.1104o9tnm
[2] https://eng.uber.com/tag/scikit-learn/
Autres articles
-
Dataiku met l’IA générative au service de la préparation des données
-
Dataiku 12 : une IA puissante et contrôlée au service des entreprises
-
Teradata et Dataiku renforcent leur intégration pour déployer l’IA à grande échelle
-
Artefact et Dataiku démocratisent l’adoption de solutions IA pour faciliter les prises de décisions des entreprises au quotidien
-
Dataiku obtient la désignation Google Cloud Ready – AlloyDB