Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Dataiku veut séduire les équipes d’analystes de données


Rédigé par le 25 Septembre 2016

Société française créée en 2013, a reçu son premier financement, de 3,7 millions de dollars, en janvier 2015, pour passer à la vitesse supérieure, et tenter de convaincre de nombreux clients, avant de convaincre, peut-être, un acquéreur.



Dataiku veut séduire les équipes d’analystes de données
Dataiku… vous avez certainement entendu ce nom japonisant quelque part, mais la plupart d’entre vous serait bien incapable de décrire leur offre logicielle. Eux-mêmes se décrivent par analogie, les graphistes ont Adobe Photoshop, les marketeurs en ligne ont Google Analytics, et les analystes de données auraient donc besoin d’une plateforme aussi globale, Dataiku Data Science Studio (DSS).
L’offre logicielle de Dataiku est pour l’instant donc concentrée autour d’un seul produit, Data Science Studio, qui évolue au rythme d’une version par trimestre. Une plateforme qui doit donc intégrer l’ensemble des outils utilisés par les scientifiques des données en analyse statistique et en apprentissage machine (machine learning) : en terme de langages c’était déjà le cas avec Python et R; et la dernière version intègre Scala. Elle intègre également de nouvelles librairies comme H2O Sparkling Water, HPE Vertica. Pour Florian Douetteau, co-fondateur de l’entreprise, l’objectif de Dataiku est d’être neutre par rapport aux technologies utilisées par les clients, et donc de leur fournir la plateforme permettant d’intégrer les travaux réalisés dans les outils de leur choix. Ainsi l’intégration de Google Tensor Flow, une librairie open source pour l’apprentissage machine, devrait être réalisée dans la prochaine version. D’un point de vue général, Florian Douetteau considère d’ailleurs que l’open source est toujours très proche de l’état de l’art. Pas au point tout de même, de mettre Dataiku DSS en open source lui-même… il existe bien une version communautaire et gratuite de DSS, mais son code n’est pas du tout ouvert.

Un outil pour les équipes de scientifiques de données

Florian Douetteau, co-fondateur de Dataiku
Florian Douetteau, co-fondateur de Dataiku
Cette version communautaire est plus un outil de promotion. En effet, DSS trouve tout son intérêt dans la gestion de groupes de travail de data scientists, qui vont ainsi partager des jeux de données, des méthodes d’analyse, des algorithmes développés. L’outil présente moins d’intérêt pour un seul analyste de données. Dataiku a donc choisi de rendre gratuite l’utilisation par une seule personne. Dans l’espoir bien entendu, qu’elle perçoive la valeur ajoutée apportée par une utilisation en équipe et franchisse ensuite le pas.
Attention, précise Florian Douetteau, il ne s’agit pas forcément d’une équipe de plusieurs data scientists, conscient que les entreprises capables de s’offrir les services d’une telle équipe sont bien rares. Mais il peut s’agir d’encadrer le travail d’un data scientist et d’une équipe de trois ou quatre analystes qui travaillent les données.

D’un point de vue technologie, Dataiku a fait un choix, celui de développer son outil uniquement sous Unix. DSS est donc disponible soit sur plateforme Linux, soit sur Mac (dont le système d’exploitation est dérivé de Unix). Bien sur, il s’agit du logiciel collaboratif central, et les “clients” membres de l’équipe peuvent se connecter par un navigateur à partir d’un poste Windows. Un choix que justifie Florian Douetteau par les choix des scientifiques des données, naturellement habitués au monde Linux.

Une concurrence limitée, mais qui présente aussi des atouts

Dataiku n’est pas seul sur son secteur, mais les concurrents sont peu nombreux. Et cette situation ouvre à la jeune société française de belles perspectives de rachat, si elle démontre sa capacité à convaincre de nombreux clients payants, et cela au-delà des frontières de l’hexagone. Parmi les concurrents, sont le plus souvent cités Alteryx, mais surtout RapidMiner.

RapidMiner a choisi la voie de l’open source, affiche des tarifs clairs et progressifs, de 2 500 à 10 000$ par an, pour une version illimitée. Dans son approche tarifaire, Dataiku reste très français; impossible de trouver une liste de prix transparente sur le site web de l’éditeur; on parle de 70 000$ pour la version entreprise, mais Florian Douetteau, sans nous donner une réponse directe, parle d’une version “start-up” qui serait plus accessible… Pour jouer dans la cour des grands, Dataiku doit adopter les codes et les méthodes du marché.
Mais un autre concurrent pourrait venir du monde Windows, au travers de Microsoft en personne. Microsoft a en effet racheté début 2015 la société Revolution Analytics, et détient maintenant des solutions et une source de revenu autour de l’environnement statistique R. Dataiku est bien partenaire de Microsoft Azure actuellement, mais ne deviendront-ils pas demain plutôt concurrents ?

Du point de vue fonctionnel, DSS s’attache actuellement à suivre et tracer l’évolution des modèles utilisés au sein d’une équipe, ainsi que les flux de transformation de données. Mais d’autres besoins apparaissent maintenant chez les clients. Les algorithmes développés par une équipe de science des données prennent de plus en plus de valeur. Une valeur immatérielle, qui nécessite d’être comptabilisée et suivie, évaluée pour sa valeur et les résultats qu’elle apporte. Le portefeuille des méthodes et des algorithmes d’une entreprise orientée données, représente une valeur importante. Une telle plateforme devrait dans le futur, servir de référentiel et d’outil de valorisation du portefeuille algorithmique d’une entreprise qui place la science des données comme outil principal de croissance.




Commentaires

1.Posté par Vallaud le 08/10/2016 20:27
Article intéressant et j'aime bien Dataiku mais le pb c'est qu'il existe une centaines de solutions qui font la même chose (l'article est un erroné sur cela) http://www.kdnuggets.com/software/suites.html dont 50 en open source. A trop utiliser l'open source on n'a finalement rien de propriétaire et la valorisation de la société risque d'être compliqué dans un marché saturé d'offres (pour ceux qui s'y connaissent un peu évidement) . En plus la tendance est de permettre le code mais aussi les interfaces Wysiwyg en machine learning datamining pour s'ouvrir au plus grand nombre et résoudre la pseudo pénurie de data scientists: Azure ML (qui a racheté révolution), Modeler/Watson d'IBM, donc des acteurs beaucoup plus gros. Si Dataiku est rachetable il faut que cela se fasse vite sinon je crains fort que l'outil reste un peu francofrançais.

2.Posté par Philippe NIEUWBOURG le 08/10/2016 21:08
Salut Thierry,

Soit je n'ai rien compris à ce que fait Dataiku (et c'est possible :-), soit la liste que tu suggères est un beau mélange de tout... quand je vois JMP, Kaidara, KXEN, Palisade, SAS et Pentaho dans la liste, je me dis qu'il ne manque qu'un raton-laveur...

3.Posté par Thierry VALLAUD le 09/10/2016 13:43
@Philippe Hi Hi
Dans la liste http://www.kdnuggets.com/software/suites.html tu as tout les outils de machine learning/data mining dont Dataiku qui est un puissant outil de machine learning couplé d'un puissant ETL intégré. Donc on est bien dans des outils qui font tous à peu près la même chose : KXEN (SAP) du machine learning basé entre autre sur les SVM, SAS EM un plateforme multimodels, Pentaho intègre Weka qui est outil open source très multi algos. Tous les outils de machine leaning du marché sont donc presque dans cette liste. Evidement pas de raton laveur : petit animal sympatique mais malheureusement ménacé.

Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.