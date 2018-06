Tout docteur ou doctorant vous le dira, le sujet d’une thèse et surtout la définition de son sujet a une importance maximale. Il est primordial que le problème soit bien posé (donc bien compris). Il vaut mieux passer plus de temps à bien définir le problème, plutôt que de le faire vite et de ramer sur la résolution d’un problème mal posé.



C’est vrai pour une thèse, ça l’est aussi pour un projet de Data Science.



La plupart du temps, une thèse commence par une question que l’on se pose sur un problème particulier. Parfois une question théorique, parfois un problème pratique, parfois les deux. C’est généralement vague et impossible à résoudre en l’état.



Le sujet de ma thèse à ses débuts était :

• Comment peut-on coordonner plusieurs agents (preneurs de décisions) pour maximiser un certain critère de performance ? (1)



Pour un projet de Data Science (en entreprise), un des sujets que j’ai souvent rencontrés est :

• Comment maximiser le ROI ? (2)



Quel que soit le point de départ, il est clair que le problème a besoin d’être précisé. Pour mon sujet de thèse, plusieurs questions se sont posées :

• Qu’entend-on par coordonner ?

• Quels sont les actions que peuvent réaliser les agents ?

• Comment est défini le critère de performance ?



Pour le projet Data Science, les questions permettant de mieux comprendre ce à quoi on doit faire face sont très similaires :

• Comment est défini le ROI ?

• Quelle(s) action(s) influent sur ce ROI ?

• Comment mesurer l’amélioration ?



Ces sous-questions permettent in fine d’obtenir une définition scientifiquement (mathématiquement) concrète du problème à résoudre.

Pour ma thèse, après quelques (nombreuses) itérations, la réflexion a abouti à quelque chose de plus (scientifiquement) concret : revisiter un problème de Théorie de l’Information bien connu (le paradigme de Shannon) en changeant certaines hypothèses, notamment sur le critère de performance.



Pour un projet de Data Science, la maximisation du ROI peut vouloir dire de nombreuses choses. Un exemple déjà vu est la création d’un score permettant de qualifier des individus, dans le but de cibler intelligemment ces individus lors de campagne marketing.



Cette étape d’affinage du problème est cruciale à la bonne progression d’une thèse ou d’un projet. Impossible d’arriver à une bonne solution en partant d’un mauvais problème. Si vous voulez construire un avion, et que votre problème est défini comme “construire un vélo et lui ajouter des ailes”, vous n’arriverez JAMAIS à construire un avion sans changer cette définition.



Généralement, une première version bien définie du problème voit le jour. La définition pourra être amenée à évoluer au fur et à mesure des recherches du doctorant.



À partir de cette première version, il est souvent judicieux (voire indispensable) de décomposer le problème. On commencera par faire des hypothèses simplificatrices, qui amèneront (si tout se passe bien) à un premier résultat. Ce dernier pourra être soumis à une conférence (les papiers de conférence étant généralement plutôt courts, entre 4 et 8 pages).



Ensuite, l’idée est de se débarrasser petit à petit des hypothèses simplificatrices pour arriver au résultat voulu initialement. Il sera diffusé dans un papier plus long, et soumis à un journal (international).



En Data Science, on peut directement appliquer cette méthodologie. On commencera par une phase de prise en main des données (compréhension des données originales, identification d’éventuels défauts - trop peu de diversité dans les données par exemple -, transformation de la donnée, etc.), puis par un prototype simple, une version 1 suffisamment intéressante pour être mise en production. Puis, à partir de cette version, des évolutions pourront voir le jour.