Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Entretien avec Andrea Lodi, titulaire de la chaire Big Data à Polytechnique Montréal


Rédigé par le 26 Octobre 2015

Quelques semaines après sa nomination, nous avons rencontré le Professeur Andrea Lodi, de Polytechnique Montréal, en charge de la Chaire d'excellence sur l'utilisation des données massives pour la prise de décisions en temps réel.



Pr Andrea Lodi
Pr Andrea Lodi
Decideo : Dans votre parcours académique, comment avez-vous découvert ces sujets relativement récents des données volumineuses, et comment avez-vous envie de les aborder à Montréal dans le cadre de votre chaire ?

Pr Andrea Lodi : Ma formation de base est autour de l’optimisation mathématique. Le côté mathématique de la science de la décision a toujours été au coeur de mes recherches. Comme mathématicien, il faut reconnaître que depuis quelques années, les possibilités ont largement évolué : en particulier la possibilité d’avoir des données en grande quantité, à un coût raisonnable. Et surtout lorsque l’on avait accès auparavant à des données, on prenait des décisions de manière très statique. Aujourd’hui les communications mobiles et les données qu’elles génèrent sont à la source d’une révolution par les données auxquelles elles permettent d’accéder. Les mathématiques doivent suivre et aider à trouver de nouveaux algorithmes pour analyser ces données en temps réel.

Decideo : Les entreprises parlent beaucoup des données, le Big Data est un des mots les plus à la mode dans le domaine des technologies. Pourtant on parle très peu des algorithmes. Comment peut on expliquer le rôle de ces nouvelles méthodes aux entreprises ?

AL : Je ne suis pas passionné de Big Data en général, en particulier de son aspect « informatique ». C’est intéressant, comme beaucoup d’autres choses… mais sans plus. Ce qui m’intéresse vraiment, et qui est le focus de la chaire dont j’ai la responsabilité, c’est bien la prise de décision sur la base de ces données volumineuses. Et pour cela, nous avons besoin de nouvelles méthodes algorithmiques; celles dont on dispose actuellement ne suffisent plus, mais nous sommes dans un environnement complètement différent.
Beaucoup d’entreprises parlent de Big Data, mais ne savent pas en réalité exactement quoi en faire !
Prenons l’exemple de la logistique. Pour tenter d’améliorer les systèmes, on a découpé la chaîne logistique en étapes : l’approvisionnement, la production, la distribution… Pourquoi procéder ainsi ? Parce que le problème d’optimisation de la chaîne logistique était trop important pour être résolu en une seule fois, mais surtout parce qu’il n’y avait pas de communication entre les départements d’une même entreprise. Ces difficultés de communication ont été presque résolues par les technologies mobiles. On peut donc imaginer des nouvelles solutions mathématiques d’optimisation de la chaîne globale. C’est la même chose dans le domaine des transports. Il y a un bouchon quelque part dans la ville. Et le public a accès par les terminaux mobiles à ces informations en temps réel. Il demande donc que ces problèmes soient résolus; et c’est le rôle des algorithmes.
Résoudre des problèmes en temps réel c’est toujours très difficile, mais c’est le plus intéressant.

Decideo : Par rapport aux fameux trois « V » du Big Data, est-ce que l’un d’eux est plus générateur de besoins en nouveaux algorithmes ?

AL : La véritable différence vient à mon avis du temps réel. La variété est importante, tout comme la volumétrie, mais il existe déjà des technologies qui nous aident. Notre chaire va par exemple communiquer avec les chercheurs dans le domaine de l’apprentissage machine (machine learning) et de la recherche opérationnelle. Du point de vue des algorithmes, le temps réel nous permet de nous poser des questions réellement différentes, auxquelles je pense que personne n’a encore été formé.
On conserve toujours la possibilité de faire des prévisions, mais ensuite, il faudra être capable de changer les plans, en fonction des données collectées en temps réel. Il y a aussi beaucoup d’applications où on apprend les choses au moment même où elles surviennent, comme dans la conduite d’un véhicule autonome, dans les jeux en ligne, les sites d’enchères. On imagine alors que l’on va intégrer l’apprentissage machine et la recherche opérationnelle; où l’apprentissage machine saura changer le modèle en temps réel, au moment où surviennent les événements. C’est ce que l’on appelle la ré-optimisation.
Et pour y parvenir, ce n’est pas simplement une question de ressources, de puissance, mais cela nécessite réellement de nouveaux algorithmes.
Si vous prenez un des problèmes les plus simples de l’histoire de la recherche opérationnelle, le « linear assignment problem »; imaginez avoir trois travaux à lancer et trois machines. Chaque couple travail-machine dispose d’un temps limité pour résoudre son problème. Si on veut trouver la configuration optimale, on va analyser six combinaisons différentes, ce qui est parfaitement possible. Mais si on veut résoudre un problème qui a vingt travaux et donc vingt machines, il faut analyser à peu près 10 puissance 18 solutions différentes. On peut encore résoudre le problème avec IBM Blue Gene, si on est suffisamment riche pour le faire. Si on passe à vingt-quatre travaux, il faudrait faire travailler IBM Blue Gene pendant 200 ans pour trouver la solution ! Et pour passer de vingt-quatre à quarante, le nombre de solutions à étudier équivaut au nombre d’atomes de la planète terre !
En revanche avec des algorithmes de recherche opérationnelle, on est capables de résoudre des problèmes de 5000 machines et de 5000 travaux. La différence est considérable. Sans les nouveaux algorithmes, le Big Data ne changera pas réellement notre vie. Si l’on regarde les algorithmes que Facebook ou Google utilisent, ce sont bien de nouveaux outils, qui ont été développés spécialement.

Decideo : Comment vos travaux sont-ils reliés à l’industrie ? Est-ce que ce sont des entreprises ou des éditeurs de logiciels qui en bénéficient et comment se passe le transfert de connaissances ? Dans quel délai ce trasnfert se produit il ?

AL : La caractéristique principale de l’optimisation mathématique, c’est qu’il y a une véritable chaîne entre les découvertes méthodologiques, les applications, les ordinateurs et les logiciels. La plupart des idées qui ont été développées pendant les soixante ans de la programmation mathématique, a été implémentée dans des logiciels. Les méthodes sont donc transférées dans les logiciels systèmes, et c’est assez rapide. Et par ailleurs, la programmation mathématique répond à des besoins concrets des entreprises, les résultats peuvent également être transférés dans les logiciels applicatifs. C’est une différence majeure avec beaucoup d’autres disciplines scientifiques. Chaque étape de la chaîne se nourrit des autres. Et comme mathématicien appliqué, je trouve cela fantastique. Dans la chaire, nous allons faire de la recherche fondamentale, de la recherche appliquée, et collaborer avec l’industrie.
Le délai dépend beaucoup des problèmes rencontrés. Entre le moment où une entreprise nous parle d’un problème et le développement d’une solution, cela peut être assez rapide, quelques mois. Mais il faudra ensuite un peu plus de temps pour généraliser la méthodologie que l’on a utilisé. La chaire dispose d’un budget du gouvernement fédéral, justement pour financer la recherche fondamentale.

Decideo : Revenons à la chaire justement et aux raisons qui vous ont fait accepter ce poste ? Quelles ont été vos motivations ? Ne peut on pas faire cela en Europe ?

AL : La combinaison du financement gouvernemental, du lien avec l’industrie, et la possibilité de travailler sur un grand campus comme celui de l’Université de Montréal, je pense franchement que c’est difficile de trouver cela ailleurs, en Europe. C’est un projet financé pour sept ans; on peut se concentrer sur la recherche. Le montant de l’investissement du gouvernement du Canada est important; je n’aurai pas pu trouver cela dans un seul pays d’Europe. Il y a des programmes européens, mais ils sont assez différents.
Le projet a été monté par les universités francophones, mais j’ai également mes propres contacts aux États-Unis; par ailleurs les travaux de la chaire seront publiés en anglais. Nous allons avoir des étudiants en provenance du monde entier. La chaire travaillera en anglais du point de vue de la recherche et de la formation. Et je veux que les étudiants soient parfaitement à l’aise en anglais, pour échanger avec leurs collègues dans les conférences internationales.

Decideo : Comment va fonctionner la chaire ? Comment allez vous sélectionner les étudiants ?

AL : Nous avons déjà embauché des étudiants, qui ont commencé leur doctorat au mois de septembre; ils seront prêts à faire de la recherche d’ici un an environ puisqu’ils ont des examens avant. Je vais également embaucher des post-doctorants, de Montréal, d’Europe et des États-Unis. C’est moi qui suis responsable de la chaire, mais les trois universités (Polytechnique Montréal, HEC Montréal, et Université de Montréal) qui font partie du programme mettent chacune à disposition un professeur qui va travailler pour la chaire. Au total la chaire comprendra trente à quarante personnes, dont les étudiants, professeurs, administratifs, gestionnaires de projets. Les étudiants que nous recherchons doivent être passionnés, et le montrer. Bien sur, avoir étudié dans une bonne école et avoir de bonnes notes, mais surtout la passion !

Decideo : Et finalement, comment mesurerez vous le succès de vos travaux ? Quelles sont les indicateurs clefs de réussite ?

AL : C’est bien sur la quantité de publications scientifiques. Un point important, c’est que le programme de financement ne peut pas être renouvelé. C’est un programme d’une durée fixe, sur sept ans. Une fois les sept ans écoulés, cela devrait passer par de nouveaux programmes. En ce qui me concerne, un de mes objectifs, serait qu’à l’issue du programme initial, l’industrie prenne le relais et finance les recherches futures de la chaire.
C’est quand même assez court comme délai. Pour former un étudiant de doctorat, il faut quatre ans. D’ici là, la technologie aura évolué, il y aura d’autres problèmes à résoudre, mais les problèmes sont complexes; il nous faut du temps. N’oublions pas bien sur qu’on apportera à l’industrie des réponses dans des délais courts, quelques mois, mais que du point de vue de la recherche, ce que nous développerons sera inclus dans les outils standards au bout d’une dizaine d’années seulement.

Decideo : Sur quels sujets concrets allez vous travailler ? Avec quelles entreprises ?

AL : Dans le domaine de la santé par exemple. Nous avons déjà participé à des réunions de recherche avec l’hôpital Sainte-Justine, et ils ont exposé beaucoup de problèmes intéressants en rapport avec les mégadonnées. Il y a une très forte expertise à Montréal dans le domaine des transports, dans le domaine de l’énergie également. La ville intelligente est aussi un sujet intéressant de recherche, tout comme les bâtiments intelligents. La chaire a une certaine visibilité. Cela nous permet de proposer notre capacité de recherche aux institutions. Et pour les politiques, le sujet des Big Data est « sexy », c’est bien pour eux aussi de montrer qu’ils ont une action dans ce domaine.
En ce qui concerne les entreprises, nous cherchons de vrais problèmes à résoudre. Et nous voulons parler avec le citoyen pour lui expliquer que la révolution des mégadonnées n’est pas qu’un sujet commercial, mais que c’est également important pour sa santé par exemple.

Decideo : Parlons quelques instants pour terminer de propriété des données. Vous savez les algorithmes que vous développez, lorsqu’ils utilisent des données croisées en provenance de plusieurs sources, peuvent révéler des comportements ou des informations que les citoyens que nous sommes préféreraient conserver secrètes.

AL : C’est dans la collecte des données que réside le problème. C’est aux sources de données de rendre les données anonymes. Ce n’est pas moi, comme mathématicien, qui doit me poser ces questions. C’est à l’industrie de faire attention à la manière dont les algorithmes vont ensuite être utilisés. Pour nous la donnée est un point d’entrée, nous ne la collectons pas. Mais je vais essayer de me mettre du côté du public pour bien expliquer ces concepts. Je suis moi même un utilisateur des données, je ne suis pas Google. C’est à Google de me donner des données déjà sécurisées qui serviront de base à l’aide à la décision.

A noter : Le Pr Andre Lodi sera conférencier principal au Data Science Summit Montréal 2015 qui a lieu le 28 octobre, et est organisé par Data Science Institute




Commentaires

1.Posté par Wael Besbes le 27/10/2015 15:36
Bonjour,

Comment suivre svp les publications de la chaire!?

Merci.

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store