La révolution de l’intelligence artificielle, par Yoshua Bengio de l’Université de Montréal (1ère partie)

(Source : Université de Montréal)

Une révolution est en cours. Grâce notamment au deep learning, ou apprentissage profond, et à l’émergence du big data, les avancées dans le domaine de l’intelligence artificielle font un grand bond en avant. Les progrès réalisés sont tels, que certains n’hésitent pas à parler de l’avènement prochain d’une quatrième révolution industrielle, faite d’intelligence artificielle, de robotique et de nanotechnologies. De la santé aux transports en passant par la bio-informatique, la banque ou l’assurance, de nombreux secteurs sont touchés.

Mais où en sommes-nous réellement dans le développement de l’intelligence artificielle ? Comment le deep learning la révolutionne-t-il ? Quel rôle Montréal et ses universités peuvent-elles jouer pour accélérer le développement des recherches dans ce domaine ? Dans quelle mesure l’intelligence artificielle peut-elle changer nos vies ?

Lors de cette seconde Conférence de la montagne, Yoshua Bengio (Université de Montréal), Yann LeCun (Université de New York et Facebook) et Joëlle Pineau (Université McGill), trois sommités internationales de la recherche en intelligence artificielle, nous aident à mieux comprendre les avancées et les différentes facettes de cette technologie fascinante.

Cette soirée a été animée par Vincent Gautrais, professeur à la Faculté de droit de l’Université de Montréal, titulaire de la Chaire L.R. Wilson sur le droit des technologies de l'information et du commerce électronique.

Transcription de la conférence de Yoshua Bengio (Université de Montréal)

Yoshua Bengio, Professeur titulaire, Département d'informatique et de recherche opérationnelle, Chaire de Recherche du Canada sur les algorithmes d'apprentissage statistique

Je vais essayer de vous donner quelques aperçus de cette révolution de l’intelligence artificielle; sur ce que c’est, tel que je le conçois et sur les recherches faites, avec Yann LeCun et avec d’autres, sur l’apprentissage profond.

Vous avez sans doute commencé à entendre ou lire des choses sur les voitures qui se conduisent toutes seules, on n’est pas encore rendu là, mais il y a des progrès assez impressionnants, grâce entre autres aux avancées sur la compréhension visuelle qui ont été faites avec l’apprentissage profond et les réseaux convolutifs. Peut-être que certains d’entre vous ont commencé à parler avec votre téléphone. Cela va prendre de plus en plus de place, la manière dont on interagit avec les ordinateurs va être transformée. Et puis peut-être aussi avez-vous entendu parler d’une percée qui a fait beaucoup de bruit il y a quelques mois, où un ordinateur qui utilisait l’apprentissage profond et l’apprentissage par renforcement a battu le champion du monde de Go, un jeu chinois très complexe. On pensait que ça pourrait prendre des années, ou même des décennies, avant qu’un ordinateur ne réussisse à battre les champions du monde, mais c’est arrivé. Que se passe-t-il ? Il y a une percée en intelligence artificielle; c’est le résultat de patients travaux, de progrès graduels et construits sur les bases des travaux précédents. Ces avancées amènent à des seuils qui font que l’on peut utiliser ces résultats pour créer de nouveaux services, pour produire de nouvelles choses, et transformer l’économie et peut-être transformer la société. On est en train de vivre une autre révolution industrielle où, plutôt que d’augmenter la puissance mécanique de l’humain, l’ordinateur va augmenter la puissance cognitive, la puissance intellectuelle de l’humain.

Apprentissage profond

Je vais vous parler de l’apprentissage profond, parce que justement les évolutions dont je viens de parler, sont en grande partie dues à ces avancées. De quoi s’agit-il ?

Ça a commencé il y a une dizaine d’années à peu près, grâce à un réseau de l’Institut Canadien de Recherche Avancée (ICRA) qui finançait des recherches qui, à cette époque n’était pas considérées à la mode et peut-être même étaient mal vues, mais quelques fous croyaient quand même à ces idées, inspirées de ce qu’on sait du cerveau. Ils voulaient pousser plus loin ces recherches, qui faisait suite à des décennies de recherches sur les réseaux de neurones artificiels. Cette équipe a réussi à entraîner des réseaux de neurones profonds. Avant de vous parler d’intelligence artificielle, je vais vous expliquer ce qui m’intéresse vraiment. C’est de comprendre quels sont les principes mathématiques, informatiques; quelque chose que l’on peut analyser, échanger et réellement comprendre, qui expliquent et qui peuvent mener à l’intelligence. Il s’agit ici de l’intelligence en général, cela peut-être l’intelligence des humains, des animaux et bien sûr cela peut nous servir à construire des machines intelligentes. Mais c’est aussi grâce au fait que l’on peut expérimenter sur des machines que l’on peut mieux comprendre ces principes et les développer au fur et à mesure.

Qu’est-ce-que l’intelligence ? Ce n’est pas un chose sur laquelle tout le monde s’entend, mais dans ma communauté on s’entend assez bien sur l’idée que l’intelligence est associée à des comportements intelligents, et que pour qu’un système ou un agent prenne de bonnes décisions et ait de bons comportements, il lui faut des connaissances. La question fondamentale dans l’intelligence artificielle depuis ses débuts, dans les années 50, est comment l’ordinateur peut acquérir ces connaissances, qui vont lui permettre d’agir de manière intelligente ? Il y a eu des décennies de recherches avec des approches d’intelligence artificielle classiques, symboliques, les fameux systèmes experts, lesquels n’ont pas vraiment débouché sur grand chose, car l’on essayait de donner ces connaissances à l’ordinateur directement à partir de ce que nous connaissons et pouvons exprimer à travers un programme. Mais malheureusement il y a beaucoup de choses que l’on connaît, mais que l’on ne peut pas exprimer verbalement, que l’on ne peut pas expliquer à l’ordinateur, on ne sait pas comment programmer l’ordinateur pour qu’il le fasse. Nous possédons beaucoup de connaissances intuitives. La solution qui a vraiment fonctionné, de manière surprenante, est de faire en sorte que l’ordinateur, comme nous, acquiert ces connaissances de lui même, par l’observation, en regardant des exemples, en imitant l’humain, en se servant de données. Et plus il y a de données, plus il y a d’informations que l’ordinateur peut utiliser pour comprendre un aspect du monde, qui est illustré par ces données.

Cette science qui explore comment un système vivant ou un ordinateur peut apprendre à partir d’exemples, c’est la science de l’apprentissage; et l’apprentissage automatique en particulier. Il y a eu cette percée dans la dernière décennie, mais qui s’est surtout révélée dans les trois ou quatre dernières années. L’apprentissage profond est une approche particulière de l’apprentissage automatique, qui évidemment se nourrit de beaucoup de recherches faites dans le domaine de l’apprentissage automatique.

Représentation et compréhension

Je vais insister sur deux des idées importantes.
Premièrement l’idée de la représentation. C’est à dire que l’ordinateur va non seulement apprendre à construire une image, mais va aussi apprendre à représenter l’information, représenter des images, des sons, des mots, des phrases. La deuxième idée c’est qu’il y a plusieurs niveaux de représentation. Ces niveaux de représentation ce sont plusieurs niveaux d’abstraction. Pourquoi c’est intéressant ? Parce que plus on est capables de faire en sorte que l’ordinateur développe ces niveaux d’abstraction plus élevés, et mieux il va être capable de comprendre le monde, de généraliser des nouvelles situations et c’est ça la clé. Ça a donné lieu à des avancées spectaculaires, dans la vision par ordinateur par exemple, la compréhension de la parole, la traduction automatique, la compréhension du langage naturel, la robotique. Récemment on a commencé à combiner ces idées d’apprentissage et de représentation pour faire en sorte que l’ordinateur puisse mettre ensemble des représentations qui viennent de différentes sources, des représentations d’images et des représentations de phrases. Par exemple l’ordinateur faire purement de la reconnaissance d’objet dans une image, donc il peut identifier quels objets sont présents dans l’image et où ils sont. Puis l’ordinateur va traiter un texte très simple, le lire, et sera capable de répondre à une question sur ce texte. Et il n’y a pas très longtemps dans mon laboratoire, nous avons combiné ces deux capacités. L’ordinateur va voir une image, et produire une phrase à propos de cette image. L'ordinateur génère une phrase en langue naturelle ici en anglais et ça c’est quelque chose que l’on imaginait très dur à réaliser il y a quelques années, et finalement il s’est avéré que ce n’était pas si compliqué que l’on imaginait. On est encore loin d’avoir résolu ce problème mais vous allez voir que les progrès dans cette direction vont assez rapidement.

Je vais revenir sur la notion de représentation; nous avons essayé de comprendre ce que l’ordinateur avait découvert dans ces représentations.
Pour ce qui est de représenter des mots individuels, on va associer à chacun des mots un vecteur donc une suite de nombres réels et on peut visualiser en deux dimensions une approximation de ce que l’ordinateur a appris sur une espèce de carte, on peut zoomer et on peut voir que les mots qui ont un sens proche l’un de l’autre, vont se retrouver proches les uns des autres dans cet espace de représentation. Et non seulement ça, mais ce qui a été découvert et ce qui est absolument fascinant, c’est que l’on peut raisonner par analogie avec ces représentations. Donc si on prend le vecteur qui correspond au mot “Paris”, et celui qui correspond au mot “France” et que l’on fait la différence entre les deux, on a un autre vecteur qui correspond à la direction pour passer de “Paris” à “France”. Ce même vecteur peut s’appliquer à la direction de “Rome” et nous donner la représentation d’”Italie”. De la même manière, si l’on fait la différence entre la représentation du mot “roi” et du mot “reine”, on obtient quelque chose qui est très proche de la différence entre “homme” et “femme”. Finalement l'ordinateur est capable de voir que le mot “femme” est au mot “homme” ce que le mot “reine” est au mot “roi”. Et ça on ne lui a pas enseigné, il l’a découvert tout seul, de manière non supervisée.

Je vais essayer de vous expliquer cette idée de représentation en prenant un exemple. Si on s‘intéresse à une image, l’image d’une page qui a été digitalisée avec des mots écrits dessus. Sur cette image, à un certain niveau de représentation, il y a des pixels et cela serait comme un premier niveau très brut. Il y a un niveau plus élevé, où on va identifier dans l’image des bords, les bords des objets, ensuite il y a un niveau de représentation où l’ordinateur devra repérer des traits qui correspondent à des parties d’un caractère par exemple. Et à un niveau plus élevé, ces traits pourraient être combinés pour former des caractères entiers, ensuite ces caractères pourraient être combinés pour former des mots. Et là on arrive à quelque chose que l’on maîtrise un peu moins, un niveau d’abstraction plus élevé que ça, ce serait le sens des mots, ce que je vous ai montré tout à l’heure où on essayait de capter le sens des mots avec une représentation. Evidemment cela n’est pas suffisant pour faire des tâches intéressantes, on veut que l’ordinateur puisse capter le sens de séquences de mots, de phrases, de documents et peut-être même aller au coeur du message qui est derrière le document.

Je vous montre tout ça parce que dans cet exemple, il y a plusieurs niveaux de représentation. Le niveau des mots est beaucoup plus abstrait que celui des pixels, et si on a doit prendre des décisions, si l’ordinateur doit répondre à des questions sur ces documents, ce sera beaucoup plus facile pour lui s’il travaille au niveau des mots. Le même mot pourrait être représenté au niveau de l’image par beaucoup d’images possibles. On aurait pu dessiner les caractères de manière très différentes et on veut que l'ordinateur puisse séparer les détails (comment les caractères ont été écrits) de ce qui ici nous intéresse plus.

En fait ce qui nous intéresse dans notre domaine, c’est de faire en sorte que l'ordinateur puisse découvrir, tout seul, les différents niveaux de représentation. Pour les premiers niveaux, jusqu’au niveau des mots, ce sont des représentations qui sont naturelles pour nous et nous n’avons pas besoin de l’ordinateur. Quand on arrive à des niveaux plus élevés d’abstraction, on ne sait pas vraiment comment représenter la sémantique. Et c’est là qu’une méthode complètement automatique pour découvrir ces différents niveaux d’abstractions, devient importante.

Impact sociétal

Je vais terminer par deux éléments, moins techniques, mais qui touchent peut-être plus de gens. Les enjeux de société autour de ces progrès, les débuts auxquels on assiste aujourd’hui autour de l’intelligence artificielle.

Comme beaucoup de sciences et de technologies puissantes, cela risque, si on laisse les choses aller par elles-même, de faire en sorte que quelques-uns profitent de cette puissance et que la richesse se concentre dans les mains de quelques-uns; Alors que je pense que beaucoup de chercheurs comme moi voudraient que ces avancées profitent d’abord et avant tout au plus grand nombre. Comment peut-on faire ?
Prenons les voitures autonomes. Il y a de grandes chances que cela ait un impact important sur le marché de l’emploi, que certaines personnes perdent leur emploi, et soient remplacées par des machines. Comment peut-on faire pour que cela se passe de manière humainement correcte, et que cela profite à tout le monde plutôt que de laisser un certain nombre de personnes sur le carreau ? Puis plus généralement, il y a toutes sortes de questions éthiques auxquelles les gens ordinaires, les citoyens en particulier doivent réfléchir. Par exemple la question de la confidentialité des données et là il y a des enjeux qui ne sont pas seulement “je veux garder mes données, je ne veux pas qu’on y ait accès”; mais si les données sont partagées, cela peut bénéficier à tout le monde. C’est comme avec les vaccins, si tout le monde se vaccine, cela bénéficie à tout le monde. Alors comment gérer l’intérêt individuel et l’intérêt collectif dans cette histoire ? Quelque chose que j’ai à coeur c’est d’essayer d’orienter la recherche vers les applications socialement positives de l’intelligence artificielle. Evidemment la santé, peut-être l’environnement, l’éducation, créer des services qui vont servir au plus grand nombre et pas nécessairement en vue d’un profit commercial immédiat. Il y a des enjeux éthiques soulevés par certaines personnes concernant les dangers à long terme de l’intelligence artificielle. Bien que je fasse partie des gens qui ne craignent pas trop cette éventualité, je pense aussi que c’est important d’y réfléchir et qu’on ne laisse pas simplement les choses arriver sans y penser d’avance. Pour toutes ces raisons, c’est important que les gens participent à la discussion, qu’ils comprennent les enjeux, que les politiciens fassent partie de l’équation, car ils sont censé représenter la volonté collective et donc je vous invite à vous renseigner plus et à participer de n’importe quelle manière, que ce soit en contribuant au développement de la technologie, des entreprises qui je l’espère vont suivre tout ça, ou tout simplement en tant que citoyens.

Pour conclure, il y a une opportunité unique en ce moment à Montréal, on a une nouvelle masse critique dans le domaine de l’intelligence artificielle, en particulier le groupe que je dirige et le groupe d’apprentissage automatique à l’Université de McGill, ensemble on a 150 chercheurs spécialisés dans ce domaine, et c’est une concentration assez unique dans le monde, surtout au niveau universitaire. On vient de recevoir une énorme subvention qui va nous aider à développer cette science et on a aussi comme mission du gouvernement de faire en sorte que cela se transfère vers les entreprises, et que cela crée de la richesse, ici, à Montréal. C’est un défi. Comment va-t-on passer d’une masse critique universitaire à une masse critique privée, avec des entreprises, qui vont peut-être créer une sorte de Silicon Valley de l’intelligence artificielle à Montréal. Je crois qu’un ingrédient essentiel, c’est d’attirer et de garder les meilleurs au monde que ce soit dans le domaine universitaire ou privé.

Autres articles

La révolution de l’intelligence artificielle, par Yoshua Bengio de l’Université de Montréal (1ère partie)

Conférence organisée le 21 septembre, par l’Université de Montréal, dans le cadre des Conférences de la montagne.

Transcription de la conférence de Yoshua Bengio (Université de Montréal)

Apprentissage profond

Représentation et compréhension

Impact sociétal

IA, simplification et débureaucratisation pour transformer l'État

L’administration américaine va nommer ses premiers CAIO (Chief Artificial Intelligence Officer) et former ses comités de gouvernance

À propos de la grande invasion de l’intelligence artificielle

IBM s'engage à former 2 millions de personnes à l'intelligence artificielle en trois ans, en mettant l'accent sur les catégories minoritaires de la population

Podcast: Et si la regression de l’IA était la bouée de sauvetage de l’Être humain…

Wavestone renforce son offre IA en rachetant AI Builders - 31/07/2026

Assemblée nationale : le rapport sur la souveraineté numérique préconise la création de syndicats de données - 20/07/2026

Coupe du Monde de la FIFA 2026 : un laboratoire grandeur nature de valorisation de la donnée - 07/07/2026

Podcast : Mauvaise gouvernance ? Faut-il empêcher ou interdire ? - 18/05/2026

SAP rachète Dremio : le lakehouse ouvert entre dans la galaxie SAP Business Data Cloud - 05/05/2026