Yoshua Bengio

Mon parcours en apprentissage profond

19 octobre 2023

Intelligence Artificielle
Illustration de Yoshua Bengio

Introduction et débuts

Yoshua Bengio

Aujourd'hui, j'aimerais vous présenter quelques éléments de mon propre parcours en apprentissage profond. J'espère que cela pourra être utile pour ce public. N'hésitez pas à poser des questions en cours de route et nous avons beaucoup de temps à la fin.

Yoshua Bengio

Permettez-moi de commencer par l'ordre chronologique. Comment suis-je entré dans le domaine de l'apprentissage automatique ? C'était au moment où je terminais mon premier cycle et que je cherchais des directions de recherche et des directeurs potentiels. J'ai lu beaucoup d'articles. Je n'étais pas sûr de ce que je ferais. Par hasard, j'ai commencé à lire des articles sur les réseaux neuronaux. Ce sont quelques-uns des rares et premiers articles sur les réseaux neuronaux, en particulier les travaux de Geoff Hinton, David Rumelhart et d'autres, dont beaucoup venaient des sciences cognitives, s'appelant eux-mêmes connexionnistes. Si cela vous intéresse, il y a beaucoup de choses intéressantes sur ce groupe et sur la façon dont il a influencé les débuts de l'apprentissage profond.

Yoshua Bengio

J'ai décidé de me lancer dans les réseaux neuronaux. Je suis tombé amoureux de cette direction et je vais expliquer pourquoi. Ma maîtrise, débutée en 86, portait sur les machines de Boltzmann, qui étaient une nouveauté inventée par Geoff Hinton et ses collaborateurs. J'ai joué avec et j'ai appris à classer les phonèmes. Ensuite, j'ai entendu parler de la rétropropagation qui est apparue peu après les machines de Boltzmann. J'ai été enthousiasmé, j'ai commencé à travailler avec cela, et c'était au cœur de ce que j'ai fait pendant ma thèse de doctorat commencée en 88.

Principes de l'apprentissage et IA symbolique

Yoshua Bengio

L'une des choses importantes est qu'en 88, je suis allé à l'école d'été connexionniste où il y avait probablement quelques centaines d'étudiants diplômés. J'ai rencontré beaucoup d'autres personnes partageant ma passion et cela a représenté quelque chose d'important en termes de motivation, le fait de faire partie de cette toute petite communauté. Bien sûr, comme vous le savez, elle s'est agrandie au cours des décennies suivantes.

Yoshua Bengio

Pendant les trois années suivantes, j'ai travaillé sur divers types de réseaux neuronaux artificiels, des réseaux récurrents, des convnets, appliqués aux séquences et à la parole et en les combinant avec des modèles probabilistes. En particulier, à l'époque, les modèles de Markov cachés étaient utilisés pour la reconnaissance de la parole. J'ai travaillé sur la manière de réunir ces deux éléments.

Yoshua Bengio

Le message principal ici est de suivre votre cœur et d'aller vers quelque chose qui vous attire. C'est l'essentiel. Ce qui m'a attiré, à partir de 85 environ et encore aujourd'hui, c'était cette hypothèse non conventionnelle selon laquelle il pourrait y avoir quelques principes simples qui pourraient expliquer et donner naissance à l'intelligence.

Yoshua Bengio

Si nous comprenons ces principes, ils peuvent nous aider à comprendre notre propre intelligence, l'intelligence animale, et à construire des machines intelligentes. C'est par analogie avec la physique où il n'y a que quelques lois. Bien sûr, leur combinaison et la complexité de la dynamique dans le monde réel donnent naissance à des systèmes très complexes.

Yoshua Bengio

Comment serait-il possible que quelques principes suffisent ? Si l'on y réfléchit, il faut qu'il y ait de l'apprentissage. À l'époque, les approches dominantes de l'IA n'utilisaient pas l'apprentissage. Il s'agissait d'une IA symbolique classique où les connaissances devaient être fournies par les humains. Une IA nécessitait beaucoup d'efforts de la part des humains pour concevoir toutes ces pièces de connaissance et les assembler, ce qui s'avère impossible dans la plupart des cas d'intérêt.

Yoshua Bengio

Au lieu de cela, si nous avons quelques principes généraux, ils ne contiennent pas la connaissance en tant que telle ; ils contiennent les recettes pour acquérir cette connaissance. C'est essentiellement ce qu'est l'apprentissage automatique.

Yoshua Bengio

Le contraste est que la majeure partie de la connaissance en apprentissage automatique provient des données, alors que quand j'ai commencé, tout tournait autour de l'ingénierie des connaissances. Les algorithmes de l'époque prenaient ces éléments de connaissance et effectuaient des inférences, combinant ces éléments pour trouver des réponses, mais nécessitant souvent des calculs très coûteux pour obtenir des réponses solides dans de grands systèmes.

Yoshua Bengio

De plus, ces systèmes manquaient de notions d'incertitude et de probabilité qui sont au cœur de ce que nous faisons en apprentissage automatique. Ils travaillaient au niveau de symboles abstraits, mais n'étaient pas ancrés dans la perception et l'action de bas niveau. Les premiers travaux sur les réseaux neuronaux et l'apprentissage automatique visaient à traiter ces problèmes. Mais comme j'y reviendrai, il nous manque encore certains des éléments que l'IA classique essayait de réaliser en termes de cognition de haut niveau.

Le fléau de la dimensionnalité et la compositionnalité

Yoshua Bengio

Réfléchissons à ce que l'apprentissage automatique essaie d'accomplir. Au cours de mes 15 premières années de recherche, cela a été au centre de ma réflexion et m'a inspiré. Au départ, c'était un mystère de comprendre pourquoi ces grands réseaux étaient capables de généraliser. Qu'est-ce que la généralisation, d'ailleurs ?

Yoshua Bengio

Si vous réfléchissez à l'observation de configurations de valeurs de variables, si vous n'avez qu'une seule variable, il vous suffit de compter le nombre de fois où chacune des valeurs apparaît et vous avez toutes les réponses. En principe, on pourrait faire la même chose avec plus de variables, mais le nombre de configurations de valeurs croît de manière exponentielle avec le nombre de variables.

Yoshua Bengio

C'est le fléau de la dimensionnalité pour l'apprentissage automatique : nous n'avons jamais assez de données pour nous indiquer directement la probabilité d'une configuration particulière. Si vous pouvez répondre à la question sur la probabilité, vous pouvez répondre aux questions sur ce que devraient être les valeurs d'autres variables. C'est vraiment au cœur de ce que nous essayons de faire en apprentissage automatique.

Yoshua Bengio

Cela ressemblait à un puzzle et pendant de nombreuses années, je me suis demandé comment les réseaux neuronaux parvenaient à le résoudre. Je vais essayer d'expliquer l'intuition que j'ai eue du milieu à la fin des années 90 et qui est devenue le cœur du travail que j'ai fait avec les plongements de mots, les convnets et d'autres espaces de grande dimension dans lesquels nous utilisons l'apprentissage automatique avec succès.

Yoshua Bengio

Les méthodes dominantes en apprentissage automatique du début des années 90 jusqu'à la fin des années 2000 étaient ce que j'appelais les méthodes d'apprentissage automatique local. Pensez aux méthodes classiques comme les méthodes du plus proche voisin ou les machines à noyaux. Ce qu'elles font, c'est partitionner l'espace d'entrée en régions, similaires aux configurations dont je parlais.

Yoshua Bengio

Pour chacune de ces régions, nous apprenons quelle devrait être la réponse en fonction des données qui tombent dans cette région. C'est mieux que les histogrammes parce que l'on apprend où se trouvent les régions en fonction de l'endroit où se trouvent les données. Mais il y a un problème : si vous voulez une description précise de la fonction que vous voulez apprendre, vous aimeriez avoir un nombre exponentiel de régions pour dire des choses sur des endroits où vous n'êtes jamais allé. Mais vous ne pouvez pas ; vous avez besoin de données dans chacune de ces régions.

Yoshua Bengio

Comment les réseaux neuronaux résolvent-ils ce problème ? Considérons un simple MLP à une couche cachée avec trois unités cachées. Chaque unité cachée est en gros un classifieur linéaire avec un bit qui dit que vous êtes d'un côté de la ligne ou de l'autre. Ce sont les trois lignes colorées ici. Si vous regardez toutes les intersections, vous voyez que le nombre de régions qu'elles déterminent peut être exponentiellement grand par rapport au nombre de neurones et à la dimension d'entrée.

Yoshua Bengio

C'est intéressant parce que nous n'avons pas besoin d'avoir des données pour chacune de ces régions. L'apprentissage se concentre essentiellement sur l'apprentissage de l'emplacement de chacune de ces lignes et il n'a besoin que de données de chaque côté de chaque ligne. Il se passe quelque chose de puissant ici où l'on peut apprendre sur un nombre exponentiel de choses avec une quantité linéaire de données. Je pense que c'est l'exemple de la puissance de la compositionnalité dont bénéficie même le réseau neuronal le plus basique.

Yoshua Bengio

Ce qui se passe, c'est que nous pouvons composer les caractéristiques qui sont apprises. Chaque neurone d'une couche est comme une caractéristique particulière et nous pouvons apprendre sur chacun de ces neurones, puis nous pouvons dire quelque chose de significatif sur n'importe quelle nouvelle composition de valeurs de ces caractéristiques.

L'avènement de l'apprentissage profond

Yoshua Bengio

La voie vers l'apprentissage profond est devenue plus évidente au début de ce siècle : pour qu'il soit réussi, nous avons besoin de beaucoup de données et de modèles très flexibles avec assez de couches pour représenter des fonctions flexibles. C'est un ingrédient clé que nous voyons aujourd'hui réalisé dans les grands modèles de langage. Parce que nous avons ces grands modèles, nous avons besoin d'une puissance de calcul suffisante, et c'était un problème dans les années 90.

Yoshua Bengio

C'est l'avènement des GPU qui a permis aux réseaux neuronaux de devenir soudainement pertinents. En apprentissage automatique probabiliste général, répondre à de nouvelles questions peut être insoluble même si vous avez des connaissances. Mais avec les réseaux neuronaux, nous sommes capables de faire des inférences efficaces sur le plan informatique en entraînant le système à répondre aux questions qui nous intéressent.

Yoshua Bengio

Ensuite, il y a cette structure compositionnelle, que vous pouvez plus généralement considérer comme des biais inductifs ou des hypothèses qui peuvent vaincre le fléau de la dimensionnalité et obtenir une généralisation forte à de nouveaux cas. C'est ce que j'ai appris au cours des 15 premières années de mon parcours.

Inspiration biologique et représentations

Yoshua Bengio

Tout ce qui se trouve dans cette diapositive pourrait être dit pour n'importe quelle méthode d'apprentissage automatique. Mais les réseaux neuronaux ont cette origine passionnante : ils sont inspirés par le cerveau. Les étudier peut nous apprendre quelque chose sur le fonctionnement du cerveau, bien que de nombreux neuroscientifiques affirmeraient que le cerveau est beaucoup plus complexe.

Yoshua Bengio

Il y a maintenant une foule importante en neurosciences computationnelles qui prend l'apprentissage profond au sérieux parce qu'il fonctionne si bien. La synergie entre les neurosciences d'un côté et l'IA de l'autre est quelque chose qui a permis aux réseaux profonds d'être ce qu'ils sont, mais cela peut aussi aller dans l'autre sens. J'en vois de plus en plus et j'ai également travaillé sur ces sujets.

Yoshua Bengio

Dans les réseaux neuronaux, nous avons un grand nombre d'unités de calcul adaptatives simples et elles forment des motifs d'activité que nous appelons représentations distribuées parce qu'une entité comme un symbole va être représentée par ce motif d'activité riche. C'est ce qui se cache derrière l'idée des représentations de mots que j'ai introduite dans l'article NeurIPS en 2000 et qui est toujours au cœur du traitement actuel du langage naturel.

Yoshua Bengio

Une autre chose qui a été la recette de base de l'apprentissage profond est que nous voyons ce pouvoir expressif découler de la combinaison de trois choses : une fonction objectif ou une fonction de récompense à optimiser ; un mécanisme pour modifier les paramètres, comme un optimiseur utilisant la descente de gradient stochastique ; et une architecture, qui est une façon de paramétrer une famille de fonctions.

Yoshua Bengio

C'est une chose très simple que nous tenons pour acquise maintenant, mais dans les années 90, il y avait beaucoup d'autres types d'approches de réseaux neuronaux qui ne correspondaient pas à ce moule. À l'avenir, nous devrions nous autoriser à explorer d'autres façons de penser à cela. C'est la méthodologie d'apprentissage de bout en bout, qui est puissante parce que toutes les pièces du puzzle s'adaptent pour s'entraider.

Défis des réseaux récurrents et gradients

Yoshua Bengio

Pour récapituler, en apprentissage automatique avec cette approche de bout en bout, nous avons une famille de fonctions, des paramètres ajustables, des exemples échantillonnés à partir d'une distribution inconnue, une façon de mesurer la performance et un algorithme pour modifier les paramètres afin de minimiser l'erreur. Cela se fait presque toujours de manière itérative car nous n'avons pas de solutions analytiques pour des choses complexes.

Yoshua Bengio

Je vais faire une parenthèse sur les réseaux récurrents pour parler d'une leçon qui va au-delà de ce travail particulier. Ce travail était essentiellement un résultat négatif sur les réseaux récurrents. Il s'intitulait 'apprendre les dépendances à long terme avec la descente de gradient est difficile'. Il disait qu'il y a quelque chose d'inhérent à ces systèmes dynamiques qui rend très difficile l'apprentissage des dépendances à long terme.

Yoshua Bengio

Cet obstacle a été au cœur de nombreux travaux tentant de le contourner. Ce n'est que vers 2014, avec nos travaux sur l'auto-attention et les travaux connexes sur les réseaux neuronaux avec mémoire, que je pense que nous avons collectivement débloqué ce défi majeur de l'entraînement de systèmes capables de capturer des dépendances à long terme. Je reviendrai sur l'attention.

Yoshua Bengio

Dans les systèmes dynamiques comme les réseaux récurrents, nous avons le problème de la disparition du gradient et de l'explosion du gradient. Si vous avez un réseau récurrent qui va évoluer dans le temps et que vous voulez l'utiliser pour stocker un bit d'information, une façon naturelle est de faire en sorte que cette dynamique ait deux bassins d'attraction.

Yoshua Bengio

Selon l'endroit où vous commencez, la dynamique va vers une région représentant un bit égal à un ou une autre représentant un bit égal à zéro. C'est quelque chose que nous pouvons facilement coder dans un réseau neuronal, mais le problème est d'apprendre comment mettre en place ces dynamiques. Une fois que vous l'avez, il stocke l'information de manière très fiable.

Yoshua Bengio

Le problème est qu'avec ces attracteurs, on obtient une perte d'information. Toutes les trajectoires qui se trouvent dans un bassin d'attraction convergent vers le même attracteur. Ce que cela signifie, c'est qu'une fois arrivé à ce point fixe, on ne sait plus d'où l'on est parti, ce qui signifie que la dérivée de l'état final par rapport à l'état initial est soit nulle soit infinie.

Yoshua Bengio

Si vous partez de l'intérieur du bassin, la dérivée est nulle car tout petit changement vous mènerait toujours au même endroit. Si vous êtes près de la frontière, elle est infinie car un petit changement vous fait aller à un endroit complètement différent. C'est la raison pour laquelle nous avons soit des gradients qui disparaissent, soit des gradients qui explosent.

Apprentissage de représentations et plongements

Yoshua Bengio

Revenons à l'apprentissage des représentations. C'est la caractéristique distinctive des réseaux neuronaux. Il existe encore d'autres méthodes d'apprentissage automatique qui manquent de cette notion de représentation, c'est pourquoi Yann LeCun et moi avons créé l'ICLR, la Conférence internationale sur les représentations apprises. Nous pensions que cétait la propriété centrale : ce n'est pas tant que c'est neuronal, c'est une question d'apprentissage de représentations.

Yoshua Bengio

Cela soulève des questions comme : quel type de représentations voulons-nous ? Une bonne représentation est celle qui rend certaines tâches plus faciles. Lorsque nous entraînons un réseau supervisé, les représentations intermédiaires sont utiles pour faire des prédictions à la sortie. La même idée fonctionne pour l'apprentissage non supervisé ou l'apprentissage auto-supervisé.

Yoshua Bengio

L'une des premières applications importantes a été le travail sur l'apprentissage des plongements de mots sur des modèles de langage neuronaux. Nous avons publié un article à NeurIPS 2000, puis un article de journal trois ans plus tard. L'idée était de ne pas se contenter d'opérer sur des symboles et des comptes, ce qui était la méthode de pointe, mais d'associer à chaque symbole un vecteur de nombres réels que nous apprendrions.

Yoshua Bengio

L'idée clé est que même si nous sommes intéressés par ces comptes relatifs, si nous apprenons un paramètre distinct pour ces probabilités pour chaque configuration de mots, nous aurions du mal à généraliser à de nouvelles configurations. C'est le fléau de la dimensionnalité.

Yoshua Bengio

Mais si nous associons chaque mot à ce vecteur de plongement de mot, alors les mêmes paramètres décrivant le sens d'un mot seraient utilisés dans toutes les configurations incluant ce mot. Nous pouvons mettre en œuvre cette idée avec un réseau neuronal dont la première couche associe les symboles à leurs plongements. Cette idée a incroyablement bien fonctionné.

Yoshua Bengio

La compositionnalité dans l'apprentissage profond a également d'autres aspects, comme une hiérarchie de composition. Nous pouvons composer ces mots ensemble de nouvelles manières. Il y a aussi cette notion de hiérarchie de caractéristiques derrière l'apprentissage profond, où chaque niveau est une transformation non linéaire mais simple du niveau précédent.

Yoshua Bengio

Les humains organisent les connaissances de cette manière hiérarchique, qu'il s'agisse d'images, de texte ou de parole. Ce fut une grande source d'inspiration pour le travail que nous avons accompli dans les années 2000 sur des réseaux neuronaux plus profonds. À la fin des années 2000, ces réseaux profonds commençaient à montrer un impact passionnant dans des applications telles que la reconnaissance de la parole et la vision par ordinateur.

Succès historiques et persévérance

Yoshua Bengio

Ceci montre ce qui s'est passé quand les gens ont commencé à utiliser les réseaux profonds dans la reconnaissance de la parole vers 2009. Cela a été intégré dans les téléphones Android et est devenu disponible en 2012. La vision par ordinateur a connu sa révolution après la percée d'ImageNet en 2012, où le taux d'erreur a diminué très rapidement.

Yoshua Bengio

Le passage de l'avant-apprentissage profond à l'après-apprentissage profond a été un grand saut, mais il a continué à baisser au fur et à mesure que les gens concevaient ces architectures et trouvaient de meilleures façons d'entraîner ces grands réseaux neuronaux.

Yoshua Bengio

La période de la fin des années 90 à la première décennie de ce siècle n'a pas été facile car la plupart des gens se sont détournés des réseaux neuronaux. Il a fallu de l'entêtement pour persister à travers cet hiver des réseaux neuronaux.

Yoshua Bengio

J'avais l'impression que beaucoup de recherches en IA avaient perdu leur ambition d'atteindre une intelligence de niveau humain. Je pensais que la compositionnalité et la représentation distribuée étaient la clé pour apprendre des choses complexes et bien généraliser afin de s'approcher de l'intelligence humaine. Maintenant, je pense que c'est une partie de la réponse, mais nous avons besoin d'autres choses.

Yoshua Bengio

À l'époque, les gens se concentraient sur des approches plus simples de l'apprentissage automatique qui étaient plus faciles à analyser mathématiquement. Même aujourd'hui, il y a beaucoup de choses que nous ne comprenons pas à propos des réseaux neuronaux. D'un point de vue personnel, comme la tendance du jour s'éloignait des réseaux neuronaux, il était difficile de convaincre mes propres étudiants de travailler sur ces sujets.

Yoshua Bengio

J'ai persisté. Une chose importante quand on est têtu, c'est qu'il faut aussi équilibrer cela avec une bonne rationalité. Je suivais mon intuition, mais il faut la valider expérimentalement ou mathématiquement pour se prouver à soi-même et aux autres qu'il y a quelque chose d'important qui vaut la peine d'être exploré.

Yoshua Bengio

Il y a cette image que j'aime bien : quand on a des intuitions, on tire sur des fils pour les clarifier car les intuitions initiales sont vagues. Il faut travailler pour réfléchir et poser des questions afin d'essayer de comprendre les principes clés.

Yoshua Bengio

L'autre chose qui a aidé a été un groupe de soutien. Le CIFAR a créé un programme de recherche axé sur l'apprentissage profond. Rencontrer quelques personnes qui croyaient que c'était important a beaucoup compté pour la motivation. Nous ne faisons pas de recherche seuls ; nous la faisons en groupe et cherchons des retours. Si nous n'avons pas d'autres personnes qui se soucient de ce que nous faisons, la motivation n'est pas aussi forte. C'est une leçon importante.

Modèles génératifs et attention

Yoshua Bengio

Après 2012, une chose importante qui s'est produite dans mon groupe a été le travail sur les modèles génératifs non supervisés. Nous y travaillions depuis des années avec différentes méthodes, comme les autoencodeurs de débruitage. Mais la grande percée a été le travail sur les GAN, les réseaux antagonistes génératifs.

Yoshua Bengio

Ils ont ouvert la porte à des réseaux neuronaux capables de générer des distributions très complexes comme ces fausses images. En 2014, quand nous avons mené nos expériences, nous ne pensions pas que cela fonctionnait si bien. Les maths étaient cool, mais les résultats n'étaient pas particulièrement convaincants et il était difficile de faire des comparaisons car nous ne pouvions pas calculer les vraisemblances.

Yoshua Bengio

C'est grâce à d'autres groupes qui ont repris ce travail et amélioré les architectures qu'il est finalement devenu ce qu'il est. C'est un exemple de la science comme étant le fait de nombreuses personnes s'appuyant sur les travaux les unes des autres.

Yoshua Bengio

L'autre transformation importante dans mon groupe a été le travail sur l'attention. L'attention est au cœur de l'apprentissage profond moderne et elle est incroyablement puissante. Je pense que nous avons encore beaucoup à tirer de ces idées.

Yoshua Bengio

Cela est venu parce que nous essayions d'appliquer des réseaux récurrents à la traduction automatique. Pour prédire le mot suivant en français à partir d'un texte anglais, il est utile de se concentrer sur quelques mots du texte source anglais. L'ajout d'une architecture explicite pour faire cela a complètement changé la performance et est rapidement devenu la norme. Cela a été adopté par Google et d'autres systèmes de traitement du langage naturel, notamment grâce aux transformeurs qui ont ajouté l'idée d'empiler des couches d'attention.

Yoshua Bengio

Ce qui se passe avec l'attention, c'est que nous ne dépendons pas uniquement de l'état d'un réseau récurrent. Nous pouvons nous débarrasser complètement de la récurrence car les dépendances à long terme peuvent être capturées par l'attention. La sortie à une certaine position peut être obtenue en portant une attention à quelque chose de lointain dans le passé. Le réseau n'a pas besoin de compresser la séquence passée dans un petit vecteur ; il a accès à toute l'entrée et peut aller chercher ce dont il a besoin.

Yoshua Bengio

En 2016, AlphaGo est sorti et l'apprentissage profond est devenu incroyablement important dans le cadre de l'apprentissage par renforcement. DeepMind a ensuite utilisé le mécanisme d'attention pour réaliser une percée incroyable dans la structure des protéines à partir de séquences. Cela va être le début d'une révolution complète pour la biologie.

Yoshua Bengio

Cela a utilisé à la fois l'attention et les réseaux neuronaux de graphes, auxquels nous avons également contribué avec les réseaux neuronaux de graphes à attention.

Éthique, ego et évolution des idées

Yoshua Bengio

En 2019, Geoff Hinton, Yann LeCun et moi avons reçu le prix Turing. Ces prix et récompenses sont dangereux ; ils peuvent rendre votre ego trop important et ce n'est pas bon pour la science. Il vaut mieux ne pas y penser ou ne pas viser la reconnaissance.

Yoshua Bengio

L'ego peut nous aveugler, nous rendre trop confiants, et cela n'aide pas à faire des découvertes scientifiques importantes parce que cela nuit à notre capacité à être flexibles, à changer d'avis et à écouter les autres qui ne sont pas d'accord avec nous. La science consiste à être rationnel. S'il y a quelque chose qui ne va pas et que nous ne voyons pas, nous avons besoin des autres pour nous le signaler.

Yoshua Bengio

J'ai changé d'avis plusieurs fois sur l'apprentissage automatique. Dans les années 90, Yann et moi pensions que seul l'apprentissage supervisé pouvait fonctionner. Vers 2005, grâce à Geoff Hinton, nous avons commencé à travailler sur l'apprentissage non supervisé et nous sommes devenus convaincus que c'était la clé de l'intelligence. Les humains apprennent beaucoup sur le monde sans beaucoup d'étiquettes.

Yoshua Bengio

Récemment, j'ai réfléchi à l'apprentissage automatique bayésien, dont je pensais auparavant qu'il n'avait pas beaucoup de sens pratique. Bien que mon groupe ait introduit l'auto-attention souple, je pense maintenant que l'attention souple n'est pas suffisante ; nous avons besoin d'une attention stochastique dure. Nous avons publié un article montrant que, étonnamment, cela fonctionne assez bien même si l'on casse l'histoire de l'apprentissage de bout en bout.

Vers le Système 2 : Causalité et abstraction

Yoshua Bengio

Le reste de ma présentation se rapproche de ce que je fais maintenant, en commençant par l'apprentissage de représentations. Au milieu des années 2000, nous nous demandions ce que serait une bonne représentation. Si vous faites de l'apprentissage non supervisé, la question se pose de savoir quel devrait être le niveau de représentation le plus élevé.

Yoshua Bengio

Pour moi, il était évident que le niveau le plus élevé de représentation devait être le niveau d'abstraction le plus élevé, comme les mots, les choses sur lesquelles nous raisonnons consciemment, les facteurs causaux qui expliquent les données, les variables explicatives. Comprendre comment ces variables de haut niveau sont liées les unes aux autres est ce sur quoi nous devrions nous concentrer.

Yoshua Bengio

Nous avons écrit sur la manière de découvrir des représentations désenchevêtrées en 2013. Si vous n'avez pas d'apprentissage supervisé pour vous dire ce que chaque unité doit faire, il y a de nombreuses façons de représenter la même information. Nous avons l'intuition que certaines façons sont meilleures, comme les représentations creuses où seuls quelques concepts sont pertinents pour une entrée donnée.

Yoshua Bengio

La dépendance entre ces concepts est également creuse. J'ai commencé à travailler là-dessus en 2017. Ces variables de haut niveau ne sont pas indépendantes. Vous construisez des phrases qui relient les mots entre eux ; il y a des dépendances causales entre les variables de haut niveau et nous devons apprendre la distribution jointe au niveau élevé.

Yoshua Bengio

Au cours des cinq dernières années, j'ai réfléchi à la compositionnalité. Nous avons exploité la compositionnalité des caractéristiques dans une couche et la compositionnalité des fonctions dans un réseau profond, qui confèrent toutes deux un pouvoir de représentation.

Yoshua Bengio

Il existe un autre type de compositionnalité que nous utilisons dans le langage, où nous combinons des mots pour donner un sens à des idées complexes. Ce n'est pas quelque chose que l'apprentissage profond actuel fait réellement, même dans les modèles de langage.

Yoshua Bengio

Toutes les fonctions n'ont peut-être pas une représentation compositionnelle efficace, mais les humains semblent exploiter ce type de biais inductif. Il existe une compositionnalité qui semble utile pour décrire le monde tel que nous le modélisons dans notre cerveau. Elle peut aider à capturer les types de distributions et de fonctions que nous voyons autour de nous.

Yoshua Bengio

L'aspect causal est intéressant. Est-ce qu'une variable en cause une autre ? Quand on commence à lire sur la causalité, l'accent est mis sur l'intervention. Une intervention est une action d'un agent à un niveau abstrait qui change les choses d'une manière parcimonieuse. Nous ouvrons la porte et soudain la maison se refroidit. Cela part d'une action que nous pouvons décrire en une seule phrase.

Yoshua Bengio

Comment découvrir ces dépendances causales parcimonieuses ? Cela a été au cœur des questions sur lesquelles j'ai travaillé pour aider à traiter la généralisation hors distribution. Nous voulons apprendre à partir de certaines données et être capables de généraliser à des données provenant d'une distribution différente. Les humains sont doués pour cela en réutilisant les morceaux de connaissance qu'ils possèdent et en les appliquant de nouvelles manières.

Yoshua Bengio

Nos réseaux neuronaux actuels ne modularisent pas la connaissance d'une manière qui se prête à cette réutilisation dans un nouveau contexte. Dans l'industrie, c'est un problème majeur car nous entraînons généralement un système sur des données collectées à un moment et dans un pays donnés, et nous voulons un système qui fonctionne partout alors que les choses changent dans le monde.

Yoshua Bengio

Les linguistes appellent la généralisation à de nouvelles configurations de mots la 'systématicité'. Il existe une manière systématique dont nous généralisons les concepts pour donner un sens à quelque chose de nouveau. Au cours des dernières années, des personnes ont évalué le comportement des réseaux neuronaux lorsqu'ils sont entraînés sur certaines configurations et testés sur de nouvelles configurations qui ont une probabilité nulle sous la distribution d'entraînement. Ils n'ont pas la généralisation systématique que nous aimerions avoir.

Yoshua Bengio

La théorie sur laquelle je travaille est qu'il existe une explication à la raison pour laquelle les humains sont bons dans ce domaine et l'apprentissage automatique actuel ne l'est pas. Il y a un écart dans la complexité des échantillons, la généralisation hors distribution et la vitesse d'adaptation. Les humains n'ont besoin que de peu d'exemples pour s'adapter. Nous n'avons pas non plus été doués pour incorporer la capacité de découvrir la structure causale et de raisonner avec ces relations.

Yoshua Bengio

L'hypothèse que j'ai est que cet écart provient de quelque chose dont les humains bénéficient et qui manque à l'apprentissage automatique actuel : quelque chose que nous associons au traitement conscient. Lorsqu'un humain est confronté à un contexte nouveau, comme conduire en Australie après avoir conduit en Amérique du Nord, une règle change. Les humains peuvent s'adapter rapidement, mais ils ne s'adaptent pas automatiquement.

Yoshua Bengio

Lorsque nous sommes confrontés à ces situations, nous ne suivons pas notre routine. Nous utilisons la pensée consciente avec attention et raisonnement. L'activité du cerveau est différente lorsque cela se produit. Ceci est lié aux étiquettes Système 1 et Système 2 des sciences cognitives. Le Système 1 est ce que nous faisons de manière intuitive et automatique ; l'apprentissage profond actuel est bon à cela. Le Système 2 est ce que vous faites face à des situations nouvelles.

Yoshua Bengio

Vous portez une attention consciente et réfléchissez aux choses, ce qui est lent et séquentiel. La connaissance est plus explicite et exploite la structure compositionnelle. Nous aimerions construire des systèmes d'apprentissage profond qui possèdent les deux. C'est une rupture avec les convictions de certains de mes collègues selon lesquelles la recette actuelle de l'apprentissage profond est suffisante.

Modularité et GFlowNets

Yoshua Bengio

On veut une représentation modulaire de la connaissance factorisée en morceaux recomposables. Ce n'est pas évident dans les réseaux profonds actuels où l'on a une grande architecture homogène. Les morceaux de connaissance sont tous mélangés, de sorte que face à une nouvelle distribution, chaque poids doit être mis à jour et l'apprentissage par transfert est inefficace.

Yoshua Bengio

Comment les méthodes d'apprentissage automatique peuvent-elles traiter la généralisation hors distribution ? Nous allons nous débarrasser de l'hypothèse i.i.d., mais nous avons besoin d'une autre hypothèse pour transférer la connaissance. Des lois de physique communes existent, mais à différents endroits ou moments, on observe des distributions différentes en raison d'interventions différentes. Si nous comprenons la gravité et l'atmosphère, nous pouvons généraliser jusqu'à comprendre des données provenant de la lune.

Yoshua Bengio

La causalité est un cadre doté d'un fondement théorique solide pour la généralisation hors distribution. Un modèle causal est une famille de tâches qui partagent les mêmes paramètres. Ce qui change, ce sont les interventions ou les réglages des variables de haut niveau. Nous séparons les connaissances stationnaires, comme les lois de la physique, des choses non stationnaires qui peuvent changer.

Yoshua Bengio

La causalité n'est qu'un des nombreux biais inductifs que nous pouvons tirer de l'intelligence humaine. Les humains attribuent des explications aux changements qu'ils voient dans le monde. La mémoire de travail a un goulot d'étranglement : elle ne peut contenir qu'une poignée d'éléments à la fois. C'est bizarre car le cerveau est immense. Il existe une forme particulière de calcul où nous nous concentrons sur quelques éléments seulement et faisons appel à la connaissance correspondante.

Yoshua Bengio

Il existe une modularité dans le cerveau où les modules sont pertinents à tout moment. J'ai émis l'hypothèse que ce goulot d'étranglement de la mémoire de travail correspond également à une hypothèse selon laquelle les variables abstraites et les dépendances sont éparses car on ne peut effectuer des inférences qu'en en regardant quelques-unes à la fois.

Yoshua Bengio

Nous avons écrit des articles montrant que ces biais inductifs peuvent apporter une meilleure généralisation hors distribution. Les travaux actuels que nous menons sur les GFlowNets rompent avec l'histoire du bout en bout. Nous pouvons utiliser les grands réseaux profonds modernes pour apprendre les distributions complexes nécessaires à l'inférence probabiliste. Si vous voulez en savoir plus, j'ai écrit un tutoriel en ligne.

Responsabilité sociétale et Questions-Réponses

Yoshua Bengio

L'apprentissage automatique a un impact sur la société, ce qui signifie que nous avons tous la responsabilité de veiller à ce que l'IA soit utilisée d'une manière qui maximise l'impact bénéfique et minimise les abus. Plus un outil est puissant, plus il peut être détourné au profit de quelques-uns. Il existe des inquiétudes concernant la concentration du pouvoir, le renforcement des biais sociaux et les applications militaires.

Modératrice

Merci Yoshua pour cette excellente présentation. Nous allons prendre des questions dans la salle, mais nous avons d'abord une question en ligne de Tetiana Lykhomanenko : 'Pensez-vous qu'actuellement nous formulons des tâches et des ensembles de données qui ne permettent pas l'apprentissage du raisonnement ? La plupart des tâches que nous résolvons sont de la mémorisation de la distribution que nous voyons, mais pas du raisonnement ou de la causalité. Avons-nous besoin de nouveaux ensembles de données et de benchmarks pour comprendre la causalité ?'

Yoshua Bengio

Je pense qu'il y a du raisonnement dans nos grands modèles de langage, mais ce n'est pas le type de raisonnement que les humains font. Nous utilisons simplement la capacité du Système 1 pour le raisonnement, ce qui engendre des erreurs que le Système 2 pourrait détecter comme étant incohérentes. Il y a davantage de travaux pour développer des benchmarks car l'apprentissage automatique causal en est à ses débuts. Je suis enthousiasmé par les applications de l'apprentissage automatique causal en biologie parce que nous pouvons effectuer des interventions causales.

Membre de l'auditoire

A-t-on envisagé de se concentrer davantage sur la personnalité et de créer des logiciels d'apprentissage automatique plus ciblés sur différents styles plutôt que d'essayer de créer un modèle de cognition unique ?

Yoshua Bengio

Je ne connais aucun travail dans cette direction. C'est déjà assez difficile de faire quelque chose qui soit capable de répondre intelligemment à des questions. Si vous entraînez 10 réseaux neuronaux sur les mêmes données, ils finiront par avoir des fonctions différentes et des opinions différentes sur certaines choses. Il est important d'avoir différentes théories du monde car tout le monde n'aura pas raison et la vérité peut émerger progressivement de points de vue incompatibles.

Modératrice

Merci pour votre présentation inspirante. Vous avez mentionné que vous avez changé de perspective à plusieurs reprises. Je suis intéressé par le passage de la perspective fréquentiste à la perspective bayésienne. Je me demande si vous pourriez nous en dire un peu plus sur votre perspective bayésienne. Merci.

Yoshua Bengio

Je vais présenter un argument de conversion bayésienne. Si l'on veut prendre des décisions rationnelles, la perspective bayésienne s'impose d'elle-même. Supposons que vous soyez devant deux portes. Selon une théorie, en allant à gauche vous risquez de mourir et en allant à droite vous gagnez de l'argent. L'autre théorie dit le contraire. L'entraînement par maximum de vraisemblance en choisira une au hasard. Avec une probabilité de 50 %, vous vous retrouverez avec la mauvaise théorie et vous mourrez.

Modératrice

Merci beaucoup. Vous avez mentionné vos expériences de pensée et les deux hypothèses. Est-ce que c'est lié à l'a priori dans les connaissances bayésiennes a priori ?

Yoshua Bengio

Je pense que les priors ne sont pas si importants. Si vous êtes dans le monde des réseaux neuronaux, les priors sont des choses que nous faisons déjà, comme les architectures et le prior de la SGD. Actuellement, nous trouvons un réglage de paramètres qui correspond aux données. La manière bayésienne consiste à vouloir trouver tous les réglages des paramètres et à vouloir être capable d'intégrer efficacement sur ceux-ci. Je pense que c'est tout à fait faisable.

Modératrice

Nous avons deux questions de Paris. Premièrement : 'Quel est le meilleur effort que nous puissions faire en tant que chercheurs pour tirer le meilleur parti de l'IA ?' Deuxièmement : 'Dans les avancées récentes, GPT-3 est lié à une puissance de calcul élevée et à de l'argent disponible uniquement dans les grandes entreprises technologiques. Cela pose un problème aux petites communautés et aux chercheurs. Comment les chercheurs voient-ils cela ?'

Yoshua Bengio

Je suis d'accord. Comment y remédier ? Il y a beaucoup de questions fondamentales que nous pouvons étudier dans un cadre plus restreint en utilisant des GPU actuels et non 2 000. Concevoir de nouveaux algorithmes qui intègrent des biais inductifs est très conceptuel ; vous pouvez les tester sur des choses à une échelle raisonnable. Nous pouvons également influencer les gouvernements pour qu'ils investissent dans la puissance de calcul pour la recherche universitaire afin de prendre des idées et de les transformer en applications à fort impact social.

Modératrice

Existe-t-il des pistes sur la manière d'effectuer la transition graduelle entre ce que nous apprenons dans le système causal lent et le système de routine rapide, comme la conduite en Australie que vous avez mentionnée ?

Yoshua Bengio

On peut apprendre de la manière dont cela se fait dans les cerveaux humains. La théorie que je trouve la plus séduisante est la théorie de l'espace de travail global, qui repose sur un goulot d'étranglement et l'attention pour sélectionner certaines parties du cerveau qui entrent en compétition les unes avec les autres. Une pensée est sélectionnée par un embrasement conscient et est diffusée pour orienter la décision suivante. C'est tout un réseau neuronal, mais vous avez ce système d'attention en compétition qui entraîne votre routine habituelle au fil du temps.

Modératrice

Pour les réseaux neuronaux biologiques, les mises à jour des poids peuvent se produire pendant l'inférence grâce à l'apprentissage hebbien. Cependant, pour les réseaux profonds, les poids sont généralement gelés pendant l'inférence. Pensez-vous qu'un tel décalage puisse entraver l'adaptabilité des modèles profonds ?

Yoshua Bengio

Nous ne savons pas vraiment comment les synapses sont mises à jour dans le cerveau, mais c'est probablement plus complexe que le style hebbien. Les connexions de rétroaction peuvent avoir un effet important sur les mises à jour qui mettent en œuvre quelque chose de proche de la rétropropagation. Jeff Hinton a proposé des poids rapides qui ont une vie courte et changent rapidement à l'échelle correspondant à la mémoire de travail. Les poids rapides pourraient faire partie de l'état du cerveau pour stocker des choses pendant un temps court.

Membre de l'auditoire

Votre définition du processus conscient portait principalement sur la causalité, mais dans mon esprit, la conscience inclut la conscience de soi. Avez-vous des idées concernant la conscience de soi dans votre processus conscient ?

Yoshua Bengio

Je suis désolé si vous avez eu l'impression que le traitement conscient était axé sur la causalité ; ce n'est pas le cas. C'est juste un élément. Il y a beaucoup plus dans l'article sur les biais inductifs inspirés de la cognition de haut niveau qui approfondit ce sujet. Le soi n'est qu'une partie de votre modèle du monde de qui je suis et d'où je suis. Surtout pour les tâches qui impliquent plusieurs agents où l'on veut représenter d'autres agents dans son modèle du monde, cela devient tout à fait important.

Lisa

Que pensez-vous du déploiement de systèmes d'IA dans le monde réel pour recueillir des commentaires, sachant que les systèmes ne sont pas parfaits ? Comment décider du moment où c'est suffisamment sûr ? Ceci dans un contexte où des démos imparfaites ont provoqué un tollé parce que les capacités ont pu être surévaluées ou les dommages non traités.

Yoshua Bengio

Les entreprises qui déploient ces systèmes doivent faire plus d'efforts pour les tester correctement et évaluer leurs faiblesses avant leur déploiement. Un problème est que nous n'avons pas de réglementation suffisante concernant l'IA. Si vous deviez déployer un nouveau produit chimique ou un avion, vous devriez passer par des formalités administratives pour prouver que votre produit n'est pas nuisible. Nous avons besoin d'une mise à jour de notre système réglementaire maintenant que les ordinateurs ont une telle influence sur la société.

Aziz Idris

Vous avez mentionné avoir changé d'avis plusieurs fois. Quels sont les facteurs qui vous font changer d'avis ? Au-delà de ce sur quoi vous travaillez pour l'avenir, quel est selon vous le prochain sujet de réflexion ?

Yoshua Bengio

Le problème avec le fait de changer d'avis ne réside pas dans les facteurs. Beaucoup de choses sont intéressantes. Le problème est de laisser tomber des choses auxquelles on croyait. Notre cerveau a tendance à s'accrocher aux choses que nous pensions être vraies. Il faut vraiment aller à l'encontre de cela et tout remettre en question. Ne tenez rien pour acquis, même si c'est écrit dans un article. Suivez votre intuition. Parfois, votre intuition dit quelque chose de différent de ce que vous pensiez auparavant ; ne la rejetez pas.

Modératrice

Merci beaucoup, Yoshua, d'avoir ouvert cet atelier New in Machine Learning. Nous vous sommes vraiment reconnaissants. Merci infiniment.