Yoshua Bengio - Bridging AI and Cognitive Neuroscience: From System 1 to System 2

Yoshua Bengio

Bridging AI and Cognitive Neuroscience: From System 1 to System 2

29 septembre 2022

Intelligence Artificielle

Introduction

Karim

Merci. Alors moi j'ai le grand plaisir d'introduire très brièvement Yoshua Bengio, qui est professeur titulaire au département d'informatique et de recherche opérationnelle de l'Université de Montréal, ainsi que le fondateur et le directeur du Mila, l'Institut québécois de recherche en intelligence artificielle, et aussi le directeur scientifique d'IVADO.

Karim

Il est considéré comme l'un des pères fondateurs et des leaders mondiaux en intelligence artificielle et notamment dans l'apprentissage profond. Il est lauréat du prix Turing 2018, qui pour ceux qui ne le savent pas, est l'équivalent d'un prix Nobel en informatique, aux côtés de Geoff Hinton et de Yann LeCun.

Karim

Il est membre de la Royal Society de Londres et du Canada. Il est officier de l'Ordre du Canada et titulaire d'une chaire IA du CIFAR. C'est vraiment un grand plaisir pour nous d'avoir Yoshua avec nous. Il est habitué de notre écosystème, il est souvent aussi dans les conférences MAIN.

Karim

Il a un réel intérêt pour les neurosciences, pour la neuroscience cognitive et ce qu'elles peuvent apporter à l'intelligence artificielle. Vous allez certainement en parler aujourd'hui. Et pour la petite histoire, en plus de son prix Turing, il est aussi médaillé 2019 de curling ici à Montréal et a gagné un concours de bouffe de chocolat l'année dernière.

Karim

J'en profite qu'on est le 1er avril Yoshua pour raconter des bêtises sur toi, c'était mon petit poisson d'avril. On va arrêter avec les bêtises. Je vais juste vous remercier encore une fois d'avoir été présent. Il y a encore des personnes qui arrivent, la salle est vraiment pleine, ça nous fait plaisir de voir tant de monde à CEREBRUM.

Karim

Revenez aussi à toutes les autres réunions de CEREBRUM qu'il y aura dans les prochaines semaines. Et sans plus tarder, je vais laisser la parole à Yoshua.

Bridging the Gap between AI and Human Intelligence

Yoshua Bengio

Merci Karim de me faire sourire. Je vais passer à l'anglais pour que plus de gens puissent comprendre. Comme le disait Karim, je m'intéresse aux neurosciences et aux sciences cognitives depuis plusieurs décennies.

Yoshua Bengio

Dans mes propres recherches, ce sont surtout les neurosciences de bas niveau, ce qui se passe au niveau des neurones et des petits circuits, qui ont influencé mon travail jusqu'à ces dernières années, où j'ai commencé à réfléchir davantage à la cognition de haut niveau et au traitement conscient, et à la façon dont cela peut servir d'inspiration pour combler ce que je considère comme la source majeure de l'écart entre les capacités actuelles des systèmes d'IA et l'intelligence humaine.

Yoshua Bengio

Mon objectif, le programme de recherche dont je vais vous donner un aperçu, est d'apporter certaines de ces capacités à l'apprentissage profond, d'étendre l'apprentissage profond pour y inclure un raisonnement de haut niveau et un traitement conscient délibéré, ainsi que les avantages qui les accompagnent pour relever le défi de ce que nous appelons la généralisation hors distribution, une sorte de problem de robustesse qui signifie que lorsque nous entraînons nos réseaux de neurones actuels sur des données et que nous essayons de les appliquer dans des contextes légèrement différents, hors distribution comme nous l'appelons, il y a une forte baisse de performance. Les humains semblent être beaucoup plus robustes à cet égard. C'est le thème principal.

Generalization and the i.i.d. Hypothesis

Yoshua Bengio

Il ne s'agit pas seulement des algorithmes que nous utilisons, la théorie derrière l'apprentissage automatique est entièrement basée sur ce qu'on appelle l'hypothèse i.i.d., l'hypothèse selon laquelle les exemples que l'apprenant voit proviennent tous de la même distribution, de manière indépendante. Bien sûr, ce n'est pas le cas pour les animaux et les humains. Le monde qui nous entoure ne cesse de changer. Il est non stationnaire.

Yoshua Bengio

Lorsque nous appliquons nos algorithmes actuels dans ces contextes, ils ne fonctionnent pas aussi bien. C'est un problème de distributions modifiées ou de généralisation hors distribution.

Yoshua Bengio

Il y a une bonne raison pour laquelle la théorie de l'apprentissage repose sur l'idée que tous les exemples proviennent de la même distribution, car cela nous permet d'espérer une certaine forme de généralisation. Pourquoi s'attendrait-on à ce qu'un système entraîné sur des données d'une certaine distribution fonctionne dans une distribution différente ? A priori, il n'y a aucune raison pour qu'il produise quoi que ce soit de bon.

Yoshua Bengio

Si nous nous débarrassons de l'hypothèse i.i.d., qui sous-tend une grande partie des statistiques, nous devons la remplacer par d'autres hypothèses. Il doit s'agir de ce que ces différentes distributions ont en commun. La seule façon pour nous d'espérer qu'un cerveau animal ou une machine soit performant dans un nouveau cadre est que ce nouveau cadre ait des points communs avec tout ce qu'il a vu auparavant. C'est une intuition importante. Cela a beaucoup à voir avec la façon dont nous représentons les connaissances et les connaissances que nous représentons.

Adaptation and Conscious Processing: The London Driving Example

Yoshua Bengio

Nous pouvons regarder ce qui arrive aux humains lorsqu'ils sont confrontés à des changements de distribution assez radicaux. Je vais donner un exemple que j'aime beaucoup. Disons que vous avez conduit la majeure partie de votre vie ici en Amérique du Nord, vous avez donc l'habitude de conduire avec les lois de la circulation que nous avons ici.

Yoshua Bengio

Vous voyagez à Londres, vous louez une voiture, et les choses ne sont pas si différentes, sauf qu'il y a au moins cette règle très importante qui dit que nous conduisons à gauche de la route. Les humains s'adaptent assez bien à cela, mais c'est pénible. Parfois, nous ne voulons pas le faire.

Yoshua Bengio

Ce qui va se passer, c'est que nous n'allons pas pouvoir conduire simplement en suivant nos habitudes. Nous allons devoir porter une attention soutenue à ce qui se passe sur la route à chaque instant, au moins pendant quelques heures, le temps de réentraîner notre cerveau à conduire du côté gauche.

Yoshua Bengio

C'est intéressant car cela signifie que la forme de calcul qui s'opère lorsque nous suivons nos cas habituels de même distribution est modifiée en quelque chose de complètement différent où, soudainement, nous sommes conscients de nombreux détails auxquels nous ne prêtons normalement pas attention, et nous nous répétons sans cesse dans notre esprit : 'Je ne dois pas oublier, je dois conduire à gauche.'

Yoshua Bengio

Finalement, nous réentraînons notre système habituel et tout va bien. Parfois, il ne s'agit pas seulement de répéter la nouvelle loi, mais vous devrez peut-être raisonner, utiliser différents éléments de connaissance ensemble, les assembler pour décider quoi faire dans ces nouvelles circonstances. C'est une partie de ce que font les humains.

System 1 and System 2 Cognition

Yoshua Bengio

C'est très étroitement lié à la notion de cognition Système 1 et Système 2 qui a été popularisée par Daniel Kahneman. Je vous encourage à lire son livre, 'Système 1 / Système 2 : Les deux vitesses de la pensée', si vous ne le connaissez pas.

Yoshua Bengio

En gros, pour les besoins de ma présentation, je vais considérer ces deux formes de calcul. Le Système 1 est le système habituel, intuitif. Vous n'avez pas besoin d'y réfléchir, vous pouvez simplement le faire rapidement. C'est un traitement parallèle qui se déroule dans votre cerveau. Vous n'avez pas besoin d'en être conscient.

Yoshua Bengio

Je peux conduire ici à Montréal et parler à la personne à côté de moi tout en ayant une attention très superficielle sur ce qui se passe sur la route, ce qui est peut-être une mauvaise idée, mais nous sommes capables de le faire. L'apprentissage profond actuel ressemble beaucoup à cela.

Yoshua Bengio

La connaissance utilisée dans le Système 1 n'est pas quelque chose à laquelle on accède facilement. C'est une connaissance implicite. Il est difficile d'expliquer comment on conduit. On peut essayer de l'expliquer, mais ce n'est que la pointe de l'iceberg. Ce qui se passe avec la pointe de l'iceberg, la partie que vous pouvez expliquer, relève davantage du Système 2.

Yoshua Bengio

Le Système 2 est très différent. Les types de tâches que nous rangeons dans cette catégorie sont séquentiels. Nous pouvons utiliser la logique. Il nous faut énormément de temps pour trouver des réponses à des questions. Si je vous demande d'additionner 31 et 23, essayez de le faire de tête. À moins que vous n'ayez pratiqué cette addition particulière, cela vous prendra un certain temps. Vous devez passer par plusieurs étapes dans votre esprit.

Yoshua Bengio

Vous pouvez le faire consciemment, vous pouvez donc réellement expliquer à quelqu'un d'autre ce qui s'est passé dans votre esprit pendant que vous le faisiez. Vous utilisez des connaissances explicites. C'est ce que cela signifie, que vous pouvez l'expliquer. Fondamentalement, le programme de recherche dont je vais vous parler consiste à incorporer ces capacités dans l'apprentissage profond.

Yoshua Bengio

Une bonne partie de ma conférence consistera à essayer de comprendre ce que sont ces capacités, à essayer de les décrire d'une manière que des informaticiens comme moi peuvent formaliser et utiliser pour guider la conception de nouvelles architectures de réseaux de neurones et de nouvelles façons de les entraîner.

Causality and High-Level Representations

Yoshua Bengio

J'aimerais ouvrir une parenthèse ici sur la causalité. Le lien évident est que nous pensons tout le temps aux causes et aux effets. Je marche dans la rue, je vois des choses et je me demande sans cesse comment c'est arrivé. Cela n'a rien à voir avec ma vie, cela n'a pas d'importance pour ma vie, mais je continue à me poser ces questions sur le pourquoi.

Yoshua Bengio

C'est bon pour les chercheurs, mais les enfants le font tout le temps. C'est intéressant et c'est lié à certaines des questions très fondamentales que nous nous posions il y a deux décennies, lorsque nous avons lancé cette révolution de l'apprentissage profond.

Yoshua Bengio

La question portait sur la représentation. Si nous voulons apprendre plusieurs niveaux de représentation — au départ, nous étions très inspirés par ce que nous savons du cortex visuel qui possède ces multiples zones avec des représentations progressivement plus abstraites — la question est : qu'est-ce qu'il y a au sommet ? Quelles sont les représentations les plus abstraites ?

Yoshua Bengio

Il semble qu'une bonne hypothèse soit que c'est le genre d'abstraction que nous pouvons verbaliser. C'est le genre d'explications qui correspondent aux causes de ce que nous observons. C'est ce à quoi nous pensons.

Yoshua Bengio

Cela soulève la question de savoir comment nous découvrons ces représentations de haut niveau et non seulement quelles sont les variables, mais comment elles sont liées les unes aux autres. Tout l'intérêt de la causalité n'est pas seulement qu'il y a une variable de cause et une variable d'effet, mais que l'une cause l'autre et non l'inverse. Il y a une structure que nous aimerions découvrir.

Yoshua Bengio

La causalité, si vous l'étudiez, est fondamentalement liée aux actions, à l'agentivité, à la notion que si je changeais la cause, cela aurait un impact sur l'effet, mais que cela ne fonctionne pas dans l'autre sens. Il s'agit d'actions, de ce que nous appelons des interventions.

Yoshua Bengio

La raison pour laquelle j'aborde ce sujet, la causalité et la cognition de haut niveau, est que l'intention est d'utiliser ce genre d'intuitions pour essayer de répondre à la question précédente : si nous n'utilisons pas l'hypothèse i.i.d., nous devons introduire de nouveaux biais inductifs, de nouvelles hypothèses.

Yoshua Bengio

Le cerveau semble utiliser une sorte d'hypothèses sur le monde. Nous allons explorer de bonnes sources de telles hypothèses qui peuvent expliquer nos capacités à conduire dans un nouvel endroit ; peut-être qu'il y a des travaux et que vous devez réfléchir à la façon dont vous allez contourner cela.

Causal Mechanisms and Physics

Yoshua Bengio

Comment fait-on cela ? Comment pouvons-nous utiliser notre compréhension de cela, ou du moins les hypothèses que nous formulons, pour concevoir des systèmes d'IA plus puissants et plus performants ? Laissez-moi revenir à la causalité car il y a aussi un lien intéressant avec la physique.

Yoshua Bengio

Si vous pensez aux lois de la physique, comme la loi de Newton, elle fonctionne sur Terre et elle fonctionne aussi sur la Lune. Ce qui est intéressant, c'est que cela signifie qu'il s'agit d'une régularité un peu différente du genre de régularité que nous capturons actuellement avec l'apprentissage automatique et les statistiques.

Yoshua Bengio

C'est une régularité qui a trait à la causalité. Si je pousse quelque chose, cela va tomber, et les relations entre les causes, moi poussant quelque chose, et les effets sont conservées. Mais ce sont les mécanismes qui sont conservés.

Yoshua Bengio

L'état ne l'est pas. L'image ou la vidéo de quelque chose qui se passe sur Terre a l'air très différente d'une vidéo de quelque chose qui se passe sur la Lune. Mais si nous capturons ces mécanismes causaux, comme les lois de la physique, alors nous avons de bonnes chances de généraliser correctement loin de nos données d'entraînement, comme aller sur la Lune et survivre.

Global Workspace Theory and Information Bottlenecks

Yoshua Bengio

C'est un peu ce que nous voulons faire. Je vais parler de quelques-unes de ces hypothèses qui, je pense, sont exploitées par les humains et qui sont révélées par la cognition de haut niveau et le langage naturel, car quand nous parlons, nous parlons de ce dont nous sommes conscients.

Yoshua Bengio

Le premier sur lequel j'ai travaillé, et qui reste la pièce maîtresse d'une certaine manière, est ce que Bernie Baars a décrit avec sa Théorie de l'Espace de Travail Global, dont il a commencé à parler dans les années 80.

Yoshua Bengio

Ce que dit la Théorie de l'Espace de Travail Global, c'est que nous avons cet espace de travail, ce goulot d'étranglement par lequel passent les informations qui vont être diffusées à l'ensemble du cerveau ou de l'ensemble du cortex. Il y a une compétition entre les différentes parties du cerveau, les différents morceaux de cortex, pour envoyer leur message via la mémoire de travail, qui est très petite.

Yoshua Bengio

Ce goulot d'étranglement est assez intrigant. Notre cerveau est immense. Pourquoi aurions-nous une contrainte si importante ? Une explication possible dont je parle depuis maintenant quatre ans est que cette contrainte pourrait aider de nombreuses façons, mais l'une des façons dont elle pourrait aider du point de vue de la théorie de l'apprentissage est qu'elle pourrait forcer le type de connaissances qui passent par ce goulot d'étranglement à s'organiser en morceaux de connaissances qui n'impliquent que très peu de variables à la fois.

Yoshua Bengio

Si vous regardez une phrase comme 'si je lâche la balle, elle tombera sur le sol', d'un point de vue statistique, c'est une chose incroyable qu'à partir de seulement deux ou trois concepts, nous puissions prédire avec une très grande fiabilité le résultat d'une expérience.

Yoshua Bengio

Normalement, en statistiques ou en apprentissage automatique, si vous essayez de prédire une variable comme un pixel à partir de deux ou trois autres, cela ne fonctionnera pas. Vous en auriez besoin de milliers d'autres pour avoir une bonne prédiction.

Yoshua Bengio

C'est une propriété particulière du genre de connaissances que nous communiquons verbalement et qui traversent notre esprit, à savoir qu'elles ont cette contrainte qui, selon notre hypothèse, correspond à une forme de parcimonie des dépendances entre ces variables abstraites de haut niveau dont nous sommes conscients.

Yoshua Bengio

En apprentissage automatique, nous utilisons des modèles graphiques où les cercles correspondent aux variables et les carrés correspondent aux mécanismes, des facteurs qui servent de médiateurs entre la cause et l'effet. C'est une propriété très forte qui n'est pas exploitée dans les systèmes d'IA de pointe.

Reusability and Discretization

Yoshua Bengio

La connaissance de ce qui se passe quand on lâche quelque chose n'est pas spécifique à ce qui se passe si je lâche une balle. Cela fonctionne aussi sur d'autres types d'objets. Les mécanismes sont donc réutilisables.

Yoshua Bengio

C'est comme si nous avions ces morceaux de connaissances qui peuvent être appliqués par une sorte d'indirection à de nouveaux objets, à de nouvelles variables. C'est différent de la façon standard dont nous concevons les réseaux de neurones au sens classique où un neurone a toujours les mêmes entrées.

Yoshua Bengio

Il existe des mécanismes qui permettent ce genre de choses dans le cerveau, appelés attention et modulation. Nous faisons des inférences en supposant que le même mécanisme peut être réutilisé sur de nouvelles instances si l'objet possède les bonnes affordances ou le bon type.

Yoshua Bengio

Une autre chose intéressante à propos de ce goulot d'étranglement est qu'au moins une grande partie de l'information qui le traverse a été compressée au point d'être discrète. Nous avons ces entités comme ces classes, ces mots, ils sont symboliques.

Yoshua Bengio

Récemment, nous avons émis l'hypothèse que si différents modules d'un grand réseau de neurones communiquaient entre eux non seulement par un goulot d'étranglement en termes de nombre de variables pouvant être communiquées, mais aussi par le nombre de bits d'information sur ces variables pouvant être communiqués — nous avons donc une discrétisation — alors il y a un avantage en termes de généralisation hors distribution.

Yoshua Bengio

Une façon de comprendre pourquoi cela serait utile est que les différents modules du cerveau doivent apprendre un langage compatible pour qu'un message ou une information émise par un module puisse être utilisé, reçu par de nombreux autres modules et vice versa. C'est aussi quelque chose dont Bernie Baars parle dans sa Théorie de l'Espace de Travail Global.

Yoshua Bengio

Si chaque module est expert dans une chose différente mais qu'ils doivent d'une manière ou d'une autre s'entendre sur une façon de communiquer l'information, et si nous discrétisons, cela devient beaucoup plus facile. Vous n'avez pas besoin d'être tout à fait précis, vous devez juste tomber dans la bonne catégorie. Ces modules sont donc interchangeables les uns avec les autres. Par exemple, dans une phrase, je peux remplacer un nom par un autre qui possède une sémantique compatible et la phrase continue d'être bien formée et significative.

Agency and Causal Interventions

Yoshua Bengio

Cette façon de penser a aussi des conséquences, non seulement pour les objets que nous percevons, mais aussi pour les actions ou les intentions. L'une des idées de base des théories de la causalité est que les changements de distribution sont dus à des interventions, à des actions d'agents.

Yoshua Bengio

Ces interventions ciblent, en gros, une variable de haut niveau, comme 'je veux boire, je veux mettre de l'eau dans mon corps'. Je devrai peut-être faire quelques choses pour y parvenir, mais la plupart des autres variables de haut niveau dans mon environnement ne sont pas la cible immédiate de cette action.

Yoshua Bengio

Il peut y avoir des conséquences de cette action en aval, mais il y a cette notion que les changements de distribution peuvent être expliqués par un changement d'une seule variable, peut-être. C'est une forme très forte de parcimonie. Ce n'est pas une question de dépendances, c'est une question de causalité ; les changements peuvent être expliqués par très peu de choses.

Yoshua Bengio

L'indice que cela est vrai est que lorsque nous posons la question 'pourquoi' — disons que quelque chose a changé dans la pièce et que nous sommes souvent capables de trouver une explication, 'quelqu'un a fermé la fenêtre' — si une seule phrase est capable de désigner la cause du changement, cela signifie qu'une grande partie de ces changements auxquels nous sommes capables de faire face possèdent réellement cette propriété.

Yoshua Bengio

J'ai écrit des articles à ce sujet et sur la façon dont nous pouvons exploiter cela dans l'apprentissage automatique pour entraîner des systèmes qui seront plus robustes aux changements, car si nous ajoutons cette hypothèse, il sera tout simplement plus facile de se remettre de ces changements.

Yoshua Bengio

Pourquoi y a-t-il un enfant avec des lunettes noires ici ? Voici l'explication : disons que vous mettez des lunettes noires. Au niveau des pixels, beaucoup de choses changent ; chaque pixel a soudainement une distribution différente.

Yoshua Bengio

On pourrait penser qu'il faudra beaucoup de réentraînement pour adapter vos yeux à ce nouvel environnement. Mais si vous avez un bon modèle du monde qui inclut la possibilité d'avoir des lunettes noires devant les yeux, alors il n'y a qu'une seule variable, un seul bit qui doit changer dans votre explication de ce qui se passe.

Yoshua Bengio

Vous n'avez pas besoin de beaucoup de données pour comprendre ce bit. Vous mettez simplement les lunettes et vous pouvez presque deviner ce qui s'est passé, même si quelqu'un d'autre mettait les lunettes devant vos yeux. C'est une idée très puissante : ce que fait notre cerveau, c'est apprendre ces représentations de haut niveau où il ne s'agit pas seulement d'un vecteur informe comme nous avons tendance à le penser avec l'apprentissage profond.

Yoshua Bengio

C'est divisé en ces morceaux de connaissances correspondant à des variables de haut niveau et à la façon dont elles sont liées les unes aux autres, de telle sorte que ces propriétés de parcimonie puissent être très puissantes et réellement orienter quelque chose.

Causal Discovery and Modular Architectures

Yoshua Bengio

Nous avons utilisé ces méthodes pour concurrencer les méthodes existantes pour ce qu'on appelle la découverte causale. À partir d'observations d'un ensemble de variables aléatoires, comme la fumée, les poumons, les rayons X, peut-on deviner quelle est la structure causale sous-jacente ?

Yoshua Bengio

En général, c'est difficile et il peut y avoir des réponses ambiguës. Mais si nous voyons des interventions, si quelqu'un a changé l'une des variables, cela devient plus facile. Ces méthodes sur lesquelles nous avons travaillé peuvent tirer parti à la fois des données d'intervention et des données d'observation, et elles fonctionnent très bien.

Yoshua Bengio

Elles utilisent ces réseaux de neurones localement pour apprendre ces dépendances, et elles utilisent les types d'idées dont j'ai parlé plus tôt sur la parcimonie afin de découvrir ces graphes. Si nous permettons à l'apprenant de ne pas se contenter d'observer passivement ces interventions et les changements de distribution, mais d'être des agents, de choisir réellement les interventions, alors il pourra apprendre beaucoup plus vite.

Yoshua Bengio

Ce n'est pas surprenant ; les humains font cela, cela s'appelle l'apprentissage actif et les bébés le font beaucoup. Les scientifiques le font, nous faisons des expériences. Nous avons également écrit des articles sur la façon dont, au lieu d'avoir ces réseaux de neurones qui sont une sorte de soupe homogène de neurones, l'architecture du réseau de neurones est divisée en petits modules.

Yoshua Bengio

Au lieu de permettre à tous les modules de parler à tous les modules de manière exhaustive comme nous le faisons habituellement, nous créons ces sortes de goulots d'étranglement. Eh bien, il s'avère que cela aide réellement à la généralisation hors distribution. Cela renforce l'idée que les goulots d'étranglement dont j'ai parlé aident réellement à cette capacité de généralisation à de nouveaux contextes.

Yoshua Bengio

Il s'agit d'un autre article sur le même thème. Nous l'avons appliqué à des modules qui apprennent des règles capables d'expliquer les données. L'idée que cet article intitulé Neural Production System met en avant n'est pas seulement que nous voulons partitionner pour découvrir une représentation qui se décompose en bons types de variables, mais aussi qui décompose la connaissance de la façon dont les variables interagissent en modules correspondant à des règles.

Comparing Deep Learning with Symbolic AI

Yoshua Bengio

Il est intéressant de prendre du recul et d'essayer de comparer le genre d'idées dont j'ai parlé avec la bonne vieille IA, l'IA symbolique. Beaucoup de choses dont j'ai parlé se retrouvent dans l'IA symbolique.

Yoshua Bengio

Vous avez ces règles, la connaissance est divisée en ces modules, et bien sûr les variables sont discrétisées, elles sont symboliques. Vous avez la notion d'appliquer la même règle à de nombreuses variables différentes, c'est la réutilisabilité. Mais il manque des choses que les réseaux de neurones actuels basés sur l'apprentissage automatique — et que nous ne voulons pas perdre.

Yoshua Bengio

Nous voulons que ces systèmes passent à l'échelle de machines de la taille d'un cerveau. Les algorithmes doivent passer à l'échelle, non seulement sur le plan informatique, mais aussi pour que l'apprentissage fonctionne. Ce n'est pas l'IA classique où il fallait écrire les règles soi-même. Il y a été des travaux pour essayer de les apprendre, mais sans grand succès. Il est très difficile d'apprendre des règles symboliques discrètes.

Yoshua Bengio

Une autre différence intéressante est que la vision classique de l'IA consiste réellement à manipuler ces concepts de haut niveau, comme ceux que nous manipons avec le langage. Mais il y a tout ce qui est de bas niveau, comme la perception sensorielle, les commandes motrices. Comment relier ces choses entre elles ? C'est ce qu'on appelle le problème de l'ancrage des symboles.

Yoshua Bengio

Nous voulons réunir la capacité d'extraire des représentations d'informations de bas niveau, au niveau des pixels, et de manipuler conjointement ces éléments de haut niveau. Nous ne voulons pas perdre cet ancrage. Un autre aspect important de l'apprentissage profond est l'accent mis sur l'apprentissage de représentations distribuées, ce qui signifie que même si nous manipons des symboles comme nous le faisons dans le langage.

Yoshua Bengio

Par exemple, l'état de l'art en traitement du langage naturel utilise l'apprentissage profond, mais le langage naturel, ce sont des symboles. L'une de mes contributions a été de travailler sur des réseaux de neurones qui représentent les symboles par des vecteurs, ce qu'on appelle des représentations distribuées, et d'utiliser cela pour généraliser de manière très puissante. Nous voulons garder cela. Oui, nous voulons des symboles, mais nous voulons garder ces représentations riches qui les accompagnent.

Yoshua Bengio

Une autre chose, peut-être plus subtile, est l'aspect de la recherche. Dans l'IA classique, disons que nous avons les règles et que nous faisons maintenant l'inférence, nous voulons répondre à de nouvelles questions. Malheureusement, il y a un problème de mise à l'échelle ici ; c'est coûteux. Le nombre de combinaisons de règles qui peuvent former une preuve de théorème croît de manière exponentielle.

Yoshua Bengio

Il existe toutes sortes de méthodes qui peuvent essayer de le faire efficacement, mais il ne semble pas que ce soit ainsi que le cerveau procède. Au lieu de cela, la réponse naturelle devrait être que nous avons des réseaux de neurones génératifs, comme les GAN, que nous avons inventés ici à Montréal, qui peuvent être entraînés à imaginer des réponses.

Yoshua Bengio

Un joueur d'échecs humain n'essaie pas un million de trajectoires différentes avant de jouer. Cela lui vient tout seul que ceci pourrait être une bonne chose, peut-être deux ou trois, peut-être dix, mais c'est tout. Pour la plupart des gens, ce sera juste un, peut-être zéro parce qu'ils suivront simplement leur habitude.

Yoshua Bengio

Nous voulons nous débarrasser du problème de la recherche qui empoisonne l'IA classique. La dernière chose de l'IA classique qui doit être corrigée est la gestion de l'incertitude. Le monde est incertain, le monde est probabiliste, et l'apprentissage automatique moderne est bien sûr basé sur la théorie des probabilités.

GFlowNets: Generative Flow Networks

Yoshua Bengio

Il y a des travaux en IA symbolique avec des probabilités, mais cela doit être dans notre recette. Voyons le genre de réseaux de neurones que nous aimerions avoir pour le Système 2. Nous aimerions des réseaux de neurones capables de générer, d'échantillonner des pensées.

Yoshua Bengio

Ces pensées sont générées séquentiellement. C'est le contenu de la mémoire de travail, très peu de bits d'information à la fois, mais une pensée après l'autre nous permet de former une explication ou un plan plus large. D'un point de vue informatique, une bonne façon de concevoir ces plans ou explications est sous forme de graphes.

Yoshua Bengio

Les nœuds correspondent aux variables et les arêtes correspondent aux relations entre les variables. Parfois, les relations impliquent plus de deux variables — il existe une chose appelée hypergraphe qui permet de relier trois variables entre elles via une hyperarête — mais c'est essentiellement un graphe.

Yoshua Bengio

Nous avons besoin de réseaux de neurones capables de générer ces graphes qui correspondent à des pensées de manière séquentielle afin d'aboutir à une image plus large d'une explication pour une scène que nous voyons. Les arêtes ou hyperarêtes qui relient les variables entre elles dans ce graphe devraient être des morceaux de connaissances réutilisables, comme les règles, comme les modules dont j'ai parlé avant.

Yoshua Bengio

Lorsque nous les composons séquentiellement pour former ce graphe plus grand, nous pouvons créer ces objets complexes à très haute dimension qui correspondent à toute une histoire. Cela nous donne un incroyable pouvoir de généralisation. Ces graphes devraient être stochastiques car il y a souvent plusieurs explications plausibles.

Yoshua Bengio

Peut-être qu'à un moment je penche pour cette façon de comprendre les choses, et plus tard il y a un nouvel élément de preuve et j'y pense sous un jour différent. Il y a une notion d'aléa ; mes pensées semblent parfois sortir de nulle part et n'avoir aucun lien avec ce qui se passe.

Yoshua Bengio

Il semble y avoir un caractère aléatoire là-dedans et, d'un point de vue théorique, cela aurait du sens car si vous voyez une scène, il y a une ambiguïté quant à l'explication correcte. La chose correcte à faire est d'être capable de représenter implicitement toutes les explications possibles, mais on ne peut penser qu'à une seule d'entre elles à la fois. Peut-être qu'elle est choisie de manière stochastique.

Yoshua Bengio

Comment pouvons-nous entraîner des réseaux de neurones capables de faire ces choses ? Je me rends compte que cela fait déjà 40 minutes, et donc pour la suite de la conférence, je vais aller un peu plus vite et rester à un niveau élevé, mais c'est le début d'une réponse aux grandes questions.

Yoshua Bengio

Nous avons lancé une nouvelle direction de recherche avec un type de réseaux de neurones appelés réseaux de flux génératifs ou GFlowNets.

Yoshua Bengio

Le premier article a été publié à NeurIPS en décembre, et nous avons publié un très gros article théorique intitulé GFlowNets Foundations ainsi que quatre autres articles au cours des trois derniers mois sur divers aspects mathématiques de ces objets et sur la façon dont ils pourraient être appliqués, dans ce cas, à la conception de séquences biologiques.

Yoshua Bengio

Laissez-moi essayer d'expliquer rapidement ce que sont les GFlowNets, puis d'essayer de relier cela aux éléments scientifiques dont j'ai parlé plus tôt.

Yoshua Bengio

Un GFlowNet est un type particulier de réseau de neurones capable de représenter des distributions de probabilité très riches sur des objets compositionnels.

Yoshua Bengio

Des objets compositionnels comme ces graphes, ou comme dans une phrase, où vous composez des mots ensemble, vous composez des idées ensemble d'une manière particulière.

Yoshua Bengio

Tout comme dans une phrase et un arbre syntaxique, on pourrait décrire la même phrase et le même arbre syntaxique dans des ordres différents et ce serait toujours le même objet. Il y a cette notion que nous pouvons construire le même objet comme un graphe dans des ordres différents, et nous avons trouvé un moyen mathématique de le faire correctement.

Yoshua Bengio

Laissez-moi passer ici, quelque chose de plus intuitif.

Yoshua Bengio

À un niveau élevé, un GFlowNet est un réseau de neurones qui construit séquentiellement un objet compositionnel par un processus stochastique. Il apprend une politique, et cette politique, vous devez la comprendre comme une politique d'attention : quel morceau de connaissance sera la prochaine pensée, le prochain contenu de ma mémoire de travail ?

Yoshua Bengio

À n'importe quel moment, il y a un contenu particulier. Au cours des cinq ou six dernières années, nous avons conçu des réseaux de neurones capables de prendre en entrée des graphes ou à peu près n'importe quel type de structure de données.

Yoshua Bengio

Ce genre de GFlowNet prendrait typiquement une telle structure de données en entrée, un graphe. Croyez-moi, nous pouvons faire cela.

Yoshua Bengio

La sortie de ce GFlowNet serait constituée de décisions sur le prochain élément que nous voulons ajouter au graphe. Peut-être voyez-vous l'élément bleu ici, l'arête avec le nœud numéro quatre, c'est un morceau du graphe que nous aimerions ajouter.

Yoshua Bengio

Maintenant, ma séquence de pensée construit une explication qui est ce petit graphe. C'est un peu plus grand, et puis peut-être qu'au moment suivant j'ajoute un autre morceau.

Yoshua Bengio

La politique pi choisit le prochain morceau à ajouter parmi tous ceux qui sont raisonnables dans ce contexte.

Yoshua Bengio

Il y a donc une compétition entre les morceaux possibles. Ces morceaux contiennent des informations sur la règle qui doit s'appliquer, ainsi que les valeurs : choisir la variable quatre et lui donner une valeur particulière.

Yoshua Bengio

C'est peut-être une variable latente, une explication de certaines des choses que je vois.

Yoshua Bengio

Cela se poursuivrait de manière séquentielle, et dans le formalisme GFlowNet, si nous obtenons une récompense — d'un point de vue neuroscientifique, cette récompense peut provenir de n'importe où, mais je vais également soutenir qu'une partie pourrait provenir du réseau lui-même et du modèle du monde que le réseau incarne.

Yoshua Bengio

Ensuite, nous avons des procédures d'entraînement pour fournir un signal de gradient aux sorties de ce GFlowNet.

Yoshua Bengio

Ensuite, il est entraîné comme d'habitude, on utilise la backprop. C'est une autre discussion : comment nous pourrions transformer la backprop en quelque chose de plus biologiquement plausible.

Yoshua Bengio

Un certain nombre de choses ont été proposées et j'ai mes propres solutions, mais qu'il suffise de dire qu'il est désormais plus accepté en neurosciences computationnelles que quelque chose ayant fonctionnellement la même puissance que la backprop puisse être implémenté dans le matériel neuronal.

Yoshua Bengio

Ce que le cadre GFlowNet nous dit, c'est comment fournir les signaux d'entraînement pour la séquence de ces actions internes qui sont réellement des décisions : quel module gagne et le contenu qui va être proposé et diffusé à l'ensemble du cerveau.

Yoshua Bengio

Ensuite, nous utilisons ces récompenses comme dans l'apprentissage par renforcement. Le GFlowNet est un type particulier d'apprentissage par renforcement. Comment obtenir un signal de gradient pour ce réseau ?

Modular Architectures and Conscious Ignition

Yoshua Bengio

Laissez-moi revenir à cette idée d'architecture modulaire car sur cette image, c'est comme si nous avions ce réseau de neurones gigantesque.

Yoshua Bengio

Rappelez-vous que j'ai dit que nous voulions diviser les connaissances en petits morceaux. Peut-être pouvez-vous voir cela comme de petits morceaux de cortex qui sont experts, comme dans la Théorie de l'Espace de Travail Global de Baars, et chacun d'eux représente un petit module.

Yoshua Bengio

Il s'avère que nous pouvons très naturellement diviser ce grand réseau de neurones en petits morceaux, et chaque petit morceau sera essentiellement un module qui entre en compétition avec les autres modules.

Yoshua Bengio

Le processus de sélection du morceau à ajouter correspond à une compétition entre ces modules. Et nous en savons beaucoup sur cette compétition.

Yoshua Bengio

Stanislas Dehaene et d'autres en neurosciences ont étudié ce qui se passe lorsque vous devenez conscient de quelque chose.

Yoshua Bengio

Il y a un motif frappant d'activations appelé ignition. Une sorte de dynamique se produit qui permet à différents concurrents potentiels de se battre et l'un d'entre eux l'emporte.

Yoshua Bengio

Cette information finit par être disponible pour toutes les autres parties du cerveau.

Yoshua Bengio

Le softmax ici, l'attention qui échantillonne l'une de ces pensées potentielles, met en œuvre ce que Dehaene et ses collaborateurs voient dans le cerveau.

World Models, Curiosity, and Inference

Yoshua Bengio

Il y a un autre élément que j'ai mentionné : d'où vient cette récompense ? Vous pourriez avoir une récompense extrinsèque dans l'apprentissage par renforcement, peut-être la faim et la douleur.

Yoshua Bengio

Le type de récompense qui m'enthousiasme le plus en tant que chercheur en IA est quelque chose de plus lié à l'acquisition de connaissances, comme la curiosité.

Yoshua Bengio

Ainsi, l'hypothèse naturelle que nous avons explorée est que these modules seraient non seulement experts pour proposer la pensée suivante, mais qu'ils incarneraient également ce qu'on appelle un modèle du monde dans l'apprentissage par renforcement.

Yoshua Bengio

Cette règle, disons, qu'un expert particulier connaît, est une sorte de connaissance générale qui relie des variables de différents types et une sorte de description des relations entre les variables.

Yoshua Bengio

Lorsqu'il y a compétition entre les modules, c'est pour répondre à une question particulière. Peut-être que certains nœuds ont été assignés et que nous essayons maintenant de trouver une pièce supplémentaire au puzzle.

Yoshua Bengio

C'est ce qu'on appelle l'inférence en apprentissage automatique. Le GFlowNet nous permet de séparer ces deux fonctions : représenter la connaissance générique et représenter comment répondre aux questions.

Yoshua Bengio

Selon ce qui est une entrée de ce module, c'est comme différentes questions et ensuite les réponses que vous pouvez imaginer comme le nouveau morceau que nous venons d'ajouter.

Yoshua Bengio

Ainsi, dans cette vision, chaque module serait capable à la fois de répondre à une question sur la compatibilité des différentes valeurs de ces variables, ce que nous appelons une fonction d'énergie dans notre jargon.

Yoshua Bengio

Il pourrait y avoir une sortie qui mesure à quel point cette combinaison est surprenante — c'est ce qu'est l'énergie.

Yoshua Bengio

De plus, une autre partie du réseau est entraînée pour être capable de remplir les blancs : si j'ai choisi certaines valeurs pour certaines des variables concernées par ma règle et que les variables sont déjà là dans ma tête et que je dois faire une supposition sur une autre variable qui pourrait être liée avec cette règle, c'est de l'inférence.

Yoshua Bengio

La pensée proposée pour cette règle pourrait être une valeur pour cette variable qui n'avait pas encore été assignée.

Yoshua Bengio

Si vous voulez en savoir plus sur les GFlowNets, j'ai écrit un tutoriel. Je vais récupérer le lien et le coller dans le chat.

Yoshua Bengio

Ceci s'adresse à un public ayant une perspective d'apprentissage automatique, mais pour ceux qui veulent regarder, laissez-moi revenir à mes diapositives.

Summary of Inductive Biases for System 2

Yoshua Bengio

Désolé pour l'interruption. Laissez-moi résumer avec certains des biais inductifs dont j'ai parlé — ces préférences ou hypothèses sur le monde qui s'appliquent uniquement aux connaissances du Système 2.

Yoshua Bengio

Il y a la préférence pour l'organisation de ces connaissances de haut niveau en ces modules réutilisables ; lorsque nous pensons au niveau conscient, nous sélectionnons dynamiquement une séquence de ces modules qui, ensemble, forment des explications, des réponses et des plans.

Yoshua Bengio

C'est cette compositionnalité qui biaise une grande partie de la capacité à généraliser hors distribution. Mais il existe d'autres hypothèses.

Yoshua Bengio

Nous avons besoin de ce goulot d'étranglement : seuls quelques éléments à la fois peuvent être communiqués entre ces experts. C'est la mémoire de travail.

Yoshua Bengio

Chaque expert, parce qu'il reçoit les nouveaux contenus de la mémoire de travail à chaque instant, peut avoir sa mémoire locale du contenu passé.

Yoshua Bengio

L'autre hypothèse est que ces modules décrivent les dépendances entre seulement quelques variables. Cela signifie donc que les dépendances entre les variables abstraites de haut niveau auxquelles nous pensons sont parcimonieuses.

Yoshua Bengio

Même si ces dépendances sont parcimonieuses, vous pouvez en avoir des millions ; le cerveau est suffisamment grand pour s'en accommoder.

Yoshua Bengio

Les variables sur lesquelles ces modules ont des connaissances peuvent être partagées entre plusieurs modules. C'est pourquoi ils doivent se parler pour parvenir à un accord, car pour presque toute décision, il existe des contraintes ou des sources d'information contradictoires qui doivent être combinées ensemble pour faire un choix.

Yoshua Bengio

Une autre hypothèse est que ces morceaux de connaissances qui sont sélectionnés, ces pensées, surviennent de manière séquentielle, chacun n'impliquant qu'un ou très peu de modules.

Yoshua Bengio

La sémantique de ces variables est souvent causale et correspond au côté action. Par exemple, l'intention de prendre un verre n'implique que le verre par rapport aux millions d'autres choses auxquelles on pourrait penser. C'est une autre hypothèse très forte. Je m'arrête ici pour aujourd'hui.

Yoshua Bengio

Je serai heureux de répondre aux questions.

Q&A - Testing the Theory in Neuroscience

Stefan

Merci beaucoup pour votre présentation fort intéressante. Est-ce qu'il y a des questions dans l'audience ou à la maison ?

Stefan

Oui, Vincent.

Vincent

Est-ce que vous nous entendez ?

Yoshua Bengio

Oui.

Vincent

Merci beaucoup, c'est fort intéressant de voir comment le monde de l'AI et des neurosciences cognitives se mergent. Beaucoup d'entre nous venons des neurosciences cognitives. Avez-vous une intuition que votre théorie pourrait générer des données qu'on pourrait mesurer pour faire l'arbitre entre le global neuronal workspace et votre théorie, et essayer de prouver votre théorie ? Comment pourrait-on s'y prendre ?

Yoshua Bengio

C'est une bonne question. Je n'ai pas assez réfléchi à cette question. Je suis en plein dans le développement de la théorie et des évaluations des détails : the devil is in the details. Ce sont les articles que je vous ai montrés et d'autres qui sont en préparation.

Yoshua Bengio

Ce que je propose n'est pas en compétition avec le global workspace theory, c'est plutôt d'essayer de l'amener dans un langage qui serait plus compatible avec ce qu'on sait mathématiquement en intelligence artificielle, en apprentissage automatique.

Yoshua Bengio

Il va y avoir des prédictions nouvelles qui vont sortir de ça, car une fois qu'on accepte le cadre que j'ai discuté aujourd'hui, il y a pas mal de variantes possibles. Ce sera intéressant de pouvoir évaluer ces variantes à travers des expériences soit en neuroscience ou directement au niveau cognitif.

Vincent

Si je peux me permettre une petite suite à la question, est-ce possible que dans votre modèle, après le bottleneck, il y ait un changement dans les représentations entre des représentations de plus bas niveau et celles de plus haut niveau ? Est-ce que ce que votre théorie prédit ?

Yoshua Bengio

Pour moi les représentations changent tout le temps. Ça dépend de ce que t'appelles représentation ; les configurations d'activité des neurones changent tout le temps. Ce qui ne change pas rapidement, ce sont les poids synaptiques. La sémantique qui mène à ces représentations-là change, mais lentement.

Yoshua Bengio

Par contre on a l'hippocampe ; on peut faire du one-shot learning et utiliser de la mémoire épisodique. C'est quelque chose qui va aider l'implémentation de ma théorie pour gérer le fait que les algorithmes qu'on utilise dans les réseaux de neurones modernes, avec la descente de gradient stochastique, ne font pas du one-shot learning. Ça prend beaucoup d'itérations pour compiler la connaissance, mais par contre ça va généraliser beaucoup mieux qu'un truc qui fait juste stocker des mémoires épisodiques. Il n'y a pas de généralisation dans une simple mémoire. Mon hypothèse est que l'hippocampe ne stocke pas des choses de bas niveau mais juste des représentations de haut niveau qui sont passées par le bottleneck. On va avoir besoin de répéter ça, pas nécessairement à un niveau conscient, ça peut se faire quand on dort, quand on médite ou quand on n'est pas occupé par le monde extérieur. Il y a des observations de neuroscience qui vont dans ce sens-là, où la consolidation va faire en sorte que l'apprentissage par gradient stochastique — lent mais qui permet d'extraire de la connaissance généralisable — va se faire graduellement. C'est ça qui va être impliqué ensuite pour répondre à une nouvelle question.

Q&A - Discretization and Continuous Representations

Stefan

Il y avait une question en arrière.

Membre de l'audience

J'ai une question sur la continuité des comportements humains par rapport à la discrétisation des GFlowNets et dans quelle mesure on peut introduire les pensées avec une topologie autre qu'un graphe dans ce framework.

Yoshua Bengio

Ça n'est pas obligé que ce soit un graphe, c'est juste que c'est plus facile d'y penser comme ça. On peut même mettre des variables continues. Nos premiers articles se sont concentrés sur le cas discret qui est plus facile à instrumenter et à analyser mathématiquement, mais on peut tout à fait — dans le papier GFlowNet Foundations on mentionne comment faire et j'ai plusieurs étudiants qui travaillent sur le cas continu. N'importe quelle représentation qu'on peut construire par une séquence d'actions — ces actions peuvent être continues ou discrètes — ça peut fitter dans le cadre du GFlowNet.

Yoshua Bengio

J'ai des pensées visuelles, géométriques, qui ne sont pas toujours exprimées de manière clairement verbale même si je peux essayer de l'expliquer verbalement. Il n'y a pas que des symboles.

Q&A - Primary vs. Higher Functions (HAL 9000)

Membre de l'audience

Bonjour professeur Bengio. Dans le contexte d'essayer de reproduire une intelligence artificielle comparable à HAL dans Space Odyssey 2001, jugez-vous nécessaire de développer d'abord les fonctions primaires inférieures pour ensuite travailler sur les fonctions supérieures, ou les deux peuvent-ils aller en parallèle, ou les deux sont-ils indépendants ?

Yoshua Bengio

Dans les dernières décennies on a fait pratiquement que les fonctions inférieures dans l'apprentissage automatique. Le deep learning ne touche pas vraiment aux fonctions supérieures. Je ne pense pas qu'on puisse ; l'intelligence artificielle classique essayait de faire juste la partie supérieure toute seule en espérant que quelqu'un fournisse les symboles de départ. Ce qui va dans certaines situations mais en général n'est pas suffisant.

Yoshua Bengio

Si on veut construire un robot, on a besoin des deux ensemble. On a appris en apprentissage automatique que pour que ça fonctionne bien, un système qui a plusieurs parties doit être entraîné conjointement, pour que les morceaux s'adaptent en fonction de la présence des autres. Je ne pense pas qu'on puisse le faire séparément. On peut faire la partie perception comme on fait déjà aujourd'hui, mais il va nous manquer des capacités dont j'ai essayé de parler aujourd'hui.

Membre de l'audience

Dans votre projet des fonctions supérieures, vous espérez que ça avance en parallèle avec les autres.

Yoshua Bengio

Non, pas en parallèle ; ce sont les réseaux de neurones qu'on essaie d'entraîner qui font les deux. Ils apprennent des représentations perceptuelles, éventuellement des skills — des représentations motrices — avec des abstractions de l'un et de l'autre et les relations de haut niveau qui existent entre ces abstractions. Il faut que ce soit tout ensemble.

Q&A - Agency, Bidirectionality, and Social Biases

Stefan

Une autre question à la maison, Caroline Desmarteaux. Allez-y.

Caroline Desmarteaux

Bonjour. L'apprentissage artificiel n'est pas mon expertise, mais je m'interroge dans la mesure où la conscience est un aspect bidirectionnel : ce savoir qu'on accumule est aussi incarné. Cette conscience repose sur une agentivité qui prend racine dans le besoin d'action, dans la possibilité d'action, dans l'intention d'action. Les systèmes comme vous les décrivez ne pourront pas agir sur les données. Il y a cette absence de bidirectionnalité.

Yoshua Bengio

C'est même essentiel. J'en ai parlé un peu quand je parlais de causalité. Si on veut apprendre une représentation causale, il est essentiel d'avoir des interventions, c'est-à-dire des actions.

Yoshua Bengio

On ne peut pas directement commander au verre de venir dans ma bouche. Je ne vais peut-être pas tout à fait réussir mon intention donc il y a un décalage entre mon intention et ce qui arrive réellement. On doit apprendre ça. En reinforcement learning c'est ce qu'on fait, mais les gens ne savent pas comment construire une hiérarchie de ces commandes de haut niveau. Des théories ont été proposées depuis une vingtaine d'années, dont par Doina Precup qui est une des auteures de l'article de base de GFlowNet. Ma conviction est qu'il faut apprendre tous ces morceaux ensemble.

Yoshua Bengio

Par exemple la notion d'objet au niveau perceptif est relativement comprise ou acceptée en sciences cognitives comme n'étant pas indépendante du fait qu'on puisse agir sur ces objets. Il y a une raison pour ça.

Caroline Desmarteaux

La conscience humaine est un objet qui repose sur des biais ; on peut dire que les humains sont biaisés. Est-ce que cette machine risque aussi de reposer sur certains biais, c'est-à-dire que nos apprentissages vont orienter les apprentissages ultérieurs ?

Yoshua Bengio

Si on réussit à avancer sur ce programme, ça pourrait nous aider à réduire les problèmes de biais dans l'apprentissage automatique.

Yoshua Bengio

Pourquoi a-t-on des biais dans des systèmes entraînés sur internet ? Quand les gens jasent sur internet, il y a plein de biais inconscients ou conscients qui propagent des valeurs avec lesquelles collectivement on a décidé qu'on n'était pas d'accord. On s'est donné des normes sociales contre le racisme, le sexisme et tout ça, mais tout le monde ne les suit pas. Quand on collecte des données et qu'on entraîne un réseau de neurones sur des milliards de données, il va tout absorber sans savoir ce qui est bon ou pas.

Yoshua Bengio

Mais un être humain, on va pouvoir lui dire : 'Ça c'est la règle qu'on s'est donnée collectivement, essaie d'en tenir compte dans tes actions.' Je vais essayer de rendre ça un peu plus personnalisé. Il m'est arrivé d'avoir des pensées pour interpréter une situation et de me dire que c'est biaisé, que ma pensée n'est pas en accord avec mes valeurs. Là je décide de ne pas nécessairement agir dans le sens de ma première impulsion.

Yoshua Bengio

C'est le système deux qui est entré en ligne. Dans nos connaissances qui mènent à nos décisions, on ne va pas seulement avoir ce qu'on a expérimenté mais aussi des règles sociales, des normes sociales qu'on a acceptées. Elles ne sont pas exprimées sous la forme d'expériences qu'on a vécues mais à un niveau verbal, au très haut niveau, et vont pouvoir par exemple inhiber des réactions impulsives.

Yoshua Bengio

D'incorporer le système deux dans les réseaux de neurones va nous aider à combattre les problèmes de biais de discrimination qui existent dans les systèmes d'intelligence artificielle actuels. Il faudra faire les bonnes choses avec, mais nous aurons des outils.

Caroline Desmarteaux

Merci beaucoup.

Q&A - One-Shot Learning and Meta-Learning

Stefan

Merci.

Membre de l'audience

Merci pour la présentation. Vous avez mentionné le cas où les humains peuvent apprendre à partir d'un seul exemple. Par exemple, je ne connaissais pas la poutine, on m'a montré une image d'une poutine et je vais la reconnaître. Les êtres humains font ça parce qu'ils ont des connaissances dans d'autres domaines qui leur permettent d'apprendre très rapidement à partir d'un seul exemple. Cela fait appel aux algorithmes comme le meta-learning. J'aimerais savoir comment on peut adapter GFlowNet au meta-learning parce que dans le cas de GFlowNet les états sont spécifiés à l'avance et les actions...

Yoshua Bengio

Ils ne sont pas spécifiés à l'avance. C'est quelque chose qui peut émerger de manière complètement non supervisée. Ce qui motive une grande partie de ma démarche est justement le problème que vous posez : comment les humains réussissent à généraliser à une nouvelle catégorie d'objets à partir de si peu d'exemples là où les meilleurs systèmes d'aujourd'hui auraient besoin de beaucoup d'exemples.

Yoshua Bengio

C'est une question de représentation de la connaissance. Il n'y a rien de magique. On a réussi à décomposer nos connaissances en parties bien factorisées ; quand vous voyez une poutine, vous allez pouvoir vous construire une représentation qui n'est pas tabula rasa, mais construite à partir des concepts que vous connaissez déjà. Très peu de nouveauté sera nécessaire pour construire le nouveau concept poutine. Peu de bits d'information sont nécessaires pour avoir vraiment compris ce qu'est une poutine.

Yoshua Bengio

C'est une question de représentation de la connaissance. Cette modularisation essaie d'atteindre une structure dans nos réseaux de neurones qui permet de généraliser au mieux à des changements, à des nouvelles choses, en réutilisant les parties qu'on connaît déjà. C'est la motivation principale. On avance sur ce chemin et presque tous les articles que nous écrivons, notre évaluation quantitative est pour répondre à ce genre de question. Si on entraîne sur des données et qu'ensuite on mesure sur des nouvelles données, combien d'exemples cela prend-il pour s'adapter, à quelle vitesse il va apprendre ou est-ce qu'il va bien généraliser rapidement ?

Yoshua Bengio

Merci de la question.

Q&A - CLIP, Attention, and Modularization

Stefan

Merci. À la maison il y a Pierre Bellec qui voulait poser une question. Pierre.

Pierre Bellec

Merci beaucoup pour la présentation. Quand vous avez parlé de la théorie du global workspace, cela m'a fait penser à ce réseau CLIP qui est entraîné sur des images et sur du texte qui annote le contenu, avec une branche pour la vision, une branche pour le langage et un espace commun. Pensez-vous que ce type de réseau entraîné sur de vastes quantités de données peut réussir à apprendre des représentations causales et des quantités abstraites très compactes ?

Yoshua Bengio

Il faut quelque chose de radicalement différent. On a fait des progrès : depuis 2014-2015 on a développé les mécanismes d'attention qui sont utilisés dans CLIP. Ça a été un game changer. C'est juste le début car ces mécanismes d'attention, qui sont au cœur de processus conscient, donnent un pouvoir d'expression pour réutiliser le même morceau de réseau de neurones sur d'autres inputs. C'est ce que font les transformeurs.

Yoshua Bengio

On a encore trop cette notion d'avoir un gros morceau sans réfléchir au fait qu'on peut réutiliser n'importe quelle combinaison de morceaux. Dans un transformeur on ne peut pas combiner les morceaux n'importe comment. Ce que j'ai lu est qu'au niveau du cortex, avec de l'entraînement, on peut contrôler n'importe quelle région. On peut s'entraîner à porter attention et à contrôler ; la modularisation — la capacité à sélectionner une partie de ce qui se passe pour en faire un focus soit de perception ou d'action — semble être pluripotente à travers le cortex. Il y a une capacité de modularisation qui n'existe pas dans les architectures comme CLIP ou les transformeurs. On n'est pas à des années-lumière de ce que je dis là. Une fois qu'on aura mieux compris les principes sous-jacents, il y aura beaucoup de choses à essayer qui pourraient nous ouvrir des portes.

Yoshua Bengio

Merci Pierre.

Q&A - Catastrophic Forgetting and Factorization

Stefan

Merci. Est-ce qu'il y a d'autres questions à la maison ? Laurent.

Laurent

Bonjour, merci pour la présentation. Concernant les GFlowNets, sont-ils entraînés une tâche à la fois ou pour plusieurs tâches ? Le réseau retiendra-t-il ce qu'il a appris pour une tâche même si on l'entraîne ensuite pour une autre, ou y aura-t-il le catastrophic forgetting qui est souvent le cas dans les réseaux de neurones ?

Yoshua Bengio

Merci de la question. On ne s'est pas encore penché là-dessus mais une des motivations pour ce genre de système est d'éviter le catastrophic forgetting ou de le minimiser, car les humains sont aussi dans une certaine mesure sensibles à ça. Le problème de généralisation à des nouvelles situations et le problème du catastrophic forgetting sont très proches.

Yoshua Bengio

On a développé des méthodes où on essaie d'entraîner d'une façon que les morceaux de connaissance vont se factoriser en plusieurs modules. L'hypothèse est qu'une bonne factorisation fait en sorte que lorsqu'il y a des changements, il n'y aura pas besoin que tous les modules se réentraînent. L'idée de l'attention qui se focus sur juste quelques modules est que seuls ces modules vont être adaptés. Tout le reste n'est pas dérangé.

Yoshua Bengio

Si on a un très bon modèle du monde, une très bonne factorisation des connaissances, on n'a peut-être même pas besoin d'adaptation. Les humains sont souvent amenés dans une nouvelle situation et trouvent les solutions directement sans s'entraîner. Si tu as un bon modèle bien factorisé, tu peux recombiner tes connaissances, raisonner, et trouver des solutions sans avoir besoin de pratiquer beaucoup.

Yoshua Bengio

S'il y a des choses nouvelles, tu veux que ça affecte le moins de parties de ton système ; si tu as un milliard de neurones qui doivent s'adapter, cela veut dire que toutes les autres choses apprises avant seront perturbées. Si ce soit localisé dans quelques modules, ce sera beaucoup réduit. C'est un ingrédient important pour la robustesse à l'apprentissage séquentiel. Il y a une autre manière de réfléchir à ça : le model-based reinforcement learning. On a deux réseaux de neurones : la partie qui fait l'inférence et la partie qui représente les connaissances. La partie qui représente les connaissances est le modèle ; c'est la structure causale du monde. La partie inférence te permet de prédire instantanément quand tu vois une balle tomber ce qui va arriver. Ton modèle essaie d'expliquer toute ton expérience de vie. Il n'est pas juste spécialisé à une tâche, il essaie d'être cohérent avec tout ce que tu as vécu. La partie qui fait l'inférence est plus spécialisée ; elle est entraînée aux genres de questions auxquelles elle a été confrontée souvent. On n'a pas besoin de changer notre modèle du monde, on a juste besoin de pratiquer plus l'inférence dans les contextes qui nous intéressent. Beaucoup d'éléments dans le design que j'entrevois vont faire en sorte que le problème de catastrophic forgetting sera réduit. Dernier élément : la mémoire. Le problème du catastrophic forgetting vient du fait qu'on fait l'hypothèse abusive qu'on n'a pas accès à toutes nos anciennes expériences. Dans ton cerveau tu peux stocker toute ta vie facilement. Ta mémoire épisodique peut remonter loin. Il y a des choses qui se passent à un niveau inconscient qui font que tu continues à pratiquer avec tes anciennes expériences et à rester cohérent.

Membre de l'audience

Merci, si je peux juste faire une relance là-dessus.

Yoshua Bengio

Oui.

Membre de l'audience

Si le réseau apprend une tâche puis veut en apprendre une seconde, il y a moyen de modifier certains modules, mais si le contenu de la deuxième tâche était différent, modifier certains modules donnerait des représentations plus robustes que de tout modifier. Comment le réseau sait-il qu'il faut modifier moins de modules ? Est-ce que nous savons cela parce que nous avons déjà vu beaucoup de tâches ?

Yoshua Bengio

Dans notre cerveau, suite à l'évolution, on a déjà des biais qui sont présents.

Membre de l'audience

C'est clair.

Yoshua Bengio

Est-ce que ces biais — parce que là le réseau est entraîné à partir de poids aléatoires ?

Membre de l'audience

Oui.

Yoshua Bengio

Les biais inductifs que l'évolution a mis en nous et que nous ne serons pas nécessairement capables de mettre dans nos réseaux de neurones artificiels devront être compensés par plus d'apprentissage et plus d'exemples. C'est déjà ce qui se passe : pour apprendre la même tâche, on a besoin de beaucoup plus de données qu'un bébé de deux ans.

Membre de l'audience

Merci.

Q&A - Multidisciplinary Collaboration

Modérateur

Est-ce qu'il reste des questions ?

Membre de l'audience

Yoshua, nous avons beaucoup d'étudiants en psychologie et neurosciences cognitives. Pour ceux qui trouvent intéressant le rapprochement entre IA, neurosciences cognitives et psychologie, certains acquerront le bagage nécessaire pour programmer et utiliser les outils en apprentissage profond. D'autres n'auront pas les moyens avec leur formation mais peuvent apporter un autre type de contribution pour cette interface. Quel type de recherche encouragerais-tu pour ces étudiants qui veulent collaborer avec les chercheurs en IA ?

Yoshua Bengio

C'est comme dans n'importe quelle collaboration multidisciplinaire ; il y a un effort à faire des deux bords. Je lis des choses de neurosciences cognitives, et les chercheurs en neurosciences cognitives devront lire des choses en intelligence artificielle, être capables de lire les articles et d'avoir une bonne idée des principes généraux. C'est un travail qui prend du temps et des efforts. Ce sera plus motivant dans un contexte de collaboration avec des personnes qui peuvent nous aider. C'est à travers des collaborations multidisciplinaires que ce sera le plus fructueux car la littérature dans votre domaine est tellement vaste qu'il est impossible pour quelqu'un de notre bord d'aller chercher toute l'information. On n'y arrivera pas en y pensant indépendamment chacun de notre côté.

Membre de l'audience

Merci.

Q&A - Neuroimaging Experiments

Modérateur

Dernière question, nous n'allons pas trop abuser de votre temps professeur Bengio.

Membre de l'audience

Quel type d'expérience en neuroimagerie fonctionnelle pourrait aider à mieux comprendre l'implémentation des GFlowNets dans le cerveau ?

Yoshua Bengio

J'ai répondu que je n'avais pas assez pensé à la question. Cette hypothèse de modularisation et de l'information propagée d'une région du cerveau vers d'autres régions activées dans une ignition consciente est le genre de choses qu'on va pouvoir étudier. On va vouloir décortiquer ce qui se passe. Par exemple : quand il y a une ignition, est-ce qu'un seul module l'emporte ou est-ce une coalition ? Si c'est une coalition, est-ce deux, trois, 25 ou 500 ? L'imagerie pourrait nous aider à clarifier cela.

Membre de l'audience

Merci.

Conclusion

Modérateur

Merci beaucoup pour votre présentation professeur Bengio. Merci d'être venus si nombreux. Il y a du vin et des chips.

Membre de l'audience

Oui, pour le vin et les chips.

Yoshua Bengio

Merci de m'avoir écouté, merci de votre attention et j'espère que ça stimulera des réflexions et des collaborations avec les chercheurs en IA.

Modérateur

Certainement, merci encore. Au revoir.

Retour aux entretiens de Yoshua Bengio