Bridging AI and Cognitive Neuroscience: From System 1 to System 2
29 septembre 2022
Intelligence Artificielle
Introduction
Merci. Alors moi j'ai le grand plaisir d'introduire très brièvement Yoshua Bengio, qui est professeur titulaire au département d'informatique et de recherche opérationnelle de l'Université de Montréal, ainsi que le fondateur et le directeur du Mila, l'Institut québécois de recherche en intelligence artificielle, et aussi le directeur scientifique d'IVADO.
Il est considéré comme l'un des pères fondateurs et des leaders mondiaux en intelligence artificielle et notamment dans l'apprentissage profond. Il est lauréat du prix Turing 2018, qui pour ceux qui ne le savent pas, est l'équivalent d'un prix Nobel en informatique, aux côtés de Geoff Hinton et de Yann LeCun.
Il est membre de la Royal Society de Londres et du Canada. Il est officier de l'Ordre du Canada et titulaire d'une chaire IA du CIFAR. C'est vraiment un grand plaisir pour nous d'avoir Yoshua avec nous. Il est habitué de notre écosystème, il est souvent aussi dans les conférences MAIN.
Il a un réel intérêt pour les neurosciences, pour la neuroscience cognitive et ce qu'elles peuvent apporter à l'intelligence artificielle. Vous allez certainement en parler aujourd'hui. Et pour la petite histoire, en plus de son prix Turing, il est aussi médaillé 2019 de curling ici à Montréal et a gagné un concours de bouffe de chocolat l'année dernière.
J'en profite qu'on est le 1er avril Yoshua pour raconter des bêtises sur toi, c'était mon petit poisson d'avril. On va arrêter avec les bêtises. Je vais juste vous remercier encore une fois d'avoir été présent. Il y a encore des personnes qui arrivent, la salle est vraiment pleine, ça nous fait plaisir de voir tant de monde à CEREBRUM.
Revenez aussi à toutes les autres réunions de CEREBRUM qu'il y aura dans les prochaines semaines. Et sans plus tarder, je vais laisser la parole à Yoshua.
Bridging the Gap between AI and Human Intelligence
Merci Karim de me faire sourire. Je vais passer à l'anglais pour que plus de gens puissent comprendre. Comme le disait Karim, je m'intéresse aux neurosciences et aux sciences cognitives depuis plusieurs décennies.
Dans mes propres recherches, ce sont surtout les neurosciences de bas niveau, ce qui se passe au niveau des neurones et des petits circuits, qui ont influencé mon travail jusqu'à ces dernières années, où j'ai commencé à réfléchir davantage à la cognition de haut niveau et au traitement conscient, et à la façon dont cela peut servir d'inspiration pour combler ce que je considère comme la source majeure de l'écart entre les capacités actuelles des systèmes d'IA et l'intelligence humaine.
Mon objectif, le programme de recherche dont je vais vous donner un aperçu, est d'apporter certaines de ces capacités à l'apprentissage profond, d'étendre l'apprentissage profond pour y inclure un raisonnement de haut niveau et un traitement conscient délibéré, ainsi que les avantages qui les accompagnent pour relever le défi de ce que nous appelons la généralisation hors distribution, une sorte de problem de robustesse qui signifie que lorsque nous entraînons nos réseaux de neurones actuels sur des données et que nous essayons de les appliquer dans des contextes légèrement différents, hors distribution comme nous l'appelons, il y a une forte baisse de performance. Les humains semblent être beaucoup plus robustes à cet égard. C'est le thème principal.
Generalization and the i.i.d. Hypothesis
Il ne s'agit pas seulement des algorithmes que nous utilisons, la théorie derrière l'apprentissage automatique est entièrement basée sur ce qu'on appelle l'hypothèse i.i.d., l'hypothèse selon laquelle les exemples que l'apprenant voit proviennent tous de la même distribution, de manière indépendante. Bien sûr, ce n'est pas le cas pour les animaux et les humains. Le monde qui nous entoure ne cesse de changer. Il est non stationnaire.
Lorsque nous appliquons nos algorithmes actuels dans ces contextes, ils ne fonctionnent pas aussi bien. C'est un problème de distributions modifiées ou de généralisation hors distribution.
Il y a une bonne raison pour laquelle la théorie de l'apprentissage repose sur l'idée que tous les exemples proviennent de la même distribution, car cela nous permet d'espérer une certaine forme de généralisation. Pourquoi s'attendrait-on à ce qu'un système entraîné sur des données d'une certaine distribution fonctionne dans une distribution différente ? A priori, il n'y a aucune raison pour qu'il produise quoi que ce soit de bon.
Si nous nous débarrassons de l'hypothèse i.i.d., qui sous-tend une grande partie des statistiques, nous devons la remplacer par d'autres hypothèses. Il doit s'agir de ce que ces différentes distributions ont en commun. La seule façon pour nous d'espérer qu'un cerveau animal ou une machine soit performant dans un nouveau cadre est que ce nouveau cadre ait des points communs avec tout ce qu'il a vu auparavant. C'est une intuition importante. Cela a beaucoup à voir avec la façon dont nous représentons les connaissances et les connaissances que nous représentons.
Adaptation and Conscious Processing: The London Driving Example
Nous pouvons regarder ce qui arrive aux humains lorsqu'ils sont confrontés à des changements de distribution assez radicaux. Je vais donner un exemple que j'aime beaucoup. Disons que vous avez conduit la majeure partie de votre vie ici en Amérique du Nord, vous avez donc l'habitude de conduire avec les lois de la circulation que nous avons ici.
Vous voyagez à Londres, vous louez une voiture, et les choses ne sont pas si différentes, sauf qu'il y a au moins cette règle très importante qui dit que nous conduisons à gauche de la route. Les humains s'adaptent assez bien à cela, mais c'est pénible. Parfois, nous ne voulons pas le faire.
Ce qui va se passer, c'est que nous n'allons pas pouvoir conduire simplement en suivant nos habitudes. Nous allons devoir porter une attention soutenue à ce qui se passe sur la route à chaque instant, au moins pendant quelques heures, le temps de réentraîner notre cerveau à conduire du côté gauche.
C'est intéressant car cela signifie que la forme de calcul qui s'opère lorsque nous suivons nos cas habituels de même distribution est modifiée en quelque chose de complètement différent où, soudainement, nous sommes conscients de nombreux détails auxquels nous ne prêtons normalement pas attention, et nous nous répétons sans cesse dans notre esprit : 'Je ne dois pas oublier, je dois conduire à gauche.'
Finalement, nous réentraînons notre système habituel et tout va bien. Parfois, il ne s'agit pas seulement de répéter la nouvelle loi, mais vous devrez peut-être raisonner, utiliser différents éléments de connaissance ensemble, les assembler pour décider quoi faire dans ces nouvelles circonstances. C'est une partie de ce que font les humains.
System 1 and System 2 Cognition
C'est très étroitement lié à la notion de cognition Système 1 et Système 2 qui a été popularisée par Daniel Kahneman. Je vous encourage à lire son livre, 'Système 1 / Système 2 : Les deux vitesses de la pensée', si vous ne le connaissez pas.
En gros, pour les besoins de ma présentation, je vais considérer ces deux formes de calcul. Le Système 1 est le système habituel, intuitif. Vous n'avez pas besoin d'y réfléchir, vous pouvez simplement le faire rapidement. C'est un traitement parallèle qui se déroule dans votre cerveau. Vous n'avez pas besoin d'en être conscient.
Je peux conduire ici à Montréal et parler à la personne à côté de moi tout en ayant une attention très superficielle sur ce qui se passe sur la route, ce qui est peut-être une mauvaise idée, mais nous sommes capables de le faire. L'apprentissage profond actuel ressemble beaucoup à cela.
La connaissance utilisée dans le Système 1 n'est pas quelque chose à laquelle on accède facilement. C'est une connaissance implicite. Il est difficile d'expliquer comment on conduit. On peut essayer de l'expliquer, mais ce n'est que la pointe de l'iceberg. Ce qui se passe avec la pointe de l'iceberg, la partie que vous pouvez expliquer, relève davantage du Système 2.
Le Système 2 est très différent. Les types de tâches que nous rangeons dans cette catégorie sont séquentiels. Nous pouvons utiliser la logique. Il nous faut énormément de temps pour trouver des réponses à des questions. Si je vous demande d'additionner 31 et 23, essayez de le faire de tête. À moins que vous n'ayez pratiqué cette addition particulière, cela vous prendra un certain temps. Vous devez passer par plusieurs étapes dans votre esprit.
Vous pouvez le faire consciemment, vous pouvez donc réellement expliquer à quelqu'un d'autre ce qui s'est passé dans votre esprit pendant que vous le faisiez. Vous utilisez des connaissances explicites. C'est ce que cela signifie, que vous pouvez l'expliquer. Fondamentalement, le programme de recherche dont je vais vous parler consiste à incorporer ces capacités dans l'apprentissage profond.
Une bonne partie de ma conférence consistera à essayer de comprendre ce que sont ces capacités, à essayer de les décrire d'une manière que des informaticiens comme moi peuvent formaliser et utiliser pour guider la conception de nouvelles architectures de réseaux de neurones et de nouvelles façons de les entraîner.
Causality and High-Level Representations
J'aimerais ouvrir une parenthèse ici sur la causalité. Le lien évident est que nous pensons tout le temps aux causes et aux effets. Je marche dans la rue, je vois des choses et je me demande sans cesse comment c'est arrivé. Cela n'a rien à voir avec ma vie, cela n'a pas d'importance pour ma vie, mais je continue à me poser ces questions sur le pourquoi.
C'est bon pour les chercheurs, mais les enfants le font tout le temps. C'est intéressant et c'est lié à certaines des questions très fondamentales que nous nous posions il y a deux décennies, lorsque nous avons lancé cette révolution de l'apprentissage profond.
La question portait sur la représentation. Si nous voulons apprendre plusieurs niveaux de représentation — au départ, nous étions très inspirés par ce que nous savons du cortex visuel qui possède ces multiples zones avec des représentations progressivement plus abstraites — la question est : qu'est-ce qu'il y a au sommet ? Quelles sont les représentations les plus abstraites ?
Il semble qu'une bonne hypothèse soit que c'est le genre d'abstraction que nous pouvons verbaliser. C'est le genre d'explications qui correspondent aux causes de ce que nous observons. C'est ce à quoi nous pensons.
Cela soulève la question de savoir comment nous découvrons ces représentations de haut niveau et non seulement quelles sont les variables, mais comment elles sont liées les unes aux autres. Tout l'intérêt de la causalité n'est pas seulement qu'il y a une variable de cause et une variable d'effet, mais que l'une cause l'autre et non l'inverse. Il y a une structure que nous aimerions découvrir.
La causalité, si vous l'étudiez, est fondamentalement liée aux actions, à l'agentivité, à la notion que si je changeais la cause, cela aurait un impact sur l'effet, mais que cela ne fonctionne pas dans l'autre sens. Il s'agit d'actions, de ce que nous appelons des interventions.
La raison pour laquelle j'aborde ce sujet, la causalité et la cognition de haut niveau, est que l'intention est d'utiliser ce genre d'intuitions pour essayer de répondre à la question précédente : si nous n'utilisons pas l'hypothèse i.i.d., nous devons introduire de nouveaux biais inductifs, de nouvelles hypothèses.
Le cerveau semble utiliser une sorte d'hypothèses sur le monde. Nous allons explorer de bonnes sources de telles hypothèses qui peuvent expliquer nos capacités à conduire dans un nouvel endroit ; peut-être qu'il y a des travaux et que vous devez réfléchir à la façon dont vous allez contourner cela.
Causal Mechanisms and Physics
Comment fait-on cela ? Comment pouvons-nous utiliser notre compréhension de cela, ou du moins les hypothèses que nous formulons, pour concevoir des systèmes d'IA plus puissants et plus performants ? Laissez-moi revenir à la causalité car il y a aussi un lien intéressant avec la physique.
Si vous pensez aux lois de la physique, comme la loi de Newton, elle fonctionne sur Terre et elle fonctionne aussi sur la Lune. Ce qui est intéressant, c'est que cela signifie qu'il s'agit d'une régularité un peu différente du genre de régularité que nous capturons actuellement avec l'apprentissage automatique et les statistiques.
C'est une régularité qui a trait à la causalité. Si je pousse quelque chose, cela va tomber, et les relations entre les causes, moi poussant quelque chose, et les effets sont conservées. Mais ce sont les mécanismes qui sont conservés.
L'état ne l'est pas. L'image ou la vidéo de quelque chose qui se passe sur Terre a l'air très différente d'une vidéo de quelque chose qui se passe sur la Lune. Mais si nous capturons ces mécanismes causaux, comme les lois de la physique, alors nous avons de bonnes chances de généraliser correctement loin de nos données d'entraînement, comme aller sur la Lune et survivre.
Global Workspace Theory and Information Bottlenecks
C'est un peu ce que nous voulons faire. Je vais parler de quelques-unes de ces hypothèses qui, je pense, sont exploitées par les humains et qui sont révélées par la cognition de haut niveau et le langage naturel, car quand nous parlons, nous parlons de ce dont nous sommes conscients.
Le premier sur lequel j'ai travaillé, et qui reste la pièce maîtresse d'une certaine manière, est ce que Bernie Baars a décrit avec sa Théorie de l'Espace de Travail Global, dont il a commencé à parler dans les années 80.
Ce que dit la Théorie de l'Espace de Travail Global, c'est que nous avons cet espace de travail, ce goulot d'étranglement par lequel passent les informations qui vont être diffusées à l'ensemble du cerveau ou de l'ensemble du cortex. Il y a une compétition entre les différentes parties du cerveau, les différents morceaux de cortex, pour envoyer leur message via la mémoire de travail, qui est très petite.
Ce goulot d'étranglement est assez intrigant. Notre cerveau est immense. Pourquoi aurions-nous une contrainte si importante ? Une explication possible dont je parle depuis maintenant quatre ans est que cette contrainte pourrait aider de nombreuses façons, mais l'une des façons dont elle pourrait aider du point de vue de la théorie de l'apprentissage est qu'elle pourrait forcer le type de connaissances qui passent par ce goulot d'étranglement à s'organiser en morceaux de connaissances qui n'impliquent que très peu de variables à la fois.
Si vous regardez une phrase comme 'si je lâche la balle, elle tombera sur le sol', d'un point de vue statistique, c'est une chose incroyable qu'à partir de seulement deux ou trois concepts, nous puissions prédire avec une très grande fiabilité le résultat d'une expérience.
Normalement, en statistiques ou en apprentissage automatique, si vous essayez de prédire une variable comme un pixel à partir de deux ou trois autres, cela ne fonctionnera pas. Vous en auriez besoin de milliers d'autres pour avoir une bonne prédiction.
C'est une propriété particulière du genre de connaissances que nous communiquons verbalement et qui traversent notre esprit, à savoir qu'elles ont cette contrainte qui, selon notre hypothèse, correspond à une forme de parcimonie des dépendances entre ces variables abstraites de haut niveau dont nous sommes conscients.
En apprentissage automatique, nous utilisons des modèles graphiques où les cercles correspondent aux variables et les carrés correspondent aux mécanismes, des facteurs qui servent de médiateurs entre la cause et l'effet. C'est une propriété très forte qui n'est pas exploitée dans les systèmes d'IA de pointe.
Reusability and Discretization
La connaissance de ce qui se passe quand on lâche quelque chose n'est pas spécifique à ce qui se passe si je lâche une balle. Cela fonctionne aussi sur d'autres types d'objets. Les mécanismes sont donc réutilisables.
C'est comme si nous avions ces morceaux de connaissances qui peuvent être appliqués par une sorte d'indirection à de nouveaux objets, à de nouvelles variables. C'est différent de la façon standard dont nous concevons les réseaux de neurones au sens classique où un neurone a toujours les mêmes entrées.
Il existe des mécanismes qui permettent ce genre de choses dans le cerveau, appelés attention et modulation. Nous faisons des inférences en supposant que le même mécanisme peut être réutilisé sur de nouvelles instances si l'objet possède les bonnes affordances ou le bon type.
Une autre chose intéressante à propos de ce goulot d'étranglement est qu'au moins une grande partie de l'information qui le traverse a été compressée au point d'être discrète. Nous avons ces entités comme ces classes, ces mots, ils sont symboliques.
Récemment, nous avons émis l'hypothèse que si différents modules d'un grand réseau de neurones communiquaient entre eux non seulement par un goulot d'étranglement en termes de nombre de variables pouvant être communiquées, mais aussi par le nombre de bits d'information sur ces variables pouvant être communiqués — nous avons donc une discrétisation — alors il y a un avantage en termes de généralisation hors distribution.
Une façon de comprendre pourquoi cela serait utile est que les différents modules du cerveau doivent apprendre un langage compatible pour qu'un message ou une information émise par un module puisse être utilisé, reçu par de nombreux autres modules et vice versa. C'est aussi quelque chose dont Bernie Baars parle dans sa Théorie de l'Espace de Travail Global.
Si chaque module est expert dans une chose différente mais qu'ils doivent d'une manière ou d'une autre s'entendre sur une façon de communiquer l'information, et si nous discrétisons, cela devient beaucoup plus facile. Vous n'avez pas besoin d'être tout à fait précis, vous devez juste tomber dans la bonne catégorie. Ces modules sont donc interchangeables les uns avec les autres. Par exemple, dans une phrase, je peux remplacer un nom par un autre qui possède une sémantique compatible et la phrase continue d'être bien formée et significative.
Agency and Causal Interventions
Cette façon de penser a aussi des conséquences, non seulement pour les objets que nous percevons, mais aussi pour les actions ou les intentions. L'une des idées de base des théories de la causalité est que les changements de distribution sont dus à des interventions, à des actions d'agents.
Ces interventions ciblent, en gros, une variable de haut niveau, comme 'je veux boire, je veux mettre de l'eau dans mon corps'. Je devrai peut-être faire quelques choses pour y parvenir, mais la plupart des autres variables de haut niveau dans mon environnement ne sont pas la cible immédiate de cette action.
Il peut y avoir des conséquences de cette action en aval, mais il y a cette notion que les changements de distribution peuvent être expliqués par un changement d'une seule variable, peut-être. C'est une forme très forte de parcimonie. Ce n'est pas une question de dépendances, c'est une question de causalité ; les changements peuvent être expliqués par très peu de choses.
L'indice que cela est vrai est que lorsque nous posons la question 'pourquoi' — disons que quelque chose a changé dans la pièce et que nous sommes souvent capables de trouver une explication, 'quelqu'un a fermé la fenêtre' — si une seule phrase est capable de désigner la cause du changement, cela signifie qu'une grande partie de ces changements auxquels nous sommes capables de faire face possèdent réellement cette propriété.
J'ai écrit des articles à ce sujet et sur la façon dont nous pouvons exploiter cela dans l'apprentissage automatique pour entraîner des systèmes qui seront plus robustes aux changements, car si nous ajoutons cette hypothèse, il sera tout simplement plus facile de se remettre de ces changements.
Pourquoi y a-t-il un enfant avec des lunettes noires ici ? Voici l'explication : disons que vous mettez des lunettes noires. Au niveau des pixels, beaucoup de choses changent ; chaque pixel a soudainement une distribution différente.
On pourrait penser qu'il faudra beaucoup de réentraînement pour adapter vos yeux à ce nouvel environnement. Mais si vous avez un bon modèle du monde qui inclut la possibilité d'avoir des lunettes noires devant les yeux, alors il n'y a qu'une seule variable, un seul bit qui doit changer dans votre explication de ce qui se passe.
Vous n'avez pas besoin de beaucoup de données pour comprendre ce bit. Vous mettez simplement les lunettes et vous pouvez presque deviner ce qui s'est passé, même si quelqu'un d'autre mettait les lunettes devant vos yeux. C'est une idée très puissante : ce que fait notre cerveau, c'est apprendre ces représentations de haut niveau où il ne s'agit pas seulement d'un vecteur informe comme nous avons tendance à le penser avec l'apprentissage profond.
C'est divisé en ces morceaux de connaissances correspondant à des variables de haut niveau et à la façon dont elles sont liées les unes aux autres, de telle sorte que ces propriétés de parcimonie puissent être très puissantes et réellement orienter quelque chose.
Causal Discovery and Modular Architectures
Nous avons utilisé ces méthodes pour concurrencer les méthodes existantes pour ce qu'on appelle la découverte causale. À partir d'observations d'un ensemble de variables aléatoires, comme la fumée, les poumons, les rayons X, peut-on deviner quelle est la structure causale sous-jacente ?
En général, c'est difficile et il peut y avoir des réponses ambiguës. Mais si nous voyons des interventions, si quelqu'un a changé l'une des variables, cela devient plus facile. Ces méthodes sur lesquelles nous avons travaillé peuvent tirer parti à la fois des données d'intervention et des données d'observation, et elles fonctionnent très bien.
Elles utilisent ces réseaux de neurones localement pour apprendre ces dépendances, et elles utilisent les types d'idées dont j'ai parlé plus tôt sur la parcimonie afin de découvrir ces graphes. Si nous permettons à l'apprenant de ne pas se contenter d'observer passivement ces interventions et les changements de distribution, mais d'être des agents, de choisir réellement les interventions, alors il pourra apprendre beaucoup plus vite.
Ce n'est pas surprenant ; les humains font cela, cela s'appelle l'apprentissage actif et les bébés le font beaucoup. Les scientifiques le font, nous faisons des expériences. Nous avons également écrit des articles sur la façon dont, au lieu d'avoir ces réseaux de neurones qui sont une sorte de soupe homogène de neurones, l'architecture du réseau de neurones est divisée en petits modules.
Au lieu de permettre à tous les modules de parler à tous les modules de manière exhaustive comme nous le faisons habituellement, nous créons ces sortes de goulots d'étranglement. Eh bien, il s'avère que cela aide réellement à la généralisation hors distribution. Cela renforce l'idée que les goulots d'étranglement dont j'ai parlé aident réellement à cette capacité de généralisation à de nouveaux contextes.
Il s'agit d'un autre article sur le même thème. Nous l'avons appliqué à des modules qui apprennent des règles capables d'expliquer les données. L'idée que cet article intitulé Neural Production System met en avant n'est pas seulement que nous voulons partitionner pour découvrir une représentation qui se décompose en bons types de variables, mais aussi qui décompose la connaissance de la façon dont les variables interagissent en modules correspondant à des règles.
Comparing Deep Learning with Symbolic AI
Il est intéressant de prendre du recul et d'essayer de comparer le genre d'idées dont j'ai parlé avec la bonne vieille IA, l'IA symbolique. Beaucoup de choses dont j'ai parlé se retrouvent dans l'IA symbolique.
Vous avez ces règles, la connaissance est divisée en ces modules, et bien sûr les variables sont discrétisées, elles sont symboliques. Vous avez la notion d'appliquer la même règle à de nombreuses variables différentes, c'est la réutilisabilité. Mais il manque des choses que les réseaux de neurones actuels basés sur l'apprentissage automatique — et que nous ne voulons pas perdre.
Nous voulons que ces systèmes passent à l'échelle de machines de la taille d'un cerveau. Les algorithmes doivent passer à l'échelle, non seulement sur le plan informatique, mais aussi pour que l'apprentissage fonctionne. Ce n'est pas l'IA classique où il fallait écrire les règles soi-même. Il y a été des travaux pour essayer de les apprendre, mais sans grand succès. Il est très difficile d'apprendre des règles symboliques discrètes.
Une autre différence intéressante est que la vision classique de l'IA consiste réellement à manipuler ces concepts de haut niveau, comme ceux que nous manipons avec le langage. Mais il y a tout ce qui est de bas niveau, comme la perception sensorielle, les commandes motrices. Comment relier ces choses entre elles ? C'est ce qu'on appelle le problème de l'ancrage des symboles.
Nous voulons réunir la capacité d'extraire des représentations d'informations de bas niveau, au niveau des pixels, et de manipuler conjointement ces éléments de haut niveau. Nous ne voulons pas perdre cet ancrage. Un autre aspect important de l'apprentissage profond est l'accent mis sur l'apprentissage de représentations distribuées, ce qui signifie que même si nous manipons des symboles comme nous le faisons dans le langage.
Par exemple, l'état de l'art en traitement du langage naturel utilise l'apprentissage profond, mais le langage naturel, ce sont des symboles. L'une de mes contributions a été de travailler sur des réseaux de neurones qui représentent les symboles par des vecteurs, ce qu'on appelle des représentations distribuées, et d'utiliser cela pour généraliser de manière très puissante. Nous voulons garder cela. Oui, nous voulons des symboles, mais nous voulons garder ces représentations riches qui les accompagnent.
Une autre chose, peut-être plus subtile, est l'aspect de la recherche. Dans l'IA classique, disons que nous avons les règles et que nous faisons maintenant l'inférence, nous voulons répondre à de nouvelles questions. Malheureusement, il y a un problème de mise à l'échelle ici ; c'est coûteux. Le nombre de combinaisons de règles qui peuvent former une preuve de théorème croît de manière exponentielle.
Il existe toutes sortes de méthodes qui peuvent essayer de le faire efficacement, mais il ne semble pas que ce soit ainsi que le cerveau procède. Au lieu de cela, la réponse naturelle devrait être que nous avons des réseaux de neurones génératifs, comme les GAN, que nous avons inventés ici à Montréal, qui peuvent être entraînés à imaginer des réponses.
Un joueur d'échecs humain n'essaie pas un million de trajectoires différentes avant de jouer. Cela lui vient tout seul que ceci pourrait être une bonne chose, peut-être deux ou trois, peut-être dix, mais c'est tout. Pour la plupart des gens, ce sera juste un, peut-être zéro parce qu'ils suivront simplement leur habitude.
Nous voulons nous débarrasser du problème de la recherche qui empoisonne l'IA classique. La dernière chose de l'IA classique qui doit être corrigée est la gestion de l'incertitude. Le monde est incertain, le monde est probabiliste, et l'apprentissage automatique moderne est bien sûr basé sur la théorie des probabilités.
GFlowNets: Generative Flow Networks
Il y a des travaux en IA symbolique avec des probabilités, mais cela doit être dans notre recette. Voyons le genre de réseaux de neurones que nous aimerions avoir pour le Système 2. Nous aimerions des réseaux de neurones capables de générer, d'échantillonner des pensées.
Ces pensées sont générées séquentiellement. C'est le contenu de la mémoire de travail, très peu de bits d'information à la fois, mais une pensée après l'autre nous permet de former une explication ou un plan plus large. D'un point de vue informatique, une bonne façon de concevoir ces plans ou explications est sous forme de graphes.
Les nœuds correspondent aux variables et les arêtes correspondent aux relations entre les variables. Parfois, les relations impliquent plus de deux variables — il existe une chose appelée hypergraphe qui permet de relier trois variables entre elles via une hyperarête — mais c'est essentiellement un graphe.
Nous avons besoin de réseaux de neurones capables de générer ces graphes qui correspondent à des pensées de manière séquentielle afin d'aboutir à une image plus large d'une explication pour une scène que nous voyons. Les arêtes ou hyperarêtes qui relient les variables entre elles dans ce graphe devraient être des morceaux de connaissances réutilisables, comme les règles, comme les modules dont j'ai parlé avant.
Lorsque nous les composons séquentiellement pour former ce graphe plus grand, nous pouvons créer ces objets complexes à très haute dimension qui correspondent à toute une histoire. Cela nous donne un incroyable pouvoir de généralisation. Ces graphes devraient être stochastiques car il y a souvent plusieurs explications plausibles.
Peut-être qu'à un moment je penche pour cette façon de comprendre les choses, et plus tard il y a un nouvel élément de preuve et j'y pense sous un jour différent. Il y a une notion d'aléa ; mes pensées semblent parfois sortir de nulle part et n'avoir aucun lien avec ce qui se passe.
Il semble y avoir un caractère aléatoire là-dedans et, d'un point de vue théorique, cela aurait du sens car si vous voyez une scène, il y a une ambiguïté quant à l'explication correcte. La chose correcte à faire est d'être capable de représenter implicitement toutes les explications possibles, mais on ne peut penser qu'à une seule d'entre elles à la fois. Peut-être qu'elle est choisie de manière stochastique.
Comment pouvons-nous entraîner des réseaux de neurones capables de faire ces choses ? Je me rends compte que cela fait déjà 40 minutes, et donc pour la suite de la conférence, je vais aller un peu plus vite et rester à un niveau élevé, mais c'est le début d'une réponse aux grandes questions.
Nous avons lancé une nouvelle direction de recherche avec un type de réseaux de neurones appelés réseaux de flux génératifs ou GFlowNets.
Le premier article a été publié à NeurIPS en décembre, et nous avons publié un très gros article théorique intitulé GFlowNets Foundations ainsi que quatre autres articles au cours des trois derniers mois sur divers aspects mathématiques de ces objets et sur la façon dont ils pourraient être appliqués, dans ce cas, à la conception de séquences biologiques.
Laissez-moi essayer d'expliquer rapidement ce que sont les GFlowNets, puis d'essayer de relier cela aux éléments scientifiques dont j'ai parlé plus tôt.
Un GFlowNet est un type particulier de réseau de neurones capable de représenter des distributions de probabilité très riches sur des objets compositionnels.
Des objets compositionnels comme ces graphes, ou comme dans une phrase, où vous composez des mots ensemble, vous composez des idées ensemble d'une manière particulière.
Tout comme dans une phrase et un arbre syntaxique, on pourrait décrire la même phrase et le même arbre syntaxique dans des ordres différents et ce serait toujours le même objet. Il y a cette notion que nous pouvons construire le même objet comme un graphe dans des ordres différents, et nous avons trouvé un moyen mathématique de le faire correctement.
Laissez-moi passer ici, quelque chose de plus intuitif.
À un niveau élevé, un GFlowNet est un réseau de neurones qui construit séquentiellement un objet compositionnel par un processus stochastique. Il apprend une politique, et cette politique, vous devez la comprendre comme une politique d'attention : quel morceau de connaissance sera la prochaine pensée, le prochain contenu de ma mémoire de travail ?
À n'importe quel moment, il y a un contenu particulier. Au cours des cinq ou six dernières années, nous avons conçu des réseaux de neurones capables de prendre en entrée des graphes ou à peu près n'importe quel type de structure de données.
Ce genre de GFlowNet prendrait typiquement une telle structure de données en entrée, un graphe. Croyez-moi, nous pouvons faire cela.
La sortie de ce GFlowNet serait constituée de décisions sur le prochain élément que nous voulons ajouter au graphe. Peut-être voyez-vous l'élément bleu ici, l'arête avec le nœud numéro quatre, c'est un morceau du graphe que nous aimerions ajouter.
Maintenant, ma séquence de pensée construit une explication qui est ce petit graphe. C'est un peu plus grand, et puis peut-être qu'au moment suivant j'ajoute un autre morceau.
La politique pi choisit le prochain morceau à ajouter parmi tous ceux qui sont raisonnables dans ce contexte.
Il y a donc une compétition entre les morceaux possibles. Ces morceaux contiennent des informations sur la règle qui doit s'appliquer, ainsi que les valeurs : choisir la variable quatre et lui donner une valeur particulière.
C'est peut-être une variable latente, une explication de certaines des choses que je vois.
Cela se poursuivrait de manière séquentielle, et dans le formalisme GFlowNet, si nous obtenons une récompense — d'un point de vue neuroscientifique, cette récompense peut provenir de n'importe où, mais je vais également soutenir qu'une partie pourrait provenir du réseau lui-même et du modèle du monde que le réseau incarne.
Ensuite, nous avons des procédures d'entraînement pour fournir un signal de gradient aux sorties de ce GFlowNet.
Ensuite, il est entraîné comme d'habitude, on utilise la backprop. C'est une autre discussion : comment nous pourrions transformer la backprop en quelque chose de plus biologiquement plausible.
Un certain nombre de choses ont été proposées et j'ai mes propres solutions, mais qu'il suffise de dire qu'il est désormais plus accepté en neurosciences computationnelles que quelque chose ayant fonctionnellement la même puissance que la backprop puisse être implémenté dans le matériel neuronal.
Ce que le cadre GFlowNet nous dit, c'est comment fournir les signaux d'entraînement pour la séquence de ces actions internes qui sont réellement des décisions : quel module gagne et le contenu qui va être proposé et diffusé à l'ensemble du cerveau.
Ensuite, nous utilisons ces récompenses comme dans l'apprentissage par renforcement. Le GFlowNet est un type particulier d'apprentissage par renforcement. Comment obtenir un signal de gradient pour ce réseau ?
Modular Architectures and Conscious Ignition
Laissez-moi revenir à cette idée d'architecture modulaire car sur cette image, c'est comme si nous avions ce réseau de neurones gigantesque.
Rappelez-vous que j'ai dit que nous voulions diviser les connaissances en petits morceaux. Peut-être pouvez-vous voir cela comme de petits morceaux de cortex qui sont experts, comme dans la Théorie de l'Espace de Travail Global de Baars, et chacun d'eux représente un petit module.
Il s'avère que nous pouvons très naturellement diviser ce grand réseau de neurones en petits morceaux, et chaque petit morceau sera essentiellement un module qui entre en compétition avec les autres modules.
Le processus de sélection du morceau à ajouter correspond à une compétition entre ces modules. Et nous en savons beaucoup sur cette compétition.
Stanislas Dehaene et d'autres en neurosciences ont étudié ce qui se passe lorsque vous devenez conscient de quelque chose.
Il y a un motif frappant d'activations appelé ignition. Une sorte de dynamique se produit qui permet à différents concurrents potentiels de se battre et l'un d'entre eux l'emporte.
Cette information finit par être disponible pour toutes les autres parties du cerveau.
Le softmax ici, l'attention qui échantillonne l'une de ces pensées potentielles, met en œuvre ce que Dehaene et ses collaborateurs voient dans le cerveau.
World Models, Curiosity, and Inference
Il y a un autre élément que j'ai mentionné : d'où vient cette récompense ? Vous pourriez avoir une récompense extrinsèque dans l'apprentissage par renforcement, peut-être la faim et la douleur.
Le type de récompense qui m'enthousiasme le plus en tant que chercheur en IA est quelque chose de plus lié à l'acquisition de connaissances, comme la curiosité.
Ainsi, l'hypothèse naturelle que nous avons explorée est que these modules seraient non seulement experts pour proposer la pensée suivante, mais qu'ils incarneraient également ce qu'on appelle un modèle du monde dans l'apprentissage par renforcement.
Cette règle, disons, qu'un expert particulier connaît, est une sorte de connaissance générale qui relie des variables de différents types et une sorte de description des relations entre les variables.
Lorsqu'il y a compétition entre les modules, c'est pour répondre à une question particulière. Peut-être que certains nœuds ont été assignés et que nous essayons maintenant de trouver une pièce supplémentaire au puzzle.
C'est ce qu'on appelle l'inférence en apprentissage automatique. Le GFlowNet nous permet de séparer ces deux fonctions : représenter la connaissance générique et représenter comment répondre aux questions.
Selon ce qui est une entrée de ce module, c'est comme différentes questions et ensuite les réponses que vous pouvez imaginer comme le nouveau morceau que nous venons d'ajouter.
Ainsi, dans cette vision, chaque module serait capable à la fois de répondre à une question sur la compatibilité des différentes valeurs de ces variables, ce que nous appelons une fonction d'énergie dans notre jargon.
Il pourrait y avoir une sortie qui mesure à quel point cette combinaison est surprenante — c'est ce qu'est l'énergie.
De plus, une autre partie du réseau est entraînée pour être capable de remplir les blancs : si j'ai choisi certaines valeurs pour certaines des variables concernées par ma règle et que les variables sont déjà là dans ma tête et que je dois faire une supposition sur une autre variable qui pourrait être liée avec cette règle, c'est de l'inférence.
La pensée proposée pour cette règle pourrait être une valeur pour cette variable qui n'avait pas encore été assignée.
Si vous voulez en savoir plus sur les GFlowNets, j'ai écrit un tutoriel. Je vais récupérer le lien et le coller dans le chat.
Ceci s'adresse à un public ayant une perspective d'apprentissage automatique, mais pour ceux qui veulent regarder, laissez-moi revenir à mes diapositives.
Summary of Inductive Biases for System 2
Désolé pour l'interruption. Laissez-moi résumer avec certains des biais inductifs dont j'ai parlé — ces préférences ou hypothèses sur le monde qui s'appliquent uniquement aux connaissances du Système 2.
Il y a la préférence pour l'organisation de ces connaissances de haut niveau en ces modules réutilisables ; lorsque nous pensons au niveau conscient, nous sélectionnons dynamiquement une séquence de ces modules qui, ensemble, forment des explications, des réponses et des plans.
C'est cette compositionnalité qui biaise une grande partie de la capacité à généraliser hors distribution. Mais il existe d'autres hypothèses.
Nous avons besoin de ce goulot d'étranglement : seuls quelques éléments à la fois peuvent être communiqués entre ces experts. C'est la mémoire de travail.
Chaque expert, parce qu'il reçoit les nouveaux contenus de la mémoire de travail à chaque instant, peut avoir sa mémoire locale du contenu passé.
L'autre hypothèse est que ces modules décrivent les dépendances entre seulement quelques variables. Cela signifie donc que les dépendances entre les variables abstraites de haut niveau auxquelles nous pensons sont parcimonieuses.
Même si ces dépendances sont parcimonieuses, vous pouvez en avoir des millions ; le cerveau est suffisamment grand pour s'en accommoder.
Les variables sur lesquelles ces modules ont des connaissances peuvent être partagées entre plusieurs modules. C'est pourquoi ils doivent se parler pour parvenir à un accord, car pour presque toute décision, il existe des contraintes ou des sources d'information contradictoires qui doivent être combinées ensemble pour faire un choix.
Une autre hypothèse est que ces morceaux de connaissances qui sont sélectionnés, ces pensées, surviennent de manière séquentielle, chacun n'impliquant qu'un ou très peu de modules.
La sémantique de ces variables est souvent causale et correspond au côté action. Par exemple, l'intention de prendre un verre n'implique que le verre par rapport aux millions d'autres choses auxquelles on pourrait penser. C'est une autre hypothèse très forte. Je m'arrête ici pour aujourd'hui.
Je serai heureux de répondre aux questions.
Q&A - Testing the Theory in Neuroscience
Merci beaucoup pour votre présentation fort intéressante. Est-ce qu'il y a des questions dans l'audience ou à la maison ?
Oui, Vincent.
Est-ce que vous nous entendez ?
Oui.
Merci beaucoup, c'est fort intéressant de voir comment le monde de l'AI et des neurosciences cognitives se mergent. Beaucoup d'entre nous venons des neurosciences cognitives. Avez-vous une intuition que votre théorie pourrait générer des données qu'on pourrait mesurer pour faire l'arbitre entre le global neuronal workspace et votre théorie, et essayer de prouver votre théorie ? Comment pourrait-on s'y prendre ?
C'est une bonne question. Je n'ai pas assez réfléchi à cette question. Je suis en plein dans le développement de la théorie et des évaluations des détails : the devil is in the details. Ce sont les articles que je vous ai montrés et d'autres qui sont en préparation.
Ce que je propose n'est pas en compétition avec le global workspace theory, c'est plutôt d'essayer de l'amener dans un langage qui serait plus compatible avec ce qu'on sait mathématiquement en intelligence artificielle, en apprentissage automatique.
Il va y avoir des prédictions nouvelles qui vont sortir de ça, car une fois qu'on accepte le cadre que j'ai discuté aujourd'hui, il y a pas mal de variantes possibles. Ce sera intéressant de pouvoir évaluer ces variantes à travers des expériences soit en neuroscience ou directement au niveau cognitif.
Si je peux me permettre une petite suite à la question, est-ce possible que dans votre modèle, après le bottleneck, il y ait un changement dans les représentations entre des représentations de plus bas niveau et celles de plus haut niveau ? Est-ce que ce que votre théorie prédit ?
Pour moi les représentations changent tout le temps. Ça dépend de ce que t'appelles représentation ; les configurations d'activité des neurones changent tout le temps. Ce qui ne change pas rapidement, ce sont les poids synaptiques. La sémantique qui mène à ces représentations-là change, mais lentement.
Par contre on a l'hippocampe ; on peut faire du one-shot learning et utiliser de la mémoire épisodique. C'est quelque chose qui va aider l'implémentation de ma théorie pour gérer le fait que les algorithmes qu'on utilise dans les réseaux de neurones modernes, avec la descente de gradient stochastique, ne font pas du one-shot learning. Ça prend beaucoup d'itérations pour compiler la connaissance, mais par contre ça va généraliser beaucoup mieux qu'un truc qui fait juste stocker des mémoires épisodiques. Il n'y a pas de généralisation dans une simple mémoire. Mon hypothèse est que l'hippocampe ne stocke pas des choses de bas niveau mais juste des représentations de haut niveau qui sont passées par le bottleneck. On va avoir besoin de répéter ça, pas nécessairement à un niveau conscient, ça peut se faire quand on dort, quand on médite ou quand on n'est pas occupé par le monde extérieur. Il y a des observations de neuroscience qui vont dans ce sens-là, où la consolidation va faire en sorte que l'apprentissage par gradient stochastique — lent mais qui permet d'extraire de la connaissance généralisable — va se faire graduellement. C'est ça qui va être impliqué ensuite pour répondre à une nouvelle question.
Q&A - Discretization and Continuous Representations
Il y avait une question en arrière.
J'ai une question sur la continuité des comportements humains par rapport à la discrétisation des GFlowNets et dans quelle mesure on peut introduire les pensées avec une topologie autre qu'un graphe dans ce framework.
Ça n'est pas obligé que ce soit un graphe, c'est juste que c'est plus facile d'y penser comme ça. On peut même mettre des variables continues. Nos premiers articles se sont concentrés sur le cas discret qui est plus facile à instrumenter et à analyser mathématiquement, mais on peut tout à fait — dans le papier GFlowNet Foundations on mentionne comment faire et j'ai plusieurs étudiants qui travaillent sur le cas continu. N'importe quelle représentation qu'on peut construire par une séquence d'actions — ces actions peuvent être continues ou discrètes — ça peut fitter dans le cadre du GFlowNet.
J'ai des pensées visuelles, géométriques, qui ne sont pas toujours exprimées de manière clairement verbale même si je peux essayer de l'expliquer verbalement. Il n'y a pas que des symboles.
Q&A - Primary vs. Higher Functions (HAL 9000)
Bonjour professeur Bengio. Dans le contexte d'essayer de reproduire une intelligence artificielle comparable à HAL dans Space Odyssey 2001, jugez-vous nécessaire de développer d'abord les fonctions primaires inférieures pour ensuite travailler sur les fonctions supérieures, ou les deux peuvent-ils aller en parallèle, ou les deux sont-ils indépendants ?
Dans les dernières décennies on a fait pratiquement que les fonctions inférieures dans l'apprentissage automatique. Le deep learning ne touche pas vraiment aux fonctions supérieures. Je ne pense pas qu'on puisse ; l'intelligence artificielle classique essayait de faire juste la partie supérieure toute seule en espérant que quelqu'un fournisse les symboles de départ. Ce qui va dans certaines situations mais en général n'est pas suffisant.
Si on veut construire un robot, on a besoin des deux ensemble. On a appris en apprentissage automatique que pour que ça fonctionne bien, un système qui a plusieurs parties doit être entraîné conjointement, pour que les morceaux s'adaptent en fonction de la présence des autres. Je ne pense pas qu'on puisse le faire séparément. On peut faire la partie perception comme on fait déjà aujourd'hui, mais il va nous manquer des capacités dont j'ai essayé de parler aujourd'hui.
Dans votre projet des fonctions supérieures, vous espérez que ça avance en parallèle avec les autres.
Non, pas en parallèle ; ce sont les réseaux de neurones qu'on essaie d'entraîner qui font les deux. Ils apprennent des représentations perceptuelles, éventuellement des skills — des représentations motrices — avec des abstractions de l'un et de l'autre et les relations de haut niveau qui existent entre ces abstractions. Il faut que ce soit tout ensemble.
Q&A - Agency, Bidirectionality, and Social Biases
Une autre question à la maison, Caroline Desmarteaux. Allez-y.
Bonjour. L'apprentissage artificiel n'est pas mon expertise, mais je m'interroge dans la mesure où la conscience est un aspect bidirectionnel : ce savoir qu'on accumule est aussi incarné. Cette conscience repose sur une agentivité qui prend racine dans le besoin d'action, dans la possibilité d'action, dans l'intention d'action. Les systèmes comme vous les décrivez ne pourront pas agir sur les données. Il y a cette absence de bidirectionnalité.
C'est même essentiel. J'en ai parlé un peu quand je parlais de causalité. Si on veut apprendre une représentation causale, il est essentiel d'avoir des interventions, c'est-à-dire des actions.
On ne peut pas directement commander au verre de venir dans ma bouche. Je ne vais peut-être pas tout à fait réussir mon intention donc il y a un décalage entre mon intention et ce qui arrive réellement. On doit apprendre ça. En reinforcement learning c'est ce qu'on fait, mais les gens ne savent pas comment construire une hiérarchie de ces commandes de haut niveau. Des théories ont été proposées depuis une vingtaine d'années, dont par Doina Precup qui est une des auteures de l'article de base de GFlowNet. Ma conviction est qu'il faut apprendre tous ces morceaux ensemble.
Par exemple la notion d'objet au niveau perceptif est relativement comprise ou acceptée en sciences cognitives comme n'étant pas indépendante du fait qu'on puisse agir sur ces objets. Il y a une raison pour ça.
La conscience humaine est un objet qui repose sur des biais ; on peut dire que les humains sont biaisés. Est-ce que cette machine risque aussi de reposer sur certains biais, c'est-à-dire que nos apprentissages vont orienter les apprentissages ultérieurs ?
Si on réussit à avancer sur ce programme, ça pourrait nous aider à réduire les problèmes de biais dans l'apprentissage automatique.
Pourquoi a-t-on des biais dans des systèmes entraînés sur internet ? Quand les gens jasent sur internet, il y a plein de biais inconscients ou conscients qui propagent des valeurs avec lesquelles collectivement on a décidé qu'on n'était pas d'accord. On s'est donné des normes sociales contre le racisme, le sexisme et tout ça, mais tout le monde ne les suit pas. Quand on collecte des données et qu'on entraîne un réseau de neurones sur des milliards de données, il va tout absorber sans savoir ce qui est bon ou pas.
Mais un être humain, on va pouvoir lui dire : 'Ça c'est la règle qu'on s'est donnée collectivement, essaie d'en tenir compte dans tes actions.' Je vais essayer de rendre ça un peu plus personnalisé. Il m'est arrivé d'avoir des pensées pour interpréter une situation et de me dire que c'est biaisé, que ma pensée n'est pas en accord avec mes valeurs. Là je décide de ne pas nécessairement agir dans le sens de ma première impulsion.
C'est le système deux qui est entré en ligne. Dans nos connaissances qui mènent à nos décisions, on ne va pas seulement avoir ce qu'on a expérimenté mais aussi des règles sociales, des normes sociales qu'on a acceptées. Elles ne sont pas exprimées sous la forme d'expériences qu'on a vécues mais à un niveau verbal, au très haut niveau, et vont pouvoir par exemple inhiber des réactions impulsives.
D'incorporer le système deux dans les réseaux de neurones va nous aider à combattre les problèmes de biais de discrimination qui existent dans les systèmes d'intelligence artificielle actuels. Il faudra faire les bonnes choses avec, mais nous aurons des outils.
Merci beaucoup.
Q&A - One-Shot Learning and Meta-Learning
Merci.
Merci pour la présentation. Vous avez mentionné le cas où les humains peuvent apprendre à partir d'un seul exemple. Par exemple, je ne connaissais pas la poutine, on m'a montré une image d'une poutine et je vais la reconnaître. Les êtres humains font ça parce qu'ils ont des connaissances dans d'autres domaines qui leur permettent d'apprendre très rapidement à partir d'un seul exemple. Cela fait appel aux algorithmes comme le meta-learning. J'aimerais savoir comment on peut adapter GFlowNet au meta-learning parce que dans le cas de GFlowNet les états sont spécifiés à l'avance et les actions...
Ils ne sont pas spécifiés à l'avance. C'est quelque chose qui peut émerger de manière complètement non supervisée. Ce qui motive une grande partie de ma démarche est justement le problème que vous posez : comment les humains réussissent à généraliser à une nouvelle catégorie d'objets à partir de si peu d'exemples là où les meilleurs systèmes d'aujourd'hui auraient besoin de beaucoup d'exemples.
C'est une question de représentation de la connaissance. Il n'y a rien de magique. On a réussi à décomposer nos connaissances en parties bien factorisées ; quand vous voyez une poutine, vous allez pouvoir vous construire une représentation qui n'est pas tabula rasa, mais construite à partir des concepts que vous connaissez déjà. Très peu de nouveauté sera nécessaire pour construire le nouveau concept poutine. Peu de bits d'information sont nécessaires pour avoir vraiment compris ce qu'est une poutine.
C'est une question de représentation de la connaissance. Cette modularisation essaie d'atteindre une structure dans nos réseaux de neurones qui permet de généraliser au mieux à des changements, à des nouvelles choses, en réutilisant les parties qu'on connaît déjà. C'est la motivation principale. On avance sur ce chemin et presque tous les articles que nous écrivons, notre évaluation quantitative est pour répondre à ce genre de question. Si on entraîne sur des données et qu'ensuite on mesure sur des nouvelles données, combien d'exemples cela prend-il pour s'adapter, à quelle vitesse il va apprendre ou est-ce qu'il va bien généraliser rapidement ?
Merci de la question.
Q&A - CLIP, Attention, and Modularization
Merci. À la maison il y a Pierre Bellec qui voulait poser une question. Pierre.
Merci beaucoup pour la présentation. Quand vous avez parlé de la théorie du global workspace, cela m'a fait penser à ce réseau CLIP qui est entraîné sur des images et sur du texte qui annote le contenu, avec une branche pour la vision, une branche pour le langage et un espace commun. Pensez-vous que ce type de réseau entraîné sur de vastes quantités de données peut réussir à apprendre des représentations causales et des quantités abstraites très compactes ?
Il faut quelque chose de radicalement différent. On a fait des progrès : depuis 2014-2015 on a développé les mécanismes d'attention qui sont utilisés dans CLIP. Ça a été un game changer. C'est juste le début car ces mécanismes d'attention, qui sont au cœur de processus conscient, donnent un pouvoir d'expression pour réutiliser le même morceau de réseau de neurones sur d'autres inputs. C'est ce que font les transformeurs.
On a encore trop cette notion d'avoir un gros morceau sans réfléchir au fait qu'on peut réutiliser n'importe quelle combinaison de morceaux. Dans un transformeur on ne peut pas combiner les morceaux n'importe comment. Ce que j'ai lu est qu'au niveau du cortex, avec de l'entraînement, on peut contrôler n'importe quelle région. On peut s'entraîner à porter attention et à contrôler ; la modularisation — la capacité à sélectionner une partie de ce qui se passe pour en faire un focus soit de perception ou d'action — semble être pluripotente à travers le cortex. Il y a une capacité de modularisation qui n'existe pas dans les architectures comme CLIP ou les transformeurs. On n'est pas à des années-lumière de ce que je dis là. Une fois qu'on aura mieux compris les principes sous-jacents, il y aura beaucoup de choses à essayer qui pourraient nous ouvrir des portes.
Merci Pierre.
Q&A - Catastrophic Forgetting and Factorization
Merci. Est-ce qu'il y a d'autres questions à la maison ? Laurent.
Bonjour, merci pour la présentation. Concernant les GFlowNets, sont-ils entraînés une tâche à la fois ou pour plusieurs tâches ? Le réseau retiendra-t-il ce qu'il a appris pour une tâche même si on l'entraîne ensuite pour une autre, ou y aura-t-il le catastrophic forgetting qui est souvent le cas dans les réseaux de neurones ?
Merci de la question. On ne s'est pas encore penché là-dessus mais une des motivations pour ce genre de système est d'éviter le catastrophic forgetting ou de le minimiser, car les humains sont aussi dans une certaine mesure sensibles à ça. Le problème de généralisation à des nouvelles situations et le problème du catastrophic forgetting sont très proches.
On a développé des méthodes où on essaie d'entraîner d'une façon que les morceaux de connaissance vont se factoriser en plusieurs modules. L'hypothèse est qu'une bonne factorisation fait en sorte que lorsqu'il y a des changements, il n'y aura pas besoin que tous les modules se réentraînent. L'idée de l'attention qui se focus sur juste quelques modules est que seuls ces modules vont être adaptés. Tout le reste n'est pas dérangé.
Si on a un très bon modèle du monde, une très bonne factorisation des connaissances, on n'a peut-être même pas besoin d'adaptation. Les humains sont souvent amenés dans une nouvelle situation et trouvent les solutions directement sans s'entraîner. Si tu as un bon modèle bien factorisé, tu peux recombiner tes connaissances, raisonner, et trouver des solutions sans avoir besoin de pratiquer beaucoup.
S'il y a des choses nouvelles, tu veux que ça affecte le moins de parties de ton système ; si tu as un milliard de neurones qui doivent s'adapter, cela veut dire que toutes les autres choses apprises avant seront perturbées. Si ce soit localisé dans quelques modules, ce sera beaucoup réduit. C'est un ingrédient important pour la robustesse à l'apprentissage séquentiel. Il y a une autre manière de réfléchir à ça : le model-based reinforcement learning. On a deux réseaux de neurones : la partie qui fait l'inférence et la partie qui représente les connaissances. La partie qui représente les connaissances est le modèle ; c'est la structure causale du monde. La partie inférence te permet de prédire instantanément quand tu vois une balle tomber ce qui va arriver. Ton modèle essaie d'expliquer toute ton expérience de vie. Il n'est pas juste spécialisé à une tâche, il essaie d'être cohérent avec tout ce que tu as vécu. La partie qui fait l'inférence est plus spécialisée ; elle est entraînée aux genres de questions auxquelles elle a été confrontée souvent. On n'a pas besoin de changer notre modèle du monde, on a juste besoin de pratiquer plus l'inférence dans les contextes qui nous intéressent. Beaucoup d'éléments dans le design que j'entrevois vont faire en sorte que le problème de catastrophic forgetting sera réduit. Dernier élément : la mémoire. Le problème du catastrophic forgetting vient du fait qu'on fait l'hypothèse abusive qu'on n'a pas accès à toutes nos anciennes expériences. Dans ton cerveau tu peux stocker toute ta vie facilement. Ta mémoire épisodique peut remonter loin. Il y a des choses qui se passent à un niveau inconscient qui font que tu continues à pratiquer avec tes anciennes expériences et à rester cohérent.
Merci, si je peux juste faire une relance là-dessus.
Oui.
Si le réseau apprend une tâche puis veut en apprendre une seconde, il y a moyen de modifier certains modules, mais si le contenu de la deuxième tâche était différent, modifier certains modules donnerait des représentations plus robustes que de tout modifier. Comment le réseau sait-il qu'il faut modifier moins de modules ? Est-ce que nous savons cela parce que nous avons déjà vu beaucoup de tâches ?
Dans notre cerveau, suite à l'évolution, on a déjà des biais qui sont présents.
C'est clair.
Est-ce que ces biais — parce que là le réseau est entraîné à partir de poids aléatoires ?
Oui.
Les biais inductifs que l'évolution a mis en nous et que nous ne serons pas nécessairement capables de mettre dans nos réseaux de neurones artificiels devront être compensés par plus d'apprentissage et plus d'exemples. C'est déjà ce qui se passe : pour apprendre la même tâche, on a besoin de beaucoup plus de données qu'un bébé de deux ans.
Merci.
Q&A - Multidisciplinary Collaboration
Est-ce qu'il reste des questions ?
Yoshua, nous avons beaucoup d'étudiants en psychologie et neurosciences cognitives. Pour ceux qui trouvent intéressant le rapprochement entre IA, neurosciences cognitives et psychologie, certains acquerront le bagage nécessaire pour programmer et utiliser les outils en apprentissage profond. D'autres n'auront pas les moyens avec leur formation mais peuvent apporter un autre type de contribution pour cette interface. Quel type de recherche encouragerais-tu pour ces étudiants qui veulent collaborer avec les chercheurs en IA ?
C'est comme dans n'importe quelle collaboration multidisciplinaire ; il y a un effort à faire des deux bords. Je lis des choses de neurosciences cognitives, et les chercheurs en neurosciences cognitives devront lire des choses en intelligence artificielle, être capables de lire les articles et d'avoir une bonne idée des principes généraux. C'est un travail qui prend du temps et des efforts. Ce sera plus motivant dans un contexte de collaboration avec des personnes qui peuvent nous aider. C'est à travers des collaborations multidisciplinaires que ce sera le plus fructueux car la littérature dans votre domaine est tellement vaste qu'il est impossible pour quelqu'un de notre bord d'aller chercher toute l'information. On n'y arrivera pas en y pensant indépendamment chacun de notre côté.
Merci.
Q&A - Neuroimaging Experiments
Dernière question, nous n'allons pas trop abuser de votre temps professeur Bengio.
Quel type d'expérience en neuroimagerie fonctionnelle pourrait aider à mieux comprendre l'implémentation des GFlowNets dans le cerveau ?
J'ai répondu que je n'avais pas assez pensé à la question. Cette hypothèse de modularisation et de l'information propagée d'une région du cerveau vers d'autres régions activées dans une ignition consciente est le genre de choses qu'on va pouvoir étudier. On va vouloir décortiquer ce qui se passe. Par exemple : quand il y a une ignition, est-ce qu'un seul module l'emporte ou est-ce une coalition ? Si c'est une coalition, est-ce deux, trois, 25 ou 500 ? L'imagerie pourrait nous aider à clarifier cela.
Merci.
Conclusion
Merci beaucoup pour votre présentation professeur Bengio. Merci d'être venus si nombreux. Il y a du vin et des chips.
Oui, pour le vin et les chips.
Merci de m'avoir écouté, merci de votre attention et j'espère que ça stimulera des réflexions et des collaborations avec les chercheurs en IA.
Certainement, merci encore. Au revoir.