Yoshua Bengio - Vers une IA de niveau humain : Compréhension du langage et causalité

Yoshua Bengio

Vers une IA de niveau humain : Compréhension du langage et causalité

16 novembre 2018

Intelligence Artificielle

Introduction

Présentatrice

Yoshua est le directeur de l'Institut montréalais d'algorithmes d'apprentissage de l'Université de Montréal. Il n'a vraiment pas besoin d'être présenté, je pense donc m'effacer à ce stade. Merci, Yoshua.

Yoshua Bengio

Bonjour. Je vais vous faire part de réflexions d'un niveau assez élevé concernant l'approche de l'IA de niveau humain et, en particulier, me concentrer sur la question de la compréhension du langage, qui est l'un des ingrédients clés pour construire des machines intelligentes et pour laquelle, comme Josh le disait ce matin, je pense que nous avons sous-estimé la difficulté. Peut-être n'avons-nous pas pris la bonne direction. De nos jours, de nombreuses recherches en langage naturel sont effectuées avec l'apprentissage automatique et de grands corpus de textes, parfois d'énormes corpus, par exemple pour la traduction automatique, un domaine sur lequel j'ai travaillé. Ce que je vais vous dire, c'est que je pense que même si nous pouvons faire des progrès incrémentaux en continuant ainsi, cela ne suffira pas à construire des machines qui comprennent réellement le langage. C'est un message assez simple, j'espère que vous le comprendrez.

Les limites de l'apprentissage sur corpus de textes

Yoshua Bengio

Je me souviens avoir vu des exposés il y a longtemps disant que si nous étions capables d'entraîner un très bon modèle de langage, cela signifierait que le modèle saisit le sens sous-jacent et qu'il semble donc que nous nous entraînions simplement sur des corpus de textes parce que pour prédire correctement le mot suivant, nous devons comprendre le reste de la phrase. C'est bien en théorie, mais malheureusement quand on entraîne des modèles de langage, et c'est vrai aussi pour d'autres tâches de TAL, ce qui arrive c'est que les modèles parviennent à réduire leur fonction objective à une valeur assez basse, en fait dans le cas des modèles de langage, assez proche de l'estimation équivalente humaine de la perplexité, et pourtant ils ne semblent pas saisir cette compréhension du monde de haut niveau qui est nécessaire pour vraiment faire du bon travail. C'est quelque chose qui m'a fait réfléchir. Bien sûr, une façon de voir ce qui ne va pas dans beaucoup de ces systèmes est de regarder les erreurs qu'ils commettent. Qu'il s'agisse de langage ou d'image, nous pouvons regarder les erreurs et souvent nous voyons que cela nous montre à quel point les systèmes actuels sont limités.

Le défi du bon sens et de la compréhension du monde

Yoshua Bengio

Une expression qui a été utilisée par beaucoup de gens pour parler de ce qui manque est le bon sens, mais bien sûr cela peut signifier différentes choses selon les personnes. Essentiellement, il y a, dans le cas du langage naturel, ces phrases comme les schémas de Winograd, que les humains peuvent interpréter correctement. Par exemple, les femmes ont arrêté de prendre des pilules parce qu'elles étaient enceintes, et la question est : qu'est-ce que « elles » ? Est-ce les femmes ou les pilules ? Ici, c'est assez évident, et si je devais changer enceinte par cancérigène, cela changerait la réponse. Les systèmes d'apprentissage automatique de pointe actuels font à peine mieux que le hasard sur ce genre de questions. Ils n'ont pas une compréhension du monde qui nous entoure.

Yoshua Bengio

Encore une fois, en réutilisant une vidéo que Josh a utilisée, il semble que nos systèmes manquent actuellement des choses qu'un enfant de deux ou trois ans comprend très facilement sur le monde. Qu'il s'agisse de physique intuitive ou de psychologie intuitive, que sont ces choses ? Ce ne sont pas des choses que les bébés ont pu formaliser. Les parents n'ont pas besoin d'enseigner cela à leurs enfants. Ils le découvrent par eux-mêmes d'une manière ou d'une autre. Peut-être qu'une partie est innée et une autre est apprise ; nous ne savons pas exactement où se trouve la frontière. Mais ils sont capables d'acquérir ces compétences à un niveau pré-linguistique. Nous avons tous beaucoup de connaissances intuitives sur le monde qui font partie de ce bon sens, qu'il nous est très difficile de communiquer par le langage. J'y reviendrai.

L'expérience de pensée extraterrestre

Yoshua Bengio

Si nous nous demandons comment construire des machines qui ont le même niveau de compréhension du langage que les humains, nous devons nous pencher sur ce que signifie comprendre une question ou un document. Pour moi, la partie la plus fondamentale de la réponse est la connaissance. Afin de vraiment donner un sens à ces phrases ou à ces questions, l'ordinateur a besoin de connaissances et la question à laquelle l'apprentissage automatique et l'IA en général tentent de répondre depuis de nombreuses décennies est : comment faire entrer ces connaissances dans l'ordinateur ?

Yoshua Bengio

Pour nous aider à voir certaines des limites de nos approches actuelles basées sur de grands corpus de textes, permettez-moi de faire une simple expérience de pensée avec vous. Supposez que vous voyagez dans l'espace et que vous arriviez sur une planète et que vous essayiez de comprendre le langage des extraterrestres. Vous êtes capable d'observer les bits d'information que les extraterrestres échangent entre eux, leur langage. Vous pourriez faire de la modélisation du langage en observant ces flux de bits. Malheureusement, il y a une légère différence sur cette planète et dans la façon dont ils communiquent par rapport à la Terre. La différence est que les extraterrestres sont capables de communiquer par un canal sans bruit, ce qui n'est pas notre cas ; nous avons la parole qui est très bruitée. Les extraterrestres et les humains ont également un coût à payer pour l'utilisation de la bande passante. Ils vont essayer de compresser leur message autant que possible. Cependant, dans leur cas, parce qu'ils ont un canal sans bruit, ils peuvent compresser entièrement le signal et si vous observez juste les bits qui sont envoyés, ils ressembleraient simplement à des bits aléatoires. En d'autres termes, le simple fait d'observer le texte ne nous donnera rien sur la signification. C'est vraiment important. Bien sûr, vous allez dire que pour nous c'est différent, mais peut-être que mon hypothèse est que, oui, nous obtenons des informations en modélisant simplement le texte, et en fait vous pouvez voir des informations sémantiques dans des vecteurs de mots et des choses comme ça, mais peut-être que nous n'en obtenons qu'une partie et même si nous voyions une quantité infinie de texte, nous n'arriverions jamais au fond du niveau de compréhension que nous avons de ces textes.

Yoshua Bengio

Comment pourrions-nous comprendre cette langue extraterrestre ? Quelle est la solution ? Nous devons travailler un peu plus. Il ne suffira pas de regarder les bits qu'ils échangent. Nous devons essayer de comprendre leurs intentions et leur contexte. Nous devons modéliser ce qu'ils font et essayer de comprendre les causes de leurs communications et de leurs actions. Bien sûr, c'est beaucoup plus difficile. Je pense que c'est le problème que nous avons en IA en ce moment. Nous sommes paresseux, nous sommes cupides et nous essayons de construire quelque chose qui résoudra le problème de l'IA dans les six prochains mois, ou pour la prochaine échéance d'une conférence. Ça ne marchera pas. Nous devons investir dans la résolution de ces problèmes difficiles qui pourraient prendre des décennies ou des siècles. Dans le cas du problème du monde extraterrestre, c'est difficile ; nous devons comprendre la société extraterrestre et faire face à la réalité.

Apprendre le monde et le langage conjointement

Yoshua Bengio

Pour l'IA, cela signifie que si nous voulons faire de la compréhension du langage naturel, nous devons modéliser le monde. Cela inclut la vision, mais aussi la compréhension des interactions sociales et bien d'autres choses qui, actuellement, si vous parlez à un spécialiste du langage naturel, ne font pas vraiment partie de ce qu'ils essaient explicitement de faire.

Yoshua Bengio

C'est assez ambitieux et cela pourrait prendre beaucoup de temps avant de résoudre ces problèmes. Une question intéressante est de savoir si nous devrions d'abord résoudre le problème de la compréhension du monde, puis, une fois que nous nous en sommes occupés, ajouter la partie langage par-dessus et oublier le langage naturel pour les 30 prochaines années, ou si nous devrions essayer d'apprendre conjointement sur le monde et sur le langage ? Mon inclinaison est que nous devrions faire les deux ensemble et la motivation pour cela, et certains ne sont pas d'accord avec moi, c'est bien, mon inclinaison pour cela est que nous pouvons obtenir des indices sur le fonctionnement du monde en regardant ce que les humains disent dans certains contextes. Je pense qu'il y a des preuves en regardant l'apprentissage supervisé par rapport à l'apprentissage non supervisé dans l'apprentissage profond, où nous voyons que les caractéristiques de haut niveau qui sont apprises par l'apprentissage supervisé, disons sur ImageNet, sont en fait bien meilleures pour capturer des informations sémantiques de haut niveau que celles que nous sommes actuellement capables d'apprendre avec les méthodes d'apprentissage non supervisé de toutes sortes que nous connaissons. Je pense qu'une raison fondamentale est que lorsque nous entraînons ces systèmes avec seulement les étiquettes de mots, nous donnons déjà des informations sémantiques de haut niveau sur les concepts qui importent pour expliquer les choses dans le monde et nous injectons donc cette connaissance supplémentaire. C'est une raison. Une autre raison est de penser à l'évolution culturelle. C'est quelque chose auquel j'ai pensé il y a quelques années. Nous pouvons penser à la façon dont le langage et la culture ont évolué comme un grand problème d'optimisation où ce n'est pas seulement un cerveau individuel qui essaie de comprendre comment le monde fonctionne, mais c'est toute une communauté ou tout un groupe d'humains à travers des générations qui essaient de déchiffrer comment le monde fonctionne et utilisent le langage et la culture pour s'aider les uns les autres. Dans ce contexte, le langage pourrait être un outil crucial aussi pour les machines. En d'autres termes, de la même manière qu'un seul humain essayant de comprendre comment le monde fonctionne sans l'aide d'aucun autre humain pourrait rencontrer un défi majeur et rester assez limité pour le reste de sa vie, peut-être aurons-nous besoin d'humains pour enseigner et fournir des indices sur le monde aux machines, tout comme dans l'histoire de Hal.

Système 1, Système 2 et connaissances intuitives

Yoshua Bengio

La distinction entre système 1 et système 2 a été mentionnée plus tôt ce matin et je pense qu'elle est très utile ici pour réfléchir à ces questions. Kahneman et d'autres ont essayé de séparer différents types de tâches cognitives en tâches de système 1 et de système 2. Les tâches de système 1 sont celles que vous pouvez accomplir très rapidement, comme en une demi-seconde, comme la reconnaissance d'objets par exemple, et elles sont intuitives, rapides et souvent heuristiques, donc elles peuvent être imparfaites mais elles font le travail rapidement, et généralement elles ne sont pas linguistiques. Il nous est difficile d'expliquer pourquoi ceci n'est pas un téléphone même si cela peut y ressembler un peu. Cela touche à un aspect intéressant, à savoir qu'il y a beaucoup de connaissances sur le monde qui sont encapsulées dans notre calcul de système 1, auxquelles nous n'avons pas d'accès conscient. Cela signifie que cette connaissance est difficilement représentée explicitement dans le langage. Nous pourrions collecter autant de texte que nous le voulons sur des personnes échangeant des informations, il nous manquerait peut-être encore une partie des connaissances qui se trouvent dans notre cerveau et qui sont représentées dans les aspects du système 1 de notre calcul mental. Parce que nous n'avons pas besoin d'échanger à ce sujet, nous connaissons tous la physique intuitive et la psychologie intuitive sans le savoir consciemment et sans être capables de le verbaliser, il nous serait très difficile de fournir ce genre de connaissances aux machines car même si nous les avons dans la tête, nous ne savons pas comment les exprimer. C'est pourquoi je pense que les systèmes experts classiques ont échoué. En plus du manque de modélisation de l'incertitude, le fait de ne pas pouvoir formaliser toutes sortes de connaissances qui interviennent dans le calcul du système 1 est un problème majeur. Le système 2, c'est tout le reste : les choses que nous faisons qui sont lentes, séquentielles, logiques, conscientes, linguistiques, et des choses comme la conception d'algorithmes. Ce sont les choses pour lesquelles nous sommes bons en informatique, ce sont les choses pour lesquelles nous sommes bons avec la logique, et ce sont les choses que l'IA classique, l'IA symbolique, essayait de traiter. Je pense que nous devons évidemment résoudre ces deux problèmes et je pense que l'apprentissage du langage ancré est une direction de recherche qui nous permettrait de vraiment arriver à des systèmes ayant à la fois les capacités du système 1 et du système 2. Ancré dans un environnement, dans des observations et des interactions avec un environnement, la partie ascendante est le système 1 et nous voulons associer cela au sens et au langage.

Apprentissage par renforcement et agents virtuels

Yoshua Bengio

À cette fin, il existe toute une direction de recherche en apprentissage automatique et surtout en apprentissage profond qui relève généralement de l'apprentissage par renforcement profond, où ce que les gens essaient de faire est de concevoir des cadres d'apprentissage pour des agents qu'ils testeraient ensuite dans des environnements virtuels. Ce sont des agents, ils n'observent pas passivement, et je pense que c'est un ingrédient crucial que nous n'avons pas assez exploité dans les travaux passés en apprentissage profond. Il y a eu une discussion sur la causalité plus tôt, ainsi que sur l'intervention et les contrefactuels. Cet aspect de la compréhension de la structure causale, au moins dans une certaine mesure, en étant capable d'intervenir et de voir les effets de mes actions, est quelque chose auquel la communauté de l'apprentissage profond commence à prêter attention, mais il reste encore beaucoup à faire. Or, il existe une critique courante concernant ce type de recherche, à savoir que vous faites tout cela dans des environnements virtuels et que ce n'est pas réaliste, que le monde réel est beaucoup plus compliqué. Ma réponse à cela est que nous sommes très loin d'une IA de niveau humain. Ce que nous recherchons réellement ici n'est pas d'introduire réellement les connaissances dont je parlais dans l'ordinateur, c'est bien sûr l'objectif ultime, mais l'objectif à court terme est de concevoir des mécanismes d'apprentissage, des procédures d'apprentissage, des cadres d'apprentissage. Les cadres d'apprentissage sont assez généraux, du moins nous essayons de les rendre aussi généraux que possible, ce qui signifie que si nous avons quelque chose qui ne peut même pas apprendre dans des environnements assez simplifiés comme ces choses en 3D, il est très probable que cela ne fonctionnera pas dans le monde réel. Nous devons apprendre à marcher avant de pouvoir apprendre à courir. Il existe également une recherche intéressante appelée « sim-to-real » où les gens entraînent ces modèles de réseaux de neurones sur des environnements virtuels, des environnements virtuels en 3D, puis il existe des stratégies d'adaptation de domaine pour transposer cet apprentissage dans des environnements réels où très peu de données seront nécessaires pour effectuer cette conversion.

Causalité et modèles génératifs

Yoshua Bengio

Revenons à l'aspect causal des choses. Je pense que ce qui se passe actuellement dans de nombreux systèmes d'apprentissage profond, c'est qu'ils recherchent des indices simples dans les données qui permettent à l'apprenant d'obtenir la bonne réponse sur les données d'entraînement, puis dès que vous les testez sur quelque chose de suffisamment différent, ils ont tendance à s'effondrer. Nous avons des articles où nous essayons d'analyser le type de caractéristiques qu'ils ont apprises et ce à quoi ils sont sensibles, et souvent ce que nous trouvons, c'est qu'ils ne sont pas nécessairement sensibles aux choses auxquelles nous pensons qu'ils devraient l'être. Au lieu de capturer l'objectivité, par exemple dans les images, ils capturent toutes sortes d'indices de bas niveau qui ont trait à la texture et à la fréquence de différents motifs et des choses comme ça. Les humains sont très différents. Les humains dépensent en fait beaucoup d'énergie mentale à essayer de comprendre les causes et les explications des choses. C'est quelque chose qui manque clairement dans nos systèmes actuels. Il existe cependant un outil sur lequel nous avons fait beaucoup de progrès dans ma communauté, ce sont ces modèles génératifs profonds. Je pense que cela va être en fait très, très utile à mesure que nous avançons vers la construction de ces architectures plus motivées par la causalité. Parce qu'une partie de ce qu'un agent causal doit faire est de simuler l'avenir d'une manière ou d'une autre. Encore une fois, Josh en parlait et je pense que c'est vraiment important. Nous avons un simulateur mental interne. Nous avons fait beaucoup de progrès dans la capacité d'entraîner ces réseaux de neurones, par exemple avec les GAN et d'autres, pour échantillonner à partir de distributions compliquées d'une manière assez précise. Ce n'est pas suffisant, mais cela va être vraiment important à mesure que nous construisons ces agents qui ressemblent davantage à de l'apprentissage par renforcement basé sur un modèle dans lequel l'agent apprend à la fois la politique mais apprend aussi comment se projeter dans l'avenir afin de prendre des décisions. C'est ce qu'est la planification.

Généralisation hors distribution et mécanismes causaux

Yoshua Bengio

Cette discussion sur la causalité m'amène à l'hypothèse IID que nous faisons en apprentissage automatique. Nous supposons que les données de test proviennent de la même distribution que les données d'entraînement. Même notre théorie repose là-dessus. Actuellement, il nous manque une théorie pour expliquer comment les humains sont capables de généraliser très loin des données d'entraînement. Par exemple, vous pouvez lire un roman de science-fiction. Il parle d'une situation qui n'est jamais arrivée, n'arrivera jamais, mais vous pouvez deviner quelle serait la suite après avoir lu la moitié du livre. Ce que je propose, c'est que du point de vue de la théorie, nous passions du temps à explorer d'autres structures pour notre théorie de l'apprentissage, dans lesquelles, au lieu de supposer que les situations de test proviendront de la même distribution que les situations d'entraînement, nous supposons seulement qu'elles partagent les mêmes mécanismes causaux. Qu'est-ce que cela signifie ? Vous pouvez considérer les mécanismes causaux comme l'ensemble des engrenages qui donnent lieu, à partir de conditions initiales, à certains états du monde que nous pouvons observer. Si nous avons les mêmes mécanismes causaux et les mêmes conditions initiales, nous obtenons la même distribution en sortie. Mais nous pourrions supposer que nous n'avons que les mêmes mécanismes et des conditions initiales différentes. Alors nous obtenons quelque chose qui peut être très différent en apparence. Comme si je suis sur la lune, cela semble très différent de la Terre, mais ce sont vraiment les mêmes lois de la physique. Les humains sont capables de faire cela. Quand vous lisez un roman de science-fiction, il y a des suppositions souvent explicites qui constituent le début du roman et à partir de là, tout est simplement logique. Enfin, les bons romans de science-fiction.

Le projet Baby AI Game

Yoshua Bengio

Permettez-moi de vous dire quelques mots sur un projet que nous avons lancé dans mon groupe et qui tente d'aller un peu dans la direction dont je parle. Je pense que ce n'est qu'une voie et que nous avons besoin de beaucoup plus de monde pour explorer bien d'autres voies. J'appelle cela le projet « Baby AI Game ». Le but est de construire un jeu auquel les vrais humains finiront par jouer, nous ne sommes pas encore prêts pour cela, et dans le jeu, l'humain jouera le rôle d'un enseignant ou d'un professeur pour un agent virtuel, que nous appelons le « Baby AI » ou l'apprenant Baby AI. L'apprenant Baby AI vit dans un environnement comme un jeu vidéo, et l'apprenant Baby AI et le joueur humain interagissent en langage naturel. Au départ, le Baby AI ne sait pas grand-chose. On dirait qu'il ne sait rien. Mais je suppose qu'il a un peu de connaissances préalables qui lui permettent d'initier une interaction avec le joueur et, d'un autre côté, le joueur en sait beaucoup. Le joueur est un humain, le joueur peut jouer au jeu, et le joueur a même des connaissances sur la pédagogie. Nous avons l'habitude d'enseigner aux autres, nous le savons intuitivement et parfois nous suivons des cours pour le faire mieux. Le jeu consiste réellement à voir comment le joueur humain trouvera la meilleure façon d'enseigner à cet apprenant bébé. Par exemple, concevoir le programme approprié qui sera adapté au comportement du bébé. Ce jeu serait également intéressant d'un point de vue scientifique pour un certain nombre de raisons. L'une d'elles est de collecter des données sur les interactions homme-machine avec un humain dans la boucle, et particulièrement des données en langage naturel de ce genre. De plus, ce ne sont pas des données statiques, car le jeu serait joué par de nombreuses personnes et vous pourriez donc concevoir des expériences, comme envoyer votre expérience dans l'environnement du jeu, l'expérience consisterait en une procédure d'apprentissage pour le bébé et peut-être de nouveaux niveaux pour le jeu, et vous pourriez collecter des données sur la façon dont les choses se passent et ainsi apprendre quelque chose du point de vue scientifique sur la façon de concevoir de meilleurs apprenants. Cela pourrait également servir de référence pour comparer différents mécanismes d'apprentissage des agents. Le plus grand défi du point de vue de l'apprentissage automatique ici est la complexité des échantillons. Les méthodes actuelles d'apprentissage par renforcement exigent beaucoup de données avant de pouvoir apprendre des choses très simples. Nous avons d'ailleurs soumis un article sur ce projet à l'ICLR et nous avons effectué des expériences de référence où il peut facilement falloir des millions d'interactions entre le bébé et l'humain pour apprendre des choses très simples comme apprendre à aller chercher et trouver des objets dans un certain environnement.

Yoshua Bengio

Nous avons conçu un ensemble de niveaux très simples en 2D pour le moment et un langage de modèles qui est combinatoire, il y a donc un nombre énorme de missions potentielles que nous pourrions demander au bébé de résoudre.

Le "Consciousness Prior" et la planification

Yoshua Bengio

Il ne me reste plus beaucoup de temps, mais permettez-moi de dire quelques mots sur ce qui, selon moi, est une autre chose liée à cela et que nous devons changer dans la façon dont nous simulons l'avenir. J'ai parlé de ces modèles génératifs qui peuvent prédire le prochain état du monde étant donné l'état actuel et il y a beaucoup d'articles qui font ce genre de choses. L'approche traditionnelle de l'apprentissage automatique pour apprendre un modèle pour l'apprentissage par renforcement basé sur un modèle ou en général pour modéliser des séquences de données de choses dans le monde est de faire comme nous le faisons dans le modèle de langage, comme prédire l'image suivante étant donné les images précédentes ou l'observation suivante étant donné les observations précédentes. Cela semble raisonnable car en faisant cela, vous modélisez la distribution jointe complète. Cependant, si l'objectif est de construire une machine qui sera utilisée par un agent pour planifier et simuler l'avenir de manière utile pour que cet agent prenne des décisions, je pense que c'est tout à fait excessif et que l'objectif d'entraînement ne met pas la pression aux bons endroits. Si vous faites un peu d'introspection sur la façon dont vous planifiez, quels types de pensées avez-vous lorsque vous vous projetez dans l'avenir, vous réaliserez que vous ne modélisez pas dans les moindres détails tous les pixels qui vont arriver à l'étape suivante. Ce n'est pas ce qui se passe. Tout d'abord, vous pouvez vous projeter dans l'avenir à des moments arbitraires de l'avenir. Nous ne modélisons pas T, T+1, T+2 et ainsi de suite. Nous n'avons même pas besoin de spécifier si c'est T+20 ou T+2000. Nous savons simplement que plus tard, je dois prendre un vol à peu près ce soir et que la semaine prochaine, j'ai cette réunion importante mais je ne me souviens plus quand, mais je peux quand même planifier en gardant cela à l'esprit. Le temps n'est pas géré de cette façon par les humains. De plus, quand nous pensons à l'avenir, quand nous nous projetons, nous ne représentons pas l'état complet du monde, comme les détails de ce qui va se passer. C'est impossible ; il y a tellement de choses que nous ne pouvons pas prédire, la distribution serait beaucoup trop compliquée et n'avoir que quelques échantillons de cette distribution ne la caractériserait pas d'une manière suffisamment utile. Comment faisons-nous ? Je pense que la façon dont nous le faisons est que nous nous concentrons sur quelques aspects pertinents de l'avenir qui importent pour le plan auquel nous réfléchissons.

Yoshua Bengio

Ceci est lié à une idée qui ressemble davantage à un autre projet de recherche lié au jeu Baby AI, que j'ai lancé dans mon groupe, et que j'appelle le « consciousness prior ». L'idée est que nous allons apprendre ces représentations avec des réseaux de neurones, bien sûr, mais nous allons distinguer deux types de représentation. Nous avons les représentations traditionnelles qui capturent beaucoup d'informations sur l'entrée et peut-être le passé, et j'appelle cela l'état inconscient. Mais nous allons aussi apprendre, en utilisant des mécanismes d'attention, à sélectionner quelques dimensions ou projections de cet état inconscient à haute dimension. On pourrait y penser comme à la sélection de quelques dimensions ou de quelques variables qui vont constituer votre pensée à un moment donné. Pensez-y simplement comme à une phrase en anglais ou aux conditions d'une règle dans un système à base de règles. Ce sont juste quelques variables et leurs valeurs. Nous avons un mécanisme d'attention qui effectue cette sélection. La raison pour laquelle j'appelle cela un « prior » est que la cartographie nécessaire de l'entrée vers cette représentation inconsciente va devoir être très spéciale afin que je puisse faire ces plans sur l'avenir et ces affirmations sur l'avenir en utilisant seulement quelques dimensions à la fois. Si j'essayais de construire ces pensées conscientes qui me permettent de faire des prédictions vraies en utilisant directement des pixels, ce serait très difficile. Je ne peux pas simplement choisir trois ou quatre pixels et espérer pouvoir prédire l'un des quatre pixels étant donné les trois autres avec une probabilité élevée. Cependant, si je fais la prédiction dans le bon espace sémantique, par exemple si je dis que je vais attraper cet objet, la probabilité que cette affirmation soit vraie est très, très élevée. La raison pour laquelle cela peut arriver est que je le fais au bon niveau de représentation où je peux faire ces prédictions très fortes. Le prior ici est qu'il existe des affirmations vraies sur le monde, prédictives ou non, parfois exploratoires, qui peuvent être faites en utilisant seulement quelques variables bien choisies. Le prior va imposer quelque chose sur la façon dont nous voulons représenter les informations de haut niveau. C'est un peu ma quête de la dernière décennie : comment découvrir de bonnes représentations ? Comment un apprenant parvient-il à démêler les causes sous-jacentes et les facteurs sous-jacents qui expliquent ce que nous observons ? L'idée ici est de tirer parti de quelque chose que les gens de l'IA classique ont compris il y a longtemps, à savoir qu'il existe beaucoup de connaissances sur le monde qui peuvent être exprimées avec ces règles très simples qui n'impliquent que quelques variables à la fois. Ce que j'espère, c'est qu'en imposant ce régularisateur supplémentaire, nous allons aider ces apprenants à trouver des représentations plus utiles et, espérons-le, à combler le fossé entre le calcul du système 1, qui correspond à ce qui se passe ici, et le calcul du système 2, où nous choisissons des pensées et les utilisons pour raisonner et planifier.

Conclusion : Vers une IA de niveau humain

Yoshua Bengio

Je vais conclure. Il y a beaucoup de choses qui sont nécessaires pour se rapprocher de la compréhension de niveau humain. Bien sûr, des choses comme une informatique moins chère, plus rapide et moins gourmande en énergie, mais aussi des changements fondamentaux dans la façon dont nous envisageons l'apprentissage des représentations, l'apprentissage de la compréhension du langage, et enfin le traitement de la question de la causalité dans nos méthodes d'apprentissage automatique. De plus, une chose sur laquelle je n'ai pas passé de temps : si vous pensez à des agents apprenants dans ces espaces à très haute dimension, il ne suffit pas d'être passif. Pour découvrir les informations dont l'agent a besoin, il va probablement devoir explorer, mais pas explorer par une marche aléatoire, explorer de manière intelligente comme un enfant joue et fait exactement ce qu'il faut pour trouver des informations sur le monde, ou penser comme Josh le disait à la façon dont un scientifique fait des expériences afin d'acquérir des informations. Ce ne sont pas des expériences aléatoires en espérant que quelque chose de bon en ressorte. Il y a une planification qui intervient dans l'acte d'acquérir activement des informations. Merci beaucoup.

Session de Questions-Réponses

Yoshua Bengio

Des questions ? Oui. Est-il juste de dire que le prior de conscience est un prior parcimonieux sur un ensemble d'états inconscients latents ? Oui, sauf que la parcimonie est dynamique et qu'elle est contrôlée par ce contrôleur qui décide de ce à quoi nous pensons à n'importe quel moment donné. C'est totalement une question de parcimonie, mais c'est une parcimonie dynamique, ce ne sont pas toujours les mêmes choses qui vont être activées en fonction du contexte. Suivante. Y a-t-il des résultats où votre proposition de relaxation de l'IID a donné des résultats formels ? Non, j'espère que les gens s'attaqueront à ce problème. Je n'ai pas la réponse, mais j'ai le sentiment que c'est une direction pour étendre la théorie de l'apprentissage et nous devons le faire techniquement et formellement. Suivante. Pouvez-vous discuter de la nécessité d'intégrer différentes perceptions sensorielles pour ancrer l'apprentissage du langage ? Comment cela peut-il être fait ? Je pense que nous devons revenir à la question de la connaissance. Je ne pense pas qu'il soit si important d'avoir de nombreuses modalités sensorielles. Ce qui compte, c'est que les modalités sensorielles donnent une vue sur l'environnement qui soit suffisante pour qu'un agent comprenne comment l'environnement fonctionne. Comme contre-exemple, je pense que lorsque nous faisons de l'apprentissage du langage ancré en essayant d'associer des phrases à des images, c'est insuffisant. C'est insuffisant parce qu'une image statique ne nous donne pas assez d'informations sur l'environnement ; même si vous vous entraînez avec beaucoup de ces images, il sera difficile pour l'apprenant de comprendre, par exemple, la nature 3D des choses simplement en regardant ces images. Il faudrait au moins que cet agent soit dans un environnement peut-être avec une vision stéréo ou des séquences d'images afin qu'il ait une chance, peut-être activement, de comprendre l'objectivité des choses en 3D. Il ne s'agit pas du nombre de perceptions sensorielles, mais du fait que les perceptions sensorielles soient assez riches pour permettre à l'apprenant de comprendre les concepts qui importent dans cet environnement. Suivante. Les algorithmes génétiques se concentrent également sur les effets causaux à travers quelque chose d'évolutionnaire. Quels sont les avantages et les inconvénients de Baby AI par rapport aux algorithmes génétiques ? Je pense que cela aborde simplement des questions différentes. Les algorithmes génétiques concernent l'optimisation et ici je pense à un cadre dans lequel nous pouvons évaluer différents mécanismes d'apprentissage d'agents et l'apprentissage du langage ancré. Suivante. Avez-vous établi des liens avec des chercheurs en IA symbolique qui travaillent sur ces problèmes depuis des décennies ? Pas récemment, mais je suis assez vieux pour que, lorsque j'ai suivi des cours d'IA, tout portait sur l'IA classique et l'IA symbolique. J'en ai une certaine connaissance, mais vous avez raison, je devrais me rapprocher davantage de ces personnes et j'ai commencé à me rapprocher davantage de personnes du côté des sciences cognitives, des neurosciences et du développement de l'enfant ; ces personnes ont beaucoup à m'apprendre qui est pertinent ici. Suivante. Le vocabulaire est souvent une mesure de l'intelligence chez les humains. Ouf, je n'aime pas ça. Comment l'augmentation du vocabulaire affecte-t-elle les modèles d'apprentissage ? Je ne sais pas comment répondre à cela. Je peux vous parler d'une expérience que nous avons menée il y a longtemps où nous avons pu accélérer l'entraînement d'un modèle de langage en faisant un programme où nous commencions par un petit vocabulaire des mots les plus fréquents, puis nous augmentions progressivement la taille du vocabulaire. Pour moi, la question du vocabulaire n'est pas de savoir quelle est sa taille, mais ce qu'il représente du point de vue de l'apprenant sur les aspects du monde qui sont compris par l'apprenant. Pour moi, un petit vocabulaire signifie probablement qu'il y a peu de concepts dans le monde que je comprends ou dont je suis capable de parler. À mesure que les enfants comprennent de plus en plus de choses, ils sont capables de mettre des mots sur ces choses. Suivante. Une augmentation substantielle de la puissance de calcul est nécessaire. Je suis d'accord. Quel matériel est le meilleur selon vous ? Eh bien, il y a des choses à court terme et à long terme ici. À court terme, il y a beaucoup de gens qui conçoivent des circuits numériques qui sont vraiment destinés à effectuer le genre de calculs qui sont actuellement faits en apprentissage profond. Je suis à peu près sûr que nous obtiendrons une accélération très significative dans les prochaines années en utilisant ces approches ; des entreprises sortent déjà des puces. À plus long terme, je pense que nous pourrions avoir besoin de vraiment explorer des types de dispositifs très différents. Je pense que nous devons passer à l'analogique dans une certaine mesure, mais cela nécessite un investissement à plus long terme et j'ai également des recherches en cours dans cette direction.

Retour aux entretiens de Yoshua Bengio