Yann LeCun

Un chemin vers l'intelligence machine autonome

26 avril 2023

Intelligence Artificielle
Illustration de Yann LeCun

Introduction et limites de l'apprentissage automatique

Yann LeCun

Bon anniversaire. Je suis un peu envieux parce que j'ai eu 60 ans en juillet 2020 et qu'il n'y avait aucun moyen d'organiser quoi que ce soit. Alors...

Yann LeCun

D'accord, et ces choses se produisent dans l'IA aujourd'hui et je vais essayer de parler de pistes intéressantes pour rendre l'IA encore plus impressionnante qu'elle ne l'a été ces derniers mois, puis souligner les limites de ce qui se passe. Donc, l'apprentissage automatique, c'est nul. C'est vraiment nul. Du moins si on le compare à ce que les humains et les animaux peuvent faire. Je veux dire que notre capacité à apprendre les choses très rapidement, à comprendre comment le monde fonctionne, principalement par l'observation quand nous sommes bébés, est incroyable et nous ne pouvons pas reproduire cela avec des machines aujourd'hui. Malgré tout le battage médiatique que vous entendez, nous ne savons pas comment faire. Évidemment, l'apprentissage supervisé a connu un large succès pour de nombreuses applications. L'apprentissage par renforcement a eu un succès assez limité, principalement dans les jeux et des choses comme ça, parce qu'il nécessite une quantité insensée d'essais. Et ce qui a conquis le monde au cours des cinq dernières années, c'est ce qu'on appelle l'apprentissage auto-supervisé, dont je dirai quelques mots. Mais au final, nous avons encore des systèmes spécialisés, un peu fragiles, ils font des erreurs stupides, ils ne raisonnent pas et ne planifient pas, du moins très peu d'entre eux le font. Si nous comparons cela aux humains et à la plupart des animaux, ils peuvent apprendre de nouvelles tâches extrêmement rapidement, comprendre comment le monde fonctionne, raisonner et planifier, et avoir un certain niveau de bon sens, et nous n'avons toujours pas de machines capables de faire cela. Une limite de la plupart des systèmes d'IA actuels est qu'ils ont un nombre constant d'étapes de calcul entre l'entrée et la sortie. Cela inclut des choses comme les grands modèles de langage autorégressifs dont beaucoup de gens ont entendu parler ces derniers mois. Il y a une quantité fixe de calcul pour calculer chaque jeton et cela limite la capacité de raisonnement de ces systèmes. Ils ne peuvent pas vraiment planifier non plus. Ils sont autorégressifs, ils produisent donc les choses les unes après les autres. Alors, comment faire pour que les machines apprennent et agissent plus comme les humains et les animaux, en étant particulièrement capables de raisonner et de planifier ? Parlons d'abord de l'apprentissage auto-supervisé parce qu'il a vraiment créé la dernière révolution de l'IA et cela a été annoncé au cours des sept ou huit dernières années. J'en ai été un fervent défenseur. L'apprentissage auto-supervisé est l'idée que vous capturez les dépendances internes au sein d'un signal en entraînant essentiellement une machine à prédire. Donc, si vous deviez entraîner une machine à prédire de la vidéo, vous montreriez un clip vidéo, puis vous révéleriez le segment suivant de la vidéo et entraîneriez un système à tenter de prédire ce qui va se passer ensuite. Le masquage n'a pas besoin de concerner l'avenir, il pourrait concerner le passé, il pourrait s'agir de différentes parties de l'entrée. Il s'agit essentiellement de prendre une entrée, d'en masquer une partie et, à partir de la partie visible, d'essayer de capturer la dépendance avec la partie qui n'est pas visible ou pas actuellement visible. Et cela fonctionne étonnamment bien pour des choses comme la compréhension du langage naturel. Ainsi, chaque système de TAL de pointe au cours des quatre ou cinq dernières années a été entraîné de la manière suivante ou pré-entraîné de la manière suivante. Vous prenez un texte, vous le corrompez en cachant certains mots, 10 à 15 % des mots en les remplaçant par un marqueur vide ou en les substituant par un autre, puis vous entraînez un réseau neuronal gigantesque, généralement une architecture transformeur, à prédire les mots manquants. Et ce faisant, le système apprend des représentations internes du texte qui représentent tout sur la syntaxe, la sémantique, le sens, tout, le style. Et vous pouvez en outre entraîner ces systèmes à être multilingues. Vous n'avez donc pas besoin de les entraîner sur une seule langue, vous pouvez les pré-entraîner avec plusieurs langues et ces systèmes trouvent une sorte de représentation interne indépendante de la langue, ce qui est assez déroutant. Mais cela fonctionne incroyablement bien et, comme je l'ai dit, ce n'est pas un phénomène nouveau, ces choses ont été utilisées en production et très largement déployées au cours des quatre ou cinq dernières années, et c'est ce qui a permis à des entreprises comme Meta, sur Facebook et YouTube et d'autres, de faire de la modération de contenu de manière beaucoup plus efficace en détectant des choses comme les discours de haine. Il fut un temps où la proportion de discours de haine détectée automatiquement était de l'ordre de 30 % il y a environ cinq ans, elle est maintenant de 95 %. Et c'est juste grâce à cela. Les systèmes de traduction, ils fonctionnent vraiment bien maintenant, c'est grâce à cela. Révolution incroyable. Et ces systèmes ont également été utilisés pour générer du contenu, qu'il s'agisse de texte, d'images, de vidéos, etc. Et pour cela, c'est un cas particulier de ce que j'ai décrit, où le masquage que vous effectuez n'est pas des mots aléatoires dans le texte, vous masquez juste le dernier. Vous entraînez donc un réseau neuronal gigantesque à prédire simplement le dernier mot d'une longue séquence de quelques milliers de mots tirés d'un corpus. Et vous entraînez ce système sur mille à deux mille billions de mots et avec des réseaux neuronaux qui sont des architectures transformeurs avec un style particulier de connexions internes qui les rend causaux afin qu'ils ne puissent prêter attention qu'aux éléments du passé de ce qu'ils prédisent. Et ils peuvent avoir de l'ordre de milliards à un billion de paramètres. Et puis, quand vous les utilisez une fois qu'ils sont entraînés, vous les utilisez en produisant le mot suivant dans un texte : vous leur soumettez une instruction, vous leur demandez de produire le mot suivant, puis vous injectez ce mot dans l'entrée en décalant tout le reste d'une unité, puis vous produisez le mot suivant et vous décalez à nouveau. C'est juste de la prédiction autorégressive, un concept très ancien bien sûr. Et ce qui est incroyable, c'est que lorsque vous rendez ces systèmes assez grands, il y a une sorte de propriété émergente qui se produit. Ils semblent non seulement comprendre dans une certaine mesure le texte qu'ils lisent, mais ils peuvent produire du texte qui a un certain sens, particulièrement si vous les affinez pour une tâche particulière comme répondre à certaines questions par le biais de retours humains. Il existe donc une longue histoire de modèles de langage de ce type qui prédisent le mot suivant remontant à Shannon, ce n'est donc pas une idée neuve. Les premiers modèles neuronaux à faire de la prédiction de mot suivant ont été réalisés par Yoshua Bengio au milieu des années 2000. Et ce qui s'est passé ces dernières années, c'est juste leur mise à l'échelle essentiellement et l'accès à plus de données. Ainsi, il y a une série de systèmes de dialogue qui ont été publiés par diverses entreprises ou laboratoires, BlenderBot c'était il y a quelques années, Galactica c'était en septembre dernier. Il a été entraîné sur l'ensemble de la littérature scientifique dans le but d'aider les scientifiques à rédiger des articles. Il a été publié sous forme de démo et a été assassiné par Twitter. Beaucoup de gens sur Twitter ont dit que c'était horrible, que les gens allaient l'utiliser pour générer de faux articles scientifiques, que cela allait inonder le système d'examen par les pairs et que la société serait détruite. En conséquence, les personnes qui ont créé Galactica chez FAIR, une petite équipe de cinq personnes, ont été si désemparées qu'elles l'ont retiré. Et puis la direction de Meta a dit que c'était trop dangereux, que nous ne publierions plus rien de tel. Donc, la réaction du public à ce sujet peut avoir des effets très dommageables sous prétexte d'éthique. Cela nuit en fait au progrès de la science. Quoi qu'instruit, nous devons être prudents à ce sujet. Ensuite, il y a la chose suivante qui a été publiée par FAIR très récemment, c'est un système appelé LLaMA qui est en accès libre. C'est donc un grand modèle de langage, également autorégressif. Il existe plusieurs tailles, de 7 milliards à 65 milliards de paramètres. Le paramètre de 13 milliards donne de meilleurs résultats sur les tests de référence que le paramètre de 175 milliards de GPT-3. Ces progrès ont donc été réalisés. C'est en open source, le code d'inférence est en open source mais les modèles eux-mêmes sont derrière un pare-feu, il faut postuler pour obtenir les poids du réseau. Et quand vous les obtenez, vous ne pouvez pas les utiliser commercialement. La raison en est que ces systèmes ont été entraînés avec énormément de données provenant de partout sur Internet et que beaucoup de gens qui fournissent ces données ne sont pas satisfaits que leurs données soient utilisées pour entraîner des modèles de langage et donc si FAIR ou Meta devait distribuer cela commercialement, ils seraient probablement poursuivis par tout un tas de gens comme Reddit et Twitter. Donc pas d'open source, pas d'industrie de l'IA dans le monde de l'open source à cause de problèmes juridiques. Encore une fois, les gens parlent d'éthique, mais c'est une grande question d'éthique. Alpaca était un système de Stanford qui était essentiellement une version affinée de LLaMA. Et puis il y a des systèmes similaires chez Google, chez DeepMind, etc. Des équipes énormes travaillent là-dessus dans toutes ces entreprises et bien sûr tout le monde connaît ChatGPT pour la seule raison qu'il fonctionne assez bien, qu'il a été affiné pendant un n ou deux et qu'il est accessible au public. Mais en termes d'innovation technique sous-jacente, pas grand-chose. C'est juste bien conçu, essentiellement. Je l'ai dit sur Twitter et on m'a aussi accusé d'être jaloux ou quelque chose comme ça. Donc la performance de ces choses est incroyable. Elles sont très utiles, particulièrement comme aides à la rédaction. Mais elles font des erreurs vraiment stupides, des erreurs factuelles, des erreurs logiques, elles sont vraiment incohérentes surtout pour de longs propos, elles ont un raisonnement très limité, il n'y a aucun moyen de contrôler la toxicité, etc. Et elles n'ont aucune connaissance de la réalité sous-jacente, elles sont purement entraînées sur du texte et cela peut surprendre beaucoup d'entre nous, mais l'essentiel de la connaissance humaine n'a rien à voir avec le langage. C'est la connaissance du monde physique ou l'intuition ou même pour les mathématiciens. Si je pose une question, je multiplie un vecteur par une matrice symétrique semi-définie positive, le vecteur résultant peut-il former un angle supérieur à 90 degrés avec le vecteur d'origine ? Et vous tous ici, la plupart d'entre vous du moins je suis sûr que vous avez tous un modèle mental de ce qu'une matrice semi-définie positive fait à un vecteur et réalisez qu'elle ne fait qu'étirer les axes et qu'elle ne peut pas faire pivoter un vecteur de plus de 90 degrés. Ou vous vous souvenez peut-être d'un théorème qui dit qu'une forme quadratique produit un nombre positif. Quoi qu'il en soit, vous avez un modèle mental que vous utilisez pour l'intuition. Ces systèmes n'ont pas de modèle mental ou quel que soit le modèle mental qu'ils ont, il est purement construit à partir de texte et très superficiel dans sa compréhension du monde. Aucune intuition. Mais ils peuvent se souvenir du théorème. Il est donc très utile d'utiliser ces outils pour générer du texte, en particulier pour des textes très organisés comme le code. Cela va révolutionner la façon dont les logiciels sont écrits. Il y a du code généré avec LLaMA 65 milliards, ce truc en open source, et vous spécifiez juste ceci, trouve la racine réelle de bla bla bla et le truc écrit juste le code. Ou écris une expression régulière pour supprimer les balises HTML dans une chaîne Python. Donc du code court qui fonctionne vraiment bien. Un logiciel entier ? No, parce que ces systèmes ne peuvent pas planifier, ils ne peuvent pas vraiment organiser les structures de données et autres, mais ils écriront du code pour une page ou quelque chose comme ça. Mais ils hallucinent. Alors mes collègues me font une blague, saviez-vous que Yann LeCun a sorti un album de rap l'année dernière, nous l'avons écouté et voici ce que nous en avons pensé. Et le système continue simplement et invente une histoire sur la façon dont j'ai sorti un album de rap. En fait, je n'aime pas particulièrement le rap, je suis plutôt jazz alors je leur ai demandé de faire la même chose avec le jazz et ils ont dit non ça ne marche pas, il dit qu'il n'y a pas assez de critiques de jazz en ligne. Alors j'ai pleuré. D'accord, alors à quoi servent-ils ? Ils sont bons comme aide à la rédaction certainement, assistance à l'écriture, génération de premier jet, polissage stylistique, ce qui est vraiment bien pour beaucoup d'entre nous qui ne sommes pas de langue maternelle anglaise. Ils ne sont pas bons pour produire des réponses factuelles et cohérentes, ils hallucinent. Pour prendre en compte des informations récentes, ils sont formés avec des données qui ont deux ans essentiellement. Pour se comporter correctement, ils respectent simplement les statistiques des données et cela dépend vraiment de ce sur quoi ils ont été formés. Ils ne font pas de raisonnement, ils ne font pas de planification, ils ne font pas de maths. Ils pourraient utiliser des outils tels que des moteurs de recherche, des calculatrices, des requêtes de base de données, etc. Des gens travaillent activement là-dessus mais ChatGPT ne le fait pas, mais c'est un sujet de recherche très actif. Nous sommes facilement dupés par leur aisance à penser qu'ils sont intelligents mais ils ne le sont pas. Et ils ne savent pas comment le monde fonctionne. Et voici un petit peu de mathématiques intuitives à ce sujet. Imaginons que la séquence de jetons qu'un tel modèle peut produire, vous pouvez les organiser en un arbre. Un arbre de tous les possibles, pour chaque premier jeton il y a un certain nombre de chemins différents qui correspondent à disons 100 000 correspondant à tous les mots du dictionnaire et ensuite pour chacun de ceux-là vous avez mille mots différents. Ils sont donc organisés comme un arbre. L'ensemble des bonnes réponses, quelle que soit la façon dont vous le définissez, est un sous-arbre au sein de cet arbre. Et imaginons par souci de simplicité qu'il y ait une certaine probabilité E pour chaque jeton généré de vous faire sortir de l'arbre des bonnes réponses. En supposant que les erreurs soient indépendantes, ce qui est bien sûr faux, la probabilité qu'une séquence de jetons de taille N soit dans l'ensemble des bonnes réponses est 1 moins E à la puissance N. C'est un processus de diffusion avec une divergence exponentielle. Ce qui signifie qu'il n'y a aucune chance que ces trucs fonctionnent bien. Aucune chance. C'est une décroissance exponentielle. La seule chose avec laquelle vous pouvez jouer pour le moment, ce que beaucoup de gens font en faisant littéralement bouillir de petits lacs, c'est de rendre ce E plus petit. Mais vous ne pouvez pas corriger le fait qu'est un processus de diffusion à divergence exponentielle. Ce n'est donc pas réparable sans une refonte majeure et c'est ce dont je vais parler. D'accord, donc ce n'est pas le seul problème de ces choses. Ils ont un nombre constant d'étapes de calcul entre l'entrée et la sortie pour chaque jeton, et ils ont en quelque sorte un faible pouvoir de représentation. Ils ne raisonnent pas vraiment et ils ne planifient pas, j'ai déjà souligné ce point. Et il leur manque beaucoup de caractéristiques de l'intelligence humaine et animale. Donc ils sont nuls. Très bien. Je veux dire qu'ils sont très utiles, ils vont créer une nouvelle industrie, ils vont révolutionner le monde, mais ils sont nuls. Alors, comment les humains et les animaux apprennent-ils si vite ? Nous apprenons beaucoup de choses sur le fonctionnement du monde au cours des premiers mois de la vie, principalement par l'observation, puis après avoir appris à utiliser nos membres par l'interaction. Mais au début, c'est surtout de l'observation. Nous apprenons donc des concepts vraiment basiques comme le fait que le monde est tridimensionnel, le fait que lorsqu'un objet disparaît derrière un autre il existe toujours, le fait qu'il existe des catégories d'objets dans le monde même si nous ne connaissons pas leurs noms nous savons qu'il existe différentes catégories spontanées. Et puis vers l'âge de neuf mois, nous apprenons des choses comme la gravité, que les objets sont censés tomber s'ils ne sont pas soutenus, l'inertie, la physique intuitive. Cela prend du temps. Vous mettez un enfant de huit mois sur une chaise haute avec des jouets sur la table devant lui, il va systématiquement les mettre par terre et regarder, parce que c'est l'expérience que la gravité fonctionne réellement. Mais alors comment se fait-il que les bébés puissent apprendre comment le monde fonctionne ainsi ? Comment se fait-il qu'à l'âge de 16 ou 17 ans, n'importe quel adolescent puisse apprendre à conduire une voiture avec 20 heures de pratique ou quelque chose comme ça ? Et nous n'avons toujours pas de voitures autonomes. Nous avons peut-être ChatGPT ou GPT-4, mais nous n'avons pas de robots capables de débarrasser la table du dîner et de remplir le lave-vaisselle même si un enfant de 10 ans en est capable. C'est donc un nouvel exemple du paradoxe de Moravec, qui est que les ordinateurs peuvent faire des choses qui semblent compliquées pour les humains mais ne peuvent pas faire les choses simples que les humains tiennent pour acquises. C'est toujours d'actualité. Alors peut-être que l'accumulation des connaissances de base que les bébés apprennent lorsqu'ils regardent le spectacle du monde est ce qui constitue la base du bon sens. Et je vois donc trois défis pour la recherche en IA et en apprentissage automatique à l'avenir. Le premier est l'apprentissage de représentations et de modèles prédictifs du monde. Cela va utiliser l'apprentissage auto-supervisé, une forme d'apprentissage auto-supervisé. Apprendre à raisonner de manière compatible avec les réseaux neuronaux essentiellement. Et apprendre à planifier des séquences d'actions complexes car c'est l'une des essences de l'intelligence. J'ai donc fait une proposition, j'ai écrit un long article, assez lisible pour un large public, pas très technique, que j'ai mis sur OpenReview pour que les gens puissent faire des commentaires et me dire que j'ai tort. Il s'intitule « Un chemin vers l'intelligence machine autonome ». J'ai donné diverses conférences techniques à ce sujet, un peu plus longues que celle-ci. Et voici l'histoire. L'article est en ligne depuis avant l'été, donc cela précède ChatGPT et tout le reste. Il est basé sur l'idée qu'un système intelligent devrait avoir une sorte d'architecture cognitive, une organisation. Et ce que je propose ici est essentiellement construit autour de cette idée de modèle du monde. Un modèle du monde est le modèle mental que nous avons d'une certaine réalité à laquelle nous sommes confrontés et qui nous permet de prédire comment le monde va évoluer, en particulier comment l'état du monde va changer à la suite des actions que nous pourrions entreprendre. Parce que si nous avons un tel modèle, cela nous permet de planifier une séquence d'actions pour arriver à un résultat particulier. Le but entier du système est de minimiser un certain coût interne. Et quand je dis minimiser, je ne veux pas dire minimiser par l'apprentissage, je veux dire minimiser par l'action. Le système détermine donc une séquence d'actions qui, selon son modèle de monde prédictif interne, arrivera à un état où son coût interne est minimisé. Et une fois qu'il a planifié cette séquence d'actions, il produit simplement la première action ou groupe d'actions dans le monde, puis récupère l'estimation de l'état du monde et répète le processus. C'est de la planification, très similaire à la planification classique en contrôle optimal. Il y a donc deux façons d'utiliser une architecture de ce type. La première est réactive, semblable à ce que Daniel Kahneman, un célèbre psychologue, appelle le Système 1, qui est une sorte d'action subconsciente où vous percevez le monde, extrayez une représentation interne de l'état du monde via un système de perception, puis exécutez cela directement à travers un réseau neuronal qui produit une action. C'est donc juste de la réaction, essentiellement. Les LLM autorégressifs sont de ce type. Le monde pour eux est une fenêtre de mots précédents qui leur ont été saisis ou qu'ils ont produits et ils produisent juste le mot suivant. C'est direct. Mais voici le Mode 2, donc le Mode 2 est considérablement plus sophistiqué et c'est vraiment ce que font les humains et de nombreux animaux. Vous percevez le monde, vous le faites passer par un encodeur qui vous donne une sorte de représentation de l'état estimé du monde, quel que soit ce qui est perçu sur le moment. Et puis vous passez cela par le modèle du monde, qui est ici représenté par ce prédicteur. Et le rôle du prédicteur est, à partir de l'état du monde au temps T et d'une action que vous pourriez entreprendre, quel serait l'état du monde au temps T plus 1. Vous pouvez donc imaginer une séquence d'actions dans votre tête, prédire le résultat, puis cela va dans une fonction de coût qui mesure dans quelle mesure vous avez satisfait une tâche que vous voulez accomplir. C'est du contrôle prédictif de modèle très classique issu du contrôle optimal, sauf qu'ici nous allons apprendre ce modèle et la fonction de coût peut être compliquée et le problème d'optimisation consistant à trouver cette séquence d'actions pour minimiser le coût peut être hautement non convexe, nous allons avoir toutes sortes de problèmes. Je ne précise pas quelle méthode nous utilisons pour faire cette inférence à ce stade. Vous pouvez utiliser tout ce que vous jugez approprié. Plusieurs modèles ont été proposés dans cette lignée, principalement pour le contrôle robotique, pas dans le contexte du TAL ou quoi que ce soit de ce genre. Mais ces systèmes peuvent planifier. Ils planifient à l'avance, ils ont un objectif à satisfaire et ils planifient une séquence d'actions ou une séquence de mots s'il s'agit d'un système de dialogue pour atteindre cet objectif, pour satisfaire l'objectif. Ce n'est pas autorégressif. Ma prédiction, qui peut être erronée, est que d'ici cinq ans, absolument personne de sensé n'utilisera de LLM autorégressifs. Ils utiliseront probablement quelque chose comme ça. Parce que vous pouvez corriger les hallucinations, vous pouvez corriger la toxicité, vous pouvez corriger toutes sortes de choses en concevant ces fonctions de coût de manière appropriée.

Modérateur

Le temps presse, nous avons le temps pour une question.

L'évolution des modèles de langage et LLaMA

Yann LeCun

capte le sens, tout, le style. Et vous pouvez en outre entraîner ces systèmes à être multilingues. Vous n'avez donc pas besoin de les entraîner sur une seule langue, vous pouvez les pré-entraîner avec plusieurs langues. Et ces systèmes trouvent une sorte de représentation interne indépendante de la langue, ce qui est assez déroutant. Mais cela fonctionne incroyablement bien. Et comme je l'ai dit, ce n'est pas un phénomène nouveau. Ces choses ont été utilisées en production, très largement déployées au cours des quatre ou cinq dernières années. Et c'est ce qui a permis à des entreprises comme Meta, sur Facebook et YouTube et d'autres, de faire de la modération de contenu beaucoup plus efficacement, en détectant des choses comme les discours de haine. Il fut un temps où la proportion de discours de haine détectée automatiquement était de l'ordre de 30 % il y a environ cinq ans. Elle est maintenant de 95. Et c'est juste à cause de cela. Les systèmes de traduction, ils fonctionnent vraiment bien maintenant. C'est à cause de cela. Quelle révolution incroyable. Et ces systèmes ont également été utilisés pour générer du contenu, soit du texte, des images, des vidéos, etc. Et pour cela, c'est un cas particulier de ce que j'ai décrit, où le masquage que vous effectuez n'est pas des mots aléatoires dans le texte, vous masquez juste le dernier. Vous entraînez donc un réseau neuronal gigantesque à prédire simplement le dernier mot d'une longue séquence de quelques milliers de mots tirés d'un corpus. Et vous entraînez ce système sur mille à deux mille billions de mots. Et avec des réseaux neuronaux qui sont des architectures transformeurs avec un style particulier de connexions à l'intérieur qui les rend causaux, de sorte que ces réseaux neuronaux ne peuvent prêter attention qu'aux choses du passé de tout ce qu'ils prédisent. Et ils peuvent avoir de l'ordre de milliards à un billion de paramètres. Et puis, quand vous les utilisez, une fois qu'ils sont entraînés, vous les utilisez en produisant le mot suivant dans un texte. Donc, vous leur donnez une amorce, vous leur demandez de produire le mot suivant, puis vous injectez ce mot dans l'entrée en décalant tout le reste d'un rang, puis vous produisez le mot suivant et vous décalez à nouveau. C'est donc juste de la prédiction autorégressive, un concept très ancien. Et la chose étonnante est que lorsque vous rendez ces systèmes assez grands, il y a une sorte de propriété émergente qui se produit. Ils semblent non seulement comprendre dans une certaine mesure le texte qu'ils lisent, mais ils peuvent produire du texte qui a un certain sens, particulièrement si vous les affinez pour une tâche particulière, comme répondre à certaines questions par le biais de retours humains. Il y a donc une longue histoire de modèles de langage de ce type qui prédisent le mot suivant remontant à Shannon. Ce n'est donc pas une idée neuve. Les premiers modèles neuronaux pour prédire le mot suivant ont été réalisés par Yoshua Bengio au milieu des années 2000. Et ce qui s'est passé ces dernières années, c'est juste une mise à l'échelle et l'accès à plus de données. Il y a donc une série de systèmes de dialogue qui ont été lancés par diverses entreprises ou laboratoires. BlenderBot, c'était il y a quelques années. Galactica était en septembre de l'année dernière. Il a été formé sur l'ensemble de la littérature scientifique dans le but d'aider les scientifiques à rédiger des articles. Il a été publié en tant que démo et il a été assassiné par Twitter. Beaucoup de gens sur Twitter ont dit que c'était horrible, que les gens allaient s'en servir pour générer de faux articles scientifiques, que cela allait inonder le système de révision par les pairs et que la société serait détruite. En conséquence, les personnes qui ont créé Galactica chez FAIR, c'est une petite équipe de cinq personnes, ont été si désemparées qu'elles l'ont retiré. Et puis la direction de Meta a dit que c'était trop dangereux, que nous ne sortirions plus rien de tel. La réaction du public à ce sujet peut donc avoir des effets très dommageables sous prétexte d'éthique. En réalité, cela nuit au progrès de la science. Quoi qu'il en soit, nous devons faire attention à cela. Ensuite, il y a la chose suivante qui a été publiée par FAIR très récemment, un système appelé LLaMA, qui est en source ouverte. C'est donc un grand modèle de langage, également autorégressif. Il existe plusieurs tailles, de 7 milliards à 65 milliards de paramètres. Le paramètre de 13 milliards donne de meilleurs résultats sur les tests de référence que le paramètre de 175 milliards de GPT-3. Des progrès ont donc été réalisés. C'est en source ouverte, le code d'inférence est en source ouverte, mais les modèles eux-mêmes sont derrière un pare-feu. Vous devez faire une demande pour obtenir les poids du réseau. Et quand vous les obtenez, vous ne pouvez pas les utiliser à des fins commerciales. La raison en est que ces systèmes ont été formés avec énormément de données provenant de partout sur Internet, et beaucoup de gens qui fournissent ces données ne sont pas contents que leurs données soient utilisées pour former des modèles de langage. Et donc si FAIR ou Meta devait distribuer cela commercialement, ils seraient probablement poursuivis par tout un tas de gens comme Reddit et Twitter. Donc, pas d'open source, pas d'industrie de l'IA dans le monde de l'open source à cause de problèmes juridiques. Encore une fois, on parle d'éthique, mais c'est une grande question d'éthique. Alpaca était un système de Stanford qui était essentiellement une version affinée de LLaMA. Et puis il y a des systèmes similaires chez Google, chez DeepMind, etc. Des équipes énormes travaillent là-dessus dans toutes ces entreprises. Et bien sûr, tout le monde connaît ChatGPT pour la seule raison qu'il fonctionne assez bien, il a été affiné pendant un an ou deux. Et il est accessible au public. Mais en termes d'innovation technique sous-jacente, pas grand-chose. C'est juste bien conçu, essentiellement. Je l'ai dit sur Twitter et j'ai aussi été accusé d'être jaloux ou quelque chose comme ça. Les performances de ces choses sont donc incroyables. Elles sont très utiles, particulièrement comme aides à la rédaction. Mais ils font des erreurs vraiment stupides. Ils font des erreurs factuelles, des erreurs logiques, ils sont vraiment incohérents, surtout pour de longs propos. Ils ont un raisonnement très limité, il n'y a aucun moyen de contrôler la toxicité, etc. Et ils n'ont aucune connaissance de la réalité sous-jacente. Ils sont purement formés sur du texte. Et cela peut en surprendre plus d'un, mais l'essentiel de la connaissance humaine n'a rien à voir avec le langage. C'est la connaissance du monde physique ou l'intuition, ou même pour les mathématiciens. Si je pose une question, je multiplie un vecteur par une matrice symétrique semi-définie positive, le vecteur résultant peut-il former un angle supérieur à 90 degrés avec le vecteur d'origine ? Et vous tous ici, la plupart d'entre vous du moins, avez un modèle mental de ce qu'une matrice semi-définie positive fait à un vecteur et réalisez qu'elle ne fait qu'étirer les axes et qu'elle ne peut pas faire pivoter un vecteur de plus de 90 degrés. Ou peut-être vous souvenez-vous d'un théorème qui dit qu'une forme quadratique produit un nombre positif. Quoi qu'il en soit, vous avez un modèle mental que vous utilisez par intuition. Ces systèmes n'ont pas de modèle mental, ou quel que soit le modèle mental qu'ils ont, il est purement construit à partir de texte et très superficiel dans sa compréhension du monde. Pas d'intuition. Mais ils peuvent se souvenir du théorème. Il est donc très utile d'utiliser ces outils pour générer du texte, en particulier pour des textes très organisés comme le code. Cela va révolutionner la façon dont les logiciels sont écrits. Il y a du code généré avec LLaMA 65 milliards, ce truc en open source. Et vous spécifiez juste ceci, trouve la racine réelle de bla bla bla et le truc écrit le code. Ou écris une expression régulière pour supprimer les balises HTML dans une chaîne Python. Donc du code court qui fonctionne vraiment bien. Un logiciel entier ? Non, parce que ces systèmes ne peuvent pas planifier, ils ne peuvent pas vraiment organiser les structures de données et autres, mais ils écriront du code pour une page ou quelque chose comme ça. Mais ils hallucinent. Alors mes collègues me font une blague. Saviez-vous que Yann LeCun a sorti un album de rap l'année dernière ? Nous l'avons écouté et voici ce que nous en avons pensé. Et le système continue simplement et invente une histoire sur la façon dont j'ai sorti un album de rap. En fait, je n'aime pas particulièrement le rap, je suis plutôt jazz, alors je leur ai demandé de faire la même chose avec le jazz et ils ont dit non, ça ne marche pas parce qu'il n'y a pas assez de critiques de jazz en ligne. Alors j'ai pleuré. D'accord, alors à quoi servent-ils ? Ils sont utiles comme aide à la rédaction, assistance à l'écriture, génération de premier jet, polissage stylistique, ce qui est très bien pour beaucoup d'entre nous qui ne sommes pas de langue maternelle anglaise. Ils ne sont pas bons pour produire des réponses factuelles et cohérentes, ils hallucinent. En tenant compte des informations récentes, ils sont formés avec des données qui ont deux ans essentiellement. En se comportant correctement, ils respectent simplement les statistiques des données et cela dépend vraiment de ce sur quoi ils ont été formés. Ils ne font pas de raisonnement, ils ne font pas de planification, ils ne font pas de maths. Ils pourraient utiliser des outils tels que des moteurs de recherche, des calculatrices, des requêtes de base de données, etc. Des gens y travaillent activement, mais ChatGPT ne le fait pas. C'est un sujet de recherche très actif. Nous sommes facilement dupés par leur aisance à penser qu'ils sont intelligents, mais ils ne le sont pas. Et ils ne savent pas comment le monde fonctionne. Et voici un petit peu de mathématiques intuitives à ce sujet. Imaginons que la séquence de jetons qu'un tel modèle peut produire, vous pouvez les organiser en un arbre. Un arbre de tous les possibles, pour chaque premier jeton, il y a un certain nombre de chemins différents qui correspondent à environ cent mille correspondant à tous les mots d'un dictionnaire, et puis pour chacun de ceux-là vous avez mille mots différents. Ils sont donc organisés comme un arbre. L'ensemble des bonnes réponses, quelle que soit la façon dont vous le définissez, est un sous-arbre au sein de cet arbre. Et imaginons par souci de simplicité qu'il y ait une certaine probabilité E pour chaque jeton généré de vous faire sortir de l'arbre des bonnes réponses. En supposant que les erreurs soient indépendantes, ce qui est bien sûr faux, la probabilité qu'une séquence de jetons de taille N soit dans l'ensemble des bonnes réponses est 1 moins E à la puissance N. C'est un processus de diffusion avec divergence exponentielle. Ce qui signifie qu'il n'y a aucune chance que ces trucs fonctionnent bien. Aucune chance. C'est une décroissance exponentielle. La seule chose avec laquelle on peut jouer pour le moment, ce que beaucoup de gens font en faisant bouillir de petits lacs, c'est de réduire ce E. Mais on ne peut pas corriger le fait qu'il s'agit d'un processus de diffusion à divergence exponentielle. Ce n'est donc pas réparable sans une refonte majeure et c'est ce dont je vais parler. Bon, ce n'est pas le seul problème de ces choses. Ils ont un nombre constant d'étapes de calcul entre l'entrée et la sortie pour chaque jeton, et ils ont en quelque sorte un faible pouvoir de représentation. Ils ne raisonnent pas vraiment et ils ne planifient pas, j'ai déjà souligné ce point. Et il leur manque beaucoup de caractéristiques de l'intelligence humaine et animale. Donc ils sont nuls. D'accord ? Je veux dire, ils sont très utiles, ils vont créer une nouvelle industrie, ils vont révolutionner le monde, mais ils sont nuls. Alors comment les humains et les animaux apprennent-ils si vite ? Nous apprenons beaucoup de choses sur le fonctionnement du monde au cours des premiers mois de la vie, principalement par l'observation, puis après avoir appris à utiliser nos membres par l'interaction. Mais au début, c'est surtout de l'observation. Nous apprenons donc des concepts vraiment basiques comme le fait que le monde est tridimensionnel, le fait que lorsqu'un objet disparaît derrière un autre, il existe toujours, le fait qu'il existe des catégories d'objets dans le monde, même si nous ne connaissons pas leurs noms, nous savons qu'il existe différentes catégories spontanées. Et puis vers l'âge de neuf mois, nous apprenons des choses comme la gravité, le fait que les objets sont censés tomber s'ils ne sont pas soutenus. L'inertie, la physique intuitive. Cela prend du temps. Vous mettez un enfant de huit mois sur une chaise haute avec des jouets sur la table devant lui, il va systématiquement les jeter par terre et regarder, parce que c'est l'expérience que la gravité fonctionne réellement. Mais alors comment se fait-il que les bébés apprennent ainsi comment le monde fonctionne ? Comment se fait-il qu'à l'âge de 16 ou 17 ans, n'importe quel adolescent puisse apprendre à conduire une voiture avec 20 heures de pratique ou quelque chose comme ça ? Et nous n'avons toujours pas de voitures autonomes. Vous savez, on a peut-être ChatGPT ou GPT-4, mais on n'a pas de robots capables de débarrasser la table et de remplir le lave-vaisselle, même si un enfant de dix ans en est capable. C'est donc un nouvel exemple du paradoxe de Moravec, à savoir que les ordinateurs peuvent faire des choses qui semblent compliquées pour les humains, mais ne peuvent pas faire les choses simples que les humains tiennent pour acquises. C'est toujours d'actualité. Alors peut-être que l'accumulation des connaissances de base que les bébés apprennent en regardant le spectacle du monde est ce qui constitue la base du bon sens. Et je vois donc trois défis pour la recherche en IA et en apprentissage automatique à l'avenir. Le premier est l'apprentissage de représentations et de modèles prédictifs du monde. Cela va utiliser l'apprentissage auto-supervisé, une forme d'apprentissage auto-supervisé. Apprendre à raisonner de manière compatible avec les réseaux neuronaux essentiellement, et apprendre à planifier des séquences d'actions complexes car c'est l'une des essences de l'intelligence. J'ai donc fait une proposition, j'ai écrit un long article, assez lisible pour un large public, pas très technique, que j'ai mis sur OpenReview pour que les gens puissent faire des commentaires et me dire que j'ai tort. Il s'intitule « Un chemin vers l'intelligence artificielle autonome ». J'ai donné diverses conférences techniques à ce sujet, un peu plus longues que celle-ci. Et voici l'histoire. L'article est en ligne depuis avant l'été, donc il précède ChatGPT et tout le reste. Il est donc basé sur l'idée qu'un système intelligent devrait avoir une sorte d'architecture cognitive, une organisation. Et ce que je propose ici est essentiellement construit autour de cette idée de modèles du monde. Un modèle du monde est le modèle mental que nous avons d'une certaine réalité à laquelle nous sommes confrontés et qui nous permet de prédire comment le monde va évoluer, en particulier comment l'état du monde va changer à la suite des actions que nous pourrions entreprendre. Car si nous avions un tel modèle nous permettant de planifier une séquence d'actions pour arriver à un résultat particulier, le but entier du système est de minimiser un certain coût interne. Et quand je dis minimiser, je ne veux pas dire minimiser par l'apprentissage, je veux dire minimiser par l'action. Le système détermine donc une séquence d'actions qui, selon son modèle de monde prédictif interne, arrivera à un état où son coût interne est minimisé. Et une fois qu'il a planifié cette séquence d'actions, il produit simplement la première action ou groupe d'actions dans le monde, puis il obtient l'estimation de l'état du monde et répète le processus. C'est de la planification, très proche de la planification classique en contrôle optimal. Il y a donc deux façons d'utiliser une architecture de ce type. La première est réactive, semblable à ce que Daniel Kahneman, un célèbre psychologue, appelle le Système 1, qui est une sorte d'action subconsciente où vous percevez le monde, extrayez une certaine représentation interne de l'état du monde par un système de perception, puis faites passer cela directement par un réseau neuronal qui produit une action. C'est donc juste de la réaction, essentiellement. Les LLM autorégressifs sont de ce type. Le monde pour eux est une fenêtre de mots précédents qui leur ont été saisis ou qu'ils ont produits, et ils produisent simplement le mot suivant. C'est direct. Mais voici le Mode 2. Le Mode 2 est donc beaucoup plus sophistiqué et c'est vraiment ce que font les humains et beaucoup d'animaux. Vous percevez le monde, vous le faites passer par un encodeur qui vous donne une sorte de représentation de l'état estimé du monde, quel que soit ce qui est perçu sur le moment. Et puis vous faites passer cela par le modèle du monde, qui est ici représenté par ce prédicteur. Et le rôle du prédicteur est de déterminer, à partir de l'état du monde au temps T et d'une action que vous pourriez entreprendre, quel serait l'état du monde au temps T plus 1. Vous pouvez donc imaginer une séquence d'actions dans votre tête, prédire le résultat, puis cela entre dans une fonction de coût qui mesure dans quelle mesure vous avez satisfait à une tâche que vous voulez accomplir. C'est du contrôle prédictif de modèle très classique issu du contrôle optimal, sauf qu'ici nous allons apprendre ce modèle et la fonction de coût peut être compliquée et le problème d'optimisation consistant à trouver cette séquence d'actions pour minimiser le coût peut être hautement non convexe, nous allons avoir toutes sortes de problèmes. Je ne précise pas quelle méthode nous utilisons pour effectuer cette inférence à ce stade. Vous pouvez utiliser ce que vous jugez approprié. Plusieurs modèles ont été proposés dans cette lignée, principalement pour le contrôle robotique, pas dans le contexte du TAL ou quoi que ce soit de ce genre. Mais ces systèmes peuvent planifier. Ils planifient à l'avance, ils ont un objectif à satisfaire et ils planifient une séquence d'actions ou une séquence de mots s'il s'agit d'un système de dialogue pour atteindre cet objectif, pour satisfaire cet objectif. Ce n'est pas autorégressif. Ma prédiction, qui peut être fausse, est que d'ici cinq ans, absolument personne de sensé n'utilisera de LLM autorégressifs. Ils utiliseraient probablement quelque chose comme ça parce que vous pouvez corriger les hallucinations, vous pouvez corriger la toxicité, vous pouvez corriger toutes sortes de choses en concevant ces fonctions de coût de manière appropriée.

modérateur

Nous avons le temps pour une question.

Discussion sur l'apprentissage par renforcement

public

Il y a un roboticien appelé Lipson qui apprend à ces machines, qui ont été câblées de manière aléatoire, à marcher ou quelque chose comme ça. Quel est le rapport ?

Yann LeCun

Oui, Hod Lipson est à Columbia. Il utilise l'apprentissage par renforcement. C'est l'une des choses que je dis que nous ne devrions pas utiliser, ou du moins en minimiser l'usage. Je pense donc que l'objectif de la recherche sur l'apprentissage par renforcement devrait être de minimiser l'utilisation de l'apprentissage par renforcement. La raison en est que l'apprentissage par renforcement est très inefficace en termes de données, n'est-ce pas ? Je veux dire, nous entendons tous parler d'AlphaGo et du succès de l'apprentissage par renforcement pour les jeux et autres choses du genre, y compris pour le poker et même la diplomatie. Mais ces systèmes nécessitent d'énormes quantités d'essais. Le nombre de parties jouées par AlphaGo pour s'entraîner à atteindre des performances surhumaines ou de niveau humain est de l'ordre de millions de parties. C'est insensé.

public

Donc votre proposition est que cela le fera plus rapidement.

Yann LeCun

Oui. Cela dit, le Go est une tâche très difficile pour les humains. C'est pourquoi c'est un jeu intéressant, parce que c'est difficile pour les humains. Et il s'avère que les humains sont nuls à ça. Je veux dire, les machines sont bien meilleures dans ce type de planification arborescente et de recherche combinatoire que les humains qui ont une mémoire à court terme très limitée et des cerveaux plutôt lents. Ainsi, les meilleurs joueurs de Go du monde avant AlphaGo pensaient qu'ils étaient peut-être à deux ou trois pierres de handicap en dessous de Dieu, le joueur de Go idéal. Et il s'avère que non, les humains sont tout simplement mauvais. C'est comme s'ils avaient neuf pierres de retard, c'est comme un débutant par rapport à un expert. Nous sommes vraiment nuls à ce jeu. C'est pourquoi ce n'est pas si difficile au final pour les ordinateurs d'être meilleurs que nous. Nous sommes juste mauvais.

public

Oui, je veux dire, vous avez tracé un chemin, chat, chien, avant d'arriver à l'humain. D'un autre côté, on pensait que la principale différence entre les humains et les animaux était le langage. Et soudain, vous avez ChatGPT et des systèmes qui le reproduisent et bien plus que le langage, la capacité de reproduire des preuves même s'il ne comprend pas et ainsi de suite. Il pourrait donc y avoir d'autres voies vers l'intelligence et ce qui est surprenant, c'est que ce que vous définissez comme la difficulté n'est pas ce qui est difficile chez les animaux, ce que nous pensions ne pas être difficile. Il y a donc quelque chose d'un peu étrange ici qui n'est pas seulement le cours normal des choses. Voilà ma première question. Et la seconde est plus technique : vous avez poussé vers ces modèles d'énergie pour abandonner toutes les contraintes des probabilités. D'un autre côté, dans la nouvelle proposition que vous faites, vous poussez les normalisations et ainsi de suite. Cela a donc un petit goût de retour aux probabilités.

Critique mathématique des modèles autorégressifs

Yann LeCun

statistiques respectives des données et cela dépend vraiment de ce sur quoi ils ont été formés. Ils ne font pas de raisonnement, ils ne font pas de planification, ils ne font pas de maths.

Yann LeCun

Ils pourraient utiliser des outils tels que des moteurs de recherche, des calculatrices, des requêtes de base de données, etc. Des gens y travaillent activement, mais ChatGPT ne le fait pas. C'est un sujet de recherche très actif.

Yann LeCun

Nous sommes facilement trompés par leur aisance en pensant qu'ils sont intelligents, mais ils ne le sont pas. Et ils ne savent pas comment le monde fonctionne.

Yann LeCun

Et voici un petit peu de mathématiques intuitives à ce sujet. Imaginons que la séquence de jetons qu'un tel modèle peut produire, vous pouvez les organiser en un arbre. Un arbre de tous les possibles, pour chaque premier jeton, il y a un certain nombre de chemins différents qui correspondent à environ 100 000 correspondant à tous les mots d'un dictionnaire. Et puis pour chacun de ceux-là, vous avez mille mots différents. Ils sont donc organisés comme un arbre. L'ensemble des bonnes réponses, quelle que soit la manière dont vous le définissez, est un sous-arbre au sein de cet arbre.

Yann LeCun

Et imaginons, par souci de simplicité, qu'il existe une certaine probabilité E pour chaque jeton généré de vous faire sortir de l'arbre des bonnes réponses. En supposant que les erreurs soient indépendantes, ce qui est bien sûr faux, la probabilité qu'une séquence de jetons de taille N soit dans l'ensemble des bonnes réponses est 1 moins E à la puissance N. C'est un processus de diffusion avec divergence exponentielle.

Yann LeCun

Ce qui veut dire qu'il n'y a aucune chance que ces choses fonctionnent bien. Absolument aucune. C'est une décroissance exponentielle. La seule chose avec laquelle on peut jouer pour le moment, ce que beaucoup de gens font en faisant littéralement bouillir de petits lacs, c'est de réduire ce E. Mais on ne peut pas corriger le fait qu'il s'agit d'un processus de diffusion à divergence exponentielle. Ce n'est donc pas réparable sans une refonte majeure, et c'est de cela que je vais parler.

Yann LeCun

Bon, ce n'est pas le seul problème de ces choses. Ils ont un nombre constant d'étapes de calcul entre l'entrée et la sortie pour chaque jeton, et ils ont en quelque sorte un faible pouvoir de représentation. Ils ne raisonnent pas vraiment et ils ne planifient pas. J'ai déjà souligné ce point. Et il leur manque beaucoup de caractéristiques de l'intelligence humaine et animale. Donc ils sont nuls. D'accord. Je veux dire, ils sont très utiles. Ils vont créer une nouvelle industrie, ils vont révolutionner le monde, mais ils sont nuls.

Yann LeCun

Alors comment les humains et les animaux apprennent-ils si vite ? Nous apprenons beaucoup de choses sur le fonctionnement du monde au cours des premiers mois de la vie, principalement par l'observation, puis après avoir appris à utiliser nos membres par l'interaction. Mais au début, c'est surtout de l'observation. Nous apprenons donc des concepts vraiment basiques comme le fait que le monde est tridimensionnel, le fait que lorsqu'un objet disparaît derrière un autre, il existe toujours, le fait qu'il existe des catégories d'objects dans le monde, même si nous ne connaissons pas leurs noms, nous savons qu'il existe différentes catégories spontanées.

Yann LeCun

Et puis vers l'âge de neuf mois, nous apprenons des choses comme la gravité, le fait que les objets sont censés tomber s'ils ne sont pas soutenus, l'inertie, la physique intuitive. Cela prend du temps. Vous mettez un enfant de huit mois sur une chaise haute avec des jouets sur la table devant lui, il va systématiquement les mettre par terre et regarder, parce que c'est l'expérience que la gravité fonctionne réellement.

Yann LeCun

Mais alors comment se fait-il que les bébés puissent apprendre ainsi comment le monde fonctionne ? Comment se fait-il qu'à l'âge de 16 ou 17 ans, un adolescent puisse apprendre à conduire une voiture avec 20 heures de pratique ou quelque chose comme ça ? Et nous n'avons toujours pas de voitures autonomes. On a peut-être ChatGPT ou GPT-4, mais on n'a pas de robots capables de débarrasser la table et de remplir le lave-vaisselle, même si un enfant de 10 ans en est capable. C'est donc un nouvel exemple du paradoxe de Moravec, selon lequel les ordinateurs peuvent faire des choses qui semblent compliquées pour les humains, mais ne peuvent pas faire les choses simples que les humains tiennent pour acquises. C'est toujours d'actualité.

Yann LeCun

Alors peut-être que l'accumulation des connaissances de base que les bébés apprennent lorsqu'ils regardent le spectacle du monde est ce qui constitue la base du bon sens.

Yann LeCun

Et je vois donc trois défis pour la recherche en IA et en apprentissage automatique à l'avenir. Le premier est l'apprentissage de représentations et de modèles prédictifs du monde. Cela va utiliser l'apprentissage auto-supervisé, une forme d'apprentissage auto-supervisé. Apprendre à raisonner de manière compatible avec les réseaux neuronaux essentiellement, et apprendre à planifier des séquences d'actions complexes car c'est l'une des essences de l'intelligence.

Architecture pour une IA autonome

Yann LeCun

J'ai donc fait une proposition. J'ai écrit un long article, assez lisible pour un large public, pas très technique, que j'ai mis sur OpenReview pour que les gens puissent faire des commentaires et me dire que j'ai tort. Il s'intitule « Un chemin vers l'intelligence artificielle autonome ». J'ai donné diverses conférences techniques à ce sujet, un peu plus longues que celle-ci, et voici l'histoire.

Yann LeCun

L'article est en ligne depuis avant l'été, donc il précède ChatGPT et tout le reste. Il est donc basé sur l'idée qu'un système intelligent devrait avoir une sorte d'architecture cognitive, une organisation. Et ce que je propose ici est essentiellement construit autour de cette idée de modèle du monde. Un modèle du monde est le modèle mental que nous avons d'une certaine réalité à laquelle nous sommes confrontés et qui nous permet de prédire comment le monde va évoluer, en particulier comment l'état du monde va changer à la suite des actions que nous pourrions entreprendre.

Yann LeCun

Parce que si nous avions un tel modèle nous permettant de planifier une séquence d'actions pour arriver à un résultat particulier, le but entier du système est de minimiser un certain coût interne. Et quand je dis minimiser, je ne veux pas dire minimiser par l'apprentissage, je veux dire minimiser par l'action. Le système détermine donc une séquence d'actions qui, selon son modèle de monde prédictif interne, arrivera à un état où son coût interne est minimisé. Et une fois qu'il a planifié cette séquence d'action, il produit simplement la première action ou groupe d'actions dans le monde, puis il récupère l'estimation de l'état du monde et répète le processus. C'est de la planification, très proche de la planification classique en contrôle optimal.

Yann LeCun

Il y a donc deux façons d'utiliser une architecture de ce type. La première est réactive, semblable à ce que Daniel Kahneman, un célèbre psychologue, appelle le Système 1, qui est une sorte d'action subconsciente où vous percevez le monde, extrayez une certaine représentation interne de l'état du monde par un système de perception, puis faites passer cela directement par un réseau neuronal qui produit une action. C'est donc juste de la réaction, essentiellement. Les LLM autorégressifs sont de ce type. Le monde pour eux est une fenêtre de mots précédents qui leur ont été saisis ou qu'ils ont produits, et ils produisent juste le mot suivant. C'est direct.

Yann LeCun

Mais voici le Mode 2. Le Mode 2 est donc considérablement plus sophistiqué, et c'est vraiment ce que font les humains et beaucoup d'animaux. Vous percevez le monde, vous le faites passer par un encodeur qui vous donne une sorte de représentation de l'état estimé du monde, quel que soit ce qui est perçu sur le moment. Et puis vous faites passer cela par le modèle du monde, qui est ici représenté par ce prédicteur. Et le rôle du prédicteur est de déterminer, à partir de l'état du monde au temps T et d'une action que vous pourriez entreprendre, quel serait l'état du monde au temps T plus 1.

Yann LeCun

D'accord, vous pouvez donc imaginer une séquence d'actions dans votre tête, prédire le résultat, puis cela entre dans une fonction de coût qui mesure dans quelle mesure vous avez satisfait une tâche que vous voulez accomplir. C'est du contrôle prédictif de modèle très classique issu du contrôle optimal, sauf qu'ici nous allons apprendre ce modèle et la fonction de coût peut être compliquée et le problème d'optimisation consistant à trouver cette séquence d'actions pour minimiser le coût peut être hautement non convexe. Nous allons avoir toutes sortes de problèmes. Je ne précise pas quelle méthode nous utilisons pour effectuer cette inférence à ce stade. Vous pouvez utiliser ce que vous jugez approprié.

Yann LeCun

Il existe plusieurs modèles qui ont été proposés dans cette lignée, principalement pour le contrôle robotique, pas dans le contexte du TAL ou quoi que ce soit de ce genre. Mais ces systèmes peuvent planifier. Ils planifient à l'avance, ils ont un objectif qu'ils doivent satisfaire et ils planifient une séquence d'actions ou une séquence de mots s'il s'agit d'un système de dialogue pour atteindre cet objectif, pour satisfaire l'objectif. Ce n'est pas autorégressif.

Yann LeCun

Donc ma prédiction, qui peut être fausse, est que d'ici cinq ans, absolument personne de sensé n'utilisera de LLM autorégressifs. Ils utiliseraient probablement quelque chose comme ça parce que vous pouvez corriger les hallucinations, vous pouvez corriger la toxicité, vous pouvez corriger toutes sortes de choses en concevant ces fonctions de coût de manière appropriée.

Modèles du monde et architecture JEPA

Yann LeCun

Bon, comment construit-on et entraîne-t-on le modèle du monde ? Nous allons utiliser l'apprentissage auto-supervisé, mais il y a un problème. L'apprentissage auto-supervisé fonctionne très bien pour le texte. Et la raison pour laquelle il fonctionne bien pour le texte est que, bien que vous ne puissiez jamais prédire exactement quel mot apparaît dans un texte particulier si vous ne voyez pas ce mot, vous pouvez facilement produire une distribution de probabilité sur tous les mots de votre dictionnaire et gérer l'incertitude dans la prédiction de cette façon.

Yann LeCun

Donc si je dis « le chat poursuit le ___ dans la cuisine », le ___ pourrait être une souris ou autre, mais ce n'est pas forcément une souris. Ça pourrait être le point d'un pointeur laser ou quelque chose comme ça. Le système peut donc produire une distribution de probabilité sur les mots et s'en sortir en gérant l'incertitude de cette manière.

Yann LeCun

Si vous faites de la prédiction vidéo, nous n'avons pas de moyen de représenter correctement les distributions sur toutes les images vidéo, et certainement pas sur tous les clips vidéo. Nous allons donc devoir faire des compromis pour gérer l'incertitude de la prédiction dans des espaces continus. C'est la raison principale pour laquelle nous n'avons pas pour le moment de systèmes d'apprentissage auto-supervisés formés à partir de vidéos et capables d'apprendre comment le monde fonctionne à partir de vidéos, parce que nous ne savons pas comment traiter ce problème. Ou du moins nous avons des idées, mais elles ne fonctionnent toujours pas.

Yann LeCun

Il s'agit d'un système qui a été entraîné à prédire les trajectoires des voitures à partir d'une vidéo de haut en bas sur une autoroute. Et si vous entraînez un réseau neuronal à faire ce genre de prédiction, vous obtenez ces prédictions floues. C'est flou parce que si vous demandez au système de faire une seule prédiction, la seule chose qu'il peut faire est de prédire la moyenne de tous les résultats possibles et ce n'est pas une bonne prédiction.

Yann LeCun

Il fallait donc trouver des moyens de représenter l'incertitude. Et ma solution est d'abandonner toute l'idée des modèles génératifs. Un modèle génératif prend, disons que vous voulez capturer les dépendances entre X et Y, X étant, par exemple, le segment initial d'une vidéo et Y étant sa suite. Faites passer X par un encodeur, passez la représentation à un prédicteur, puis mesurez l'erreur de reconstruction. C'est un modèle génératif.

Yann LeCun

Le problème est qu'il peut y avoir un nombre énorme de détails dans Y qui sont totalement non pertinents pour n'importe quelle tâche que vous pourriez imaginer. Dans cette pièce, la texture précise de la moquette n'a aucune importance. Il n'y a aucun moyen de s'en souvenir. Ou la position de chaque cheveu sur la tête de chacun. C'est sans importance pour n'importe quelle tâche qui vous importera jamais. Et donc vous ne voulez pas d'un modèle génératif parce qu'un modèle génératif devra modéliser tous ces détails si vous lui faites reconstruire des pixels. Sinon, il va faire une erreur de reconstruction.

Yann LeCun

Ce que je propose est donc ce qu'on appelle une architecture d'immersion conjointe. Et cela est basé sur des résultats expérimentaux, la raison pour laquelle nous voulons utiliser cela. Vous prenez X et Y, vous les faites passer tous les deux par des encodeurs, puis vous faites la prédiction dans l'espace des représentations extraites de ces encodeurs.

Yann LeCun

Il y a un léger problème avec cela, c'est que si vous entraînez un tel système globalement, vous entraînez l'encodeur et le prédicteur simultanément pour minimiser l'erreur de prédiction, il va s'effondrer. Il va ignorer X et Y, fixer SX et SY à des constantes, puis faire de cette prédiction une simple fonction d'identité ou une fonction fixe. Pas même une fonction, il lui suffit de faire correspondre l'unique SX à l'unique SY qui est constant. Donc ça ne marche pas.

Yann LeCun

Et donc en fait, il y a plusieurs variantes de cette architecture d'immersion conjointe, une sorte de version simple qu'on appelait les réseaux siamois, des sortes de modèles prédictifs comme celui-ci, et puis des modèles prédictifs où on peut avoir une variable latente ici qui représente le fait que la prédiction de SY à partir de SX peut ne pas être déterministe. Il faut donc paramétrer l'ensemble des SY possibles à l'aide d'une variable latente qui peut varier sur un ensemble ou être tirée d'une distribution.

Yann LeCun

C'est donc l'architecture prédictive à immersion conjointe. Et pour entraîner ces choses, nous devons abandonner la théorie des probabilités. Je vous ai demandé d'abandonner les modèles génératifs et maintenant la théorie des probabilités. Nous devons utiliser la forme plus faible de la façon dont nous capturons les dépendances entre les variables, qui est le modèle à base d'énergie. Un modèle à base d'énergie consiste à dire que si vous avez deux variables X et Y, et que vous voulez capturer les dépendances entre elles, il suffit de produire une fonction qui prend des valeurs faibles sur la variété des données où vous avez des points de données, puis des valeurs plus élevées à l'extérieur.

Yann LeCun

Si vous avez une fonction de ce type, elle capture la dépendance entre X et Y. Vous n'avez besoin de rien d'autre. Si vous voulez une prédiction probabiliste, apprenez une densité, vous aurez peut-être des problèmes, mais pour capturer la dépendance, c'est suffisant.

Yann LeCun

Et c'est un bon moyen de représenter ce qui se passe dans l'un de ces systèmes à immersion conjointe. Vous voulez essentiellement entraîner le système, en fait, je vais aller ici, vous voulez entraîner le système pour qu'il adopte une énergie basse, produise une énergie de reconstruction ou une énergie de prédiction basse sur les points de données sur lesquels vous l'entraînez, puis une énergie plus élevée à l'extérieur. Il existe deux classes de méthodes pour cela : les méthodes contrastives qui sont toujours populaires et que j'ai en quelque sorte inventées il y a quelque temps pour les architectures à immersion conjointe, mais je suis devenu très sceptique à leur sujet ces jours-ci car je ne pense pas qu'elles passent très bien à l'échelle avec la dimension de l'espace de représentation.

Yann LeCun

Mais cela consiste à générer des points contrastifs et à augmenter leur énergie pendant que vous prenez les points de données et que vous réduisez leur énergie. Mais ce que je préfère maintenant, c'est ce que j'appelle les méthodes régularisées. Et les méthodes régularisées essaient essentiellement de minimiser le volume d'espace qui peut prendre une énergie basse. Ainsi, chaque fois que vous baissez l'énergie de certaines régions, l'énergie d'autres régions doit augmenter parce qu'il y a une réserve limitée d'espace à basse énergie, si vous voulez.

Yann LeCun

Et je vous demande d'abandonner les modèles génératifs, d'abandonner les modèles probabilistes, d'abandonner les méthodes contrastives qui sont plutôt populaires, et aussi d'abandonner l'apprentissage par renforcement, ce que je dis depuis 10 ans. Ce sont donc les piliers de l'apprentissage automatique à l'heure actuelle et je ne me fais pas d'amis.

Yann LeCun

Bon, cette méthode régularisée, il y a un moyen de la faire fonctionner et d'empêcher le système de s'effondrer essentiellement. L'idée de base est de trouver une mesure du contenu informationnel de la représentation qui sort de l'encodeur et d'essayer de la maximiser. Donc si vous avez une fonction objectif pour l'entraînement, elle mesure l'information négative de SX et SY et vous la minimisez. Je passerai sur les autres détails.

Yann LeCun

Une façon de faire cela est d'empêcher le système de produire simplement des vecteurs constants. Pour empêcher cela, vous mettez une fonction de coût sur l'écart-type de chaque variable sortant de l'encodeur. Vous prenez chaque variable et vous dites que sur un lot d'échantillons, je veux que la variance soit d'au moins un, ce que vous pouvez mettre en œuvre avec une fonction de coût de ce type. C'est essentiellement une perte charnière sur l'écart-type. Maintenant, le système peut tricher et décider que toutes les variables sont égales, ce qui n'est pas très informatif.

Yann LeCun

Donc pour se débarrasser de ce problème, on minimise les termes de covariance hors diagonale de ces choses. Et donc, au fond, vous essayez de rendre la matrice de covariance de ces vecteurs proche de l'identité. Et il y a d'autres personnes qui ont eu cette idée de manière similaire, Yima, par exemple, avec la méthode MCR au carré. Mais cela n'est pas suffisant car le système peut encore tricher en rendant les composants de SX non corrélés mais toujours dépendants.

Yann LeCun

Et donc il y a une astuce ici pour laquelle nous avons une certaine théorie mais pas entièrement, qui consiste à insérer un réseau neuronal ici qui étend la dimension de SX en un vecteur plus grand et vous entraînez ce réseau simultanément avec tout le reste et vous appliquez le critère de variance-covariance à la sortie de celui-ci. Et cela a tendance à rendre les composants de SX plus indépendants. Mais vous devez réaliser que ce que nous faisons ici, c'est que nous poussons vers le haut une limite supérieure du contenu informationnel, en espérant que l'information réelle suivra. Et c'est parce que nous n'avons pas de limites inférieures sur la mesure de l'information.

Yann LeCun

Oui, il y a une théorie qui montre que les variables de SX ou SY deviennent indépendantes. Ensuite, nous pouvons tester ces systèmes en les entraînant avec une série de, par exemple, si vous voulez les entraîner à faire de la reconnaissance d'images, vous leur montrez deux versions déformées de la même image et vous dites au système que quelle que soit la représentation que vous extrayez, elle devrait être la même parce qu'il s'agit réellement de la même image avec le même contenu.

Yann LeCun

Vous pré-entraînez donc ce système, vous n'avez pas besoin d'étiquettes pour cela, vous avez juste besoin d'un moyen de déformer l'image. Ensuite, vous lui injectez ImageNet et vous entraînez un classifieur linéaire ou un classifieur très simple par-dessus. Vous n'affinez pas le tronc. Et vous mesurez la performance. Et cela fonctionne vraiment bien. On peut donc entraîner des systèmes pour obtenir de très bonnes performances, aux alentours de 75 % environ, avec l'apprentissage auto-supervisé en pré-entraînant sur ImageNet, puis en affinant sur ImageNet avec des étiquettes.

Yann LeCun

Il existe des variantes de cette méthode, VICReg, qui signifie régularisation variance-invariance-covariance, pour entraîner des systèmes à faire de la segmentation d'images, pas seulement de la classification, afin d'apprendre des caractéristiques locales. Et puis une autre technique qui est aussi sortie de FAIR appelée I-JEPA. Celle-ci utilise l'architecture JEPA avec des prédicteurs et l'idée de base est que vous entraînez le réseau neuronal à prédire certaines zones des représentations de l'image à partir d'autres zones.

Yann LeCun

Vous masquez donc une partie de l'image d'entrée, vous la traitez, vous obtenez une représentation, et à partir de la représentation obtenue, vous entraînez le système à prédire la représentation qui est produite à partir de l'image complète. Cela fonctionne très bien, incroyablement bien même, c'est très rapide et cela bat d'autres méthodes concurrentes d'apprentissage auto-supervisé. Encore une fois, je ne vais pas vous ennuyer avec les détails.

Yann LeCun

Il y a une théorie que je vais passer. Il y a un article théorique ici que vous voudrez peut-être consulter. Il vient de sortir ces derniers jours et je l'ai co-écrit avec Ravid Shwartz-Ziv, qui est postdoctorant à NYU, sur une sorte d'approche par goulot d'étranglement de l'information pour expliquer comment l'apprentissage auto-supervisé, l'apprentissage non supervisé et l'apprentissage supervisé fonctionnent sur la base des résultats de la théorie de l'information.

Planification hiérarchique et intelligence animale

Yann LeCun

Bon, j'en viens à la fin. Une raison pour laquelle nous pourrions vouloir entraîner une JEPA est que si nous avons une JEPA, nous pouvons utiliser cette architecture comme un modèle de monde prédictif que nous pourrions utiliser dans un système intelligent capable de planification. Imaginez que nous ayons une observation sur l'état du monde ici, nous lui soumettons une action, ce prédicteur peut prédire une représentation de l'état suivant du monde, d'accord, que nous pouvons ensuite affiner si nous observons réellement l'état suivant du monde et nous pouvons en quelque sorte rétropopager les gradients pour ajuster le système.

Yann LeCun

Ce serait donc pour de la planification à un seul niveau. Mais en réalité, ce que font les gens lorsqu'ils planifient une action ou une séquence d'actions, ils planifient de manière hiérarchique. Ce que nous voulons, c'est donc une sorte de représentation plus abstraite du monde qui nous permettrait de faire des prédictions à plus long terme dans cette représentation plus abstraite qui peut comporter moins de détails sur le fonctionnement du monde. C'est ce qu'on appelle la JEPA hiérarchique, qui pourrait faire des prédictions à plusieurs niveaux.

Yann LeCun

Nous avons en fait quelques expériences sur quelque chose comme ça, qui a d'ailleurs un lien avec la transformée en ondelettes, mais je ne vais pas entrer dans les détails parce que je n'ai pas le temps. Mais c'est un système qui est fondamentalement entraîné à partir de vidéos et qui essaie simultanément d'apprendre à prédire la représentation des images futures à partir des images précédentes et aussi d'apprendre des représentations qui seraient appropriées pour la reconnaissance d'images. C'est une architecture assez complexe, donc je ne vais pas expliquer comment elle fonctionne.

Yann LeCun

Mais voici au final l'architecture que vous pourriez vouloir utiliser si vous êtes capable d'entraîner une JEPA hiérarchique. Vous observez l'état du monde, vous le faites passer par un encodeur, puis par un autre encodeur, et encore un autre, et vous obtenez alors une représentation de haut niveau très abstraite de l'état du monde. Et peut-être que la tâche que vous voulez accomplir est d'aller d'ici à New York.

Yann LeCun

D'accord, donc ma fonction de coût est ma distance par rapport à New York. Calculée à partir de l'état prédit par ce prédicteur. La première action que je dois faire est d'aller à l'aéroport puis de prendre un avion pour New York. Comment aller à l'aéroport ? Je dois donc entreprendre une action, bien sûr, pour aller à l'aéroport, une sorte de macro-action de ce genre que je peux représenter par cette variable latente Z. Mais au fond, ici, je représente l'état d'être à l'aéroport et cette fonction de coût maintenant pour le niveau inférieur est : à quelle distance de l'aéroport suis-je ? À quelle distance de Charles de Gaulle suis-je ?

Yann LeCun

Je dois d'abord appeler un taxi. Le taxi est ici, puis je lui dis d'aller à l'aéroport et cela m'emmènera à l'aéroport. Comment prendre un taxi si je suis à Paris, par exemple ? C'est donc la question de savoir si je suis dans un taxi ou non. D'abord, je dois sortir dans la rue et héler un taxi, ce qui a en fait une faible probabilité de réussir à Paris, mais bon. Mais en fait, ce n'est pas le niveau le plus bas. Le niveau le plus bas est le contrôle musculaire milliseconde par milliseconde. Il y a donc une hiérarchie très profonde de ce genre de choses.

Yann LeCun

Alors, comme je le disais, les tâches intelligentes... et vous pourriez penser que les humains sont les seuls animaux capables de faire cela. Non, votre chat le fait. Votre chat, s'il veut sauter par-dessus ce tableau noir, ira ici, regardera autour de lui, bougera la tête, puis sautera ici, ici et là, et trouvera la solution. C'est une planification assez complexe, qui nécessite un modèle du monde très précis. Les chats ont donc des modèles du monde, pas les LLM.

Yann LeCun

C'est donc le défi de l'IA pour les prochaines années : trouver comment faire fonctionner l'apprentissage auto-supervisé pour la vidéo, en gérant l'uncertainté dans la prédiction, probablement en utilisant l'architecture d'immersion conjointe, peut-être en utilisant le cadre du modèle à base d'énergie, en apprenant les modèles du monde à partir de l'observation, puis en utilisant cela pour planifier et raisonner.

Yann LeCun

Et, vous savez, nous pourrons nous poser la question une fois que nous aurons trouvé la solution : aurons-nous des machines aussi intelligentes que les humains et les animaux ? Et la réponse est : peut-être. Ce n'est peut-être pas le seul élément requis, mais cela ferait partie de l'histoire.

IA de niveau humain et conclusion

Yann LeCun

Les questions que les gens se posent, peut-être pas dans une entreprise sérieuse comme celle-ci, mais beaucoup de gens se les posent maintenant en disant : vous savez, ChatGPT, GPT-4, ils semblent avoir une intelligence surhumaine, ils peuvent faire des choses que la plupart des gens ne peuvent pas faire, etc. Mais il est facile de se faire avoir. Ils ne sont pas si intelligents que ça et ils ne comprennent certainement pas comment le monde fonctionne. Mais il ne fait aucun doute qu'à un moment donné, nous allons atteindre... nous allons avoir des machines plus intelligentes que les humains dans tous les domaines où les humains sont intelligents. Il n'y a aucun doute là-dessus dans mon esprit.

Yann LeCun

Et ce ne sera pas une intelligence générale comme beaucoup de gens le disent, car l'intelligence humaine est en fait très spécialisée. Nous aimons nous considérer comme ayant une intelligence générale, mais ce n'est pas le cas, nous sommes incroyablement spécialisés. Je préfère donc parler d'IA de niveau humain plutôt que d'AGI. Mais avant d'en arriver à l'IA de niveau humain, nous devrons probablement passer par une IA de niveau chat ou chien. C'est une boutade : avant d'arriver à l'IA de niveau divin, nous devons arriver à l'IA de niveau chien.

Yann LeCun

Et cela n'arrivera pas demain, cela prendra probablement un certain temps, mais il est clair que les progrès s'accélèrent parce qu'il y a beaucoup d'intérêts commerciaux derrière tout cela. Merci.

Modérateur

Très peu, mais nous avons le temps pour une question.

Q&A Final : Modèles d'énergie et nature du langage

Membre de l'auditoire

Il y a un roboticien, Hod Lipson, qui apprend à ces machines câblées de manière aléatoire à marcher ou quelque chose comme ça. Quel est le rapport ?

Yann LeCun

Oui, Hod Lipson est à Columbia. Il utilise l'apprentissage par renforcement. C'est donc l'une des choses dont je dis qu'on ne devrait pas se servir, ou du moins en minimiser l'usage. Je pense donc que le but de la recherche sur l'apprentissage par renforcement devrait être d'en minimiser l'utilisation. La raison en est que l'apprentissage par renforcement est très inefficace en termes de données, n'est-ce pas ? On entend tous parler d'AlphaGo et du succès de l'apprentissage par renforcement pour les jeux, etc., y compris pour le poker et même la diplomatie.

Yann LeCun

Mais ces systèmes nécessitent d'énormes quantités d'essais. Le nombre de parties jouées par AlphaGo pour s'entraîner à atteindre des performances surhumaines ou de niveau humain est de l'ordre de millions de parties. C'est insensé.

Membre de l'auditoire

Donc votre proposition est que cela se fera plus vite.

Yann LeCun

Oui. Cela dit, le Go est une tâche très difficile pour les humains. C'est pour ça que c'est un jeu intéressant, parce que c'est dur pour les humains. Et il s'avère que les humains sont nuls à ça. Je veux dire, les machines sont bien meilleures dans ce type de planification arborescente et de recherche combinatoire que les humains qui ont une mémoire à court terme très limitée et des cerveaux plutôt lents. Ainsi, les meilleurs joueurs de Go du monde avant AlphaGo pensaient qu'ils étaient peut-être à deux ou trois pierres de handicap en dessous de Dieu, le joueur de Go idéal. Et il s'avère que non, les humains sont tout simplement mauvais. C'est comme s'ils avaient neuf pierres de retard. C'est comme un débutant comparé à un expert. On est vraiment nuls à ça, c'est pourquoi ce n'est pas si difficile finalement pour les ordinateurs d'être meilleurs que nous. On est juste mauvais.

Modérateur

Une autre question.

Membre de l'auditoire

Oui, je veux dire, vous tracez un chemin chat, chien avant d'arriver à l'humain. D'un autre côté, on pensait que la principale différence entre les humains et les animaux était le langage. Et soudain, vous avez ce ChatGPT et ce système qui le reproduit et bien plus que le langage, la capacité de reproduire des preuves même s'il ne comprend pas et ainsi de suite. Il pourrait donc y avoir d'autres voies vers l'intelligence et ce qui est surprenant, c'est que ce que vous définissez comme la difficulté n'est pas ce qui est difficile dans ce que les animaux ont, ce que nous pensions n'être pas difficile. Il y a donc quelque chose d'un peu étrange ici qui n'est pas seulement la routine habituelle. C'est ma première question. Et la deuxième est plus technique : vous avez poussé vers ces modèles d'énergie pour abandonner toutes les contraintes des probabilités. D'un autre côté, dans la nouvelle proposition que vous faites, vous poussez des normalisations et ainsi de suite. Cela a donc un petit goût de retour aux probabilités.

Yann LeCun

Non. Non, parce qu'on ne peut pas avec les architectures d'immersion conjointe... la variable Y que l'on est censé prédire, si on a une approche probabiliste, on est censé identifier P de Y sachant X, n'est-ce pas, dans un cadre de prédiction. Mais la variable Y passe maintenant par un encodeur. Donc pour calculer P de Y sachant X, il faudrait inverser cet encodeur. Le problème est que cet encodeur n'est pas inversible car il y a beaucoup de Y qui produiront la même représentation. C'est en quelque sorte tout l'intérêt de cette approche, à savoir que l'encodeur qui regarde Y éliminera toutes sortes d'informations non pertinentes de sorte que l'espace invariant, si vous voulez, pour une représentation donnée, l'espace d'entrée de Y qui produit cette représentation soit une variété entière.

Membre de l'auditoire

Mais quand on a une distribution de probabilité, on a une énergie de Gibbs qui oublie ce qui n'est pas pertinent et on peut encore reproduire une texture d'échantillon et ainsi de suite.

Yann LeCun

D'accord, on peut donc prendre l'énergie de prédiction et faire E à la puissance moins cette énergie et normaliser. On ne peut pas normaliser. Votre intégrale ne converge pas parce que l'espace de Y pour un niveau d'énergie donné est, comme vous le savez, un volume non nul ou quoi que ce soit. On ne peut donc pas normaliser, on ne peut pas inverser cette fonction. Je veux dire, il n'y a aucun moyen de transformer cela en un modèle probabiliste, il faut donc abandonner l'idée même.

Membre de l'auditoire

Et qu'en est-il de la première question ?

Yann LeCun

La première question est intéressante et pertinente. Nous avons un biais en tant qu'humains qui nous fait penser que la majeure partie de nos connaissances est basée sur le langage et, comme je l'ai dit, ce n'est pas vrai. La plupart des connaissances humaines sont en fait non linguistiques. Pensez à la quantité de données sur laquelle un grand modèle de langage comme Llama est formé, 1400 milliards de jetons. Si un humain lisait pendant 8 heures par jour à une vitesse normale, il lui faudrait 22 000 ans pour tout lire. D'accord, donc évidemment ces choses fonctionnent, mais pour fonctionner, elles ont besoin d'être entraînées sur d'énormes quantités de données, ce dont les humains ne semblent pas avoir besoin. Nous sommes donc manifestement capables d'extraire beaucoup plus sur la structure sous-jacente du monde et de la réalité avec considérablement moins de données. La quantité totale d'images vidéo ou l'équivalent qu'un enfant de cinq ans a vue au cours de sa vie est inférieure à un milliard. On peut obtenir cela en quelques heures sur YouTube. Ce n'est vraiment pas tant de données que ça au final. Alors, comment apprenons-nous cela si rapidement ? On pourrait dire que le génome encode beaucoup de nos capacités linguistiques et que c'est ce qui nous rend intelligents en quelque sorte. Mais on s'aperçoit alors que les chimpanzés n'ont pas de langage, leur génome est identique à 99 % à celui de l'homme. Et quand on quantifie cela, la différence génomique entre l'homme et le chimpanzé peut être stockée dans 8 mégaoctets. Pour stocker un grand modèle de langage comme un 65 milliards, il faut... je veux dire, on peut le stocker avec 16 bits, mais ça fait quand même 130 gigaoctets. Le langage est un épiphénomène. Il n'est apparu qu'au cours des deux derniers siècles. Il a été très utile à l'espèce humaine, mais fondamentalement, la compréhension du langage est gérée par l'aire de Wernicke, qui est un petit morceau de cerveau à peu près grand comme ça ici, et la production est l'aire de Broca, qui est juste ici, également de cette taille. C'est ce que font les LLM. Ce qui leur manque, c'est le cortex préfrontal. C'est ce qui nous rend intelligents. Et les animaux aussi.

Modérateur

Merci beaucoup.