Les limites des LLM et l'avenir de l'IA
10 mars 2024
Intelligence Artificielle
Les limites des LLM auto-régressifs
Vous avez fait des déclarations fortes sur l'avenir de l'intelligence artificielle récemment, ainsi que tout au long de votre carrière. Vous avez affirmé que les LLM auto-régressifs ne sont pas la voie qui nous permettra de progresser vers une intelligence surhumaine. Il s'agit des grands modèles de langage comme GPT-4, Llama 2 et 3, etc. Comment fonctionnent-ils et pourquoi ne vont-ils pas nous mener jusqu'au bout ?
Pour plusieurs raisons. La première est qu'il existe un certain nombre de caractéristiques du comportement intelligent. Par exemple, la capacité de comprendre le monde physique, la capacité de se souvenir et de retrouver des choses, la mémoire persistante, la capacité de raisonner et la capacité de planifier. Ce sont quatre caractéristiques essentielles des systèmes ou entités intelligents, des humains et des animaux. Les LLM ne peuvent faire aucune de ces choses, ou ils ne peuvent les faire que de manière très primitive. Ils ne comprennent pas vraiment le monde physique, ils n'ont pas vraiment de mémoire persistante, ils ne peuvent pas vraiment raisonner et ils ne peuvent certainement pas planifier. Si vous vous attendez à ce qu'un système devienne intelligent sans avoir la possibilité de faire ces choses, vous faites une erreur. Cela ne veut pas dire que les LLM auto-régressifs ne sont pas utiles. Ils sont certainement utiles. Ce n'est pas qu'ils ne sont pas intéressants, ou que nous ne pouvons pas construire tout un écosystème d'applications autour d'eux. Bien sûr que nous le pouvons. Mais en tant que voie vers une intelligence de niveau humain, il leur manque des composants essentiels. Il y a un autre fait que je trouve très intéressant. Ces LLM sont entraînés sur des quantités énormes de texte, l'intégralité de tous les textes accessibles publiquement sur Internet. C'est typiquement de l'ordre de 10 puissance 13 tokens. Chaque token fait généralement deux octets, ce qui donne 2 fois 10 puissance 13 octets comme données d'entraînement. Il vous faudrait, à vous ou à moi, 170 000 ans pour lire tout cela à raison de 8 heures par jour. Il semble que ces systèmes puissent accumuler une quantité énorme de connaissances, mais on se rend compte ensuite que ce n'est pas tant de données que ça. Si vous parlez à des psychologues du développement, ils vous diront qu'un enfant de quatre ans a été éveillé pendant 16 000 heures dans sa vie, et la quantité d'informations qui a atteint le cortex visuel de cet enfant en quatre ans est d'environ 10 puissance 15 octets. Vous pouvez calculer cela en estimant que le nerf optique transporte environ 20 mégaoctets par seconde. 10 puissance 15 octets pour un enfant de quatre ans contre 2 fois 10 puissance 13 octets pour 170 000 ans de lecture. Cela vous indique qu'à travers l'entrée sensorielle, nous voyons beaucoup plus d'informations que par le langage. Malgré notre intuition, l'essentiel de ce que nous apprenons et de nos connaissances passe par notre observation et notre interaction avec le monde réel, et non par le langage. Tout ce que nous apprenons au cours des premières années de la vie et tout ce que les animaux apprennent n'a rien à voir avec le langage.
Langage, Sagesse et Ancrage dans la Réalité
Il serait bon de s'opposer à une partie de l'intuition qui sous-tend ce que vous dites. Il est vrai qu'il y a plusieurs ordres de grandeur de données supplémentaires qui parviennent à l'esprit humain, et l'esprit humain est capable d'apprendre très rapidement à partir de cela et de filtrer les données très vite. Quelqu'un pourrait contester votre comparaison entre les données sensorielles et le langage, en disant que le langage est déjà très compressé. Il contient déjà beaucoup plus d'informations que les octets nécessaires pour les stocker si on le compare aux données visuelles. Il y a beaucoup de sagesse dans le langage, il y a les mots et la façon dont nous les assemblons, et cela contient déjà beaucoup d'informations. Est-il possible que le langage seul possède déjà assez de sagesse et de connaissances pour pouvoir construire un modèle du monde et une compréhension du monde physique qui, selon vous, manquent aux LLM ?
C'est un grand débat parmi les philosophes et les spécialistes des sciences cognitives de savoir si l'intelligence doit être ancrée dans la réalité. Je suis clairement dans le camp de ceux qui pensent que l'intelligence ne peut pas apparaître sans un certain ancrage dans la réalité. Il n'est pas nécessaire que ce soit une réalité physique, elle pourrait être simulée, mais l'environnement est bien plus riche que ce que l'on peut exprimer par le langage. Le langage est une représentation très approximative de nos perceptions et de nos modèles mentaux. Il y a beaucoup de tâches que nous accomplissons où nous manipulons un modèle mental de la situation en question, et cela n'a rien à voir avec le langage. Tout ce qui est physique ou mécanique, lorsque nous construisons quelque chose ou accomplissons une tâche motrice consistant à saisir un objet, nous planifions nos séquences d'actions et nous le faisons en imaginant le résultat d'une séquence d'actions. Cela nécessite des modèles mentaux qui n'ont pas grand-chose à voir avec le langage. La majeure partie de nos connaissances provient de cette interaction avec le monde physique. Beaucoup de mes collègues qui s'intéressent davantage à la vision par ordinateur sont de cet avis : l'IA doit être incarnée. D'autres personnes venant du côté du traitement du langage naturel ne sont pas nécessairement d'accord avec cela. Les philosophes sont également divisés. La complexité du monde est difficile à représenter ; toutes les complexités que nous tenons pour acquises dans le monde réel et que nous n'imaginons même pas nécessitent de l'intelligence. C'est le paradoxe de Moravec, formulé par le pionnier de la robotique Hans Moravec, qui disait : comment se fait-il qu'avec les ordinateurs, il semble facile d'effectuer des tâches complexes de haut niveau comme jouer aux échecs et résoudre des intégrales, alors que des choses que nous tenons pour acquises chaque jour, comme apprendre à conduire une voiture ou saisir un objet, nous ne pouvons pas les faire avec des ordinateurs. Nous avons des LLM qui peuvent réussir l'examen du barreau, ils doivent donc être intelligents. Mais ensuite, ils ne peuvent pas apprendre à conduire en 20 heures comme n'importe quel jeune de 17 ans. Ils ne peuvent pas apprendre à débarrasser la table et à remplir le lave-vaisselle comme n'importe quel enfant de 10 ans peut l'apprendre en une seule fois. Pourquoi en est-il ainsi ? Qu'est-ce qui nous manque ? Quel type d'architecture d'apprentissage ou de raisonnement manque-t-il pour nous empêcher d'avoir des voitures autonomes de niveau 5 et des robots domestiques ?
Modèles du monde et Vision
Un grand modèle de langage peut-il construire un modèle du monde qui sait comment conduire et comment remplir un lave-vaisselle, mais qui ne sait simplement pas comment traiter les données visuelles pour le moment ? Il pourrait donc opérer dans un espace de concepts.
C'est ce sur quoi beaucoup de gens travaillent. La réponse courte est non. La réponse plus complexe est que l'on peut utiliser des astuces pour amener un LLM à digérer des représentations visuelles d'images, de vidéos ou d'audio. Une manière classique de le faire est d'entraîner un système de vision d'une manière ou d'une autre. Nous avons plusieurs façons d'entraîner des systèmes de vision : supervisée, semi-supervisée ou auto-supervisée. Cela transformera n'importe quelle image en une représentation de haut niveau, une liste de tokens similaire aux tokens qu'un LLM typique prend en entrée. Ensuite, vous soumettez cela au LLM en plus du texte et vous attendez du LLM, pendant l'entraînement, qu'il soit capable d'utiliser ces représentations pour aider à prendre des décisions. Des travaux ont été menés dans ce sens depuis longtemps. On voit maintenant ces systèmes ; il existe des LLM qui ont une extension de vision. Mais ce sont essentiellement des bricolages dans le sens où ces choses ne sont pas entraînées de bout en bout pour vraiment comprendre le monde ; elles ne sont pas entraînées avec de la vidéo. Ils ne comprennent pas vraiment la physique intuitive pour le moment.
Prédiction auto-régressive vs Pensée humaine
Vous ne pensez pas qu'il y ait quelque chose de spécial pour vous dans la physique intuitive, dans le raisonnement de bon sens sur l'espace physique, sur la réalité physique ? Pour vous, c'est un saut géant que les LLM ne sont pas capables de faire.
Nous n'allons pas pouvoir faire cela avec le type de LLM avec lesquels nous travaillons aujourd'hui. Il y a plusieurs raisons à cela, mais la raison principale est la façon dont les LLM sont entraînés. Vous prenez un morceau de texte, vous en retirez certains mots, vous les masquez, vous les remplacez par des marqueurs vides, et vous entraînez un réseau neuronal gigantesque à prédire les mots manquants. Si vous construisez ce réseau neuronal d'une manière particulière afin qu'il ne puisse regarder que les mots situés à gauche de celui qu'il essaie de prédire, vous avez alors un système entraîné à prédire le mot suivant dans un texte. Vous pouvez lui soumettre une instruction et lui demander de prédire le mot suivant. Il ne pourra jamais prédire exactement le mot suivant. Il va produire une distribution de probabilité sur tous les mots possibles d'un dictionnaire. Il prédit des tokens qui sont des unités de sous-mots. Il est facile de gérer l'incertitude dans la prédiction ici car il n'y a qu'un nombre fini de mots possibles dans le dictionnaire et on peut calculer une distribution sur ceux-ci. Le système choisit un mot dans cette distribution. Il y a plus de chances de choisir des mots qui ont une probabilité plus élevée dans cette distribution, donc vous échantillonnez à partir de cette distribution pour produire un mot. Ensuite, vous réinjectez ce mot dans l'entrée. Cela permet au système de prédire le deuxième mot. Une fois que vous avez fait cela, vous le réinjectez encore. C'est ce qu'on appelle la prédiction auto-régressive, c'est pourquoi ces LLM devraient être appelés LLM auto-régressifs. Il y a une différence entre ce processus et un processus par lequel, avant de produire un mot, quand vous parlez, vous réfléchissez à ce que vous allez dire et c'est indépendant de la langue dans laquelle vous allez le dire. Lorsque nous parlons d'un concept mathématique, le type de pensée que nous avons et la réponse que nous prévoyons de produire ne sont pas liés au fait que nous allons le dire en français, en russe ou en anglais.
Chomsky vient de lever les yeux au ciel, mais je comprends. Vous dites qu'il existe une abstraction plus grande qui précède le langage et qui se projette sur le langage.
Exactement. C'est certainement vrai pour une grande partie de la pensée que nous pratiquons.
Est-il évident que nous ne le faisons pas ? Vous dites que votre pensée est la même en français qu'en anglais.
À peu près.
À peu près ? Ou à quel point êtes-vous flexible ? Par exemple, s'il s'agissait d'une distribution de probabilité.
Cela dépend du type de pensée. S'il s'agit de faire des jeux de mots, je suis bien meilleur en français qu'en anglais.
Existe-t-il une représentation abstraite des jeux de mots ? Votre humour est-il une représentation abstraite ? Lorsque vous tweetez et que vos tweets sont parfois un peu piquants, y a-t-il une représentation abstraite dans votre cerveau d'un tweet avant qu'il ne se traduise en anglais ?
Il existe une représentation abstraite consistant à imaginer la réaction d'un lecteur à ce texte.
Ou bien vous commencez par le rire et vous cherchez ensuite comment faire pour que cela arrive.
Ou bien vous déterminez une réaction que vous voulez provoquer et vous cherchez ensuite comment le dire pour que cela provoque cette réaction. C'est proche du langage. Mais pensez à un concept mathématique ou à l'imagination de quelque chose que vous voulez construire en bois. Le type de pensée que vous avez n'a rien à voir avec le langage. Ce n'est pas comme si vous aviez nécessairement un monologue interne dans une langue particulière. Vous imaginez des modèles mentaux de la chose. Si je vous demande d'imaginer à quoi ressemblera cette bouteille d'eau si je la fais pivoter de 90 degrés, cela n'a rien à voir avec le langage. Il est clair qu'il existe un niveau de représentation plus abstrait dans lequel nous effectuons l'essentiel de notre pensée et où nous planifions ce que nous allons dire si le résultat est constitué de mots prononcés par opposition à des actions musculaires. Nous planifions our réponse avant de la produire. Les LLM ne font pas cela ; ils produisent simplement un mot après l'autre instinctivement. C'est comme les actions subconscientes où vous êtes distrait ou concentré et que quelqu'un vous pose une question et vous répondez automatiquement. Vous n'avez pas le temps de réfléchir à la réponse, mais la réponse est facile donc vous n'avez pas besoin de prêter attention. C'est ce que fait un LLM. Il ne réfléchit pas à sa réponse. Il la récupère parce qu'il a accumulé beaucoup de connaissances, mais il va recracher un token après l'autre sans planifier la réponse.
Modèles génératifs et prédiction vidéo
Vous donnez l'impression que la génération un token à la fois est forcément simpliste. Mais si le modèle du monde est suffisamment sophistiqué, ce token généré à chaque étape, la chose la plus probable qu'il génère comme une séquence de tokens, sera quelque chose de profondément profond.
D'accord, mais cela suppose alors que ces systèmes possèdent réellement un modèle du monde interne.
Cela revient vraiment à la question fondamentale : peut-on construire un modèle du monde réellement complet qui possède une compréhension profonde du monde ?
Peut-on construire cela tout d'abord par la prédiction ? La réponse est probablement oui. Peut-on le construire en prédisant des mots ? La réponse est très probablement non, car le langage est très pauvre ou faible en termes de bande passante ; il n'y a tout simplement pas assez d'informations. Construire des modèles du monde signifie observer le monde et comprendre pourquoi il évolue de la manière dont il évolue. Le composant supplémentaire d'un modèle du monde est quelque chose qui peut prédire comment le monde va évoluer en conséquence d'une action que vous pourriez entreprendre. Un modèle du monde, c'est vraiment : voici mon idée de l'état du monde au temps T, voici une action que je pourrais entreprendre, quel est l'état prédit du monde au temps T plus 1. Cet état du monde n'a pas besoin de représenter tout ce qui concerne le monde. Il doit simplement représenter ce qui est pertinent pour cette planification de l'action, mais pas nécessairement tous les détails. Vous n'allez pas pouvoir faire cela avec des modèles génératifs. Un modèle génératif tel qu'entraîné sur de la vidéo, et nous essayons de faire cela depuis 10 ans. Vous prenez une vidéo, montrez à un système un morceau de vidéo puis demandez-lui de prédire la suite de la vidéo, en gros prédire ce qui va se passer.
Une image à la fois, faire la même chose que ce que font les LLM auto-régressifs mais pour de la vidéo.
Soit une image à la fois, soit un groupe d'images à la fois. Un grand modèle vidéo. L'idée de faire cela circule depuis longtemps et au FAIR, certains de mes collègues et moi-même essayons de le faire depuis environ 10 ans. On ne peut pas vraiment utiliser la même astuce qu'avec les LLM car on ne peut pas prédire exactement quel mot va suivre une séquence de mots, mais on peut prédire une distribution sur les mots. Si l'on passe à la vidéo, il faudrait prédire une distribution sur toutes les images possibles d'une vidéo. Nous ne savons pas comment faire cela correctement. Nous ne savons pas comment représenter des distributions sur des espaces continus à haute dimension de manière utile. C'est le problème principal. La raison pour laquelle nous pouvons faire cela est que le monde est incroyablement plus compliqué et plus riche en termes d'informations que le texte. Le texte est discret, la vidéo est continue et à haute dimension, avec énormément de détails. Si je prends une vidéo de cette pièce et que la caméra fait un panoramique, il m'est impossible de prédire tout ce qui va se trouver dans la pièce pendant le panoramique. Le système ne peut pas prédire ce qui va se trouver dans la pièce pendant que la caméra pivote. Il ne peut pas prédire à quoi ressemble le tableau au mur ou quelle est la texture du canapé. Il lui est impossible de prédire tous ces détails. Une façon de gérer cela, sur laquelle nous travaillons depuis longtemps, est d'avoir un modèle doté de ce qu'on appelle une variable latente. La variable latente est transmise à un réseau neuronal et elle est censée représenter toutes les informations sur le monde que vous ne percevez pas encore et dont vous avez besoin pour augmenter le système afin que la prédiction réussisse à prédire les pixels. Cela a été un échec total. Nous avons essayé beaucoup de choses : réseaux neuronaux classiques, GAN, VAE, toutes sortes d'auto-encodeurs régularisés. Nous avons également essayé ces méthodes pour apprendre de bonnes représentations d'images ou de vidéos qui pourraient ensuite être utilisées comme entrée dans un système de classification d'images. Cela a également échoué. Tous les systèmes qui tentent de prédire les parties manquantes d'une image ou d'une vidéo à partir d'une version corrompue de celle-ci, prennent une image ou une vidéo, la corrompent ou la transforment, puis essaient de reconstruire la vidéo ou l'image complète à partir de la version corrompue en espérant qu'en interne, le système développera une bonne représentation des images que vous pourrez utiliser pour la reconnaissance d'objets ou la segmentation. Cela a été un échec total. Cela fonctionne très bien pour le texte. C'est le principe utilisé pour les LLM.
L'alternative JEPA (Joint-Embedding Predictive Architecture)
Où se situe l'échec exactement ? Est-ce qu'il est très difficile de former une bonne représentation d'une image, comme un bon embedding de toutes les informations importantes de l'image ? Est-ce en termes de cohérence d'image en image qui forme la vidéo ? À quoi ressemble la compilation des moments forts de tous vos échecs ?
La raison pour laquelle cela ne fonctionne pas, je dois d'abord vous dire exactement ce qui ne fonctionne pas parce qu'il y a autre chose qui fonctionne. Ce qui ne fonctionne pas, c'est d'entraîner un système à apprendre des représentations d'images en l'entraînant à reconstruire une bonne image à partir d'une version corrompue. C'est cela qui ne fonctionne pas. Nous avons toute une panoplie de techniques pour cela qui sont des variantes d'auto-encodeurs de débruitage, quelque chose appelé MAE développé par certains de mes collègues au FAIR, Masked Auto-Encoder. C'est comme les LLM où vous entraînez le système en corrompant le texte, sauf que vous corrompez les images, en retirez des morceaux et entraînez un réseau neuronal gigantesque à reconstruire. Les caractéristiques que vous obtenez ne sont pas bonnes. Vous savez qu'elles ne sont pas bonnes parce que si vous entraînez maintenant la même architecture mais que vous l'entraînez de manière supervisée avec des données étiquetées et des descriptions textuelles d'images, vous obtenez de bonnes représentations et les performances sur les tâches de reconnaissance sont bien meilleures que si vous effectuez ce pré-entraînement auto-supervisé.
L'architecture est donc bonne.
L'architecture est bonne. L'architecture de l'encodeur est bonne. Mais le fait d'entraîner le système à reconstruire des images ne l'amène pas à apprendre de bonnes caractéristiques génériques des images.
Lorsque vous l'entraînez de manière auto-supervisée.
Auto-supervisée par reconstruction. Par reconstruction. Alors quelle est l'alternative ? L'alternative est une intégration conjointe.
Qu'est-ce que l'intégration conjointe ? Quelles sont ces architectures qui vous passionnent tant ?
Au lieu d'entraîner un système à encoder l'image puis à l'entraîner à reconstruire l'image complète à partir d'une version corrompue, vous prenez l'image complète, vous prenez la version corrompue ou transformée, vous les passez toutes deux dans des encodeurs, qui sont en général identiques mais pas nécessairement. Ensuite, vous entraînez un prédicteur par-dessus ces encodeurs pour prédire la représentation de l'entrée complète à partir de la représentation de celle qui est corrompue. C'est une intégration conjointe car vous prenez l'entrée complète et la version corrompue, vous les passez toutes deux dans des encodeurs pour obtenir une intégration conjointe, puis vous demandez : puis-je prédire la représentation de l'image complète à partir de la représentation de l'image corrompue ? J'appelle cela une JEPA, ce qui signifie Architecture Prédictive à Intégration Conjointe, parce qu'il s'agit d'une intégration conjointe et qu'il y a ce prédicteur qui prédit la représentation du bon élément à partir du mauvais. La grande question est comment entraîner une telle chose ? Jusqu'à il y a cinq ou six ans, nous n'avions pas de réponses particulièrement satisfaisantes sur la façon d'entraîner ces choses, à l'exception d'une méthode appelée apprentissage contrastif. L'idée de l'apprentissage contrastif est de prendre une paire d'images constituée d'une image et d'une version corrompue ou transformée de l'originale, et d'entraîner la représentation prédite pour qu'elle soit identique à celle-ci. Si vous ne faites que cela, le système s'effondre. Il ignore l'entrée et produit des représentations qui sont constantes. Les méthodes contrastives évitent cela. Ces choses existent depuis le début des années 90 ; j'ai publié un article à ce sujet en 1993. On montre également des paires d'images que l'on sait différentes, puis on éloigne les représentations les unes des autres. On dit non seulement que les représentations de choses que l'on sait être identiques doivent être similaires, mais que les représentations de choses que l'on sait être différentes doivent être différentes. Cela empêche l'effondrement, mais cela présente certaines limites. Toute une série de techniques sont apparues au cours des six ou sept dernières années pour raviver ce type de méthode. Mais il y a des limites à ces méthodes contrastives. Ce qui a changé au cours des trois ou quatre dernières années, c'est que nous avons maintenant des méthodes qui sont non contrastives, elles ne nécessitent donc pas ces échantillons contrastifs négatifs d'images que nous savons être différentes. On les entraîne uniquement avec des images qui sont des versions différentes ou des vues différentes de la même chose et on s'appuie sur d'autres astuces pour empêcher le système de s'effondrer. Nous avons maintenant une demi-douzaine de méthodes différentes pour cela.