John Schulman : Post-entraînement, AGI et l'avenir du RL
15 mai 2024
Intelligence Artificielle
Introduction et Contexte
Et je pense que même dans 1 ou 2 ans, on pourrait imaginer que les modèles réalisent tout un projet de codage. Passer de l'utilisation du modèle comme un moteur de recherche vers un projet complet que je réalise en collaboration avec le modèle. Nous ne voudrions peut-être pas passer immédiatement à ce que des IA gèrent des entreprises entières, même si les modèles sont assez performants pour diriger eux-mêmes une entreprise prospère.
S'il n'y a pas d'autres goulots d'étranglement l'année prochaine ou quelque chose comme ça, vous avez l'AGI. Quel est le plan ?
Aujourd'hui, j'ai le plaisir de parler avec John Schulman, qui est l'un des cofondateurs d'OpenAI et dirige l'équipe de post-entraînement ici. Il a également dirigé la création de ChatGPT et est l'auteur de plusieurs des articles les plus importants et les plus cités en IA et RL, y compris PPO et bien d'autres. John, je suis vraiment ravi de discuter avec vous. Merci d'être venu sur le podcast.
Merci de m'avoir invité sur le podcast. Je suis un grand fan.
Pré-entraînement vs Post-entraînement
Merci de dire cela. La première question que j'ai est la suivante : nous avons ces distinctions entre le pré-entraînement et le post-entraînement. Au-delà de ce qui se passe réellement en termes de fonction de perte et de régimes d'entraînement, en prenant du recul conceptuellement, quel genre de chose le pré-entraînement crée-t-il ? Que fait le post-entraînement par-dessus cela ?
Dans le pré-entraînement, vous vous entraînez à imiter tout le contenu de l'internet, y compris les sites web et le code. Vous obtenez un modèle capable de générer du contenu qui ressemble à des pages web aléatoires de l'internet. Le modèle est également entraîné pour maximiser la vraisemblance, où il doit attribuer une probabilité à tout. L'objectif est de prédire le prochain jeton compte tenu des jetons précédents. Les jetons sont des mots ou des parties de mots. Puisque le modèle doit attribuer une probabilité et que nous nous entraînons à maximiser la log-probabilité, il finit par être très calibré. Il peut non seulement générer le contenu du web, mais il peut aussi attribuer des probabilités à tout. Le modèle de base peut effectivement adopter tous ces différents personas ou générer différents types de contenu. Lorsque nous effectuons le post-entraînement, nous ciblons généralement une gamme de comportements plus étroite où nous voulons que le modèle se comporte comme un assistant de chat. C'est un persona plus spécifique où il essaie d'être utile. Il n'essaie pas d'imiter une personne. Il répond à vos questions ou accomplit vos tâches. Nous optimisons sur un objectif différent, qui consiste davantage à produire des résultats que les humains aimeront et trouveront utiles, par opposition au simple fait d'essayer d'imiter ce contenu brut du web.
Capacités Futures et Tâches à Long Horizon
À l'heure actuelle, nous avons ces modèles qui sont assez doués pour agir en tant que chatbots. En prenant du recul par rapport au fonctionnement actuel de ces processus, quels types de choses les modèles publiés d'ici la fin de l'année seront-ils capables de faire ? À quoi voyez-vous que les progrès ressembleront au cours des cinq prochaines années ?
Cinq ans. Je pense que les modèles s'amélioreront considérablement au cours de ces cinq années.
Mais de quelle manière ?
Même dans 1 ou 2 ans, nous constaterons que vous pouvez les utiliser pour des tâches plus complexes qu'actuellement. Par exemple, à l'heure actuelle, on pourrait imaginer que les modèles réalisent tout un projet de codage au lieu de vous donner une seule suggestion sur la façon d'écrire une fonction. On pourrait imaginer donner au modèle des instructions de haut niveau sur ce qu'il faut coder et il écrira de nombreux fichiers et les testera, regardera le résultat et itérera là-dessus. Juste des tâches beaucoup plus complexes.
Et fondamentalement, le déblocage est qu'il peut agir de manière cohérente assez longtemps pour écrire plusieurs fichiers de code ? Ou qu'est-ce qui a changé entre maintenant et alors ?
Cela proviendra d'une combinaison d'entraînement des modèles pour effectuer des tâches plus difficiles comme celle-ci. À l'heure actuelle, la plupart des données d'entraînement ressemblent davantage à des étapes uniques à la fois. Je m'attends à ce que nous en fassions plus pour entraîner les modèles à mener à bien ces projets plus longs. Tout type d'entraînement, que vous supervisiez le résultat final ou chaque étape, tout type d'entraînement à la réalisation de ces longs projets va les rendre bien meilleurs. Comme tout le domaine est assez nouveau, il y a beaucoup de gains faciles à réaliser dans ce genre d'entraînement. De plus, je m'attendrais à ce qu'au fur et à mesure que les modèles s's'améliorent, ils parviennent mieux à se remettre des erreurs ou à gérer les cas limites. Quand les choses tournent mal, ils savent comment s'en remettre. Les modèles seront plus économes en échantillons, de sorte que vous n'aurez pas besoin de collecter une tonne de données pour leur apprendre à se remettre sur les rails ; juste un peu de données ou leur généralisation à partir d'autres capacités leur permettra de se remettre sur les rails, alors que les modèles actuels pourraient simplement rester bloqués et perdus.
Généralisation et Récupération d'Erreurs
Je veux comprendre plus explicitement comment la généralisation aide à se remettre sur les rails. Pouvez-vous en dire plus à ce sujet ? Je ne suis pas sûr d'avoir compris pourquoi ces deux concepts sont liés.
Ils ne sont pas directement liés. Je dirais que vous avez généralement un peu de données qui font tout. Si vous collectez un ensemble de données diversifié, vous allez y trouver un peu de tout. Si vous avez des modèles qui généralisent très bien, même s'il n'y a que quelques exemples de remise sur les rails, ou même s'il y a des exemples de remise sur les rails dans le pré-entraînement, le modèle sera capable de généraliser à partir de ces autres choses qu'il a vues à la situation actuelle. Si vous avez des modèles plus faibles, vous pourriez peut-être leur faire faire presque n'importe quoi avec assez de données, mais vous devrez peut-être faire beaucoup d'efforts dans un domaine ou une compétence particulière, alors que pour un modèle plus fort, il pourrait faire la bonne chose sans aucune donnée d'entraînement ni effort.
Avez-vous une intuition sur le fait qu'actuellement ces modèles peuvent agir de manière cohérente pendant cinq minutes. Nous voulons qu'ils soient capables de faire des tâches qui prendraient une heure pour un humain, puis une semaine, puis un mois. Pour passer d'un de ces points de repère à l'autre, est-ce que chacun va demander 10 fois plus de calcul, par analogie avec les lois de mise à l'échelle actuelles pour le pré-entraînement ? Ou est-ce que ce sera un processus beaucoup plus fluide parce que le fait d'arriver au point où l'on est déjà économe en échantillons mène ensuite à des années de réalisation de tâches ?
À un niveau élevé, je conviendrais que les tâches à horizon plus long vont nécessiter plus d'intelligence de modèle pour être bien faites et vont être plus coûteuses à entraîner. Je ne suis pas sûr de m'attendre à ce qu'il y ait une loi de mise à l'échelle vraiment nette, à moins de l'établir de manière très prudente ou de concevoir l'expérience d'une certaine façon. Il pourrait finir par y avoir des transitions de phase où une fois que vous atteignez un certain niveau, vous pouvez gérer des tâches beaucoup plus longues. Par exemple, quand les gens planifient à différentes échelles de temps, je ne suis pas sûr qu'ils utilisent des mécanismes complètement différents. Nous utilisons probablement la même machinerie mentale que nous pensions à dans un mois, dans un an ou dans cent ans. Nous ne faisons pas réellement une sorte d'apprentissage par renforcement où nous devons nous soucier d'un facteur d'actualisation qui couvre cette échelle de temps. En utilisant le langage, vous pouvez décrire toutes ces différentes échelles de temps et ensuite vous pouvez planifier sur le moment pour progresser vers votre objectif, qu'il soit à un mois ou à dix ans. Je pourrais attendre la même chose des modèles où certaines capacités fonctionnent à plusieurs échelles.
Vers l'AGI et Goulots d'Étranglement
Corrigez-moi si je me trompe, mais il semble que cela implique qu'à l'heure actuelle, nous avons des modèles qui sont, jeton par jeton, assez intelligents, potentiellement aussi intelligents que les humains les plus brillants. Ce qui les empêche d'être aussi utiles qu'ils pourraient l'être, c'est qu'ils n'écrivent pas votre code de manière cohérente et alignée avec les objectifs plus larges de votre projet. S'il s'avère qu'une fois que vous commencez ce régime d'entraînement RL à long horizon, cela débloque immédiatement votre capacité à être cohérent pendant de plus longues périodes, devrions-nous prédire quelque chose qui soit de niveau humain dès que ce régime est débloqué ? Sinon, que reste-t-il après que vous pouvez planifier pour un an et exécuter des projets qui prennent autant de temps ?
Ce n'est pas tout à fait clair ce que nous allons voir une fois que nous serons dans ce régime et à quelle vitesse les progrès se feront. C'est encore incertain. Je ne m'attendrais pas à ce que tout soit résolu immédiatement en faisant un entraînement comme celui-ci. Je pense qu'il y aura d'autres déficits divers que les modèles auront et qui les amèneront à rester bloqués ou à prendre de moins bonnes décisions que les humains. Je ne dirais pas que je m'attends à ce que cette seule chose débloque toutes les capacités, mais une certaine amélioration de la capacité à effectuer des tâches à long horizon pourrait mener assez loin.
Diriez-vous que c'est plausible ou qu'il semble tout à fait probable qu'il y aura d'autres raisons pour lesquelles il pourrait y avoir des goulots d'étranglement ? Quelle serait la nature de ces goulots d'étranglement ? Donc, il possède toutes ces représentations issues du pré-entraînement, il peut maintenant agir de manière cohérente pendant une longue période grâce au RL à long horizon, que reste-t-il ?
Peut-être qu'il y a une autre expérience que les experts humains apportent à différentes tâches, comme avoir un certain goût ou mieux gérer l'ambiguïté. Je pourrais imaginer que si nous voulons faire quelque chose comme de la recherche, ce genre de considérations entrent en jeu. Évidemment, il y aura des limitations banales concernant les capacités d'interaction du modèle, comme s'il peut utiliser des interfaces utilisateur, le monde physique, ou avoir accès à des choses. Je pense qu'il pourrait y avoir beaucoup de barrières banales qui ne dureront probablement pas longtemps mais qui ralentiraient initialement les progrès.
Interfaces et Généralisation Multimodale
Les sites web qui sont conçus pour ces IA une fois qu'elles seront beaucoup plus multimodales, ou du moins entraînées sur des données plus multimodales, seront-ils de quelque manière que ce soit différents de ceux que nous avons pour les humains ? Comme les interfaces utilisateur qui seront nécessaires, en quoi la compensation de leurs forces et faiblesses sera-t-il différente des interfaces utilisateur actuelles que nous avons pour les humains ?
C'est une question intéressante. Je m'attendrais à ce que les modèles soient capables d'utiliser des sites web conçus pour les humains simplement en utilisant la vision lorsque les capacités de vision s'amélioreront. Il n'y aurait pas de besoin immédiat de les changer. D'un autre côté, certains sites web qui vont beaucoup bénéficier du fait que les IA puissent les utiliser voudront probablement concevoir de meilleures expériences utilisateur pour les IA. Je ne sais pas exactement ce que cela signifierait, mais en supposant que nos modèles soient toujours meilleurs en mode texte qu'à lire du texte à partir d'images, on voudrait probablement avoir une bonne représentation textuelle et une bonne indication des éléments avec lesquels on peut interagir. Je ne m'attendrais pas à ce que le web soit totalement repensé pour avoir des API partout parce que je m'attendrais à ce que nous puissions amener les modèles à utiliser les mêmes types d'interfaces utilisateur que les humains.
Je suppose que c'est la grande leçon des modèles de langage : ils peuvent agir avec des capacités similaires à celles des humains. Le point que vous avez soulevé plus tôt sur le fait que ce processus est plus économe en échantillons parce qu'il pourrait généraliser à partir de ses expériences en pré-entraînement sur la façon de se débloquer dans différents scénarios ; je suis curieux de savoir quelle est la preuve la plus forte de ce genre de généralisation et de transfert que vous ayez vue. La grande question sur la capacité future de ces modèles est de savoir quelle part de généralisation a lieu. Y a-t-il quelque chose qui vous semble vraiment convaincant, où vous avez appris quelque chose que vous ne vous attendriez pas à ce qu'il apprenne par la généralisation ici ?
Il y a certainement eu des cas intéressants de généralisation dans le post-entraînement. Un phénomène bien connu est que si vous faites tout votre réglage fin avec des données en anglais, vous aurez le modèle qui se comporte également bien dans d'autres langues. Si vous entraînez l'assistant sur des données en anglais, il fera aussi quelque chose de raisonnable en espagnol. Parfois, vous pourriez obtenir le mauvais comportement quant à savoir s'il répond en anglais ou en espagnol, mais généralement vous obtenez le bon comportement où il répond en espagnol aux requêtes en espagnol. C'est un cas intéressant de généralisation où vous saisissez le bon persona utile et vous faites automatiquement la bonne chose dans différentes langues. Nous avons vu une version de cela avec des données multimodales où si vous faites un réglage fin uniquement sur du texte, vous obtenez également un comportement raisonnable avec les images. Au début de ChatGPT, nous essayions de résoudre certains problèmes concernant la compréhension par le modèle de ses propres limites. Les premières versions du modèle pensaient qu'elles pouvaient vous envoyer un e-mail ou appeler un Uber. Le modèle jouait l'assistant et disait : « bien sûr, j'ai envoyé cet e-mail », et évidemment il ne l'avait pas fait. Nous avons commencé à collecter des données pour corriger ces problèmes et avons découvert qu'une infime quantité de données faisait l'affaire, même mélangée à tout le reste. Je ne me souviens pas exactement du nombre d'exemples, mais c'était un nombre assez faible montrant ce comportement général consistant à expliquer que le modèle n'a pas cette capacité, et cela s'est bien généralisé à toutes sortes de capacités pour lesquelles nous n'avions pas fait d'entraînement.
Planification pour l'AGI et Coordination
Si vous avez ce modèle qui est entraîné pour être cohérent pendant de plus longues périodes, cela implique-t-il qu'à moins d'autres goulots d'étranglement, d'ici l'année prochaine, vous pourriez avoir des modèles qui sont potentiellement de niveau humain en termes de comportement en tant que collègue à qui l'on peut dire d'aller faire des choses et qui va les accomplir ? Qu'est-ce qui semble faux dans ce tableau si c'est la capacité que vous pensez possible ?
Il est difficile de dire exactement quel sera le déficit. Je dirais que lorsque vous parlez aux modèles aujourd'hui, ils ont diverses faiblesses en plus de la cohérence à long terme, en termes de réflexion approfondie sur les choses ou d'attention à ce que vous leur demandez. Je ne m'attendrais pas à ce que le simple fait d'améliorer un peu la cohérence soit tout ce qu'il faut pour arriver à l'AGI. Mais je ne serais pas capable d'articuler exactement quelle est la faiblesse principale qui les empêchera d'être un collègue pleinement fonctionnel.
Il semble alors que vous devriez planifier la possibilité d'avoir l'AGI très bientôt.
Je pense que ce serait raisonnable.
Alors quel est le plan s'il n'y a pas d'autres goulots d'étranglement l'année prochaine et que vous obtenez l'AGI ?
Si l'AGI arrivait bien plus tôt que prévu, nous voudrions certainement être prudents et nous pourrions vouloir ralentir l'entraînement et le déploiement jusqu'à ce que nous soyons assez sûrs de pouvoir la gérer en toute sécurité et que nous maîtrisions ce qu'elle peut faire. Nous devrions être très prudents si cela arrivait bien plus tôt que prévu car notre compréhension est encore rudimentaire à bien des égards.
Et que signifierait être prudent ? Parce que vous êtes probablement déjà prudent ; vous effectuez ces évaluations avant de déployer.
Peut-être ne pas entraîner la version encore plus intelligente, et être vraiment prudent quand on l'entraîne pour qu'elle soit correctement isolée dans un bac à sable. Peut-être ne pas la déployer à grande échelle, ou être prudent quant à l'échelle à laquelle on la déploie.
Théorie des Jeux et Sécurité
Jouons simplement avec ce scénario. Cela arrive l'année prochaine, puis vous n'entraînez pas de système plus intelligent et vous déployez de manière mesurée. Je me demande si l'intelligence était tout simplement beaucoup plus facile que prévu et que c'est pour cela que c'est arrivé, et que vous attendez donc pour déployer. Maintenant, d'autres entreprises ont des capacités de niveau similaire. Que se passe-t-il ensuite ? Si vous avez attendu pour déployer, qu'attendez-vous ? Que fait chaque entreprise dans ce scénario ?
La théorie des jeux est un peu difficile à analyser. Tout d'abord, je ne pense pas que cela puisse arriver l'année prochaine, mais il est tout de même utile d'avoir la conversation et peut-être que c'est dans deux ou trois ans au lieu d'un. Vous avez probablement besoin d'une certaine coordination où tout le monde doit se mettre d'accord sur des limites raisonnables au déploiement ou à l'entraînement futur pour que cela fonctionne. Sinon, vous avez une dynamique de course où tout le monde essaie de garder une longueur d'avance et cela pourrait nécessiter de faire des compromis sur la sécurité. Vous auriez probablement besoin d'une certaine coordination entre les plus grandes entités qui effectuent ce genre d'entraînement.
Et vous vous coordonnez pour suspendre le déploiement jusqu'à quoi exactement ? Jusqu'à ce que vous compreniez ce qui se passe dans le modèle ?
Suspendre soit l'entraînement futur soit le déploiement, ou éviter certains types d'entraînement que nous pensons être plus risqués. Juste établir des règles raisonnables sur ce que tout le monde devrait faire pour que chacun limite quelque peu ces choses.
Dans quel but ? Parce qu'à un moment donné, l'énergie potentielle au sein de cette intelligence sera libérée. Quel est le plan ? Supposons que dans deux ans nous obtenions l'AGI et que tout le monde panique et que les entreprises d'IA fassent une pause ; quel serait le plan d'attente jusqu'à quand ?
Je n'ai pas de bonne réponse à cela. Si tout le monde devait se coordonner ainsi, ce serait un assez bon scénario car la construction de ces modèles nécessite énormément de capital et il y a beaucoup de pièces complexes, donc ce n'est pas comme si tout le monde allait recréer tout cela chez soi. Étant donné le nombre relativement faible d'entités capables d'entraîner les plus grands modèles, il semble possible de se coordonner. Je ne sais pas comment on maintiendrait cet équilibre sur une longue période, mais si nous en arrivions là, nous serions dans une position correcte.
Déploiement Progressif et Alignement
Je suis curieux de savoir ce qui se passe ensuite. Fondamentalement, le problème est que nous avons une tonne d'intelligences ou qu'elles pourraient s'imposer sur le serveur. Tout le monde est coordonné, mais je ne sais pas ce que nous ferions ensuite dans ce monde ou pourquoi cela nous préparerait à un bon résultat.
Si nous avions tout le monde raisonnablement coordonné, et que nous sentions que nous avions assez bien résolu les problèmes techniques d'alignement pour pouvoir déployer des IA intelligentes qui peuvent agir comme une extension de la volonté des gens tout en les empêchant d'être mal utilisées d'une manière qui causerait une catastrophe, alors ce serait génial. Nous pourrions aller de l'avant et déployer ces systèmes en toute sécurité et cela inaugurerait la prospérité et une nouvelle phase beaucoup plus rapide de progrès scientifique. C'est à cela que ressemblerait le bon scénario.
Comment sauriez-vous dans quelques années si tous ces acteurs ont accepté de faire une pause jusqu'à ce que nous ayons compris que nous construisons des systèmes alignés qui ne vont pas eux-mêmes tenter de prendre le pouvoir par un coup d'État ou permettre à quelqu'un d'autre de le faire ? À quoi ressemblerait la preuve de cela ?
Si nous pouvons déployer des systèmes de manière progressive, successivement plus intelligentes que les précédents, je pense que c'est plus sûr. J'espère que la façon dont les choses se passent n'est pas ce scénario où tout le monde doit se coordonner et tout verrouiller, puis tout relâcher, car cela mènerait à une accumulation d'énergie potentielle. Je préférerais un scénario où nous sortons continuellement des choses un peu meilleures que ce qui précédait, tout en nous assurant d'être convaincus que chaque différence améliore la sécurité et l'alignement en correspondance avec l'amélioration de la capacité. Si les choses commençaient à paraître effrayantes, nous serions alors en mesure de ralentir les choses. S'il y a plus d'un saut discontinu et que la question est de savoir comment savoir si ce que vous avez peut être publié en toute sécurité, je ne peux pas donner de réponse générique. Le type de chose que vous pourriez vouloir faire serait de faire beaucoup de tests, comme un déploiement simulé ou du red teaming. Vous voudriez faire cela d'une manière dont vous sentez qu'elle est beaucoup plus susceptible d'échouer que ce que vous prévoyez de faire dans le monde réel. Vous voudriez avoir un très bon système de surveillance afin que si quelque chose commence à mal tourner, ce soit détectable immédiatement. Vous voudriez une défense en profondeur. Vous voudriez que le modèle lui-même se comporte vraiment bien et ait un sens moral irréprochable, de sorte que vous soyez sûr qu'il résiste à toute tentative de prise de contrôle ou à tout usage abusif grave. Ensuite, vous voudriez également avoir une très bonne surveillance par-dessus pour pouvoir détecter tout problème.
Évaluations et Incitations Instrumentales
De quoi gardez-vous la trace pendant que vous faites du RL à long horizon, de sorte que vous puissiez remarquer ce genre de saut discontinu avant de déployer ces systèmes à grande échelle ?
Je dirais que vous voudriez avoir beaucoup d'évaluations que vous exécutez pendant le processus d'entraînement.
Que remarqueriez-vous spécifiquement ? Cela a-t-il du sens d'entraîner sur du RL à long horizon en sachant que c'est quelque chose qui pourrait arriver ? Ou est-ce juste une probabilité très faible ?
Vous voudriez être assez prudent lorsque vous faites ce genre d'entraînement si vous voyez beaucoup de capacités potentiellement effrayantes. Ce n'est pas quelque chose dont nous devrions avoir peur à l'heure actuelle parce qu'il est difficile d'amener les modèles à faire quoi que ce soit de cohérent. Mais s'ils commençaient à devenir vraiment bons, nous devrions prendre certaines de ces questions au sérieux et nous voudrions avoir beaucoup d'évaluations qui les testent pour les mauvais comportements ou pour l'alignement des modèles. Vous voudriez vérifier qu'ils ne vont pas se retourner contre nous. Vous pourriez également vouloir rechercher des sauts discontinus dans les capacités. De plus, vous voudriez vous assurer que tout ce sur quoi vous vous entraînez ne donne aucune raison au modèle de se retourner contre vous, ce qui ne semble pas être la chose la plus difficile à faire. La façon dont nous les entraînons avec le RLHF semble très sûre car le modèle essaie simplement de produire un message plaisant pour un humain et il n'a aucune préoccupation pour quoi que ce soit d'autre dans le monde que de savoir si ce texte qu'il produit est approuvé. Évidemment, si vous faisiez quelque chose où le modèle effectue une longue séquence d'actions impliquant des outils, alors il pourrait être incité à faire des choses bizarres qui n'auraient aucun sens pour un humain dans le processus de production de son résultat final. Mais je suppose qu'il n'aurait pas nécessairement d'incitation à faire autre chose que de produire un résultat de très haute qualité à la fin. Vous avez ces vieux arguments sur la convergence instrumentale, selon lesquels le modèle va vouloir prendre le contrôle du monde pour pouvoir produire ce morceau de code génial à la fin. À un certain point, il est un peu difficile d'imaginer pourquoi, pour une tâche bien spécifiée, vous voudriez d'abord prendre le contrôle du monde. Mais si vous aviez une tâche comme gagner de l'argent, cela pourrait conduire à un comportement néfaste comme objectif instrumental.
Psychologie des Modèles et Raisonnement
Avant de revenir à cela, prenons du recul et parlons des systèmes RLHF d'aujourd'hui. La façon dont cela influence ces modèles ; la caractériseriez-vous en termes de psychologie humaine ? Est-ce une pulsion ? Est-ce un objectif ? Est-ce une impulsion ? Quel genre de chose et de quelle manière est-ce modifié ?
Il y a probablement des analogies avec une pulsion ou un objectif chez les humains. En ce sens que vous essayez de vous diriger vers un certain ensemble d'états plutôt que vers d'autres. Je pense que notre concept de pulsion ou d'objectif comporte d'autres éléments, comme le sentiment de satisfaction que l'on éprouve à l'atteindre, et ces choses pourraient avoir plus à voir avec l'algorithme d'apprentissage qu'avec ce que fait le modèle au moment de l'exécution quand on a juste un modèle fixe. Il y a probablement des analogies, même si ce n'est pas exactement à quel point c'est proche. Dans une certaine mesure, les modèles ont des pulsions et des objectifs de manière significative. Dans le cas du RLHF où vous essayez de maximiser l'approbation humaine telle que mesurée par un modèle de récompense, le modèle essaie simplement de produire quelque chose que les gens vont aimer et qu'ils vont juger correct.
J'ai entendu deux idées concernant l'utilisation de ce type de monologue intérieur pour s'améliorer en raisonnement. L'une est que le modèle apprend à partir d'un ensemble de cheminements de pensée potentiels et qu'il apprend à suivre celui qui mène à la bonne réponse et est entraîné là-dessus avant le déploiement. Et l'autre est que vous utilisez beaucoup de calcul pour faire de l'inférence lors du déploiement, ce qui implique que le modèle se parle à lui-même pendant qu'il est déployé. Laquelle de ces idées vous attendez-vous à voir de plus près lorsqu'il sera vraiment doué pour le raisonnement ?
Je dirais que l'on pourrait définir le raisonnement comme des tâches qui nécessitent une sorte de calcul au moment du test ou une sorte de déduction. Par définition, le raisonnement consisterait en des tâches qui nécessitent un calcul au moment du test et un calcul étape par étape. D'un autre côté, je m'attendrais également à gagner beaucoup en effectuant du calcul au moment de l'entraînement ou de la pratique au moment de l'entraînement. Je pense que l'on obtient les meilleurs résultats en combinant ces deux choses.
Mémoire et Apprentissage Actif
Actuellement, vous avez ces deux façons dont le modèle apprend. C'est soit pendant l'entraînement, qu'il s'agisse de pré-entraînement ou de post-entraînement, où la majeure partie du calcul est consacrée au pré-entraînement et où il ne fait que survoler des billions de jetons, ce qui, si un humain y était soumis, le rendrait totalement confus. Ce n'est pas une façon très efficace d'apprendre. Et l'autre façon est l'apprentissage en contexte, mais c'est plus économe en échantillons là-bas, mais c'est détruit à chaque instance. Je suis curieux de savoir si vous pensez qu'il existe une voie pour quelque chose entre les deux, où ce n'est pas détruit à chaque instance, mais ce n'est pas non plus aussi frivole que de simplement voir des billions de jetons, où c'est plus délibéré et actif.
Voulez-vous dire des modèles ayant une sorte de mémoire à moyen terme, trop pour tenir dans le contexte mais à une échelle beaucoup plus petite que le pré-entraînement ?
Je ne suis pas sûr qu'il s'agisse de mémoire. Quand j'essaie de me préparer pour cette conversation, je réfléchis à ce que je devrais comprendre, alors je cherche l'information et je la lis attentivement et j'y réfléchis peut-être pendant que je lis. Je ne sais pas à quoi cela correspond naturellement en termes de modèles, mais à quoi cela ressemblerait-il ?
Je vois. Ce n'est pas seulement une mémoire, mais c'est aussi se spécialiser quelque peu dans une tâche ou consacrer beaucoup d'efforts à un projet particulier.
Et je ne suis pas sûr pour la spécialisation ; je pense plutôt à « je ne comprends pas cette partie, alors laissez-moi approfondir cette partie ». Je comprends déjà cela, je vais me spécialiser dans votre base de connaissances existante.
Je vois. Il ne s'agit pas seulement de trouver de l'entraînement sur un ensemble de sources pertinentes ou de faire un réglage fin sur un domaine spécial ; il s'agit aussi de développer des connaissances grâce à votre propre raisonnement et aussi d'utiliser une sorte d'introspection et d'auto-connaissance pour comprendre ce que vous devez apprendre. C'est effectivement quelque chose qui manque aux systèmes d'aujourd'hui. Les gens n'ont pas vraiment poussé très fort sur ce juste milieu entre l'entraînement à grande échelle où vous produisez le modèle instantané qui est censé tout faire, et l'apprentissage en contexte. Une partie de cela est que nous avons tellement augmenté la longueur du contexte qu'il n'y a pas eu d'incitation à le faire. Si vous pouvez aller jusqu'à cent mille ou un million de contextes, c'est déjà beaucoup et ce n'est pas réellement le goulot d'étranglement dans beaucoup de cas. Mais je conviens que l'on voudrait probablement aussi compléter cela par une sorte de réglage fin ; les capacités que vous obtenez du réglage fin et de l'apprentissage en contexte sont probablement quelque peu complémentaires. Je m'attends à ce que nous voulions construire des systèmes qui font une sorte d'apprentissage en ligne et qui possèdent également certaines de ces compétences cognitives d'introspection sur leurs propres connaissances et de recherche de nouvelles connaissances qui comblent les lacunes.
Apprentissage en Ligne et Algorithmes de Recherche
Est-ce que tout cela se passe en même temps ? Est-ce un nouveau régime d'entraînement où toutes ces choses peuvent se produire en même temps ? Ou qu'il s'agisse de l'entraînement à long horizon ou de ce type d'entraînement, sont-ils séparés, ou parce que le modèle est assez intelligent pour pouvoir à la fois s'introspecter et agir sur des horizons plus longs, vous pouvez alors obtenir une récompense adéquate sur des tâches à long horizon ?
Si vous effectuez une sorte de tâche à long horizon, vous apprenez pendant que vous faites la tâche. La seule façon de faire quelque chose qui implique beaucoup d'étapes est d'avoir un apprentissage et une mémoire qui sont mis à jour pendant la tâche. Il y a un continuum entre la mémoire à court terme et la mémoire à long terme. Je m'attends à ce que cette capacité commence à devenir claire lorsque nous commencerons à nous pencher davantage sur les tâches à long horizon. Dans une certaine mesure, le simple fait de mettre beaucoup de choses en contexte mènera assez loin car nous avons maintenant des contextes vraiment longs, mais vous voudrez probablement aussi des choses comme le réglage fin. Et en ce qui concerne l'introspection et la capacité à faire de l'apprentissage actif, cela pourrait découler automatiquement de la capacité du modèle à savoir ce qu'il sait, car les modèles ont un certain étalonnage concernant ce qu'ils savent. C'est pourquoi les modèles n'hallucinent pas si gravement car ils ont une certaine compréhension de leurs propres limites. Je pense que ce même genre de capacité pourrait être utilisé pour quelque chose comme l'apprentissage actif.
Combien de ces procédures RL compliquées seront pertinentes quand vous arriverez au point où le modèle lui-même est si intelligent qu'il peut agir comme son propre environnement et interagir de manière plus directe et stable ? Le chemin du progrès sera-t-il plus simple que le genre de solutions qui étaient requises pour le RL par le passé ?
Les algorithmes de gradient de politique ne sont pas les algorithmes les plus efficaces en termes d'échantillons, donc ce n'est probablement pas ce que vous voulez faire au moment du test si vous voulez apprendre très vite. Bien que, qui sait ? Peut-être que ce n'est pas si mal. L'apprentissage moteur chez les animaux est probablement quelque chose comme un algorithme de gradient de politique. Par exemple, vous apprenez à tirer des paniers ; cela prend peut-être des milliers d'essais pour devenir plus précis et il y a probablement quelque chose comme un algorithme de gradient de politique derrière. Mais ce ne sera pas la façon la plus rapide d'apprendre si vous avez un modèle qui essaie de réaliser un projet ou une tâche. Je pense que nous voudrions nous appuyer davantage sur l'apprentissage en contexte où vous avez effectivement un algorithme appris. Vous avez appris à explorer comme vous avez appris à essayer toutes les possibilités de manière exhaustive au lieu de faire la même chose encore et encore et de commettre la même erreur. Je dirais que nous serons capables de faire des choses qui ressemblent davantage à des algorithmes de recherche appris et que c'est le genre de chose qui sera utilisé dans une tâche particulière.
L'Histoire de ChatGPT
Je veux faire un pas en arrière et vous poser des questions sur votre propre histoire chez OpenAI. Vous avez dirigé la création de ChatGPT. À quel moment avez-vous réalisé que ces LLM étaient la voie à suivre et qu'un chatbot serait un moyen utile de les instruire ? Racontez-moi toute la lignée depuis le moment où c'est devenu votre objectif principal et ce qu'a été ce processus.
Au début, nous avions des modèles de suivi d'instructions. L'idée était que nous avions des modèles de base et que les gens pouvaient les solliciter de manières élaborées, mais ils étaient aussi difficiles à solliciter. Il fallait — ils font de l'auto-complétion donc vous devez mettre en place un très bon prompt avec quelques exemples. Les gens chez OpenAI travaillaient simplement à prendre les modèles de base et à les rendre plus faciles à solliciter afin que si vous écriviez juste une question, il réponde à la question au lieu de vous donner plus de questions. Nous avions ces modèles de suivi d'instructions qui étaient comme des modèles de base mais un peu plus faciles à utiliser. C'étaient les originaux déployés dans l'API ; après GPT-3, c'étaient les modèles de la génération suivante. Puis, en même temps, il y avait certainement beaucoup de gens qui pensaient au chat. Google avait des articles comme LaMDA et plus tôt Meena. Ils avaient ces chatbots et c'était plus comme un modèle de base qui était vraiment spécialisé dans la tâche du chat. En regardant les exemples de l'article, c'était plus utilisé pour des applications amusantes où le modèle adoptait un certain persona et faisait semblant d'être ce persona. Ce n'était pas si fonctionnel, du genre « aide-moi à refactoriser mon code ». Il y avait certainement des gens qui pensaient au chat. J'avais travaillé sur un projet auparavant appelé WebGPT qui consistait davantage à répondre à des questions avec l'aide de la navigation web et de la recherche d'informations. Quand on répond à des questions, on a vraiment envie d'être dans un chat parce qu'on veut toujours poser des questions de suivi ou le modèle devrait poser une question de clarification parce que la question est ambiguë. Il était clair après avoir fait la première version de cela que la version suivante devrait être conversationnelle. Quoi qu'il en soit, nous avons commencé à travailler sur un assistant de chat conversationnel ; celui-ci a été construit sur GPT-3.5 dont l'entraînement s'est terminé début 2022. Ce modèle était assez bon en langue et en code. Nous avons rapidement réalisé qu'il était en fait assez bon pour l'aide au codage et c'était l'une des choses qui nous enthousiasmait. Nous avons travaillé là-dessus pendant la majeure partie de l'année. Nous avions la navigation comme une autre fonctionnalité, bien que nous ayons fini par moins l'accentuer plus tard parce que la connaissance interne du modèle était si bonne que la navigation n'était pas la chose la plus intéressante à son sujet. Nous l'avions en test bêta auprès d'amis et de la famille pendant un certain temps et nous pensions à une version publique, mais à ce moment-là, GPT-4 a terminé son entraînement en août de cette année-là. En fait, l'effort phare de RL chez OpenAI était l'effort de suivi d'instructions parce que c'étaient les modèles déployés en production. Les premiers réglages fins de GPT-4 utilisaient cette pile. Ces modèles étaient vraiment bons et tout le monde était très enthousiaste après avoir vu les GPT-4 réglés pour les instructions. Ils étaient vraiment bons, ils vous donnaient occasionnellement des résultats incroyables mais le modèle était clairement peu fiable ; il hallucinait parfois beaucoup et donnait des résultats assez délirants. Il n'était manifestement pas prêt pour le grand public mais il était de toute évidence très bon. Peut-être que les gens ont oublié le chat pendant un petit moment après cela à cause de cette branche alternative. Mais ensuite, nous avons poussé plus loin et nous avons fini par mélanger tous les ensembles de données comme les données d'instructions et les données de chat pour essayer d'obtenir le meilleur des deux mondes. Je pense que les modèles de chat étaient clairement plus faciles à utiliser et ils avaient automatiquement un comportement beaucoup plus sensé en termes de connaissance par le modèle de ses propres limites. C'est l'une des choses qui m'a enthousiasmé au fur et à mesure que nous le développions. J'ai réalisé qu'une grande partie des choses que les gens considéraient comme des défauts dans les modèles de langage, comme le fait d'halluciner de manière flagrante, pouvaient être, non pas complètement corrigées, mais on pouvait faire beaucoup de progrès avec des méthodes simples. L'autre point concernant le chat était que lorsque nous avions ces modèles d'instructions, la tâche « compléter ce texte d'une manière utile » est une tâche mal définie. Je pense que cette tâche est à la fois déroutante pour le modèle et pour l'humain qui est censé faire l'étiquetage des données. Tandis que pour le chat, je pense que les gens avaient un sens intuitif de ce qu'un robot utile devrait être. Je pense que c'était tout simplement beaucoup plus facile pour les gens de saisir l'idée de ce que le modèle était censé faire. En conséquence, le modèle avait une personnalité beaucoup plus cohérente et il était beaucoup plus facile d'obtenir un comportement robuste et sensé.
Réglage Fin et Évolution des Modèles
Est-ce qu'on peut dire que n'importe qui aurait pu créer ChatGPT en utilisant votre API de réglage fin accessible au public ?
Pas exactement. Ils auraient pu — je ne me souviens plus du statut des modèles disponibles pour le réglage fin. En supposant que nous ayons rendu 3.5 disponible, vous auriez pu faire quelque chose d'assez proche, mais je ne suis pas sûr que vous auriez pu faire juste une itération de réglage fin avec des données purement écrites par des humains et faire un réglage fin là-dessus. Je pense que vous voudriez faire plusieurs itérations si vous n'allez pas faire de RL, ce que nous avons fait. Vous voudriez faire une sorte de réglage fin supervisé itératif où des humains éditent les résultats générés par le modèle, car il est vraiment difficile de s'entraîner sur des données générées par des humains, même si elles sont de très haute qualité ; c'est juste difficile pour un modèle de s'adapter parfaitement à ces données car ce n'est peut-être pas quelque chose qu'un modèle est capable de produire. Vous devez faire quelque chose d'itératif qui ressemble un peu plus à du RL. Si vous aviez fait cela, vous auriez pu obtenir quelque chose d'assez proche, mais cela aurait été non trivial. Nous avions également un autre modèle de suivi d'instructions entraîné avec le RL qui a été publié un peu avant ChatGPT, donc si vous mettiez une interface de chat autour de cela, vous obtiendriez quelque chose d'assez proche, mais ce modèle avait des différences de forces ; il était assez bon pour l'écriture et la poésie mais il n'était pas aussi bon pour connaître ses limites et pour la factualité.
En prenant du recul par rapport à 3.5, je crois vous avoir entendu dire que pour GPT-2 vous avez été très impressionné. Par rapport à vos attentes en 2019, l'IA a-t-elle progressé plus rapidement ou plus lentement que ce à quoi vous vous attendiez ?
Je dirais plus vite que ce à quoi je m'attendais depuis GPT-2. J'étais assez convaincu que la mise à l'échelle et le pré-entraînement étaient une bonne idée, mais quand GPT-2 a été terminé, je n'étais pas complètement convaincu qu'il allait tout révolutionner. Je n'ai réellement fait pivoter mon travail et celui de mon équipe qu'après GPT-3. Après cela, nous nous sommes réunis et nous nous sommes dit que ce truc de modèle de langage fonctionnait vraiment bien, voyons ce que nous pouvons faire ici. Après GPT-2, je n'étais pas encore tout à fait sûr.
Lois de Mise à l'Échelle et Efficacité
Surtout si les choses dont nous parlions plus tôt avec le RL commencent à mieux fonctionner avec ces modèles plus intelligents. La fraction du calcul consacrée à l'entraînement qui est du pré-entraînement par rapport au post-entraînement va-t-elle changer de manière significative en faveur du post-entraînement à l'avenir ?
Il y a des arguments en ce sens. À l'heure actuelle, c'est un ratio déséquilibré, mais on pourrait soutenir que le résultat généré par le modèle est de haute qualité par rapport à ce qu'on trouve sur le web. Il est en quelque sorte plus logique que le modèle réfléchisse par lui-même au lieu de se contenter de s'entraîner à imiter ce qu'il y a sur le web. Je pense qu'il y a un argument de principes fondamentaux pour cela. Nous avons trouvé beaucoup de gains grâce au post-entraînement, je m'attendrais donc à ce que nous continuions à pousser cette méthodologie et probablement à augmenter la quantité de calcul que nous y consacrons.
Le GPT-4 actuel a un score Elo qui est de 100 points supérieur à celui de l'original qui a été publié. Est-ce que tout cela est dû à ce dont vous parliez avec ces améliorations apportées par le post-entraînement ?
Je dirais que la majeure partie de cela est due au post-entraînement. Il y a beaucoup d'axes d'amélioration distincts comme la qualité des données, la quantité de données, et le fait de faire simplement plus d'itérations de tout le processus de déploiement, de collecte de nouvelles données et de modification du type d'annotations que l'on collecte. Ce sont des choses qui s'additionnent mais qui, ensemble, vous donnent une augmentation effective du calcul assez importante.
Recherche en RL et Mur des Données
Je veux dire, c'est une augmentation énorme. C'est vraiment intéressant qu'il y ait autant de place pour l'amélioration grâce au post-entraînement. Qu'est-ce qui fait que quelqu'un est vraiment doué pour faire ce genre de recherche en RL ? J'entends dire que c'est super pointilleux, mais quels sont les types d'intuitions que vous avez et qui vous permettent de trouver ces façons de manipuler les données et de mettre en place ces environnements ?
Je dirais que j'ai une expérience décente à ce stade dans différentes parties de la pile, des algorithmes de RL évidemment, puisque je travaille dessus depuis l'université, au processus de collecte de données et d'annotation, jusqu'aux modèles de langage. Je dirais que j'ai juste touché à ces choses et les gens qui réussissent bien dans cette recherche ont une vue d'ensemble de la pile, ont beaucoup de curiosité pour les différentes parties et réfléchissent aussi à partir de principes fondamentaux. On veut être à la fois empirique et utiliser des expériences pour mettre à jour ses vues, mais on veut aussi réfléchir à partir de principes fondamentaux. En supposant que l'apprentissage fonctionne, quel serait le type idéal de données à collecter ?
Comme il ne semble pas y avoir eu de modèle publié depuis GPT-4 qui soit significativement meilleur, il existe une hypothèse selon laquelle nous pourrions atteindre un plateau et que ces modèles ne généralisent pas si bien que cela et que vous allez heurter un mur de données au-delà duquel les capacités débloquées par la mémorisation des données de pré-entraînement n'aideront pas réellement à obtenir quelque chose de beaucoup plus intelligent que GPT-4. Que pensez-vous de cette hypothèse ? Y a-t-il un transfert positif entre différentes modalités ? Une fois que vous commencez à entraîner sur un tas de vidéos et d'images, deviendra-t-il plus intelligent à partir de données synthétiques ? Ou semble-t-il que les capacités débloquées sont extrêmement locales au type exact d'étiquettes et de données que vous mettez dans le corpus d'entraînement ?
Premièrement, sommes-nous sur le point de heurter le mur des données ? Je ne tirerais pas trop de conclusions du temps écoulé depuis la sortie de GPT-4, car il faut du temps pour entraîner ces modèles et pour faire toute la préparation d'une nouvelle génération. Je ne tirerais pas trop de conclusions de ce fait. Je dirais qu'il y a certainement des défis liés à la quantité limitée de données, mais je ne m'attendrais pas à ce que nous heurtions immédiatement le mur des données, bien que je m'attende à ce que la nature du pré-entraînement change quelque peu au fil du temps à mesure que nous nous en approchons. En termes de généralisation à partir de différents types de données de pré-entraînement, il est assez difficile de faire de la science sur ce type de question car on ne peut pas créer tant de modèles pré-entraînés que cela. On ne peut pas entraîner un modèle de la taille de GPT-4 ou faire des études d'ablation à cette échelle. On peut peut-être entraîner une tonne de modèles de la taille de GPT-2 ou un modèle de la taille de GPT-3 avec différents mélanges de données et voir ce qu'on obtient. Je n'ai connaissance d'aucun résultat sur des ablations impliquant des données de code et les performances de raisonnement.
Capacité des Modèles et Circuits
Si l'une des choses est que le modèle devient plus intelligent à mesure qu'il est plus grand, est-ce qu'une ablation sur un modèle de niveau GPT-2 ne suggèrerait pas qu'il n'y a pas tant de transfert que cela ? Quel niveau de preuve cela fournit-il pour le niveau de transfert sur un ensemble de domaines similaires dans le modèle de niveau GPT-4 ?
Vous ne pourriez peut-être pas conclure que si le transfert échoue à la taille GPT-2, il échouera également à une échelle plus élevée. Il se peut que pour les modèles plus grands, on apprenne ces meilleures représentations partagées, ou que les modèles plus petits doivent trop s'appuyer sur la mémorisation alors que les modèles plus grands peuvent apprendre à faire le bon calcul.
Modèles plus grands : vous les entraînez sur la même quantité de données et ils deviennent plus intelligents. Ou inversement, ils obtiennent le même niveau d'intelligence et vous devez les entraîner sur moins de données. Pourquoi est-ce le cas ? Pourquoi est-ce qu'il a vu moins de choses et qu'il est maintenant tout aussi intelligent ?
Je ne pense pas que quiconque ait une bonne explication de la loi de mise à l'échelle avec le nombre de paramètres. Je ne sais même pas quel est le meilleur modèle mental pour cela. Clairement, vous avez plus de capacité si vous avez un modèle plus grand et vous devriez pouvoir obtenir à terme une perte plus faible. Pourquoi les modèles plus grands sont-ils plus économes en échantillons ? Je peux vous donner une explication sommaire. On pourrait dire que le modèle est un ensemble d'un tas de circuits différents qui font le calcul. Il a un tas de calculs qu'il fait en parallèle et la sortie est une combinaison pondérée de ceux-ci. La largeur est quelque peu similaire à la profondeur car avec les réseaux résiduels, la profondeur peut faire quelque chose de similaire à la largeur en termes de mise à jour de ce qui se trouve dans le flux résiduel. On pourrait soutenir que l'on apprend tous ces différents calculs en parallèle et que l'on en a tout simplement plus avec un modèle plus grand, on a donc plus de chances que l'un d'entre eux ait de la chance et finisse par gagner et être surpondéré. Il y a des algorithmes qui fonctionnent de cette façon, comme un modèle de mélange ou un algorithme de mise à jour multiplicative des poids. Où vous avez une combinaison pondérée d'experts avec un filtrage appris, on pourrait imaginer que le simple fait d'avoir un modèle plus grand vous donne plus de chances d'obtenir la bonne fonction. Ensuite, bien sûr, ce n'est pas juste un tas de fonctions disjointes dont on prend une combinaison linéaire, c'est plutôt comme une bibliothèque où l'on pourrait enchaîner les fonctions ensemble. Donc le modèle plus grand a une plus grande bibliothèque de différents calculs, y compris des trucs qui sont dormants et seulement utilisés une partie du temps, mais il a plus d'espace pour chercher les circuits qui font quelque chose d'utile.
Vision à Long Terme et Accélération Scientifique
Je veux vous demander de prendre du recul par rapport aux questions de recherche actuelles. Je veux comprendre votre scénario modal de ce qui se passera au cours des prochaines années. Vous débloquez le RL à long horizon à un moment donné mais comme vous l'avez dit, il y a potentiellement d'autres goulots d'étranglement. À quel point ces modèles sont-ils bons ? Comment sont-ils déployés ? Quelles autres modalités en font partie ? À quel stade sont-elles débloquées ? Je veux comprendre votre vision plus large de ce à quoi ressembleront les prochaines années.
Je m'attendrais à ce que de nouvelles modalités soient ajoutées au fil du temps assez bientôt. Je m'attendrais à ce que les capacités continuent globalement de s'améliorer grâce à une combinaison de pré-entraînement et de post-entraînement et cela ouvrira de nouveaux cas d'utilisation. À l'heure actuelle, l'IA ne représente pas encore une part énorme de l'économie ; il n'y a qu'une assez petite fraction d'emplois qu'elle peut aider du tout. Je m'attendrais à ce que cela soit plus élevé au fil du temps et pas seulement grâce à l'amélioration des modèles, mais aussi grâce au fait que les gens comprennent simplement comment les intégrer dans différents processus. Même si nous devions simplement geler les modèles dans leur état actuel, je pense que nous verrions encore beaucoup de croissance dans la façon dont ils sont utilisés. Je m'attendrais à ce que l'IA soit utilisée beaucoup plus largement et je m'attendrais à ce qu'elle soit utilisée pour des tâches plus sophistiquées techniquement, comme l'exemple de programmation consistant à réaliser des projets plus longs, mais aussi à aider à la recherche. J'espère que nous pourrons utiliser l'IA pour accélérer la science car on peut potentiellement amener les modèles à comprendre toute la littérature d'un domaine donné et être capables de passer au crible des tonnes de données plus qu'une personne n'aurait la patience de le faire. J'espère que le format sera que les gens dirigent toujours tout cela et que vous avez vos assistants utiles que vous pouvez diriger et orienter vers de nombreux problèmes différents qui vous sont utiles et que tout le monde a ces IA qui les aident à en faire plus et à accomplir davantage.
Salut tout le monde, très rapidement je veux vous parler d'un outil que j'aimerais voir plus d'applications utiliser. Évidemment, vous avez remarqué que chaque entreprise essaie d'ajouter un chatbot IA à son site web. En tant qu'utilisateur, je les trouve généralement très ennuyeux parce qu'ils donnent ces réponses longues, génériques et souvent inutiles. CommandBar est un assistant utilisateur que vous pouvez simplement intégrer à votre site web ou à votre application. On a l'impression de parler à un agent de support humain amical qui navigue avec vous et pour vous. C'est beaucoup plus personnalisé qu'un chatbot ordinaire. Il peut réellement consulter l'historique d'un utilisateur et répondre différemment en fonction de cela. Il peut utiliser des API pour effectuer des actions. Il peut même inciter proactivement les utilisateurs à explorer de nouvelles fonctionnalités. Une chose que je trouve vraiment cool est qu'au lieu de simplement produire du texte, CommandBar peut juste dire « tenez, laissez-moi vous montrer » et commencer à naviguer aux côtés de l'utilisateur. Quoi qu'il en soit, il y a déjà beaucoup d'excellents produits. Vous pouvez en apprendre davantage sur commandbar.com. Merci à eux de parrainer cet épisode.
Gouvernance et Supervision Humaine
À un moment donné, ils seront meilleurs que tout le monde dans tout ce qu'ils veulent faire. À quoi ressemblerait ce processus ? À l'heure actuelle, ils ne font que vous aider. À un moment donné, ils sont capables de faire des choses pour vous et peut-être de gérer des entreprises entières pour vous. À ce stade, est-ce que ce sera un processus fluide ? Et est-ce que nous avons des systèmes qui sont assez alignés avec l'utilisateur pour qu'ils puissent compter sur le fait que l'entreprise soit gérée de la manière qu'ils attendent ?
Nous ne voudrions peut-être pas passer immédiatement à ce que des IA gèrent des entreprises entières. Nous pourrions vouloir que des gens supervisent ces décisions importantes et dirigent la manœuvre, même si les modèles sont assez performants pour diriger eux-mêmes une entreprise prospère. Dans une certaine mesure, il pourrait y avoir des choix là-bas, et les gens auront toujours des intérêts différents et des idées différentes sur le genre d'activités intéressantes vers lesquelles ils veulent orienter leurs IA. Les gens pourraient faire beaucoup ; l'IA n'a pas nécessairement de désir intrinsèque propre à moins que nous ne le mettions dans le système. Les gens peuvent toujours finir par être les moteurs, même si les IA deviennent extrêmement capables.
Mais je me demande si l'équilibre économique est si loin de cela qu'on a en quelque sorte l'équivalent de la loi d'Amdahl dans une entreprise : la partie la plus lente du processus est celle qui va vous freiner. Même si l'IA rend toutes les parties non humaines de l'entreprise 10 fois plus efficaces, l'entreprise est toujours freinée par cette étape. Si une entreprise décide de procéder en gardant des humains dans la boucle pour toutes les choses pour lesquelles on veut vraiment une supervision humaine, elle sera alors tout simplement évincée par d'autres entreprises. Si un pays décide de suivre cette voie, d'autres pays le battront. Je me demande si c'est un plan durable pour garder les humains dans la boucle. Je pense que si nous voulions garder les humains dans la boucle, ce qui semble raisonnable, et qu'il s'avérait que les entreprises avec des humains étaient évincées par des entreprises qui n'en avaient pas, alors vous auriez évidemment besoin d'une sorte de réglementation interdisant de n'avoir aucun humain dans la boucle pour diriger une entreprise entière. Je me demande s'il vaut mieux réglementer les entreprises et dire que vous devez garder des humains dans la boucle pour les processus importants, mais il faut alors définir ce que sont les processus importants et vous devez surveiller chaque entreprise et vous devez aussi obtenir la collaboration de chaque pays qui possède des entreprises. Ou bien, si c'est un problème, devrait-il être résolu avant même que le modèle ne soit déployé, de sorte que l'on se retrouve dans une situation où si l'on décidait de construire une entreprise de bout en bout sur ces modèles, elle ferait ce que vous voulez qu'elle fasse et vous n'auriez pas besoin d'un humain dans la boucle ? Comment surveillons-nous réellement si chaque entreprise a un humain dans la boucle et que se passe-t-il si la Chine décide de ne pas le faire ?
Il faudrait soit que chaque pays accepte ce régime réglementaire, soit que tous les fournisseurs de modèles acceptent ce genre d'exigence. Ce sera certainement non trivial. C'est regarder loin devant, donc il est un peu difficile d'imaginer ce monde avant d'avoir vu quoi que ce soit qui y ressemble. Par exemple, sommes-nous réellement convaincus que les entreprises gérées par l'IA sont meilleures à tous points de vue ? Pensons-nous qu'elles sont meilleures la plupart du temps mais qu'elles fonctionnent mal occasionnellement parce que les IA sont encore moins économes en échantillons de certaines manières, comme pour gérer des situations très bizarres ? Les entreprises gérées par l'IA ont un risque de queue plus élevé car elles sont plus susceptibles de mal fonctionner de manière majeure. Donc je suppose qu'il pourrait y avoir des questions pratiques qui détermineraient également comment les choses se passent. Si vous exigez simplement que les gens soient responsables de diverses responsabilités civiles, cela changerait également les incitations. S'il s'avérait que les IA sont meilleures pour tout diriger et qu'elles sont aussi complètement bienveillantes et que nous avons totalement résolu l'alignement et qu'elles sont plus aptes à rendre des comptes aux gens que les gens ne le sont eux-mêmes, alors peut-être que c'est acceptable de laisser les IA diriger les entreprises. Mais je pense que cela pourrait être assez lointain et que nous sommes plus susceptibles d'être dans une situation où elles ont l'air meilleures à court terme mais où les entités gérées par l'IA ont encore de sérieux problèmes. Des considérations pratiques pourraient vous pousser davantage vers le maintien des humains dans la boucle, du moins dans un avenir proche.
Parties Prenantes et Spécifications du Modèle
C'est un problème auquel vous devez faire face aujourd'hui avec le RLHF où vous devez agréger les préférences d'un grand nombre d'humains différents. Quand vous dites que nous voulons que ces éventuels systèmes d'IA qui vont remplacer complètement les humains dans ces entreprises soient alignés, qu'est-ce que cela signifie ? Est-ce que cela signifie qu'ils font ce que l'utilisateur veut qu'ils fassent ? Est-ce que cela signifie qu'ils doivent aboutir à une sorte de résultat global dont nous sommes satisfaits en tant que parties prenantes d'OpenAI ?
Si les modèles sont utilisés pour ces cas d'utilisation à enjeux plus élevés, nous devrions alors envisager le RLHF d'une manière bien différente de celle d'aujourd'hui. Nous ne sommes pas tout à fait prêts pour cela ou les méthodes actuelles pourraient ne pas être complètement suffisantes. Je dirais que nous devrions faire des compromis entre les besoins des différentes parties prenantes impliquées. Nous avons ce document que nous publions appelé « model spec » (spécification du modèle). Il s'agit de la façon dont nous voulons que nos modèles se comportent dans l'API et dans ChatGPT. Nous essayons de parler de cette question où différentes parties prenantes sont impliquées et où il y a parfois des conflits entre ce qu'elles pourraient vouloir. Dans notre cas, nous considérions les parties prenantes comme l'utilisateur final, le développeur, la plateforme (OpenAI), puis le reste de l'humanité. Évidemment, l'utilisateur pourrait demander au modèle de faire quelque chose que nous jugeons activement nuisible à d'autres personnes, et nous pourrions devoir refuser cela. Ce n'est pas nécessairement l'ordre de priorité. Nous avons ces quatre ou cinq classes de parties prenantes. Peut-être qu'à l'avenir nous dirons le modèle lui-même, bien que nous n'en soyons pas encore là. Mais quoi qu'il en soit, elles ont ces différentes parties prenantes, elles ont parfois des exigences conflictuelles et nous devons prendre une décision sur la façon de résoudre ces conflits. Ce n'est pas toujours évident de savoir comment faire. Nous avons dû réfléchir aux compromis et l'heuristique approximative est que nous voulons surtout que les modèles suivent vos instructions et soient utiles à l'utilisateur et au développeur. Mais quand cela empiète sur le bonheur ou le mode de vie d'autres personnes, cela devient un problème et nous devons bloquer certains types d'utilisation. Nous ne voulons pas être trop paternalistes ; nous voulons être neutres et ne pas imposer nos opinions aux gens. Nous voulons surtout laisser les gens faire ce qu'ils veulent avec les modèles.
J'ai eu l'occasion de lire la spécification au préalable et c'était une question de savoir comment cela se transférait dans le comportement du modèle lui-même. J'ai été impressionné par la justesse des compromis. Il était logique que cela soit explicitement déclaré pour les cas limites réels plutôt que pour des choses sur lesquelles tout le monde peut s'accorder et qui sont évidentes. Dans ce cas, vous vous attaquez vraiment aux cas limites.
Nous voulions que ce soit très actionnable afin que ce ne soit pas juste un tas de principes agréables à entendre ; chaque exemple vous dit quelque chose sur une situation non évidente et raisonne sur cette situation.
État de la Recherche en ML
Maintenant, j'ai quelques questions sur l'état de la recherche elle-même. Célèbrement dans les sciences sociales, les choses sont vraiment difficiles à reproduire et il y a une question sur la part de science réelle par rapport aux sortes d'expériences fabriquées sur mesure. Quand vous regardez l'article de ML moyen, cela ressemble-t-il à un morceau de littérature vraiment solide ou cela ressemble-t-il souvent à l'équivalent du p-hacking dans les sciences sociales ?
Tout le monde a ses plaintes concernant la littérature ML, mais globalement je pense que c'est un domaine relativement sain comparé à d'autres comme les sciences sociales, tout simplement parce qu'il est largement ancré dans l'aspect pratique et le fait de faire fonctionner les choses. Si vous publiez quelque chose qui ne peut pas être reproduit facilement, les gens l'oublieront tout simplement. Il est admis que souvent vous ne rapportez pas simplement le chiffre de quelqu'un à partir de son article, vous essayez aussi de réimplémenter sa méthode et de la comparer à la vôtre sur le même ensemble de données d'entraînement. Je pense donc que si vous publiez des méthodes vraiment difficiles à implémenter ou vraiment pointilleuses, elles auront tendance à être oubliées et, par conséquent, les gens essaient réellement de rendre leur travail open source. Je suppose qu'il y a diverses incitations défavorables, comme le fait que les gens soient incités à dégrader les méthodes de référence, et il y a d'autres pathologies légères comme essayer de faire paraître votre méthode sophistiquée mathématiquement. Mais globalement, j'ai l'impression que le domaine progresse et j'aimerais probablement voir un peu plus de science et d'efforts pour comprendre les choses plutôt que plus de course aux records sur les benchmarks et de tentatives de proposer de nouvelles méthodes. Il y en a eu une quantité décente récemment, et je pense que c'est une bonne chose pour les universitaires de travailler là-dessus. Sur les sciences sociales, sur une note légèrement différente, je serais vraiment enthousiaste à l'idée de voir plus de recherches sur l'utilisation de modèles de base pour faire des sciences sociales simulées car ces modèles ont un modèle probabiliste du monde entier et vous pouvez mettre en place un questionnaire simulé ou une conversation et vous pouvez regarder comment n'importe quel trait que vous pourriez imaginer pourrait être corrélé avec d'autres traits. Ce serait assez cool de voir si les gens pouvaient reproduire certains des résultats les plus notables des sciences sociales, comme les fondements moraux, en sollicitant simplement les modèles de base de différentes manières.
Quelle est cette expérience de Stanford ? Le test de conformité d'Asch, n'est-ce pas ? Ce serait amusant si cela se reproduisait aussi avec les modèles de langage. Ce serait intéressant. En ce qui concerne la recherche qui se fait dans les grands laboratoires, quelle part consiste à augmenter ou à diminuer la quantité de calcul nécessaire pour obtenir un certain résultat en tant que multiplicateur de calcul réel par rapport à ce qui consiste simplement à rendre l'apprentissage plus stable et à construire l'infrastructure ? Je suppose que la question plus large est la suivante : depuis GPT-4, a-t-on l'impression qu'avec la même quantité de calcul on peut entraîner un bien meilleur modèle ou a-t-on l'impression que nous nous sommes assurés que l'apprentissage puisse mieux se passer et de manière plus évolutive avec GPT-5, mais que nous pouvons entraîner GPT-4 avec un budget de GPT-3.5 maintenant ?
Quelque chose comme ça.
Il y a toujours des progrès dans l'amélioration de l'efficacité. Chaque fois que vous avez une métrique de performance unidimensionnelle, vous allez constater que différentes améliorations peuvent se substituer les unes aux autres. On pourrait constater que même le post-entraînement et le pré-entraînement améliorent tous deux les métriques ; ils auront un profil légèrement différent des métriques qu'ils améliorent, mais si au bout du compte vous avez un seul chiffre, ils vont tous deux se substituer l'un à l'autre quelque peu. Pour quelque chose comme une évaluation humaine et ce que les humains préfèrent, nous avons certainement fait beaucoup de progrès des deux côtés, sur le pré-entraînement et le post-entraînement, pour améliorer cela.
Nuances du RLHF et Verbosité
Quelques questions rapides sur le RLHF. Le RLHF est important pour rendre ces modèles utiles, donc peut-être que la description de « lobotomisation » est inexacte. Mais il y a un sentiment que tous ces modèles, une fois mis sous forme de chatbot, ont une façon de parler très similaire. Ils veulent approfondir les choses, ils veulent transformer les choses en listes à puces, ils semblent souvent avoir cette façon de parler formelle et ennuyeuse, et on se plaint qu'ils ne sont pas aussi créatifs. Est-ce le résultat de la manière particulière dont le RLHF se déroule actuellement ? Est-ce à cause de qui sont les évaluateurs, ou à cause de ce qu'est la fonction de perte ? Pourquoi est-ce à cela que ressemblent tous les chatbots ?
Il y a une marge de manœuvre raisonnable pour des variations dans la manière exacte dont on effectue le processus d'entraînement, et je pense que nous essayons activement d'améliorer cela et de rendre l'écriture plus vivante et plus amusante. Je pense que nous avons fait quelques progrès dans l'amélioration de la personnalité de ChatGPT, pour qu'il soit plus amusant et meilleur quand on essaie de bavarder avec lui ; il est moins robotique. C'est une question assez intéressante de savoir comment certains tics sont apparus, comme le mot « approfondir » (delve). Je me suis surpris à utiliser le mot un peu récemment. Je ne sais pas s'il a déteint sur moi à cause du modèle ou quoi. En fait, je pense qu'il pourrait y avoir des effets amusants en cours où une distillation involontaire se produit entre les fournisseurs de modèles de langage. Si vous engagez quelqu'un pour effectuer une tâche d'étiquetage, il se peut qu'il l'introduise simplement dans un modèle, qu'il sorte son chatbot préféré et qu'il fasse faire la tâche par le modèle, puis qu'il fasse un copier-coller. Cela pourrait expliquer une partie de la convergence. Mais je pense aussi que certaines des choses que nous voyons sont simplement ce que les gens aiment. Les gens aiment les listes à puces, ils aiment les réponses structurées. Les gens aiment souvent les gros déversements d'informations qu'ils obtiennent des modèles. Il n'est donc pas tout à fait clair quelle part est simplement une bizarrerie des choix particuliers et de la conception des processus de post-entraînement et quelle part est réellement intrinsèque à ce que les gens veulent vraiment.
Il semble persister à être plus verbeux que ce que certaines personnes souhaitent, et peut-être simplement parce qu'au stade de l'étiquetage, les évaluateurs préféreront la réponse la plus verbeuse. Je me demande si c'est inhérent à la façon dont il est pré-entraîné et que la séquence d'arrêt n'apparaît pas si souvent et qu'il a vraiment envie de continuer.
Il pourrait y avoir des biais dans l'étiquetage qui mènent à la verbosité, comme le fait que nous avons tendance à nous entraîner pour un message à la fois plutôt que pour l'interaction complète. Si vous ne voyez qu'un seul message, alors quelque chose qui contient juste un gros déversement d'informations va paraître meilleur que quelque chose qui est une réponse courte et percutante qui essaie de mener à une conversation plus longue. Je pense que c'est quelque chose que nous examinons certainement.