John Schulman - John Schulman : Post-entraînement, AGI et l'avenir du RL

John Schulman

John Schulman : Post-entraînement, AGI et l'avenir du RL

15 mai 2024

Intelligence Artificielle

Introduction et Contexte

John Schulman

Et je pense que même dans 1 ou 2 ans, on pourrait imaginer que les modèles réalisent tout un projet de codage. Passer de l'utilisation du modèle comme un moteur de recherche vers un projet complet que je réalise en collaboration avec le modèle. Nous ne voudrions peut-être pas passer immédiatement à ce que des IA gèrent des entreprises entières, même si les modèles sont assez performants pour diriger eux-mêmes une entreprise prospère.

Dwarkesh Patel

S'il n'y a pas d'autres goulots d'étranglement l'année prochaine ou quelque chose comme ça, vous avez l'AGI. Quel est le plan ?

Dwarkesh Patel

Aujourd'hui, j'ai le plaisir de parler avec John Schulman, qui est l'un des cofondateurs d'OpenAI et dirige l'équipe de post-entraînement ici. Il a également dirigé la création de ChatGPT et est l'auteur de plusieurs des articles les plus importants et les plus cités en IA et RL, y compris PPO et bien d'autres. John, je suis vraiment ravi de discuter avec vous. Merci d'être venu sur le podcast.

John Schulman

Merci de m'avoir invité sur le podcast. Je suis un grand fan.

Pré-entraînement vs Post-entraînement

Dwarkesh Patel

Merci de dire cela. La première question que j'ai est la suivante : nous avons ces distinctions entre le pré-entraînement et le post-entraînement. Au-delà de ce qui se passe réellement en termes de fonction de perte et de régimes d'entraînement, en prenant du recul conceptuellement, quel genre de chose le pré-entraînement crée-t-il ? Que fait le post-entraînement par-dessus cela ?

John Schulman

Dans le pré-entraînement, vous vous entraînez à imiter tout le contenu de l'internet, y compris les sites web et le code. Vous obtenez un modèle capable de générer du contenu qui ressemble à des pages web aléatoires de l'internet. Le modèle est également entraîné pour maximiser la vraisemblance, où il doit attribuer une probabilité à tout. L'objectif est de prédire le prochain jeton compte tenu des jetons précédents. Les jetons sont des mots ou des parties de mots. Puisque le modèle doit attribuer une probabilité et que nous nous entraînons à maximiser la log-probabilité, il finit par être très calibré. Il peut non seulement générer le contenu du web, mais il peut aussi attribuer des probabilités à tout. Le modèle de base peut effectivement adopter tous ces différents personas ou générer différents types de contenu. Lorsque nous effectuons le post-entraînement, nous ciblons généralement une gamme de comportements plus étroite où nous voulons que le modèle se comporte comme un assistant de chat. C'est un persona plus spécifique où il essaie d'être utile. Il n'essaie pas d'imiter une personne. Il répond à vos questions ou accomplit vos tâches. Nous optimisons sur un objectif différent, qui consiste davantage à produire des résultats que les humains aimeront et trouveront utiles, par opposition au simple fait d'essayer d'imiter ce contenu brut du web.

Capacités Futures et Tâches à Long Horizon

Dwarkesh Patel

À l'heure actuelle, nous avons ces modèles qui sont assez doués pour agir en tant que chatbots. En prenant du recul par rapport au fonctionnement actuel de ces processus, quels types de choses les modèles publiés d'ici la fin de l'année seront-ils capables de faire ? À quoi voyez-vous que les progrès ressembleront au cours des cinq prochaines années ?

John Schulman

Cinq ans. Je pense que les modèles s'amélioreront considérablement au cours de ces cinq années.

Dwarkesh Patel

Mais de quelle manière ?

John Schulman

Même dans 1 ou 2 ans, nous constaterons que vous pouvez les utiliser pour des tâches plus complexes qu'actuellement. Par exemple, à l'heure actuelle, on pourrait imaginer que les modèles réalisent tout un projet de codage au lieu de vous donner une seule suggestion sur la façon d'écrire une fonction. On pourrait imaginer donner au modèle des instructions de haut niveau sur ce qu'il faut coder et il écrira de nombreux fichiers et les testera, regardera le résultat et itérera là-dessus. Juste des tâches beaucoup plus complexes.

Dwarkesh Patel

Et fondamentalement, le déblocage est qu'il peut agir de manière cohérente assez longtemps pour écrire plusieurs fichiers de code ? Ou qu'est-ce qui a changé entre maintenant et alors ?

John Schulman

Cela proviendra d'une combinaison d'entraînement des modèles pour effectuer des tâches plus difficiles comme celle-ci. À l'heure actuelle, la plupart des données d'entraînement ressemblent davantage à des étapes uniques à la fois. Je m'attends à ce que nous en fassions plus pour entraîner les modèles à mener à bien ces projets plus longs. Tout type d'entraînement, que vous supervisiez le résultat final ou chaque étape, tout type d'entraînement à la réalisation de ces longs projets va les rendre bien meilleurs. Comme tout le domaine est assez nouveau, il y a beaucoup de gains faciles à réaliser dans ce genre d'entraînement. De plus, je m'attendrais à ce qu'au fur et à mesure que les modèles s's'améliorent, ils parviennent mieux à se remettre des erreurs ou à gérer les cas limites. Quand les choses tournent mal, ils savent comment s'en remettre. Les modèles seront plus économes en échantillons, de sorte que vous n'aurez pas besoin de collecter une tonne de données pour leur apprendre à se remettre sur les rails ; juste un peu de données ou leur généralisation à partir d'autres capacités leur permettra de se remettre sur les rails, alors que les modèles actuels pourraient simplement rester bloqués et perdus.

Généralisation et Récupération d'Erreurs

Dwarkesh Patel

Je veux comprendre plus explicitement comment la généralisation aide à se remettre sur les rails. Pouvez-vous en dire plus à ce sujet ? Je ne suis pas sûr d'avoir compris pourquoi ces deux concepts sont liés.

John Schulman

Ils ne sont pas directement liés. Je dirais que vous avez généralement un peu de données qui font tout. Si vous collectez un ensemble de données diversifié, vous allez y trouver un peu de tout. Si vous avez des modèles qui généralisent très bien, même s'il n'y a que quelques exemples de remise sur les rails, ou même s'il y a des exemples de remise sur les rails dans le pré-entraînement, le modèle sera capable de généraliser à partir de ces autres choses qu'il a vues à la situation actuelle. Si vous avez des modèles plus faibles, vous pourriez peut-être leur faire faire presque n'importe quoi avec assez de données, mais vous devrez peut-être faire beaucoup d'efforts dans un domaine ou une compétence particulière, alors que pour un modèle plus fort, il pourrait faire la bonne chose sans aucune donnée d'entraînement ni effort.

Dwarkesh Patel

Avez-vous une intuition sur le fait qu'actuellement ces modèles peuvent agir de manière cohérente pendant cinq minutes. Nous voulons qu'ils soient capables de faire des tâches qui prendraient une heure pour un humain, puis une semaine, puis un mois. Pour passer d'un de ces points de repère à l'autre, est-ce que chacun va demander 10 fois plus de calcul, par analogie avec les lois de mise à l'échelle actuelles pour le pré-entraînement ? Ou est-ce que ce sera un processus beaucoup plus fluide parce que le fait d'arriver au point où l'on est déjà économe en échantillons mène ensuite à des années de réalisation de tâches ?

John Schulman

À un niveau élevé, je conviendrais que les tâches à horizon plus long vont nécessiter plus d'intelligence de modèle pour être bien faites et vont être plus coûteuses à entraîner. Je ne suis pas sûr de m'attendre à ce qu'il y ait une loi de mise à l'échelle vraiment nette, à moins de l'établir de manière très prudente ou de concevoir l'expérience d'une certaine façon. Il pourrait finir par y avoir des transitions de phase où une fois que vous atteignez un certain niveau, vous pouvez gérer des tâches beaucoup plus longues. Par exemple, quand les gens planifient à différentes échelles de temps, je ne suis pas sûr qu'ils utilisent des mécanismes complètement différents. Nous utilisons probablement la même machinerie mentale que nous pensions à dans un mois, dans un an ou dans cent ans. Nous ne faisons pas réellement une sorte d'apprentissage par renforcement où nous devons nous soucier d'un facteur d'actualisation qui couvre cette échelle de temps. En utilisant le langage, vous pouvez décrire toutes ces différentes échelles de temps et ensuite vous pouvez planifier sur le moment pour progresser vers votre objectif, qu'il soit à un mois ou à dix ans. Je pourrais attendre la même chose des modèles où certaines capacités fonctionnent à plusieurs échelles.

Vers l'AGI et Goulots d'Étranglement

Dwarkesh Patel

Corrigez-moi si je me trompe, mais il semble que cela implique qu'à l'heure actuelle, nous avons des modèles qui sont, jeton par jeton, assez intelligents, potentiellement aussi intelligents que les humains les plus brillants. Ce qui les empêche d'être aussi utiles qu'ils pourraient l'être, c'est qu'ils n'écrivent pas votre code de manière cohérente et alignée avec les objectifs plus larges de votre projet. S'il s'avère qu'une fois que vous commencez ce régime d'entraînement RL à long horizon, cela débloque immédiatement votre capacité à être cohérent pendant de plus longues périodes, devrions-nous prédire quelque chose qui soit de niveau humain dès que ce régime est débloqué ? Sinon, que reste-t-il après que vous pouvez planifier pour un an et exécuter des projets qui prennent autant de temps ?

John Schulman

Ce n'est pas tout à fait clair ce que nous allons voir une fois que nous serons dans ce régime et à quelle vitesse les progrès se feront. C'est encore incertain. Je ne m'attendrais pas à ce que tout soit résolu immédiatement en faisant un entraînement comme celui-ci. Je pense qu'il y aura d'autres déficits divers que les modèles auront et qui les amèneront à rester bloqués ou à prendre de moins bonnes décisions que les humains. Je ne dirais pas que je m'attends à ce que cette seule chose débloque toutes les capacités, mais une certaine amélioration de la capacité à effectuer des tâches à long horizon pourrait mener assez loin.

Dwarkesh Patel

Diriez-vous que c'est plausible ou qu'il semble tout à fait probable qu'il y aura d'autres raisons pour lesquelles il pourrait y avoir des goulots d'étranglement ? Quelle serait la nature de ces goulots d'étranglement ? Donc, il possède toutes ces représentations issues du pré-entraînement, il peut maintenant agir de manière cohérente pendant une longue période grâce au RL à long horizon, que reste-t-il ?

John Schulman

Peut-être qu'il y a une autre expérience que les experts humains apportent à différentes tâches, comme avoir un certain goût ou mieux gérer l'ambiguïté. Je pourrais imaginer que si nous voulons faire quelque chose comme de la recherche, ce genre de considérations entrent en jeu. Évidemment, il y aura des limitations banales concernant les capacités d'interaction du modèle, comme s'il peut utiliser des interfaces utilisateur, le monde physique, ou avoir accès à des choses. Je pense qu'il pourrait y avoir beaucoup de barrières banales qui ne dureront probablement pas longtemps mais qui ralentiraient initialement les progrès.

Interfaces et Généralisation Multimodale

Dwarkesh Patel

Les sites web qui sont conçus pour ces IA une fois qu'elles seront beaucoup plus multimodales, ou du moins entraînées sur des données plus multimodales, seront-ils de quelque manière que ce soit différents de ceux que nous avons pour les humains ? Comme les interfaces utilisateur qui seront nécessaires, en quoi la compensation de leurs forces et faiblesses sera-t-il différente des interfaces utilisateur actuelles que nous avons pour les humains ?

John Schulman

C'est une question intéressante. Je m'attendrais à ce que les modèles soient capables d'utiliser des sites web conçus pour les humains simplement en utilisant la vision lorsque les capacités de vision s'amélioreront. Il n'y aurait pas de besoin immédiat de les changer. D'un autre côté, certains sites web qui vont beaucoup bénéficier du fait que les IA puissent les utiliser voudront probablement concevoir de meilleures expériences utilisateur pour les IA. Je ne sais pas exactement ce que cela signifierait, mais en supposant que nos modèles soient toujours meilleurs en mode texte qu'à lire du texte à partir d'images, on voudrait probablement avoir une bonne représentation textuelle et une bonne indication des éléments avec lesquels on peut interagir. Je ne m'attendrais pas à ce que le web soit totalement repensé pour avoir des API partout parce que je m'attendrais à ce que nous puissions amener les modèles à utiliser les mêmes types d'interfaces utilisateur que les humains.

Dwarkesh Patel

Je suppose que c'est la grande leçon des modèles de langage : ils peuvent agir avec des capacités similaires à celles des humains. Le point que vous avez soulevé plus tôt sur le fait que ce processus est plus économe en échantillons parce qu'il pourrait généraliser à partir de ses expériences en pré-entraînement sur la façon de se débloquer dans différents scénarios ; je suis curieux de savoir quelle est la preuve la plus forte de ce genre de généralisation et de transfert que vous ayez vue. La grande question sur la capacité future de ces modèles est de savoir quelle part de généralisation a lieu. Y a-t-il quelque chose qui vous semble vraiment convaincant, où vous avez appris quelque chose que vous ne vous attendriez pas à ce qu'il apprenne par la généralisation ici ?

John Schulman

Il y a certainement eu des cas intéressants de généralisation dans le post-entraînement. Un phénomène bien connu est que si vous faites tout votre réglage fin avec des données en anglais, vous aurez le modèle qui se comporte également bien dans d'autres langues. Si vous entraînez l'assistant sur des données en anglais, il fera aussi quelque chose de raisonnable en espagnol. Parfois, vous pourriez obtenir le mauvais comportement quant à savoir s'il répond en anglais ou en espagnol, mais généralement vous obtenez le bon comportement où il répond en espagnol aux requêtes en espagnol. C'est un cas intéressant de généralisation où vous saisissez le bon persona utile et vous faites automatiquement la bonne chose dans différentes langues. Nous avons vu une version de cela avec des données multimodales où si vous faites un réglage fin uniquement sur du texte, vous obtenez également un comportement raisonnable avec les images. Au début de ChatGPT, nous essayions de résoudre certains problèmes concernant la compréhension par le modèle de ses propres limites. Les premières versions du modèle pensaient qu'elles pouvaient vous envoyer un e-mail ou appeler un Uber. Le modèle jouait l'assistant et disait : « bien sûr, j'ai envoyé cet e-mail », et évidemment il ne l'avait pas fait. Nous avons commencé à collecter des données pour corriger ces problèmes et avons découvert qu'une infime quantité de données faisait l'affaire, même mélangée à tout le reste. Je ne me souviens pas exactement du nombre d'exemples, mais c'était un nombre assez faible montrant ce comportement général consistant à expliquer que le modèle n'a pas cette capacité, et cela s'est bien généralisé à toutes sortes de capacités pour lesquelles nous n'avions pas fait d'entraînement.

Planification pour l'AGI et Coordination

Dwarkesh Patel

Si vous avez ce modèle qui est entraîné pour être cohérent pendant de plus longues périodes, cela implique-t-il qu'à moins d'autres goulots d'étranglement, d'ici l'année prochaine, vous pourriez avoir des modèles qui sont potentiellement de niveau humain en termes de comportement en tant que collègue à qui l'on peut dire d'aller faire des choses et qui va les accomplir ? Qu'est-ce qui semble faux dans ce tableau si c'est la capacité que vous pensez possible ?

John Schulman

Il est difficile de dire exactement quel sera le déficit. Je dirais que lorsque vous parlez aux modèles aujourd'hui, ils ont diverses faiblesses en plus de la cohérence à long terme, en termes de réflexion approfondie sur les choses ou d'attention à ce que vous leur demandez. Je ne m'attendrais pas à ce que le simple fait d'améliorer un peu la cohérence soit tout ce qu'il faut pour arriver à l'AGI. Mais je ne serais pas capable d'articuler exactement quelle est la faiblesse principale qui les empêchera d'être un collègue pleinement fonctionnel.

Dwarkesh Patel

Il semble alors que vous devriez planifier la possibilité d'avoir l'AGI très bientôt.

John Schulman

Je pense que ce serait raisonnable.

Dwarkesh Patel

Alors quel est le plan s'il n'y a pas d'autres goulots d'étranglement l'année prochaine et que vous obtenez l'AGI ?

John Schulman

Si l'AGI arrivait bien plus tôt que prévu, nous voudrions certainement être prudents et nous pourrions vouloir ralentir l'entraînement et le déploiement jusqu'à ce que nous soyons assez sûrs de pouvoir la gérer en toute sécurité et que nous maîtrisions ce qu'elle peut faire. Nous devrions être très prudents si cela arrivait bien plus tôt que prévu car notre compréhension est encore rudimentaire à bien des égards.

Dwarkesh Patel

Et que signifierait être prudent ? Parce que vous êtes probablement déjà prudent ; vous effectuez ces évaluations avant de déployer.

John Schulman

Peut-être ne pas entraîner la version encore plus intelligente, et être vraiment prudent quand on l'entraîne pour qu'elle soit correctement isolée dans un bac à sable. Peut-être ne pas la déployer à grande échelle, ou être prudent quant à l'échelle à laquelle on la déploie.

Théorie des Jeux et Sécurité

Dwarkesh Patel

Jouons simplement avec ce scénario. Cela arrive l'année prochaine, puis vous n'entraînez pas de système plus intelligent et vous déployez de manière mesurée. Je me demande si l'intelligence était tout simplement beaucoup plus facile que prévu et que c'est pour cela que c'est arrivé, et que vous attendez donc pour déployer. Maintenant, d'autres entreprises ont des capacités de niveau similaire. Que se passe-t-il ensuite ? Si vous avez attendu pour déployer, qu'attendez-vous ? Que fait chaque entreprise dans ce scénario ?

John Schulman

La théorie des jeux est un peu difficile à analyser. Tout d'abord, je ne pense pas que cela puisse arriver l'année prochaine, mais il est tout de même utile d'avoir la conversation et peut-être que c'est dans deux ou trois ans au lieu d'un. Vous avez probablement besoin d'une certaine coordination où tout le monde doit se mettre d'accord sur des limites raisonnables au déploiement ou à l'entraînement futur pour que cela fonctionne. Sinon, vous avez une dynamique de course où tout le monde essaie de garder une longueur d'avance et cela pourrait nécessiter de faire des compromis sur la sécurité. Vous auriez probablement besoin d'une certaine coordination entre les plus grandes entités qui effectuent ce genre d'entraînement.

Dwarkesh Patel

Et vous vous coordonnez pour suspendre le déploiement jusqu'à quoi exactement ? Jusqu'à ce que vous compreniez ce qui se passe dans le modèle ?

John Schulman

Suspendre soit l'entraînement futur soit le déploiement, ou éviter certains types d'entraînement que nous pensons être plus risqués. Juste établir des règles raisonnables sur ce que tout le monde devrait faire pour que chacun limite quelque peu ces choses.

Dwarkesh Patel

Dans quel but ? Parce qu'à un moment donné, l'énergie potentielle au sein de cette intelligence sera libérée. Quel est le plan ? Supposons que dans deux ans nous obtenions l'AGI et que tout le monde panique et que les entreprises d'IA fassent une pause ; quel serait le plan d'attente jusqu'à quand ?

John Schulman

Je n'ai pas de bonne réponse à cela. Si tout le monde devait se coordonner ainsi, ce serait un assez bon scénario car la construction de ces modèles nécessite énormément de capital et il y a beaucoup de pièces complexes, donc ce n'est pas comme si tout le monde allait recréer tout cela chez soi. Étant donné le nombre relativement faible d'entités capables d'entraîner les plus grands modèles, il semble possible de se coordonner. Je ne sais pas comment on maintiendrait cet équilibre sur une longue période, mais si nous en arrivions là, nous serions dans une position correcte.

Déploiement Progressif et Alignement

Dwarkesh Patel

Je suis curieux de savoir ce qui se passe ensuite. Fondamentalement, le problème est que nous avons une tonne d'intelligences ou qu'elles pourraient s'imposer sur le serveur. Tout le monde est coordonné, mais je ne sais pas ce que nous ferions ensuite dans ce monde ou pourquoi cela nous préparerait à un bon résultat.

John Schulman

Si nous avions tout le monde raisonnablement coordonné, et que nous sentions que nous avions assez bien résolu les problèmes techniques d'alignement pour pouvoir déployer des IA intelligentes qui peuvent agir comme une extension de la volonté des gens tout en les empêchant d'être mal utilisées d'une manière qui causerait une catastrophe, alors ce serait génial. Nous pourrions aller de l'avant et déployer ces systèmes en toute sécurité et cela inaugurerait la prospérité et une nouvelle phase beaucoup plus rapide de progrès scientifique. C'est à cela que ressemblerait le bon scénario.

Dwarkesh Patel

Comment sauriez-vous dans quelques années si tous ces acteurs ont accepté de faire une pause jusqu'à ce que nous ayons compris que nous construisons des systèmes alignés qui ne vont pas eux-mêmes tenter de prendre le pouvoir par un coup d'État ou permettre à quelqu'un d'autre de le faire ? À quoi ressemblerait la preuve de cela ?

John Schulman

Si nous pouvons déployer des systèmes de manière progressive, successivement plus intelligentes que les précédents, je pense que c'est plus sûr. J'espère que la façon dont les choses se passent n'est pas ce scénario où tout le monde doit se coordonner et tout verrouiller, puis tout relâcher, car cela mènerait à une accumulation d'énergie potentielle. Je préférerais un scénario où nous sortons continuellement des choses un peu meilleures que ce qui précédait, tout en nous assurant d'être convaincus que chaque différence améliore la sécurité et l'alignement en correspondance avec l'amélioration de la capacité. Si les choses commençaient à paraître effrayantes, nous serions alors en mesure de ralentir les choses. S'il y a plus d'un saut discontinu et que la question est de savoir comment savoir si ce que vous avez peut être publié en toute sécurité, je ne peux pas donner de réponse générique. Le type de chose que vous pourriez vouloir faire serait de faire beaucoup de tests, comme un déploiement simulé ou du red teaming. Vous voudriez faire cela d'une manière dont vous sentez qu'elle est beaucoup plus susceptible d'échouer que ce que vous prévoyez de faire dans le monde réel. Vous voudriez avoir un très bon système de surveillance afin que si quelque chose commence à mal tourner, ce soit détectable immédiatement. Vous voudriez une défense en profondeur. Vous voudriez que le modèle lui-même se comporte vraiment bien et ait un sens moral irréprochable, de sorte que vous soyez sûr qu'il résiste à toute tentative de prise de contrôle ou à tout usage abusif grave. Ensuite, vous voudriez également avoir une très bonne surveillance par-dessus pour pouvoir détecter tout problème.

Évaluations et Incitations Instrumentales

Dwarkesh Patel

De quoi gardez-vous la trace pendant que vous faites du RL à long horizon, de sorte que vous puissiez remarquer ce genre de saut discontinu avant de déployer ces systèmes à grande échelle ?

John Schulman

Je dirais que vous voudriez avoir beaucoup d'évaluations que vous exécutez pendant le processus d'entraînement.

Dwarkesh Patel

Que remarqueriez-vous spécifiquement ? Cela a-t-il du sens d'entraîner sur du RL à long horizon en sachant que c'est quelque chose qui pourrait arriver ? Ou est-ce juste une probabilité très faible ?

John Schulman

Vous voudriez être assez prudent lorsque vous faites ce genre d'entraînement si vous voyez beaucoup de capacités potentiellement effrayantes. Ce n'est pas quelque chose dont nous devrions avoir peur à l'heure actuelle parce qu'il est difficile d'amener les modèles à faire quoi que ce soit de cohérent. Mais s'ils commençaient à devenir vraiment bons, nous devrions prendre certaines de ces questions au sérieux et nous voudrions avoir beaucoup d'évaluations qui les testent pour les mauvais comportements ou pour l'alignement des modèles. Vous voudriez vérifier qu'ils ne vont pas se retourner contre nous. Vous pourriez également vouloir rechercher des sauts discontinus dans les capacités. De plus, vous voudriez vous assurer que tout ce sur quoi vous vous entraînez ne donne aucune raison au modèle de se retourner contre vous, ce qui ne semble pas être la chose la plus difficile à faire. La façon dont nous les entraînons avec le RLHF semble très sûre car le modèle essaie simplement de produire un message plaisant pour un humain et il n'a aucune préoccupation pour quoi que ce soit d'autre dans le monde que de savoir si ce texte qu'il produit est approuvé. Évidemment, si vous faisiez quelque chose où le modèle effectue une longue séquence d'actions impliquant des outils, alors il pourrait être incité à faire des choses bizarres qui n'auraient aucun sens pour un humain dans le processus de production de son résultat final. Mais je suppose qu'il n'aurait pas nécessairement d'incitation à faire autre chose que de produire un résultat de très haute qualité à la fin. Vous avez ces vieux arguments sur la convergence instrumentale, selon lesquels le modèle va vouloir prendre le contrôle du monde pour pouvoir produire ce morceau de code génial à la fin. À un certain point, il est un peu difficile d'imaginer pourquoi, pour une tâche bien spécifiée, vous voudriez d'abord prendre le contrôle du monde. Mais si vous aviez une tâche comme gagner de l'argent, cela pourrait conduire à un comportement néfaste comme objectif instrumental.

Psychologie des Modèles et Raisonnement

Dwarkesh Patel

Avant de revenir à cela, prenons du recul et parlons des systèmes RLHF d'aujourd'hui. La façon dont cela influence ces modèles ; la caractériseriez-vous en termes de psychologie humaine ? Est-ce une pulsion ? Est-ce un objectif ? Est-ce une impulsion ? Quel genre de chose et de quelle manière est-ce modifié ?

John Schulman

Il y a probablement des analogies avec une pulsion ou un objectif chez les humains. En ce sens que vous essayez de vous diriger vers un certain ensemble d'états plutôt que vers d'autres. Je pense que notre concept de pulsion ou d'objectif comporte d'autres éléments, comme le sentiment de satisfaction que l'on éprouve à l'atteindre, et ces choses pourraient avoir plus à voir avec l'algorithme d'apprentissage qu'avec ce que fait le modèle au moment de l'exécution quand on a juste un modèle fixe. Il y a probablement des analogies, même si ce n'est pas exactement à quel point c'est proche. Dans une certaine mesure, les modèles ont des pulsions et des objectifs de manière significative. Dans le cas du RLHF où vous essayez de maximiser l'approbation humaine telle que mesurée par un modèle de récompense, le modèle essaie simplement de produire quelque chose que les gens vont aimer et qu'ils vont juger correct.

Dwarkesh Patel

J'ai entendu deux idées concernant l'utilisation de ce type de monologue intérieur pour s'améliorer en raisonnement. L'une est que le modèle apprend à partir d'un ensemble de cheminements de pensée potentiels et qu'il apprend à suivre celui qui mène à la bonne réponse et est entraîné là-dessus avant le déploiement. Et l'autre est que vous utilisez beaucoup de calcul pour faire de l'inférence lors du déploiement, ce qui implique que le modèle se parle à lui-même pendant qu'il est déployé. Laquelle de ces idées vous attendez-vous à voir de plus près lorsqu'il sera vraiment doué pour le raisonnement ?

John Schulman

Je dirais que l'on pourrait définir le raisonnement comme des tâches qui nécessitent une sorte de calcul au moment du test ou une sorte de déduction. Par définition, le raisonnement consisterait en des tâches qui nécessitent un calcul au moment du test et un calcul étape par étape. D'un autre côté, je m'attendrais également à gagner beaucoup en effectuant du calcul au moment de l'entraînement ou de la pratique au moment de l'entraînement. Je pense que l'on obtient les meilleurs résultats en combinant ces deux choses.

Mémoire et Apprentissage Actif

Dwarkesh Patel

Actuellement, vous avez ces deux façons dont le modèle apprend. C'est soit pendant l'entraînement, qu'il s'agisse de pré-entraînement ou de post-entraînement, où la majeure partie du calcul est consacrée au pré-entraînement et où il ne fait que survoler des billions de jetons, ce qui, si un humain y était soumis, le rendrait totalement confus. Ce n'est pas une façon très efficace d'apprendre. Et l'autre façon est l'apprentissage en contexte, mais c'est plus économe en échantillons là-bas, mais c'est détruit à chaque instance. Je suis curieux de savoir si vous pensez qu'il existe une voie pour quelque chose entre les deux, où ce n'est pas détruit à chaque instance, mais ce n'est pas non plus aussi frivole que de simplement voir des billions de jetons, où c'est plus délibéré et actif.

John Schulman

Voulez-vous dire des modèles ayant une sorte de mémoire à moyen terme, trop pour tenir dans le contexte mais à une échelle beaucoup plus petite que le pré-entraînement ?

Dwarkesh Patel

Je ne suis pas sûr qu'il s'agisse de mémoire. Quand j'essaie de me préparer pour cette conversation, je réfléchis à ce que je devrais comprendre, alors je cherche l'information et je la lis attentivement et j'y réfléchis peut-être pendant que je lis. Je ne sais pas à quoi cela correspond naturellement en termes de modèles, mais à quoi cela ressemblerait-il ?

John Schulman

Je vois. Ce n'est pas seulement une mémoire, mais c'est aussi se spécialiser quelque peu dans une tâche ou consacrer beaucoup d'efforts à un projet particulier.

Dwarkesh Patel

Et je ne suis pas sûr pour la spécialisation ; je pense plutôt à « je ne comprends pas cette partie, alors laissez-moi approfondir cette partie ». Je comprends déjà cela, je vais me spécialiser dans votre base de connaissances existante.

John Schulman

Je vois. Il ne s'agit pas seulement de trouver de l'entraînement sur un ensemble de sources pertinentes ou de faire un réglage fin sur un domaine spécial ; il s'agit aussi de développer des connaissances grâce à votre propre raisonnement et aussi d'utiliser une sorte d'introspection et d'auto-connaissance pour comprendre ce que vous devez apprendre. C'est effectivement quelque chose qui manque aux systèmes d'aujourd'hui. Les gens n'ont pas vraiment poussé très fort sur ce juste milieu entre l'entraînement à grande échelle où vous produisez le modèle instantané qui est censé tout faire, et l'apprentissage en contexte. Une partie de cela est que nous avons tellement augmenté la longueur du contexte qu'il n'y a pas eu d'incitation à le faire. Si vous pouvez aller jusqu'à cent mille ou un million de contextes, c'est déjà beaucoup et ce n'est pas réellement le goulot d'étranglement dans beaucoup de cas. Mais je conviens que l'on voudrait probablement aussi compléter cela par une sorte de réglage fin ; les capacités que vous obtenez du réglage fin et de l'apprentissage en contexte sont probablement quelque peu complémentaires. Je m'attends à ce que nous voulions construire des systèmes qui font une sorte d'apprentissage en ligne et qui possèdent également certaines de ces compétences cognitives d'introspection sur leurs propres connaissances et de recherche de nouvelles connaissances qui comblent les lacunes.

Apprentissage en Ligne et Algorithmes de Recherche

Dwarkesh Patel

Est-ce que tout cela se passe en même temps ? Est-ce un nouveau régime d'entraînement où toutes ces choses peuvent se produire en même temps ? Ou qu'il s'agisse de l'entraînement à long horizon ou de ce type d'entraînement, sont-ils séparés, ou parce que le modèle est assez intelligent pour pouvoir à la fois s'introspecter et agir sur des horizons plus longs, vous pouvez alors obtenir une récompense adéquate sur des tâches à long horizon ?

John Schulman

Si vous effectuez une sorte de tâche à long horizon, vous apprenez pendant que vous faites la tâche. La seule façon de faire quelque chose qui implique beaucoup d'étapes est d'avoir un apprentissage et une mémoire qui sont mis à jour pendant la tâche. Il y a un continuum entre la mémoire à court terme et la mémoire à long terme. Je m'attends à ce que cette capacité commence à devenir claire lorsque nous commencerons à nous pencher davantage sur les tâches à long horizon. Dans une certaine mesure, le simple fait de mettre beaucoup de choses en contexte mènera assez loin car nous avons maintenant des contextes vraiment longs, mais vous voudrez probablement aussi des choses comme le réglage fin. Et en ce qui concerne l'introspection et la capacité à faire de l'apprentissage actif, cela pourrait découler automatiquement de la capacité du modèle à savoir ce qu'il sait, car les modèles ont un certain étalonnage concernant ce qu'ils savent. C'est pourquoi les modèles n'hallucinent pas si gravement car ils ont une certaine compréhension de leurs propres limites. Je pense que ce même genre de capacité pourrait être utilisé pour quelque chose comme l'apprentissage actif.

Dwarkesh Patel

Dwarkesh Patel

Je veux vous demander de prendre du recul par rapport aux questions de recherche actuelles. Je veux comprendre votre scénario modal de ce qui se passera au cours des prochaines années. Vous débloquez le RL à long horizon à un moment donné mais comme vous l'avez dit, il y a potentiellement d'autres goulots d'étranglement. À quel point ces modèles sont-ils bons ? Comment sont-ils déployés ? Quelles autres modalités en font partie ? À quel stade sont-elles débloquées ? Je veux comprendre votre vision plus large de ce à quoi ressembleront les prochaines années.

John Schulman

Je m'attendrais à ce que de nouvelles modalités soient ajoutées au fil du temps assez bientôt. Je m'attendrais à ce que les capacités continuent globalement de s'améliorer grâce à une combinaison de pré-entraînement et de post-entraînement et cela ouvrira de nouveaux cas d'utilisation. À l'heure actuelle, l'IA ne représente pas encore une part énorme de l'économie ; il n'y a qu'une assez petite fraction d'emplois qu'elle peut aider du tout. Je m'attendrais à ce que cela soit plus élevé au fil du temps et pas seulement grâce à l'amélioration des modèles, mais aussi grâce au fait que les gens comprennent simplement comment les intégrer dans différents processus. Même si nous devions simplement geler les modèles dans leur état actuel, je pense que nous verrions encore beaucoup de croissance dans la façon dont ils sont utilisés. Je m'attendrais à ce que l'IA soit utilisée beaucoup plus largement et je m'attendrais à ce qu'elle soit utilisée pour des tâches plus sophistiquées techniquement, comme l'exemple de programmation consistant à réaliser des projets plus longs, mais aussi à aider à la recherche. J'espère que nous pourrons utiliser l'IA pour accélérer la science car on peut potentiellement amener les modèles à comprendre toute la littérature d'un domaine donné et être capables de passer au crible des tonnes de données plus qu'une personne n'aurait la patience de le faire. J'espère que le format sera que les gens dirigent toujours tout cela et que vous avez vos assistants utiles que vous pouvez diriger et orienter vers de nombreux problèmes différents qui vous sont utiles et que tout le monde a ces IA qui les aident à en faire plus et à accomplir davantage.

Dwarkesh Patel

Salut tout le monde, très rapidement je veux vous parler d'un outil que j'aimerais voir plus d'applications utiliser. Évidemment, vous avez remarqué que chaque entreprise essaie d'ajouter un chatbot IA à son site web. En tant qu'utilisateur, je les trouve généralement très ennuyeux parce qu'ils donnent ces réponses longues, génériques et souvent inutiles. CommandBar est un assistant utilisateur que vous pouvez simplement intégrer à votre site web ou à votre application. On a l'impression de parler à un agent de support humain amical qui navigue avec vous et pour vous. C'est beaucoup plus personnalisé qu'un chatbot ordinaire. Il peut réellement consulter l'historique d'un utilisateur et répondre différemment en fonction de cela. Il peut utiliser des API pour effectuer des actions. Il peut même inciter proactivement les utilisateurs à explorer de nouvelles fonctionnalités. Une chose que je trouve vraiment cool est qu'au lieu de simplement produire du texte, CommandBar peut juste dire « tenez, laissez-moi vous montrer » et commencer à naviguer aux côtés de l'utilisateur. Quoi qu'il en soit, il y a déjà beaucoup d'excellents produits. Vous pouvez en apprendre davantage sur commandbar.com. Merci à eux de parrainer cet épisode.

Gouvernance et Supervision Humaine

Dwarkesh Patel

À un moment donné, ils seront meilleurs que tout le monde dans tout ce qu'ils veulent faire. À quoi ressemblerait ce processus ? À l'heure actuelle, ils ne font que vous aider. À un moment donné, ils sont capables de faire des choses pour vous et peut-être de gérer des entreprises entières pour vous. À ce stade, est-ce que ce sera un processus fluide ? Et est-ce que nous avons des systèmes qui sont assez alignés avec l'utilisateur pour qu'ils puissent compter sur le fait que l'entreprise soit gérée de la manière qu'ils attendent ?

John Schulman

Nous ne voudrions peut-être pas passer immédiatement à ce que des IA gèrent des entreprises entières. Nous pourrions vouloir que des gens supervisent ces décisions importantes et dirigent la manœuvre, même si les modèles sont assez performants pour diriger eux-mêmes une entreprise prospère. Dans une certaine mesure, il pourrait y avoir des choix là-bas, et les gens auront toujours des intérêts différents et des idées différentes sur le genre d'activités intéressantes vers lesquelles ils veulent orienter leurs IA. Les gens pourraient faire beaucoup ; l'IA n'a pas nécessairement de désir intrinsèque propre à moins que nous ne le mettions dans le système. Les gens peuvent toujours finir par être les moteurs, même si les IA deviennent extrêmement capables.

Dwarkesh Patel

Mais je me demande si l'équilibre économique est si loin de cela qu'on a en quelque sorte l'équivalent de la loi d'Amdahl dans une entreprise : la partie la plus lente du processus est celle qui va vous freiner. Même si l'IA rend toutes les parties non humaines de l'entreprise 10 fois plus efficaces, l'entreprise est toujours freinée par cette étape. Si une entreprise décide de procéder en gardant des humains dans la boucle pour toutes les choses pour lesquelles on veut vraiment une supervision humaine, elle sera alors tout simplement évincée par d'autres entreprises. Si un pays décide de suivre cette voie, d'autres pays le battront. Je me demande si c'est un plan durable pour garder les humains dans la boucle. Je pense que si nous voulions garder les humains dans la boucle, ce qui semble raisonnable, et qu'il s'avérait que les entreprises avec des humains étaient évincées par des entreprises qui n'en avaient pas, alors vous auriez évidemment besoin d'une sorte de réglementation interdisant de n'avoir aucun humain dans la boucle pour diriger une entreprise entière. Je me demande s'il vaut mieux réglementer les entreprises et dire que vous devez garder des humains dans la boucle pour les processus importants, mais il faut alors définir ce que sont les processus importants et vous devez surveiller chaque entreprise et vous devez aussi obtenir la collaboration de chaque pays qui possède des entreprises. Ou bien, si c'est un problème, devrait-il être résolu avant même que le modèle ne soit déployé, de sorte que l'on se retrouve dans une situation où si l'on décidait de construire une entreprise de bout en bout sur ces modèles, elle ferait ce que vous voulez qu'elle fasse et vous n'auriez pas besoin d'un humain dans la boucle ? Comment surveillons-nous réellement si chaque entreprise a un humain dans la boucle et que se passe-t-il si la Chine décide de ne pas le faire ?

John Schulman

Il faudrait soit que chaque pays accepte ce régime réglementaire, soit que tous les fournisseurs de modèles acceptent ce genre d'exigence. Ce sera certainement non trivial. C'est regarder loin devant, donc il est un peu difficile d'imaginer ce monde avant d'avoir vu quoi que ce soit qui y ressemble. Par exemple, sommes-nous réellement convaincus que les entreprises gérées par l'IA sont meilleures à tous points de vue ? Pensons-nous qu'elles sont meilleures la plupart du temps mais qu'elles fonctionnent mal occasionnellement parce que les IA sont encore moins économes en échantillons de certaines manières, comme pour gérer des situations très bizarres ? Les entreprises gérées par l'IA ont un risque de queue plus élevé car elles sont plus susceptibles de mal fonctionner de manière majeure. Donc je suppose qu'il pourrait y avoir des questions pratiques qui détermineraient également comment les choses se passent. Si vous exigez simplement que les gens soient responsables de diverses responsabilités civiles, cela changerait également les incitations. S'il s'avérait que les IA sont meilleures pour tout diriger et qu'elles sont aussi complètement bienveillantes et que nous avons totalement résolu l'alignement et qu'elles sont plus aptes à rendre des comptes aux gens que les gens ne le sont eux-mêmes, alors peut-être que c'est acceptable de laisser les IA diriger les entreprises. Mais je pense que cela pourrait être assez lointain et que nous sommes plus susceptibles d'être dans une situation où elles ont l'air meilleures à court terme mais où les entités gérées par l'IA ont encore de sérieux problèmes. Des considérations pratiques pourraient vous pousser davantage vers le maintien des humains dans la boucle, du moins dans un avenir proche.

Parties Prenantes et Spécifications du Modèle

Dwarkesh Patel

C'est un problème auquel vous devez faire face aujourd'hui avec le RLHF où vous devez agréger les préférences d'un grand nombre d'humains différents. Quand vous dites que nous voulons que ces éventuels systèmes d'IA qui vont remplacer complètement les humains dans ces entreprises soient alignés, qu'est-ce que cela signifie ? Est-ce que cela signifie qu'ils font ce que l'utilisateur veut qu'ils fassent ? Est-ce que cela signifie qu'ils doivent aboutir à une sorte de résultat global dont nous sommes satisfaits en tant que parties prenantes d'OpenAI ?

John Schulman

Si les modèles sont utilisés pour ces cas d'utilisation à enjeux plus élevés, nous devrions alors envisager le RLHF d'une manière bien différente de celle d'aujourd'hui. Nous ne sommes pas tout à fait prêts pour cela ou les méthodes actuelles pourraient ne pas être complètement suffisantes. Je dirais que nous devrions faire des compromis entre les besoins des différentes parties prenantes impliquées. Nous avons ce document que nous publions appelé « model spec » (spécification du modèle). Il s'agit de la façon dont nous voulons que nos modèles se comportent dans l'API et dans ChatGPT. Nous essayons de parler de cette question où différentes parties prenantes sont impliquées et où il y a parfois des conflits entre ce qu'elles pourraient vouloir. Dans notre cas, nous considérions les parties prenantes comme l'utilisateur final, le développeur, la plateforme (OpenAI), puis le reste de l'humanité. Évidemment, l'utilisateur pourrait demander au modèle de faire quelque chose que nous jugeons activement nuisible à d'autres personnes, et nous pourrions devoir refuser cela. Ce n'est pas nécessairement l'ordre de priorité. Nous avons ces quatre ou cinq classes de parties prenantes. Peut-être qu'à l'avenir nous dirons le modèle lui-même, bien que nous n'en soyons pas encore là. Mais quoi qu'il en soit, elles ont ces différentes parties prenantes, elles ont parfois des exigences conflictuelles et nous devons prendre une décision sur la façon de résoudre ces conflits. Ce n'est pas toujours évident de savoir comment faire. Nous avons dû réfléchir aux compromis et l'heuristique approximative est que nous voulons surtout que les modèles suivent vos instructions et soient utiles à l'utilisateur et au développeur. Mais quand cela empiète sur le bonheur ou le mode de vie d'autres personnes, cela devient un problème et nous devons bloquer certains types d'utilisation. Nous ne voulons pas être trop paternalistes ; nous voulons être neutres et ne pas imposer nos opinions aux gens. Nous voulons surtout laisser les gens faire ce qu'ils veulent avec les modèles.

Dwarkesh Patel

J'ai eu l'occasion de lire la spécification au préalable et c'était une question de savoir comment cela se transférait dans le comportement du modèle lui-même. J'ai été impressionné par la justesse des compromis. Il était logique que cela soit explicitement déclaré pour les cas limites réels plutôt que pour des choses sur lesquelles tout le monde peut s'accorder et qui sont évidentes. Dans ce cas, vous vous attaquez vraiment aux cas limites.

John Schulman

Nous voulions que ce soit très actionnable afin que ce ne soit pas juste un tas de principes agréables à entendre ; chaque exemple vous dit quelque chose sur une situation non évidente et raisonne sur cette situation.

État de la Recherche en ML

Dwarkesh Patel

Maintenant, j'ai quelques questions sur l'état de la recherche elle-même. Célèbrement dans les sciences sociales, les choses sont vraiment difficiles à reproduire et il y a une question sur la part de science réelle par rapport aux sortes d'expériences fabriquées sur mesure. Quand vous regardez l'article de ML moyen, cela ressemble-t-il à un morceau de littérature vraiment solide ou cela ressemble-t-il souvent à l'équivalent du p-hacking dans les sciences sociales ?

John Schulman

Tout le monde a ses plaintes concernant la littérature ML, mais globalement je pense que c'est un domaine relativement sain comparé à d'autres comme les sciences sociales, tout simplement parce qu'il est largement ancré dans l'aspect pratique et le fait de faire fonctionner les choses. Si vous publiez quelque chose qui ne peut pas être reproduit facilement, les gens l'oublieront tout simplement. Il est admis que souvent vous ne rapportez pas simplement le chiffre de quelqu'un à partir de son article, vous essayez aussi de réimplémenter sa méthode et de la comparer à la vôtre sur le même ensemble de données d'entraînement. Je pense donc que si vous publiez des méthodes vraiment difficiles à implémenter ou vraiment pointilleuses, elles auront tendance à être oubliées et, par conséquent, les gens essaient réellement de rendre leur travail open source. Je suppose qu'il y a diverses incitations défavorables, comme le fait que les gens soient incités à dégrader les méthodes de référence, et il y a d'autres pathologies légères comme essayer de faire paraître votre méthode sophistiquée mathématiquement. Mais globalement, j'ai l'impression que le domaine progresse et j'aimerais probablement voir un peu plus de science et d'efforts pour comprendre les choses plutôt que plus de course aux records sur les benchmarks et de tentatives de proposer de nouvelles méthodes. Il y en a eu une quantité décente récemment, et je pense que c'est une bonne chose pour les universitaires de travailler là-dessus. Sur les sciences sociales, sur une note légèrement différente, je serais vraiment enthousiaste à l'idée de voir plus de recherches sur l'utilisation de modèles de base pour faire des sciences sociales simulées car ces modèles ont un modèle probabiliste du monde entier et vous pouvez mettre en place un questionnaire simulé ou une conversation et vous pouvez regarder comment n'importe quel trait que vous pourriez imaginer pourrait être corrélé avec d'autres traits. Ce serait assez cool de voir si les gens pouvaient reproduire certains des résultats les plus notables des sciences sociales, comme les fondements moraux, en sollicitant simplement les modèles de base de différentes manières.

Dwarkesh Patel

Quelle est cette expérience de Stanford ? Le test de conformité d'Asch, n'est-ce pas ? Ce serait amusant si cela se reproduisait aussi avec les modèles de langage. Ce serait intéressant. En ce qui concerne la recherche qui se fait dans les grands laboratoires, quelle part consiste à augmenter ou à diminuer la quantité de calcul nécessaire pour obtenir un certain résultat en tant que multiplicateur de calcul réel par rapport à ce qui consiste simplement à rendre l'apprentissage plus stable et à construire l'infrastructure ? Je suppose que la question plus large est la suivante : depuis GPT-4, a-t-on l'impression qu'avec la même quantité de calcul on peut entraîner un bien meilleur modèle ou a-t-on l'impression que nous nous sommes assurés que l'apprentissage puisse mieux se passer et de manière plus évolutive avec GPT-5, mais que nous pouvons entraîner GPT-4 avec un budget de GPT-3.5 maintenant ?

Dwarkesh Patel

Quelque chose comme ça.

Jakub Pachocki

Il y a toujours des progrès dans l'amélioration de l'efficacité. Chaque fois que vous avez une métrique de performance unidimensionnelle, vous allez constater que différentes améliorations peuvent se substituer les unes aux autres. On pourrait constater que même le post-entraînement et le pré-entraînement améliorent tous deux les métriques ; ils auront un profil légèrement différent des métriques qu'ils améliorent, mais si au bout du compte vous avez un seul chiffre, ils vont tous deux se substituer l'un à l'autre quelque peu. Pour quelque chose comme une évaluation humaine et ce que les humains préfèrent, nous avons certainement fait beaucoup de progrès des deux côtés, sur le pré-entraînement et le post-entraînement, pour améliorer cela.

Nuances du RLHF et Verbosité

Dwarkesh Patel

Quelques questions rapides sur le RLHF. Le RLHF est important pour rendre ces modèles utiles, donc peut-être que la description de « lobotomisation » est inexacte. Mais il y a un sentiment que tous ces modèles, une fois mis sous forme de chatbot, ont une façon de parler très similaire. Ils veulent approfondir les choses, ils veulent transformer les choses en listes à puces, ils semblent souvent avoir cette façon de parler formelle et ennuyeuse, et on se plaint qu'ils ne sont pas aussi créatifs. Est-ce le résultat de la manière particulière dont le RLHF se déroule actuellement ? Est-ce à cause de qui sont les évaluateurs, ou à cause de ce qu'est la fonction de perte ? Pourquoi est-ce à cela que ressemblent tous les chatbots ?

Jakub Pachocki

Il y a une marge de manœuvre raisonnable pour des variations dans la manière exacte dont on effectue le processus d'entraînement, et je pense que nous essayons activement d'améliorer cela et de rendre l'écriture plus vivante et plus amusante. Je pense que nous avons fait quelques progrès dans l'amélioration de la personnalité de ChatGPT, pour qu'il soit plus amusant et meilleur quand on essaie de bavarder avec lui ; il est moins robotique. C'est une question assez intéressante de savoir comment certains tics sont apparus, comme le mot « approfondir » (delve). Je me suis surpris à utiliser le mot un peu récemment. Je ne sais pas s'il a déteint sur moi à cause du modèle ou quoi. En fait, je pense qu'il pourrait y avoir des effets amusants en cours où une distillation involontaire se produit entre les fournisseurs de modèles de langage. Si vous engagez quelqu'un pour effectuer une tâche d'étiquetage, il se peut qu'il l'introduise simplement dans un modèle, qu'il sorte son chatbot préféré et qu'il fasse faire la tâche par le modèle, puis qu'il fasse un copier-coller. Cela pourrait expliquer une partie de la convergence. Mais je pense aussi que certaines des choses que nous voyons sont simplement ce que les gens aiment. Les gens aiment les listes à puces, ils aiment les réponses structurées. Les gens aiment souvent les gros déversements d'informations qu'ils obtiennent des modèles. Il n'est donc pas tout à fait clair quelle part est simplement une bizarrerie des choix particuliers et de la conception des processus de post-entraînement et quelle part est réellement intrinsèque à ce que les gens veulent vraiment.

Dwarkesh Patel

Il semble persister à être plus verbeux que ce que certaines personnes souhaitent, et peut-être simplement parce qu'au stade de l'étiquetage, les évaluateurs préféreront la réponse la plus verbeuse. Je me demande si c'est inhérent à la façon dont il est pré-entraîné et que la séquence d'arrêt n'apparaît pas si souvent et qu'il a vraiment envie de continuer.

Jakub Pachocki

Il pourrait y avoir des biais dans l'étiquetage qui mènent à la verbosité, comme le fait que nous avons tendance à nous entraîner pour un message à la fois plutôt que pour l'interaction complète. Si vous ne voyez qu'un seul message, alors quelque chose qui contient juste un gros déversement d'informations va paraître meilleur que quelque chose qui est une réponse courte et percutante qui essaie de mener à une conversation plus longue. Je pense que c'est quelque chose que nous examinons certainement.

Retour aux entretiens de John Schulman