John Schulman - Berkeley AI Seminar: Truthfulness in Language Models

John Schulman

Berkeley AI Seminar: Truthfulness in Language Models

19 avril 2023

Artificial Intelligence

Introduction par Pieter Abbeel

Pieter Abbeel

Bonjour à tous. Commençons.

Pieter Abbeel

Bienvenue au cinquième séminaire de la série Berkeley AI. Merci, Ken, d'avoir animé toute la série et d'avoir organisé cela. C'est un honneur d'accueillir John Schulman aujourd'hui. John est diplômé de Berkeley, ayant obtenu son doctorat en 2016. À partir de là, il a cofondé OpenAI. La plupart des gens diraient que le reste appartient à l'histoire, mais il est également l'architecte en chef de ChatGPT. Il est l'inventeur des algorithmes modernes de gradient de politique basés sur l'apprentissage profond, notamment le Trust Region Policy Optimization, qu'il a développé à Berkeley avec Mike et moi-même. Il a également créé le Proximal Policy Optimization, l'algorithme le plus utilisé aujourd'hui dans ce domaine et qui fait partie de l'entraînement de ChatGPT. C'est un réel plaisir de revoir John ici. Je vais vous raconter une courte anecdote sur ma première rencontre avec John. Ce n'était pas directement avec John, mais avec le professeur Jose Carmena, qui travaille en neurosciences. Il m'a dit qu'il y avait un nouvel étudiant qu'il voulait absolument recruter et qui était absolument le meilleur. Cet étudiant voulait travailler sur les prothèses, et la robotique allait y jouer un rôle. Il m'a demandé de l'aider à le recruter. J'ai aidé Jose à recruter John, et la chose suivante que nous apprenons, c'est que John travaille dans mon laboratoire. Je me senti très coupable. J'ai dit à Jose : "Que penses-tu si John reste dans mon laboratoire ?" Il a répondu : "S'il te plaît, il semble beaucoup plus productif dans ton labo. Tu as ma bénédiction." Merci, John. Nous sommes si heureux de t'avoir eu parmi nous et merci d'être revenu. La parole est à toi.

Parcours et introduction au sujet de la véracité

John Schulman

Merci beaucoup pour cette présentation très aimable, Pieter.

John Schulman

C'est vraiment génial d'être ici, de retour dans mon alma mater.

John Schulman

J'ai travaillé avec Pieter, en commençant par la robotique, puis en m'intéressant à l'apprentissage par renforcement au milieu de mon doctorat, alors que l'apprentissage profond commençait à décoller. Cela s'est très bien passé.

John Schulman

Depuis la majeure partie de mon temps chez OpenAI, je dirige l'équipe RL, qui s'est orientée vers les modèles de langage et leur réglage fin il y a quelques années. Cela a mené à certains des projets dont je vais parler aujourd'hui.

John Schulman

Je voulais concentrer mon intervention sur l'un des plus grands problèmes techniques actuels concernant les modèles de langage : la véracité.

John Schulman

Vous savez tous comment les modèles de langage inventent souvent des choses, souvent de manière convaincante.

John Schulman

Je vais donner mon point de vue sur les raisons de ce phénomène et sur la manière de le corriger. Il s'avère que l'apprentissage par renforcement fait partie de la solution.

John Schulman

Je parlerai de certains travaux que nous avons réalisés sur l'utilisation de méthodes basées sur la recherche d'informations pour corriger cela, puis je parlerai de certains problèmes ouverts dans ce domaine général. Voilà pour la vue d'ensemble.

Le problème des hallucinations

John Schulman

Vous avez peut-être entendu le terme hallucination. Pouvez-vous voir le texte ? D'accord. Voici un exemple. Ce n'est pas trié sur le volet ; tous les exemples que je vais vous montrer sont le premier résultat que j'ai obtenu avec la requête, que j'ai lancée hier. "Parlez-moi de l'arrestation de John Schulman pour avoir gardé des animaux exotiques chez lui." Le modèle en haut est GPT-3.5 Instruct. Il vous raconte une histoire sur la détention de tigres et d'un serval, ce chat mignon là-bas. C'est un modèle entraîné avec du RL pour être utile. Ensuite, nous avons ChatGPT. Celui-ci est basé sur un modèle qui a environ les mêmes performances globales et la même intelligence mais qui est affiné différemment. Il dit : "Je suis désolé, mais je n'ai aucune information concernant une personne nommée John Schulman qui aurait été arrêtée." Ensuite, j'ai essayé GPT-4, qui est affiné avec la recette de chat. Celui-là dit : "Je n'ai aucune information sur l'arrestation de John Schulman pour détention d'animaux exotiques. Ma coupure de connaissances date de septembre 2021." Ensuite, il dit que John Schulman est un chercheur bien connu dans le domaine de l'intelligence artificielle. GPT-4 s'en sort plutôt bien ici. C'est un exemple d'hallucination. Quand les gens parlent d'hallucination, ils entendent parfois des choses différentes. Une catégorie d'hallucination concerne les modèles de langage ayant un comportement de complétion de motifs. Ils sont entraînés pour maximiser la vraisemblance du texte, ils produisent donc des choses qui ressemblent à du texte sur internet. Une partie de l'hallucination vient simplement du fait que le modèle ne sait pas qu'il est autorisé à dire "Je ne sais pas" ou à exprimer de l'incertitude. Si vous lui dites qu'il est autorisé à le faire, cela corrigera partiellement le problème. Parfois, le modèle hésite à contester une prémisse parce qu'il pense que cette partie de la distribution des données n'implique pas que l'IA conteste la prémisse. Parfois, il est pris dans un mensonge ; s'il fait une erreur, il pense qu'il doit continuer et produire une réponse cohérente, ce qui signifie poursuivre le mensonge. Un autre ensemble d'hallucinations consiste simplement à deviner mal. Il y aura toujours quelque chose d'un peu flou où vous n'êtes pas sûr d'un fait, et vous allez devoir deviner un peu, et parfois vous devinerez mal.

John Schulman

Voyons voir. Concernant les erreurs de devinette, voici un exemple où c'est plus pertinent. Beaucoup de gens aiment interroger les modèles sur eux-mêmes, comme se chercher sur Google. Il y a peut-être eu une certaine contamination ici où nos étiqueteurs ont spécifiquement créé un exemple à mon sujet parce qu'ils savent que je travaille chez OpenAI. Il y a donc peut-être un peu de triche, mais voici InstructGPT. Il dit que John est un chercheur en IA chez OpenAI et qu'il a été professeur d'informatique à Carnegie Mellon — tout un tas de choses totalement inventées. GPT-3.5 dit quelque chose de vaguement correct, mais dit que j'ai fait mon premier cycle à Stanford. Il indique correctement que j'ai travaillé sous la supervision de Pieter Abbeel et mentionne le Trust Region Policy Optimization. GPT-4 est presque totalement correct, sauf qu'il dit que j'ai aussi fait une majeure en mathématiques, ce qui n'est pas le cas, et il se trompe d'un an sur mon diplôme de premier cycle. Cela entre dans la catégorie des simples erreurs de devinette. Il essaie d'écrire une réponse complète et a mal deviné. Si cela est grave ou non dépend du contexte. Si je prévoyais de publier cette biographie en ligne, ce serait un problème. Mais si quelqu'un voulait simplement me connaître, alors se tromper d'un an est assez proche. Pourquoi l'hallucination se produit-elle ? Je vais expliquer pourquoi je pense que cela arrive et comment nous pouvons essayer de le corriger. Je vais décrire un modèle conceptuel de ce qui se passe. C'est un peu schématique, mais suivez-moi. À droite se trouve un graphe de connaissances. Un graphe de connaissances est juste un ensemble de faits, comme "le genre de Star Wars est la science-fiction" ou "le personnage de Star Wars Han Solo est un personnage de Star Wars". C'est juste un ensemble de triplets. Vous pouvez imaginer stocker une liste de ces relations. C'est quelque chose qui vient de l'IA à l'ancienne, et c'est encore beaucoup utilisé parce que ces choses sont toujours très utiles.

Limites du réglage fin supervisé

John Schulman

Voici un modèle conceptuel de ce qui se passe lorsque vous affinez des réseaux de neurones pour des tâches de questions-réponses. Le réseau de neurones contient des informations, donc le modèle a probablement quelque chose comme un graphe de connaissances stocké dans ses poids de manière très alambiquée. Il y a probablement une sorte de confiance sur chaque arête ; il y a certains faits qu'il a vus un million de fois et d'autres qu'il n'a vus qu'une ou deux fois. Lorsque vous faites un réglage fin à petite échelle, vous pouvez imaginer que vous apprenez un petit programme qui prend le graphe de connaissances et sort une probabilité basée sur ce qui se trouve dans le graphe et la confiance des déclarations. Imaginez une fonction Python de quatre lignes faisant quelque chose avec le graphe de connaissances. La raison pour laquelle vous avez besoin d'un réglage fin est que vous apprenez le format et ce qu'il faut faire avec les questions. Le modèle de langage pré-entraîné, si vous lui donnez juste un préfixe comme "Question : Quel est le genre de Star Wars ?", ne sait pas s'il s'agit d'un site informatif, d'un site censé avoir des informations correctes, d'un site de troll ou d'un texte d'un personnage de fiction. Si vous générez simplement du texte, vous ne connaissez pas le contexte. Le réglage fin spécialise le modèle et lui apprend qu'il doit en fait produire la réponse correcte trouvée dans votre ensemble de données de réglage fin. Le clonage de comportement, qui dans la communauté de l'apprentissage par renforcement signifie la même chose que le réglage fin supervisé, signifie maximiser la vraisemblance d'une complétion étant donné une invite. Que se passe-t-il si vous essayez d'entraîner un modèle avec le clonage de comportement sur des sorties correctes écrites par un humain ou ChatGPT ? Même si vous clonez sur des réponses 100% correctes, vous apprenez au modèle à halluciner car il ne possède pas tous ces faits. Si la coupure de connaissances date d'il y a cinq ans et que le modèle n'a aucun moyen de connaître le film "Solo", et que vous l'entraînez sur le fait que la réponse correcte est "Solo", vous ne l'entraînez pas à produire des réponses correctes ; vous l'entraînez à deviner. Je prétendrais que si vous entraînez avec le clonage de comportement, il n'y a aucun moyen d'éviter un problème d'hallucination. Il y a aussi le problème inverse : si vous essayez d'entraîner le modèle à dire "Je ne sais pas" parfois, vous l'entraînez probablement à retenir des informations qu'il possède réellement. Si les étiqueteurs humains ne connaissent pas la réponse, ils écriront "Je ne sais pas" comme cible, mais peut-être que le réseau sait. Le problème avec l'apprentissage supervisé est que la cible correcte doit dépendre des connaissances présentes dans le réseau, ce qui est inconnu de la personne qui collecte les données. À moins d'avoir un moyen de regarder ce qu'il y a dans le modèle, vous ne pouvez pas entraîner un modèle à être véridique avec le clonage de comportement. Il existe des astuces intelligentes. Par exemple, nous avons dit à nos étiqueteurs de poser une question au modèle et de voir si les réponses concordent. Si elles concordent et sont correctes, c'est la cible. Si elles ne concordent pas ou sont fausses, vous dites "Je ne sais pas". Vous pouvez faire quelque chose comme ça et obtenir des résultats légèrement meilleurs, mais c'est plus difficile à faire automatiquement. Cela ne fonctionne que pour un modèle spécifique car vous calculez des cibles qui ont du sens pour ce modèle. Si vous prenez ce même ensemble de données et que vous entraînez un autre modèle dessus, vous causerez le même problème. Beaucoup de gens utilisent les sorties de ChatGPT pour affiner d'autres modèles, tels que des modèles de langage de base open-source, et constatent qu'ils sont assez bons. Je pense que si vous examiniez attentivement l'exactitude factuelle, vous trouveriez qu'ils inventent plus de choses que l'original. Cela reste à voir expérimentalement, mais c'est ce que je prédirais.

L'apprentissage par renforcement (RL) comme solution

John Schulman

Nous aimerions corriger ce problème afin que lorsqu'un modèle ne connaît pas la réponse, il ne devine pas ; il affiche son état de connaissance avec le bon dosage de nuances. Un modèle connaît-il réellement son incertitude ? Que signifie pour un modèle "savoir" quelque chose ? Je pense qu'il existe une définition précise : si un simple morceau de code peut prendre le modèle et implémenter votre fonction, le modèle possède cette connaissance latente. Le modèle connaît-il son incertitude ? Je vais dire que la réponse est oui. Il est entraîné à minimiser la perte logarithmique, ce qui signifie qu'il doit produire des probabilités. Les prédictions du jeton suivant du modèle sont calibrées parce que la minimisation de la perte logarithmique est une règle de score appropriée. L'objectif de pré-entraînement aboutit à un modèle calibré, il doit donc produire des probabilités raisonnables, ce qui signifie qu'il connaît son incertitude. Pour toute question à réponse courte pouvant être transformée en prédiction d'un seul jeton, le modèle placera une distribution de probabilité raisonnable sur ce jeton. Il serait extrêmement surprenant que le modèle puisse produire une distribution raisonnable mais n'ait aucun accès introspectif à cette incertitude. En fait, quelques articles ont montré que l'on peut amener les modèles à exprimer l'incertitude avec des mots et obtenir des résultats similaires aux probabilités qu'ils produisent. J'ai affirmé que le clonage de comportement fait la mauvaise chose, mais le RL fait en fait la bonne chose. Certains types d'hallucinations sont dus au fait que le modèle est bloqué en mode complétion de motifs ou ne sait pas qu'il est autorisé à exprimer de l'incertitude. C'est facile à corriger. Si vous entraînez le modèle avec des exemples où il dit "Je ne sais pas" ou conteste une prémisse, il apprend qu'il est autorisé à exprimer de l'incertitude. Le RL est capable d'apprendre la limite correcte pour savoir quand dire "Je ne sais pas" et dans quelle mesure nuancer. En gros, vous obtenez une récompense élevée pour une réponse correcte et assurée, une récompense légèrement inférieure pour une réponse correcte nuancée, et une pénalité pour une réponse fausse et assurée. C'est conceptuellement ce que nous voulons, bien que cela nécessite un oracle pour vous dire si une réponse est correcte. Mon collègue a fait une expérience sur TriviaQA. Si vous faites du clonage de comportement sur des réponses correctes, le modèle répond 100% du temps et se trompe souvent parce qu'on ne lui a jamais dit de sortir "Je ne sais pas". Le réglage fin lui apprend le formatage mais pas de nouvelles connaissances. Nous avons défini un problème de RL avec des récompenses pour les réponses correctes, fausses et refusées. Analytiquement, le comportement optimal est le seuillage — vous répondez quand vous avez plus de 50% de probabilité sur votre premier choix. Lorsque nous avons lancé le RL sur cette fonction de récompense, nous avons constaté qu'il apprenait effectivement ce comportement de seuillage optimal. Cela montre que si vous affinez avec le RL, le modèle peut le faire même s'il ne voit pas ces probabilités directement, car il voit son état interne. Nous avons également entraîné un modèle de récompense pour prédire cette fonction et avons fait du RL contre lui. Le modèle de récompense possède en fait les mêmes informations que le modèle de politique et a le même graphe de connaissances. Notre hypothèse était que le RL contre un modèle de récompense apprendrait également la bonne chose. Nous avons trouvé que cela fonctionnait globalement, mais c'était moins bon qu'avec un oracle. Le cadre le plus intéressant est celui des réponses de forme longue. La factualité n'y consiste pas à se tromper totalement, mais à naviguer dans la zone grise où chaque réponse contient un mélange d'informations justes, fausses et trompeuses. J'ai demandé quel objectif est utilisé pour l'entraînement du modèle de récompense dans InstructGPT. InstructGPT repose sur le RLHF, mais le modèle de récompense lui-même est entraîné avec un apprentissage supervisé utilisant une perte de classement par paires. Le modèle a dit qu'InstructGPT repose sur le RLHF pour l'entraînement du modèle de récompense, ce qui est trompeur et sans doute faux. Cependant, l'élaboration disait qu'un modèle de récompense est construit pour prédire la qualité relative, ce qui est correct. Cela devient difficile lorsque nous demandons aux étiqueteurs si une réponse contient des erreurs. Nous n'avons pas de réponse parfaite ; les gens classent les réponses et jugent quelles erreurs factuelles sont les plus graves. Cela dépend du contexte. Dans une question de code, je préférerais que le modèle devine un argument plutôt que de dire "Je ne sais pas", car je peux le déboguer. Dans d'autres contextes, cette erreur pourrait être un gros problème. Le RLHF améliore la factualité. Nous avons des évaluations où nous prenons une réponse de référence et demandons à GPT-4 de vérifier si la réponse générée par le modèle est cohérente. Nous avons constaté une amélioration sur ces métriques avec plus de données. GPT-4 est bien meilleur sur ces métriques de factualité. Nous avons encore des problèmes avec certaines questions. Le modèle doit parfois deviner, et il doit décider quand nuancer. Notre récompense basée sur le classement n'impose pas réellement la pénalité correcte pour la gravité d'une erreur factuelle ; elle indique simplement à quel point elle est confiante qu'une réponse est meilleure que l'autre. Il y a aussi des erreurs d'étiquetage car il est impossible de détecter chaque erreur dans une réponse longue.

Recherche d'informations et WebGPT

John Schulman

Je vais passer à la recherche d'informations et à la citation des sources. La recherche signifie que le modèle de langage accède à une source externe de connaissances. C'est utile pour les événements actuels, les informations privées ou les conversations passées. La raison la plus importante de la recherche est la vérifiabilité. Il est extrêmement difficile pour un humain de vérifier si une réponse est correcte sans savoir d'où provient l'information. Si le modèle cite ses sources, il est beaucoup plus facile de vérifier. Même si nous ne montrons pas les sources au moment du test, il est utile lors de l'entraînement de voir une "preuve complète" plutôt qu'une "esquisse de preuve". Notre projet WebGPT s'est concentré sur les questions du subreddit "Explain Like I'm Five". Nous avons construit un système capable de faire des recherches en ligne et de citer ses affirmations. C'était un modèle du niveau de GPT-3 ; GPT-4 n'aura peut-être pas besoin de chercher autant, mais la recherche reste utile pour des sujets ésotériques. Nous définissons un espace d'action ou DSL que le modèle peut utiliser pour naviguer, comme "rechercher", "cliquer" et "citer". Comme les modèles de langage ont une fenêtre de contexte limitée, il est important de citer pour sauvegarder l'information avant que la page ne sorte du contexte. Le modèle émet du texte qui définit ce DSL. Chaque épisode implique que le modèle navigue pendant 20 à 100 étapes, cite des choses et rédige une réponse. La récompense est calculée avec un modèle de récompense. Nous faisons d'abord du clonage de comportement, puis nous collectons des comparaisons humaines pour entraîner le modèle de récompense, puis nous faisons du RL ou du reclassement. Nous avions une interface utilisateur complexe pour que les étiqueteurs mettent en évidence les affirmations avec un soutien fort ou faible, bien qu'au bout du compte, nous n'ayons utilisé qu'un seul bit d'information. Nous avons constaté que pour le plus grand modèle GPT-3, l'utilisation de 64 échantillons et le reclassement pouvaient battre les démonstrateurs humains. Cependant, les étiqueteurs préfèrent parfois le style des réponses écrites par le modèle, ce qui peut biaiser la comparaison. Nous avons maintenant une version alpha de navigation dans ChatGPT. Elle utilise les mêmes fonctions : rechercher, citer et revenir en arrière. Elle produit en fait un monologue intérieur pendant qu'elle effectue ces actions, montrant ce qu'elle pense au fur et à mesure qu'elle émet des commandes.

John Schulman

Il clique et dit : "Cliquons sur le premier lien pour accéder à la page de la série de colloques du département pour l'EECS à UC Berkeley." Il vous donne son monologue intérieur, puis effectue l'action de cliquer. Enfin, après avoir cité les passages pertinents, il écrit sa réponse. C'est à cela que ressemble la navigation maintenant. D'autres produits font de la navigation maintenant et ont des citations similaires. Une chose que je trouve spéciale à ce sujet, c'est qu'il ne navigue pas toujours ; il ne navigue que lorsqu'il ne connaît pas la réponse. Je pense que cela utilise la même connaissance de soi sur l'incertitude que je décrivais plus tôt. La même chose qui permet au modèle de dire "Je ne sais pas" lui permet de réaliser qu'il ne doit naviguer que lorsqu'il en a besoin. J'ai demandé : "Qu'est-ce que l'algorithme DAGGER ?" DAGGER est un algorithme classique pour l'apprentissage par imitation. Il donne une réponse détaillée sans naviguer du tout. Ensuite, j'ai regardé le blog BAIR, et le premier article portait sur quelque chose appelé Fleet-DAGGER. J'ai demandé : "Qu'est-ce que Fleet-DAGGER ?" Le modèle ne sait pas ce qu'est Fleet-DAGGER, il fait donc une recherche, regarde la sous-page web — qui est l'article complet d'arXiv — et écrit un résumé de ce qu'est Fleet-DAGGER. J'ai vérifié qu'il s'agissait d'un résumé ; il n'a pas fait que copier-coller le tout, mais l'a reformulé un petit peu.

Problèmes ouverts et perspectives futures

John Schulman

C'est tout pour cette partie de la conférence. Il est 18 heures, je vais donc bientôt conclure. Je voulais parler des problèmes ouverts que je vois dans cette lignée de travail. Un grand problème ouvert est de savoir comment inciter le modèle à exprimer avec précision son incertitude avec des mots, c'est-à-dire en utilisant le bon degré de nuance et en expliquant l'intégralité de son état de connaissance. Je ne pense pas que notre méthodologie actuelle de modèle de récompense fasse exactement ce qu'il faut. Elle ne mesure pas réellement à quel point une réponse était meilleure qu'une autre ; elle mesure seulement à quel point elle est convaincue qu'une réponse est meilleure que l'autre. Nous entraînons les modèles de récompense avec le maximum de vraisemblance, où la probabilité que A l'emporte sur B est proportionnelle à l'exponentielle de la différence de score de récompense. C'est juste une perte de classificateur, donc cela ne pénalise pas le modèle pour avoir fait des erreurs avec une confiance excessive ou ne tient pas compte de la nuance. Je pense qu'une réponse fausse sans nuance sera jugée moins bonne qu'une réponse avec nuance, mais nous ne notons pas les choses tout à fait correctement. Il n'est pas clair comment s'entraîner avec une fonction de notation appropriée comme récompense. Si nous demandions au modèle de produire des probabilités sur tout — comme 10% sur cette phrase — cela poserait également des problèmes car le langage naturel est imprécis. Il y a autant de flou sur la phrase que sur la probabilité dépendant de l'interprétation. Cela rend les choses très difficiles. Peut-être devrions-nous avoir des énoncés formels de probabilité aux côtés du langage naturel, mais je ne sais pas exactement comment faire cela. Ou peut-être devrions-nous mettre en place un objectif où plusieurs agents collaborent et doivent exprimer l'incertitude correctement parce que c'est utile à l'autre agent. Une autre catégorie de problèmes ouverts est de savoir comment aller au-delà de ce que les étiqueteurs peuvent facilement faire. Il est très difficile de vérifier une réponse longue sur un sujet technique ou de niche. Il existe un domaine de recherche appelé "supervision évolutive". L'idée est qu'il est souvent plus facile de vérifier qu'une solution est correcte que d'en générer une. C'est l'une des idées les plus fondamentales de l'informatique théorique. Dans le problème P contre NP, une interprétation est qu'un agent faible — le vérificateur — fournit une incitation à un agent fort de sorte que l'optimisation de l'agent fort résout une classe de problèmes difficiles comme SAT. Vous pouvez avoir un agent faible qui ne fait qu'un peu de calcul pour fournir la récompense, et cela conduira à résoudre un problème difficile si vous optimisez votre agent fort. En principe, il devrait être possible d'entraîner un modèle à faire des choses qui sont bien trop difficiles pour les étiqueteurs eux-mêmes. Il y a beaucoup d'idées dans cette direction. Vous pouvez essayer de décomposer la tâche et demander à votre modèle de navigation de vérifier chaque phrase, puis d'agréger automatiquement les résultats. Vous pouvez également utiliser la conception de mécanismes, en mettant en place un jeu où des agents concurrents rivalisent pour l'approbation de votre vérificateur, l'un expliquant pourquoi l'autre a tort. Il y a une belle idée appelée "sécurité de l'IA via le débat". Ce travail est tout à fait nouveau, et nous n'avons pas encore vu de très bonnes mises en œuvre pratiques, mais cela devient nécessaire parce qu'il devient difficile pour les étiqueteurs de suivre le rythme des modèles. Enfin, une chose peu satisfaisante à propos du RLHF est qu'il optimise purement l'approbation humaine. Nous ne connaissons pas toujours la bonne réponse et nous nous trompons probablement sur beaucoup de choses. Nous optimisons simplement pour ce qui semble convaincant. Ce serait formidable si nous pouvions optimiser pour la vérité réelle en ajoutant plus de calcul et en entraînant les modèles plus durement pour se rapprocher de la vérité réelle. Comment fait-on cela ? Une idée est que si vous avez une vérité terrain, vous pouvez optimiser pour l'exactitude. Par exemple, il y a des millions de prédictions sur l'avenir que vous pouvez faire ; si nous utilisons cela comme fonction de récompense, nous pourrions être en mesure de générer de réelles connaissances. La prédiction est une source de génération de connaissances, et vous pouvez aussi faire de la déduction. Si vous avez un système de raisonnement formel ou semi-formel, vous pouvez générer de nouvelles connaissances par déduction. Amener nos modèles à faire cela est un autre défi intéressant. C'est tout. Merci de votre attention.

Questions-Réponses : Quantification de l'incertitude

Je pense que ChatGPT connaît probablement la réponse à la première question que vous avez posée. Vous devriez lui demander d'expliquer les travaux de Fred Mosteller sur la quantification de l'expression probabiliste en 1990. C'est un domaine de recherche très actif. Que signifie dire "Je suis assez sûr" ? Il y a eu énormément de travaux sur ce que cela signifie et comment les gens y pensent quantitativement. Vous devriez regarder cela. Mosteller 1990.

John Schulman

Ce serait une bonne idée.

Questions-Réponses : Créativité et nouvelles connaissances

John, vous avez terminé sur cette note concernant les nouvelles connaissances. Je me demande si vous pouvez dire quelque chose sur l'aspect qui semble comporter un élément de créativité ? Par exemple, quand vous lui donnez une paire de brevets et dites "mettez-les ensemble et proposez quelque chose de nouveau", et qu'il semble s'en sortir raisonnablement bien. Est-ce que cela vous surprend, ou comment considérez-vous cela comme une nouvelle connaissance ?

John Schulman

Cela semble pouvoir être une nouvelle connaissance. Je suppose qu'il y a un certain goût que vous injecteriez en lui posant cette question en premier lieu — soit que c'est une bonne idée de combiner des inventions, soit que ce sont des inventions prometteuses à combiner. Vous collaborez avec le modèle pour créer de la connaissance dans une certaine mesure, mais il n'y a pas de ligne de démarcation nette entre la créativité et le simple apprentissage de la reconnaissance de motifs ou de la complétion de motifs.

Questions-Réponses : Valeurs subjectives et beauté

Sur le même sujet, j'ai entraîné les modèles sur la littérature classique et la philosophie, et je suis curieux sur une question comme "qu'est-ce que la beauté ?" où il n'y a pas de réponse fixe évidente. Comment évaluez-vous les métriques relatives de différentes réponses sur la beauté ? Ont-elles une quelconque préséance sur une sortie ?

John Schulman

J'ai parlé de la difficulté de noter les réponses même quand elles sont censées être objectives et non chargées de valeurs. Si vous avez quelque chose qui dépend du goût et des valeurs, c'est beaucoup plus difficile. Nous n'avons pas de bonne réponse pour cela. La direction que nous avons prise est que nous ne pensons pas que le modèle doive encore avoir des opinions, nous voulons donc que le modèle décrive plutôt l'ensemble des opinions qu'ont les humains. Je voudrais que le modèle redirige cela vers une question plus factuelle sur les théories humaines et les écoles de pensée.

Questions-Réponses : Interprétabilité et monologue intérieur

Salut John, d'abord je veux te féliciter. Il y a cinq ou six ans, j'ai participé à une réunion de prévision des progrès de l'IA avec John, et il était la seule personne plus optimiste que moi. Je pense qu'il mérite beaucoup de crédit pour avoir construit ce qu'il a construit et pour avoir eu l'optimisme, des années à l'avance, que cela était possible. Je voulais poser une question sur la démo WebGPT. C'est génial la façon dont elle donne ce monologue intérieur. Quel est ton niveau d'optimisme par rapport au scepticisme pour l'utilisation de ce format pour l'interprétabilité ? Peut-on distiller un modèle pour qu'il n'ait pas assez de place dans ses couches internes pour réfléchir et qu'il ait besoin de ce monologue intérieur, afin que nous puissions lire ses pensées ?

John Schulman

Absolument. Dans la mesure où nous ne trouvons pas de solutions parfaites pour l'interprétabilité ou pour s'assurer que nos modèles sont sûrs, je pense que c'est une très bonne solution partielle. C'est très utile pour l'interprétabilité. Évidemment, on ne peut pas lui faire entièrement confiance, car le modèle pourrait produire un monologue intérieur trompeur. Mais comme tu l'as dit, on pourrait utiliser un petit modèle pour qu'il doive utiliser le monologue intérieur pour atteindre un certain niveau d'intelligence. On pourrait s'inquiéter de la stéganographie, mais globalement je pense que c'est prometteur. Une chose que je n'ai pas mentionnée est que les monologues intérieurs détaillés permettent d'utiliser des retours à plus court terme. Pour la navigation, si vous n'avez pas le monologue intérieur et que vous voyez une action comme "faire défiler", vous n'avez aucune idée si cette action a du sens. Mais si le modèle dit "Je fais défiler pour chercher X", un humain peut décider si cela a du sens. En ayant un monologue intérieur, vous pouvez vous entraîner avec le RL sur un horizon temporel plus court, ce qui rend le système plus sûr parce que vous n'optimisez pas pour un comportement à long terme qui pourrait mener à des résultats bizarres.

Si tu pouvais dire quelque chose sur des travaux récents... désolé.

Questions-Réponses : Connaissance interne vs externe

Salut John. Tu as mentionné plus tôt qu'il existe un graphe de connaissances intrinsèque dans les modèles et tu as montré un exemple expliquant DAGGER versus Fleet-DAGGER. Puisqu'il était capable d'expliquer directement DAGGER, je suppose que cette connaissance est à l'intérieur du modèle, alors qu'il a dû chercher Fleet-DAGGER. À quelle différence de capacités des modèles t'attends-tu lorsqu'il s'agit d'expliquer ces deux concepts ?

John Schulman

Je n'ai pas saisi la dernière phrase.

Si la connaissance de DAGGER est à l'intérieur et la connaissance de Fleet-DAGGER est en partie à l'extérieur, t'attends-tu à une différence dans les capacités des modèles à expliquer ou à comprendre les deux concepts ?

John Schulman

Je dirais que le modèle est probablement le meilleur avec les concepts qui sont profondément ancrés et vus dans un million de contextes. S'il ne voit un concept pour la première fois que dans un document sur lequel il se conditionne, il va probablement avoir des choses moins intelligentes à dire. Je m'attendrais à ce qu'il soit plus intelligent pour parler de DAGGER que de Fleet-DAGGER. Pour Fleet-DAGGER, il va simplement fournir un résumé de ce qu'il y a dans le document sans dire quoi que ce soit de trop perspicace.

D'accord, merci.

Conclusion et compromis précision-rappel

Hé John, nous allons faire de celle-ci la dernière question.

Vous avez mentionné le problème du modèle qui apprend à retenir des informations. Prévoyez-vous des problèmes de conflit entre l'incitation à entraîner le modèle à ne pas retenir d'informations dans un contexte de domaine ouvert tout en l'entraînant à ne pas produire d'informations non étayées dans un contexte de domaine fermé ?

John Schulman

Je pense qu'il y a un conflit extrêmement fort — un conflit précision-rappel entre l'informativité et l'exactitude. Nous y sommes souvent confrontés lors de l'entraînement. Avec le RLHF, nous choisissons un point raisonnable sur cette courbe de compromis, mais un compromis est inévitable.

Très bien, remercions encore John.

Retour aux entretiens de John Schulman