John Schulman

L'Architecte de ChatGPT : Une Conversation avec John Schulman

3 août 2023

Intelligence Artificielle
Illustration de John Schulman

Introduction et parcours

Pieter Abbeel

OpenAI et l'architecte principal de ChatGPT.

Pieter Abbeel

Avant de diriger le projet ChatGPT, le modèle de langage de grande taille le plus utilisé au monde, John était l'un des premiers pionniers de l'apprentissage par renforcement profond, ayant inventé l'algorithme d'optimisation de politique proximale largement utilisé, également connu sous le nom de PPO, qui fait en fait partie de l'entraînement de ChatGPT. Il a également inventé l'optimisation de politique par région de confiance, ou TRPO. Il a été un contributeur clé d'OpenAI Gym, d'OpenAI Baselines, de Stable Baselines et de nombreux algorithmes de méta-apprentissage de l'ère moderne de l'apprentissage profond. Avant de co-fonder OpenAI, John était en fait un étudiant en doctorat dans mon laboratoire à Berkeley, une époque que je chéris encore beaucoup. John, c'est un plaisir de t'avoir ici. Bienvenue dans l'émission.

John Schulman

Merci de m'avoir invité, Pieter.

Pieter Abbeel

Je suis ravi que nous puissions nous retrouver dans ce format ici. Maintenant John, avant de plonger dans notre conversation, j'aimerais remercier rapidement les sponsors de notre podcast, Index Ventures et Weights & Biases. Index Ventures est une société de capital-risque qui investit dans des entrepreneurs exceptionnels à tous les stades, de l'amorçage à l'introduction en bourse. Avec des bureaux à San Francisco, New York et Londres, la société soutient des fondateurs dans divers secteurs verticaux, notamment l'IA, le SaaS, la fintech, la sécurité, le jeu vidéo et la consommation. Sur une note personnelle, Index est un investisseur dans Covariant, et je ne pourrais pas les recommander davantage. Weights & Biases est une plateforme MLOps qui vous aide à entraîner de meilleurs modèles plus rapidement grâce au suivi des expériences, au versionnage des modèles et des ensembles de données, et à la gestion des modèles. Ils sont utilisés par OpenAI, NVIDIA et presque tous les laboratoires publiant un grand modèle. En fait, beaucoup, sinon tous mes étudiants à Berkeley et collègues chez Covariant sont de grands utilisateurs de Weights & Biases. John, tu étais au centre de la plus grande sortie d'IA de l'histoire récente, beaucoup diraient de tous les temps, la sortie de ChatGPT, qui a fait parler littéralement tout le monde de l'IA, en fait, parler avec l'IA. Juste pour s'assurer que nous sommes tous au même niveau ici, qu'est-ce que ChatGPT ?

Qu'est-ce que ChatGPT ?

John Schulman

ChatGPT est un chatbot qui se trouve sur une application web. Vous pouvez le consulter sur chat.openai.com. C'est un modèle de langage, c'est donc un modèle qui génère du texte. Je pense que la raison pour laquelle il a vraiment décollé est que même s'il existait déjà des modèles de langage auparavant, celui-ci était facile à utiliser car il suffit de lui parler comme on parlerait à une personne et il dépassait un certain seuil d'intelligence qui le rendait réellement utile pour de nombreuses tâches, comme si quelqu'un est curieux au sujet d'un sujet de connaissance aléatoire ou s'il veut de l'aide pour écrire, c'est utile pour beaucoup de choses.

Pieter Abbeel

J'ai pas mal joué avec, John, et je suis toujours impressionné. L'autre jour, je lui ai demandé, je devais faire une présentation à une entreprise et j'ai d'abord demandé de décrire en un paragraphe ce qu'est l'entreprise, et il l'a décrite. Et puis je lui ai demandé : peux-tu maintenant décrire à nouveau l'entreprise, mais en utilisant le style rap de Snoop Dogg pour la décrire ? Et il l'a fait sur-le-champ. Et c'est sûr que Snoop Dogg n'a jamais fait de rap sur cette entreprise, et il a juste assuré. C'est vraiment époustouflant la façon dont il peut recomposer les choses. Comment une telle chose est-elle construite ?

Le processus d'entraînement : Pré-entraînement et RLHF

John Schulman

Oui, il y a donc plusieurs étapes dans le processus d'entraînement de ce modèle. Tout d'abord, on commence par un modèle de langage pré-entraîné, et la façon dont cela fonctionne est qu'on entraîne simplement le modèle à imiter beaucoup de textes écrits par des humains. Nous voulons donc essentiellement entraîner un modèle à utiliser le langage comme les humains, et pour ce faire, il faut trouver beaucoup de texte. Et en pratique, ce que nous faisons, c'est que nous trouvons beaucoup de textes sur Internet et nous entraînons le modèle à produire du texte qui ressemble à cela. Et en pratique, ce qui se passe, c'est qu'il prédit le mot suivant en fonction des mots précédents. On s'entraîne donc sur une grande partie de cela et on obtient son modèle de langage pré-entraîné. Mais maintenant, tout ce qu'il sait faire, c'est générer du texte aléatoire provenant d'Internet, et une partie de cela correspond au type de comportement recherché et une autre non. Nous devons ensuite l'affiner pour avoir un comportement plus cohérent et un comportement professionnel. C'est là que nous effectuons cette deuxième étape d'ajustement, et en particulier nous faisons du RL à partir des retours humains. Et dans le pipeline, nous avons quelques étapes où nous faisons d'abord un peu d'apprentissage supervisé où nous l'entraînons sur des réponses de très haute qualité écrites par des humains que nous avons embauchés, puis nous faisons du RL pour l'améliorer davantage, où nous entraînons un modèle de récompense capable de reconnaître les bonnes réponses, puis nous faisons du RL avec ce modèle de récompense.

Capacités surhumaines et limites actuelles

Pieter Abbeel

Vous faites du RL avec le modèle de récompense, ce qui signifie que le bot génère effectivement du texte, reçoit une note par la récompense et essaie de maximiser cette récompense. Est-il possible qu'en principe, tout comme dans AlphaGo par exemple, on puisse générer un chatbot strictement supérieur à la génération de texte que n'importe quel humain ait jamais été ?

John Schulman

Oh oui, tout à fait. Je dirais que les modèles sont déjà surhumains à certains égards et évidemment pas à d'autres. Certes, si l'on considère la vitesse comme une capacité, ils sont beaucoup plus rapides que les humains pour écrire des poèmes et ainsi de suite, ou pour écrire des paroles à la manière de Snoop Dogg. Je dirais donc que dans l'ensemble, les modèles ne sont jamais, ce n'est pas un scalaire unique qui mesure l'intelligence du modèle, et ils sont surhumains à certains égards, comme leur vaste étendue de connaissances et leur capacité à écrire dans tous ces styles différents et à suivre très bien les motifs, et puis ils sont moins bons que les humains de bien d'autres manières.

Pieter Abbeel

De quelles manières penses-tu qu'ils ne sont pas encore très bons ?

John Schulman

Voyons voir. Certes, il existe de nombreuses tâches comme le raisonnement mathématique où ils ne sont pas du tout aussi bons que des humains qualifiés. Je dirais que si vous voulez qu'ils effectuent une tâche de longue haleine, même si vous les guidez très soigneusement, que vous leur dites ce que vous voulez qu'ils fassent et que vous leur dites qu'ils peuvent franchir plusieurs étapes, ils se retrouvent souvent bloqués au milieu et ne sont pas très doués pour s'en remettre.

Pieter Abbeel

Pour être juste, beaucoup d'humains mettent aussi du temps avant de devenir bons en mathématiques. En fait, certains humains n'atteignent jamais vraiment le plus haut niveau des mathématiques. La plupart des gens n'atteignent pas le niveau des humains les plus intelligents en mathématiques, n'est-ce pas ? Alors, penses-tu qu'il puisse y avoir une voie où ce n'est que le début, mais où l'on pourrait continuer à s'améliorer dans des domaines comme les mathématiques ?

John Schulman

Oh oui, je pense que les modèles vont continuer à s'améliorer. Et il est difficile de décrire exactement quelles sont les limites ou les limites fondamentales. Il y a certainement des limites en ce moment, comme le fait que les modèles n'ont pas beaucoup d'actionneurs que nous avons, par exemple ils peuvent simplement écrire du texte, ils ne peuvent rien faire d'autre. Mais ce sont des limites très superficielles. Une fois que l'on a surmonté ces obstacles, on ne voit pas clairement quels sont les bloqueurs fondamentaux. Je ne pense certainement pas que les modèles soient assez intelligents pour effectuer une pensée créative de très haute qualité en mathématiques et en sciences, donc je pense que c'est un peu plus lointain, mais on ne sait pas exactement combien de temps cela va prendre ni comment cela va se passer.

L'évolution vers ChatGPT

Pieter Abbeel

Maintenant John, tu as mentionné que les modèles de langage existaient déjà, mais ChatGPT a en quelque sorte dépassé son seuil de personnes ayant tout d'un coup envie d'interagir avec lui, ce qui n'était pas autant le cas avec l'un des modèles précédents. Lorsque tu travaillais sur ChatGPT et son prédécesseur InstructGPT, en y apportant la composante d'apprentissage par renforcement, pensais-tu que cela allait arriver ? Était-ce ce que tu avais en tête, ou quelle était simplement ta réflexion avant que tout ne décolle ?

John Schulman

Eh bien, je pensais que l'interface utilisateur de chat était beaucoup plus facile à utiliser que ce que les gens avaient auparavant. Je pensais donc qu'il y avait beaucoup de potentiel là-dedans, même avec un produit assez minimal, et que ce serait simplement un format intuitif. Je n'avais certainement pas anticipé à quel point il deviendrait populaire. Je pensais qu'il n'aurait qu'un attrait de niche. Et on peut utiliser le modèle InstructGPT pour faire un chatbot, par exemple si on lui donne les bonnes instructions, on peut lui dire de se comporter comme un chatbot et on obtiendra quelque chose de décent. Et cela aurait été le cas au moment où nous avons sorti ChatGPT, vous auriez obtenu quelque chose qui était presque aussi bon, mais pas tout à fait. Nous avons entraîné ChatGPT à être un peu plus conscient de lui-même et à comprendre ses limites et à moins halluciner, alors que les modèles Instruct précédents étaient davantage conçus pour la poursuite de texte et l'exécution de tâches d'écriture où cela impliquait en quelque sorte des hallucinations, ce qui est un peu une fonctionnalité. Je pense donc que c'était un peu mieux que ce que l'on aurait pu créer auparavant, mais pas de manière spectaculaire, j'ai donc été surpris que cela explose autant.

Cas d'utilisation créatifs et programmation

Pieter Abbeel

Alors qu'il a explosé et est utilisé si largement, y a-t-il des utilisations de ChatGPT que tu as vues et qui t'ont en quelque sorte surpris ou enthousiasmé ? Juste des choses amusantes que tu as vu les gens faire.

John Schulman

Eh bien, je vois que les gens l'utilisent de nombreuses façons différentes pour en tirer de la valeur. Par exemple, beaucoup de gens qui, c'est un cas d'utilisation évident, mais les gens qui ne sont pas de langue maternelle anglaise ou qui ont besoin d'aide pour écrire sur le bon ton l'utiliseront beaucoup pour obtenir de l'aide à la rédaction. C'est donc un cas d'utilisation évident, même pour les modèles gratuits et moins intelligents, car vous n'avez pas besoin de GPT-4 pour cela, qui est le modèle plus puissant pour lequel vous devez payer. L'aide à l'écriture est donc évidente. J'imagine que je vois des cas d'utilisation créatifs, comme des gens qui l'utilisent pour écrire des histoires au moment du coucher pour leurs enfants ou pour, je ne sais pas, les gens vont juste s'amuser avec. On peut l'utiliser pour trouver des accroches de conversation, j'ai vu des gens faire ça. Je l'ai utilisé pour des conseils de voyage et des conseils sur les types d'activités amusantes à faire.

Pieter Abbeel

Et je vois mes étudiants l'utiliser tout le temps pour leur programmation, même s'il ne s'agit pas de texte anglais au sens strict de l'anglais, il semble être aussi très bon en programmation.

John Schulman

Oh oui. En fait, le cas d'utilisation de la programmation est en quelque sorte celui que j'utilisais et que mes collègues utilisaient. C'est donc en quelque sorte celui que nous avons vraiment testé en interne et c'était une grande motivation précoce. Oh oui, je dirais que le simple fait de voir à quel point cela aide les non-experts à programmer est vraiment passionnant. Des gens qui n'ont pas vraiment étudié la programmation, mais qui peuvent simplement demander au modèle de leur écrire un script, et j'ai vu des gens faire des choses très compliquées alors qu'ils n'ont jamais vraiment appris formellement la programmation et qu'ils ne s'en croyaient pas capables auparavant.

Le problème des hallucinations

Pieter Abbeel

C'est vraiment super excitant. Je l'ai vu. Tu as fait allusion à cette notion d'hallucinations à plusieurs reprises, John, à savoir que ChatGPT pourrait avoir des hallucinations. Que sont-elles, et as-tu des réflexions sur la manière d'éviter d'avoir de telles hallucinations dans le modèle ?

John Schulman

Oui, les hallucinations sont simplement le moment où le modèle commence à inventer des choses et à produire des textes qui semblent plausibles mais qui inventent des faits, des chiffres ou des citations. Et la raison pour laquelle on obtient cela est que, eh bien, si nous y sommes autorisés, il est parfois plus facile de comprendre le modèle en disant qu'il a une certaine agence. On pourrait dire que le modèle se soucie plus de paraître juste ou de paraître écrire dans le bon style que d'être réellement correct. Et c'est évidemment vrai si vous réfléchissez à l'objectif de vraisemblance maximale où vous essayez simplement de produire des mots probables. Ainsi, dans cet objectif, il y a peut-être une petite composante où il essaie de produire des choses correctes, mais il y a une tendance beaucoup plus forte à produire simplement quelque chose qui est dans le bon style ou qui ressemble à une réponse. Donc, si vous avez un modèle qui n'est pas entraîné de manière naïve, il va beaucoup halluciner. Et avec l'ajustement que nous faisons par RL à partir du retour humain, nous réduisons cela de manière considérable. Nous ne nous en débarrassons toujours pas complètement, donc les modèles hallucinent. Notre modèle gratuit hallucine pas mal, surtout si vous commencez à lui demander des citations et ce genre de choses, il va tout simplement inventer quelque chose. Le meilleur modèle basé sur GPT-4 n'hallucine pas autant, mais il le fera encore occasionnellement, surtout si vous demandez certains types de détails qu'il n'a pas et pour lesquels il n'a pas été entraîné à être conscient de cette limitation.

Pieter Abbeel

Tu dis qu'it n'a pas été entraîné à être conscient de cette limitation, ce qui semble suggérer qu'il existe un moyen de l'entraîner à en être conscient. Comment cela fonctionne-t-il ? Comment le sensibilise-t-on à de telles limites ?

John Schulman

Nous pouvons parfois entraîner les modèles à être conscients d'une limitation spécifique. Par exemple, les premières versions de nos modèles n'avaient aucune idée de leurs capacités. On lui demandait donc : "Peux-tu envoyer un e-mail à telle ou telle personne ?", et il répondait : "Oui, je viens d'envoyer cet e-mail", parce que c'est un peu ce qu'un chatbot utile dirait. Nous sommes donc allés l'entraîner simplement avec ce type de requête spécifique et nous l'avons entraîné à dire : "No, je ne peux pas envoyer d'e-mails". Vous pouvez donc procéder à un processus progressif où vous enseignez au modèle des limites spécifiques qu'il n'a pas, puis le modèle va en quelque sorte généraliser. Je dirais que GPT-4, comme c'est un modèle très intelligent, généralise assez bien. Si vous lui apprenez quelques choses qu'il ne peut pas faire, il en déduira beaucoup d'autres choses qu'il ne peut probablement pas faire. Mais il ne le fait pas parfaitement. Par exemple, pour des choses comme les citations, le modèle possède en fait beaucoup de connaissances sur ce qu'il y a dans des livres spécifiques, des articles célèbres, etc. Ainsi, si vous lui demandez une citation, il vous en donne parfois des correctes. Et cela est considéré comme utile. Ainsi, lorsque nous effectuons notre processus d'évaluation, il est évidemment préférable pour lui de donner la réponse que de ne pas la donner. Le modèle pense donc qu'il peut parfois donner des citations correctes, mais il n'a pas tout à fait un bon ressenti interne de son niveau de confiance concernant ces citations. Il arrive donc qu'il les invente. Et j'imagine qu'il ne sait probablement pas qu'il les a inventées, ou bien il pourrait en fait le savoir. Parfois, vous pouvez lui demander : "Es-tu sûr de cela ?" et il répondra : "No, désolé, j'ai inventé ça". J'imagine que nous ne comprenons pas totalement comment toutes ces capacités se généralisent et comment l'enseignement des limites se généralise, c'est donc certainement un sujet intéressant pour de futures recherches.

Récupération d'informations vs Connaissance interne

Pieter Abbeel

Lorsque tu parles d'introduire des citations, il semble qu'une alternative, au lieu de demander au modèle de lire au préalable l'intégralité d'Internet, pour ainsi dire, puis d'essayer de répondre quand même avec des citations, soit de le laisser récupérer des éléments à la volée. Que penses-tu des compromis entre les modèles utilisant la récupération et les modèles dont tout est entraîné dans leurs poids ?

John Schulman

Oui, je pense qu'il y a une place pour les deux approches et c'est ce que nous faisons actuellement. Dans ChatGPT, nous avons un modèle de navigation qui a dû être temporairement retiré récemment mais qui sera de retour. Nous avons donc un modèle capable de chercher des informations sur le web, mais le modèle par défaut ne le fait pas. Je pense que les modèles peuvent stocker une énorme quantité d'informations dans leurs poids, y compris des connaissances factuelles très détaillées. Et si vous avez des informations dans les poids, le modèle peut les utiliser de manière très flexible. Il peut établir des liens entre les choses, ou si vous posez une question sur quelque chose qui est vaguement lié, il peut établir un lien qu'il serait difficile d'établir avec une requête de recherche. Je pense qu'avoir des informations dans les poids va finalement conduire à un comportement plus intelligent et plus flexible, mais il y a quelques avantages majeurs à pouvoir également effectuer une récupération. Tout d'abord, vous avez accès à des informations en temps réel. Vous avez accès à plus de détails que ce que vous seriez capable d'entasser dans les poids. Et enfin, c'est aussi plus vérifiable par un humain. Je pense qu'il est extrêmement important de rendre ces sorties de modèles vérifiables, tant dans le cadre du processus d'entraînement que dans celui des cas d'utilisation au moment des tests. Au moment de l'entraînement, lorsque des humains examinent les sorties et les évaluent, les modèles ont une telle étendue de connaissances que les personnes qui font l'évaluation pourraient ne pas en savoir assez sur le sujet pour réellement évaluer la réponse. Si le modèle peut fournir des citations, cela facilite grandement la supervision précise. C'est vraiment important. Mais aussi, en tant qu'utilisateur final, être capable de vérifier ce que le modèle de langage a produit est extrêmement utile pour des raisons évidentes, car il leur arrive de halluciner. Si vous pouvez simplement rendre sa production vérifiable, ce sera évidemment utile, surtout s'il s'agit d'un contexte à enjeux élevés, comme la médecine.

Mise à l'échelle et limites des données

Pieter Abbeel

Entièrement d'accord John. Maintenant, en ce qui concerne la technologie sous-jacente, si je comprends bien, une grande partie du régime d'entraînement des grands modèles de langage effectue un entraînement à une seule époque, ce qui signifie que vous ne parcourez vos données d'entraînement qu'une seule fois, et non plusieurs fois. Est-il alors surprenant qu'il puisse se souvenir de ces choses spécifiques en un seul passage ? As-tu une intuition sur la façon dont, en un seul passage sur les données, il a obtenu une seule étape de gradient sur cette citation spécifique et qu'il la stocke d'une manière ou d'une autre ? Cela me semble surprenant. Je ne dis pas que ce n'est pas vrai, je suis juste très surpris par cela.

John Schulman

Il est surprenant de voir à quel point ces modèles de langage absorbent les informations issues des données de pré-entraînement. Je dirais que n'importe quel fait donné apparaîtra dans de nombreux documents différents sur Internet et s'il n'est présent que dans un seul document, le modèle ne pourra probablement pas s'en souvenir, du moins les modèles actuels. C'est une question intéressante de savoir combien de fois le modèle doit voir le fait pour vraiment l'internaliser et je suppose que cela se situe quelque part dans les dizaines, mais il est difficile de le dire avec certitude.

Pieter Abbeel

Parlons d'Internet et des données, ces modèles sont évidemment entraînés sur beaucoup de données et ton collègue Sam Altman a récemment mentionné que nous pourrions être à court de carburant en tant que communauté dans la mesure où, si nous continuons à faire évoluer ces modèles, ils pourraient ne plus s'améliorer. Pas assez d'opportunités à venir en termes de données et de mise à l'échelle des modèles. Qu'en penses-tu ?

John Schulman

Il est certain que les méthodes existantes de mise à l'échelle des données et des modèles pourraient s'essouffler après un certain temps ou, du moins, les améliorations pourraient être, disons, logarithmiques par rapport à la taille des ensembles de données et à la puissance de calcul de l'entraînement. On finit par atteindre des rendements décroissants. Mais je dirais qu'il y a encore beaucoup à faire et je ne vois pas les choses stagner de sitôt.

Open Source vs Source Fermée

Pieter Abbeel

L'une des choses qui se passe en ce moment dans le domaine est qu'il y a bien sûr de nombreux modèles concurrents qui sortent également. Il n'y a pas que ChatGPT, il y en a eu beaucoup d'autres, y compris de nombreux modèles open source. Je suis curieux de savoir quel est, selon toi, le rôle des sorties en source fermée par rapport aux sorties open source. Sont-elles toutes les deux importantes ? L'une est-elle juste par rapport à l'autre ? Quelle est ta réflexion ?

John Schulman

Oui, et en fait Llama 2 est sorti aujourd'hui, donc c'est une question d'actualité. Eh bien, je pense que les modèles open source sont certainement très bons pour la recherche, par exemple pour permettre aux chercheurs universitaires de faire des expériences où ils affinent les modèles et apportent des modifications à l'architecture, et ainsi de suite. Essayer de faire le genre de travail que nous faisons chez OpenAI, comme essayer d'améliorer le RL à partir des retours humains. Le fait d'avoir un modèle open source vraiment solide rend cela possible. Je pense donc que c'est très précieux. Je pense que les modèles fermés sont actuellement meilleurs, ou du moins les meilleurs modèles qui existent sont meilleurs. Et je pense qu'il serait difficile d'inciter les modèles à devenir vraiment bons sans qu'il y ait un intérêt commercial, sans qu'il s'agisse d'un modèle fermé. Je m'attendrais donc à ce que les meilleurs modèles soient des modèles fermés, mais les modèles ouverts sont vraiment bons pour la recherche et je m'attends à ce qu'ils soient également bons pour de nombreuses utilisations commerciales où les gens découvrent comment les affiner sur leurs données spécifiques ou les affiner d'une manière qui n'est pas actuellement permise par les fournisseurs commerciaux existants.

Pieter Abbeel

Est-ce peut-être lié de manière effective aux ressources nécessaires pour disposer de données de haute qualité et de grandes quantités de calcul, et qu'il pourrait être très difficile d'accéder à ces ressources si vous construisez un modèle open source ?

John Schulman

Oui, c'est exact. Il est difficile d'inciter à faire un investissement aussi important dans un modèle open source dont on ne peut pas tirer d'argent. Je ne m'attendrais donc pas à ce que les modèles à la pointe de la technologie soient open source, mais je pense qu'ils créent de la valeur. Ils créent une sorte de bien public. Je veux dire qu'ils pourraient aussi, il y a aussi des inquiétudes concernant la sécurité ou des craintes qu'ils puissent aussi créer un préjudice public, par exemple si des gens utilisent ces modèles pour faire du spam, du spam à très grande échelle qui ne serait pas autorisé par les fournisseurs d'API. Je pense donc que cela finira par poser un problème et qu'ensuite, peut-être que des entreprises comme Meta qui produisent des modèles open source devront y réfléchir à deux fois, mais nous verrons comment cela se passera.

L'avenir : Multimodalité et supervision améliorée

Pieter Abbeel

Quand tu penses aux grands modèles de langage d'aujourd'hui John, ils ont évidemment déjà toutes sortes de capacités. Ils ont aussi certaines limites. Vois-tu l'avenir pour passer au niveau supérieur comme consistant à faire plus de la même chose, en quelque sorte, comme continuer à organiser les données textuelles avec les retours humains ? Ou penses-tu qu'il faille introduire autre chose ? Juste pour lancer une idée, imagine que le modèle ait peut-être accès à des vidéos pour mieux comprendre à quoi ressemble le monde physique, ou qu'il ait peut-être accès à un simulateur et puisse tester ce que l'on ressent dans le monde physique d'une certaine manière. Ces choses pourraient-elles le faire passer au niveau supérieur ou cela semble-t-il peu pertinent par rapport au simple fait d'injecter davantage de données du type actuel ?

John Schulman

Oui, je pense que l'ajout de nouvelles modalités comme la capacité de percevoir des vidéos va apporter beaucoup. Donc, si nous sommes dans un régime où nous obtenons des rendements décroissants en augmentant les données existantes, l'ajout d'une nouvelle modalité permet simplement au modèle d'accéder à beaucoup de connaissances qu'il n'obtiendrait pas sous forme de texte et aussi de pouvoir potentiellement agir de manières que le modèle de langage pur ne permettrait pas. Par exemple, tout ce qui implique une interaction avec le monde physique bénéficiera grandement de la perception vidéo. En fait, même l'interaction avec les écrans d'ordinateur, simplement parce que tous les logiciels sont conçus pour les humains. Donc, si vous pouvez simplement voir les pixels et percevoir la vidéo, vous pouvez utiliser toutes sortes de logiciels existants ou aider les gens à utiliser ces logiciels. Je pense donc que le simple fait de donner au modèle de nouvelles possibilités et d'interagir avec de nouvelles choses va beaucoup ajouter à leurs capacités effectives. Je pense qu'il y a aussi beaucoup plus dans le monde du modèle de langage pur que le simple fait d'augmenter ce qui existe déjà. Je pense toujours que nous avons un long chemin à parcourir pour affiner les modèles de manière plus intelligente et je pense que le pipeline de RL à partir du retour humain a une grande marge d'amélioration. En particulier, un domaine important est l'utilisation des modèles pour s'aider à s'évaluer eux-mêmes au lieu de simplement entraîner ce modèle de récompense sur des données humaines.

Pieter Abbeel

Cela me rappelle des choses comme les GAN, où un modèle est entraîné par l'autre pour générer du texte plus réaliste dans ce cas, mais ce serait des images dans le scénario original des GAN, et cela commence à ressembler beaucoup à cela. Pour en venir à l'ajustement, John, on a dit que l'étape d'ajustement pourrait réduire la capacité de généralisation et l'étendue des connaissances que le modèle est encore capable d'exposer. Penses-tu même que ce soit vrai et, si oui, comment cela se produirait-il ?

John Schulman

Il est tout à fait vrai que lorsque l'on affine les modèles, on réduit la variété des styles et des types de contenu qu'ils vont produire. Et nous obtenons effectivement ce qu'on appelle un effondrement de mode ou un effondrement d'entropie où, dans certains cas, le modèle produit un ensemble de réponses très étroit ou une réponse unique. Ainsi, si vous demandez à ChatGPT "raconte-moi une blague", il vous racontera probablement toujours la même blague. Je pense que la blague exacte qu'il raconte oscille un peu, il y en avait une du genre : "Pourquoi les scientifiques ne font-ils pas confiance aux atomes ? Parce qu'ils composent tout." Il y a des blagues idiotes comme ça auxquelles le modèle s'accroche. Quoi qu'quoi qu'il en soit, on obtient vraiment ce genre d'effet d'effondrement de mode. Je pense qu'il y a aussi probablement une certaine dégradation des capacités du modèle lors de l'affinage, simplement parce que le pré-entraînement se fait avec des lots beaucoup plus importants et que l'on s'assure réellement de préserver toutes les capacités sur cette immense variété de types d'entrées. Ensuite, lorsque vous affinez les modèles, vous disposez d'un ensemble de données beaucoup plus petit, il est donc possible que vous perdiez certaines capacités qui n'étaient pas représentées dans vos ensembles de données d'affinage et vous introduisez également, enfin, il y a tout simplement plus de bruit dans le processus d'affinage, de sorte que vous dégradez un peu le modèle à cause de ce bruit. Je pense qu'il y a un peu de cela. Je pense que nous effectuons divers tests de référence sur les modèles et que nous les comparons aux modèles de base pré-entraînés, et nous essayons de nous assurer que les capacités ne se dégradent pas trop. Je suis presque sûr qu'elles ne se dégradent pas avec les dernières recettes que nous utilisons, elles ne se dégradent pas tant que ça, mais oui.

IA et recherche scientifique

Pieter Abbeel

Je veux bientôt parler davantage de ta trajectoire, mais là où nous en sommes actuellement, les grands modèles de langage dominent la conversation car ils ont fait le plus grand bond en avant, ou plusieurs grands bonds en avant par rapport à n'importe quel autre domaine. C'est pratiquement ce dont tout le monde parle à cause du grand changement de capacités. Vois-tu autre chose à l'horizon dont tu te dirais "eh bien, peut-être que ce domaine ou ce domaine de l'IA pourrait connaître un bond en avant tout aussi important à l'avenir" ? Qu'est-ce que ce serait ?

John Schulman

Je n'ai pas de domaine spécifique qui, selon moi, va vraiment décoller. Je pense que les modèles de langage vont servir de noyau sur lequel beaucoup de choses seront construites. Je pense que d'autres modalités seront probablement construites par-dessus les modèles de langage, par exemple vous prendrez les grands modèles de langage et vous y ajouterez la vision, la vidéo, etc. Parce que je pense que le langage est très dense en informations et qu'il ne contient pas autant de bruit que d'autres types de données comme la vidéo. Pendant longtemps, le langage va être un bon moyen d'absorber beaucoup d'intelligence avec une quantité limitée de calcul, mais il y a ensuite un transfert entre le langage et d'autres modalités. Je pense donc que vous allez voir des gens avoir du langage plus de la vidéo, etc. Peut-être même que pour quelque chose comme la robotique, je prédirais qu'en fait la robotique finira par, pour la robotique les gens utiliseront une sorte de modèle multimodal qui est entraîné conjointement avec le langage, la vidéo et le contrôle. Je pense que ce genre de chose doit être dans l'avenir de l'IA. Je dirais qu'il y a aussi des domaines qui sont totalement orthogonaux au type de modèle que vous entraînez et qui vont gagner en importance. Je dirais que cette idée de supervision évolutive ou d'amélioration de la qualité de la supervision va devenir plus importante. L'idée ici est la suivante : comment collecter des données dans des domaines difficiles où il est même difficile d'amener des humains à produire des étiquettes de haute qualité ou des démonstrations de haute qualité. Alors, comment utiliser le modèle et l'humain ensemble pour créer des données de meilleure qualité qu'un humain ne serait capable de créer et superviser des modèles dans des domaines qui sont vraiment difficiles. Je pense que c'est un problème important et qu'il deviendra probablement plus populaire dans le monde de la recherche sur l'apprentissage automatique.

Pieter Abbeel

L'exemple qui me vient à l'esprit est celui d'une IA qui ferait de la recherche scientifique efficace, qui irait peut-être lire des données biologiques que les humains ne savent pas vraiment lire, comme des séquences de protéines, des séquences d'ARN et d'ADN, puis examinerait les résultats expérimentaux et les combinerait d'une manière ou d'une autre en de nouvelles hypothèses ou même des conclusions qui sont très difficiles à formuler pour les humains.

John Schulman

Oui, je suis d'accord, je pense que c'est vraiment passionnant. Et il pourrait y avoir certains domaines comme la biologie qui sont tout simplement trop compliqués pour les humains et peut-être que si nous, puisque les IA, même si elles ne sont pas plus intelligentes que les humains, peuvent certainement faire plus de travail plus rapidement. Il se pourrait donc que nous puissions leur faire passer au crible beaucoup de données compliquées issues de la biologie et trouver quelque chose.

Trajectoire de recherche : De la robotique au RL

Pieter Abbeel

Oui, j'ai hâte de voir cela arriver. Peut-être que nous y travaillerons tous les deux à l'avenir, qui sait. Maintenant, une chose qui m'a frappé en regardant ton parcours professionnel, John, c'est la façon dont tu as passé d'un sujet à l'autre, n'est-ce pas ? Tu as commencé dans mon laboratoire par l'apprentissage par imitation pour la robotique, puis tu as conclu que l'apprentissage par renforcement serait la clé pour progresser davantage, puis à partir de là, bien sûr, tu as passé beaucoup de temps sur l'apprentissage par renforcement chez OpenAI et tu l'as introduit dans les modèles de langage. Je suis donc vraiment curieux de cette trajectoire. Commençons peut-être par le plus récent et remontons vers le passé. Quand as-tu décidé de commencer à t'intéresser aux modèles de langage et pourquoi ?

John Schulman

Je dirais qu'autour de GPT-2, il a commencé à devenir clair que ces choses étaient vraiment bonnes et méritaient que l'on s'y intéresse. Je n'ai donc pas vraiment basculé vers le travail sur les modèles de langage à ce moment-là. En fait, ma conclusion à ce moment-là était que l'apprentissage non supervisé fonctionnait désormais d'une certaine manière et que l'entraînement d'un modèle génératif était un très bon moyen de créer un modèle doté de capacités polyvalentes pouvant être affinées pour une tâche en aval, car à l'époque je m'intéressais beaucoup à l'efficacité des échantillons dans l'apprentissage par renforcement. C'est la vitesse à laquelle le modèle peut apprendre une nouvelle tâche. Et c'est, à certains égards, le problème central de l'apprentissage par renforcement et on pourrait même dire que c'est l'un des problèmes centraux de l'IA. Je m'intéressais donc vraiment à l'efficacité des échantillons et GPT-2 est sorti, et GPT-2 pouvait faire beaucoup de choses comme le "few-shot", c'est-à-dire que vous donnez au modèle quelques exemples et il comprend dans le contexte, mais il y avait aussi beaucoup de bons résultats en l'affinant pour effectuer différentes tâches comme résoudre tous ces tests de référence en langage naturel. Quoi qu'il en soit, je pensais à l'époque que nous devrions peut-être entraîner le RL pour des domaines comme les jeux et pour la robotique, nous devrions peut-être entraîner des modèles vidéo, puis les affiner sur des tâches de RL. J'y ai travaillé un peu et cela a fonctionné dans une certaine mesure, mais cela n'a pas fini par fonctionner assez bien pour m'enthousiasmer vraiment. Mais ensuite, autour de GPT-3, j'ai été encore plus époustouflé par la qualité de GPT-3 et j'ai alors décidé qu'il était logique de faire pivoter mon travail et celui de mon équipe pour faire du RL sur les modèles de langage. Nous n'étions pas vraiment les premiers chez OpenAI à faire du RL sur les modèles de langage, mais nous avons décidé, en tant qu'équipe RL, qu'il était logique pour nous d'aller dans cette direction. À cette époque, nous avons commencé à travailler sur, eh bien, nous avions deux projets, l'un portait sur la résolution de problèmes mathématiques et l'autre sur l'incorporation de la récupération et de la navigation web et l'utilisation du RL pour apprendre à mieux utiliser ces outils. C'est ainsi que je me suis lancé dans les modèles de langage. Je ne me souviens pas de la chronologie exacte, cela devait être à la mi-2019.

Pieter Abbeel

Maintenant, tu as fait une transition auparavant pendant ton doctorat, tu es passé d'une concentration réelle sur l'apprentissage par imitation, en obtenant de très bons résultats en enseignant aux robots à partir de démonstrations, à la décision que l'apprentissage par renforcement serait la clé pour progresser. Pourquoi as-tu fait cette transition à l'époque ? Car je pense que pour beaucoup de chercheurs, la grande question est de savoir si l'on travaille sur la bonne chose, n'est-ce pas ? Et surtout si vous avez déjà investi pas mal de temps sur un sujet, prendre la décision de passer à un sujet voisin mais nouveau est une décision coûteuse car vous ralentirez probablement pendant un certain temps dans votre production avant de commencer à atteindre le même genre de productivité dans le nouveau domaine. Je suis donc curieux de connaître ton processus de réflexion à l'époque, même en tant qu'étudiant en doctorat, le fait que tu aies déjà osé changer de sujet d'une certaine manière.

John Schulman

Oui, je dirais que le passage du travail sur la robotique au travail sur le RL a été le plus grand changement que j'ai fait, sauf peut-être le fait d'entrer dans l'apprentissage automatique en premier lieu. Mais je dirais que c'était un changement important car, comme tu t'en souviens, j'ai joué avec des exemples simples pendant longtemps, j'ai joué avec des choses comme le "cartpole" et ce genre de choses pendant environ six mois. Mais cela impliquait un grand saut dans l'inconnu. Je dirais que ceux que j'ai faits après ont semblé un peu plus fluides et relevaient davantage d'une transition continue, comme passer du RL sur ce domaine au RL sur cet autre domaine ou se concentrer sur un problème plutôt qu'un autre. Ces transitions ont toujours semblé assez naturelles et je pense qu'il était bon, enfin, il s'est avéré soit prescient soit chanceux de passer au RL au moment où je l'ai fait.

Conseils pour la recherche et le doctorat

Pieter Abbeel

Je veux dire que tu as fait certains des premiers travaux en combinant l'apprentissage profond avec l'apprentissage par renforcement, du moins à l'ère moderne où l'apprentissage profond a vraiment commencé à fonctionner, ce qui constitue encore le travail sur lequel beaucoup de gens s'appuient et utilisent aujourd'hui, y compris bien sûr l'optimisation de politique proximale qui est probablement l'algorithme d'apprentissage par renforcement le plus largement utilisé encore aujourd'hui. Je suis curieux, quand tu y repenses, cela fait un moment que tu avez terminé ton doctorat John, n'est-ce pas ? Cela fait probablement sept ans maintenant. Mais tu dois te souvenir de tes années de doctorat et surtout de ce qui préoccupe beaucoup d'étudiants en doctorat aujourd'hui, à savoir l'industrie, en particulier OpenAI qui dispose d'un budget énorme, un budget très important, n'est-ce pas ? Le dernier investissement de Microsoft est de dix milliards de dollars, ce qui semble aller en grande partie au calcul et peut-être à l'organisation des données, etc. Ce genre de budget n'est évidemment pas disponible dans les programmes de doctorat, n'est-ce pas ? Il semble donc que certaines opportunités de progresser dans l'IA existent chez OpenAI mais n'existent peut-être pas dans les programmes de doctorat. De ton point de vue, en étant chez OpenAI, vois-tu encore des opportunités de faire des choses qui ne nécessitent pas un budget massif de calcul et de données et qui sont également très passionnantes ?

John Schulman

Oui, je le pense. Je veux dire que je vois de temps en temps des articles du monde universitaire que j'aime, donc c'est tout à fait possible. Je dirais qu'il faut en quelque sorte, oui, c'est un peu délicat. Il faut trouver une sorte de niche où l'on ne va pas se faire devancer par l'industrie ou, en fait, où son travail ne va pas être simplement rendu obsolète par un modèle qui sort. Donc oui, il faut y réfléchir, mais je pense qu'il existe de nombreux sujets de ce type, que vous fassiez un type d'affinage intéressant ou une sorte d'investigation scientifique pour comprendre ces modèles et comment ils généralisent ou comment mieux les superviser. Je dirais qu'il y a beaucoup d'opportunités pour faire un travail scientifique de haute qualité, comme essayer de creuser réellement et de comprendre les choses, alors que dans un laboratoire industriel, l'accent pourrait être davantage mis sur les résultats et sur la création de meilleurs produits. Je pense qu'il y a beaucoup d'opportunités de faire les choses avec une grande précision, d'être curieux et d'essayer de comprendre les choses en tant qu'étudiant en doctorat.

Pieter Abbeel

Y a-t-il des exemples de choses qui t'enthousiasmeraient personnellement si tu avais du temps libre, mais où tu te dirais "waouh, ce sont des problèmes que si j'étais étudiant en doctorat aujourd'hui, je pourrais aborder", ou y a-t-il peut-être un processus sur la façon dont tu identifierais de tels problèmes ?

John Schulman

Oui, voyons voir, je n'ai pas de liste préparée, alors peut-être que je choisirais le processus, nous pouvons parler du processus à la place. Eh bien, je réfléchirais probablement à ce qui, d'accord, alors tout d'abord quelles sont les capacités que je trouverais passionnantes pour les modèles et pour lesquelles on ne voit pas tout à fait comment y parvenir. Quelles sont les limites de la façon dont nous entraînons actuellement les modèles ? Peut-être qu'il ne s'agit pas d'une nouvelle capacité, du genre "vous voulez que le modèle fasse de la chirurgie" ou quelque chose comme ça, mais c'est du genre "il semble dommage que nous fassions les choses de cette façon", par exemple "il semble dommage que nous ne comprenions pas d'où proviennent les capacités du modèle dans l'ensemble de données". Je pense que c'est en fait un domaine intéressant, c'est comme l'attribution du comportement du modèle à l'ensemble de données. Il y a eu des travaux récents intéressants à ce sujet, mais le fait que nous pré-entraînions les modèles, puis que nous les affinions sur ces différentes soupes de données et que nous obtenions quelque chose à la fin sans être sûrs d'où proviennent tous ses comportements. Cela semble problématique, alors on pourrait avoir cette idée et ensuite revenir en arrière et se dire "d'accord, comment pouvons-nous corriger cela ?" et ensuite partir de là. Je ferais peut-être une combinaison de réflexion sur les futures capacités d'intérêt ou de réflexion sur les faiblesses des méthodes actuelles et j'essaierais simplement de les corriger, puis j'éviterais les choses qui semblent être sur la voie d'être résolues sans mon aide.

Nouveaux paradigmes et apprentissage humain

Pieter Abbeel

Si nous regardons en arrière les origines de l'apprentissage profond avec Jeff Hinton, Yoshua Bengio, Yann LeCun y travaillant pendant de nombreuses années avant que cela ne porte ses fruits, bien sûr avec de nombreux collaborateurs. Penses-tu qu'il soit possible que nous soyons à nouveau dans un optimum local ? À l'époque, personne ne travaillait sur l'apprentissage profond, à l'exception de quelques personnes, puis il y a eu une percée. Maintenant, tout le monde travaille sur ces grands modèles entraînés sur de grands ensembles de données. Juste pour dire quelque chose à contre-courant, l'avenir est-il peut-être aux petits ensembles de données ? Probablement pas super petits, mais est-il possible qu'il y ait autre chose qui reste à découvrir et qui soit pourtant assez différent de ce que nous faisons aujourd'hui ?

John Schulman

Oui, je pense que c'est possible et même tout à fait probable en fait. Et qui sait, il se pourrait que nous puissions aller beaucoup plus loin avec de petits ensembles de données. Je veux dire, les humains n'apprennent pas à partir de quantités infimes de données, nous avons une bande passante élevée de données qui arrivent par nos yeux, mais la quantité de données qu'un bébé voit est peu diversifiée par rapport à nos ensembles de données de pré-entraînement, elles sont pour la plupart dans une seule maison. Donc, le fait que l'on puisse apprendre un très bon système de vision à partir de cela est assez incroyable. Je pense qu'il y a encore beaucoup de choses qui n'ont pas encore été découvertes et oui, je dirais qu'il est probablement vrai qu'il existe de nouvelles architectures et des fonctions de perte meilleures que ce que nous avons actuellement. Il y a une tentation de continuer à pousser sur ce qui fonctionne et de continuer à mettre à l'échelle, mais je pense qu'il pourrait encore y avoir beaucoup de choses que nous n'avons pas encore découvertes et nous pourrions être dans certains types d'optima locaux mais il est difficile de prédire même où pourraient se situer les grandes percées.

Pieter Abbeel

Oui, je suppose que lorsque nous parlons de Jeff, Yoshua et Yann, il pourrait y avoir un biais de survie là-bas ; au lieu des trois personnes qui ont travaillé sur la bonne chose qui a réussi, il pourrait y avoir beaucoup de gens qui ont travaillé sur toutes sortes d'autres choses obscures à l'époque et qui n'ont jamais vu leur heure de gloire où ils sont reconnus pour quelque chose d'important qu'ils ont fini par faire. C'est donc difficile. Maintenant, certains soutiendront même qu'aujourd'hui c'est difficile, je ne serais personnellement pas tout à fait d'accord mais qu'ils disent qu'il est difficile de faire un doctorat et de faire un travail aussi intéressant dans le monde universitaire que celui que l'on peut faire dans l'industrie si l'on peut tout de suite aller dans l'industrie, on peut tout de suite avoir accès aux plus grandes ressources et ainsi de suite et mener des expériences plus importantes, au moins avoir des résultats plus visibles c'est certain. Que ferais-tu personnellement ? Disons que tu as personnellement obtenu ton diplôme de premier cycle à Caltech avant de venir à Berkeley pour ton doctorat. Si tu obtenais ton diplôme de premier cycle de Caltech aujourd'hui, penses-tu que tu explorerais un doctorat ou penses-tu que tu essaierais de trouver un moyen de sauter directement dans un laboratoire de recherche industriel ?

John Schulman

Faire soit un programme de doctorat, soit un programme de résidence pourrait être un bon début et je dirais qu'ils ont leurs avantages et leurs inconvénients. Par exemple, un doctorat est une entreprise plus longue, mais cela signifie que vous pouvez réellement devenir l'expert mondial dans un domaine. Et en tant qu'étudiant en doctorat, vous pouvez faire des stages et ainsi de suite. Je pense donc que ce n'est pas une mauvaise option. Si vous entrez dans un programme de résidence, ce sera un peu, vous aurez probablement un peu moins de liberté et vous aurez moins de marge de manœuvre pour explorer différentes choses. Il y a donc peut-être un compromis entre exploration et exploitation. Je ne suis pas sûr de ce que je ferais. Je pense que ces deux options seraient de bonnes options.

Méthodologie de recherche et vie personnelle

Pieter Abbeel

Je vais te poser une autre question de conseil en recherche John, car pour moi tu restes clairement l'un des étudiants en doctorat, sans doute le plus brillant, à être sorti de mon laboratoire et beaucoup de nouveaux étudiants me demandent comment John s'y prenait pour ses recherches. Littéralement, l'un de mes étudiants m'a demandé comment il pouvait être comme John il y a quelques semaines à peine. C'était la question réelle et je me demandais comment j'allais bien pouvoir lui dire comment être comme John. Je dois te poser la question suivante : quelle est en quelque sorte l'approche de la recherche, disons en tant qu'étudiant en doctorat, que tu as suivie et que tu suivrais aujourd'hui ? À quoi ressemble ton emploi du temps ? À quoi ressemble ta trajectoire dans le programme ? Comment t'y prends-tu ?

John Schulman

Eh bien, j'étais au bon endroit au bon moment, donc il est difficile de reproduire les conditions initiales exactes même si je devais le refaire moi-même. Je me suis certainement beaucoup documenté sur, si je travaillais sur un domaine, je me documentais assez consciencieusement sur celui-ci, en lisant les articles dans ce domaine. J'ai aussi lu beaucoup de choses fondamentales comme des manuels sur l'optimisation et la théorie de l'information et tout ça. Je dirais qu'en ce qui concerne les problèmes réels, les deux premières années, je me suis en quelque sorte laissé porter par ce qui se passait dans le laboratoire et par ce que tu avais en quelque sorte créé comme axes majeurs pour le laboratoire, par exemple autour de la robotique personnelle et de la robotique chirurgicale. J'étais donc simplement axé sur les objectifs de ces projets et j'essayais simplement de comprendre ce qui était, essayons de faire quelque chose de cool dans l'un de ces domaines et essayons de faire quelque chose de cool mais n'essayons pas simplement de bricoler, essayons aussi d'avoir des méthodes qui semblent raisonnablement générales. Car je pense qu'il est bon d'avoir des problèmes motivants, mais ces problèmes ne sont pas nécessairement ceux pour lesquels vous construisez un produit de toute façon au bout du compte, vous ne construisez probablement pas un produit utile, donc c'est comme si vous vouliez simplement que cela motive une bonne méthode. Donc, oui, les deux premières années, j'ai juste travaillé sur des choses que j'ai essayé de faire, de réaliser des choses cool dans ces domaines, puis j'imagine que l'apprentissage profond a commencé à décoller et j'ai donc eu un peu peut-être une crise de milieu de doctorat et je me disais "oh oui, tout ce que je fais en robotique semble un peu bricolé et je ne suis pas sûr que tout cela soit l'approche gagnante à long terme", alors j'ai commencé à explorer un peu plus et j'ai décidé de travailler sur le RL profond. Je pense que c'est une progression naturelle où l'on commence par faire un travail axé sur les objectifs, où l'on est en quelque sorte agnostique sur les méthodes, puis après avoir fait cela pendant un certain temps, on a une idée des limites du paradigme actuel et peut-être que cela vous donne de bonnes idées pour le paradigme suivant ou pour ce qu'il faut faire, comme pour une recherche plus axée sur les méthodes.

Pieter Abbeel

Merci d'avoir partagé cela John. J'espère que cela pourra aider beaucoup de gens dans leur progression en doctorat ou dans leurs programmes de résidence et ainsi de suite. John, je te connais évidemment comme quelqu'un qui travaille beaucoup, qui réfléchit très profondément, qui passe beaucoup de temps à penser à l'IA. As-tu déjà le temps de te détendre et que fais-tu ?

John Schulman

Oui, je travaille peut-être beaucoup, mais je suis aussi parfois une personne paresseuse et je dois alors lutter pour faire avancer les choses. Mais oui, je me détends, voyons voir, je me suis mis à l'escalade ces derniers temps, j'en suis encore à mes débuts mais c'est amusant. Oui, je vais courir, je fais ça depuis longtemps, je cours juste dans le quartier et j'écoute de la musique. J'ai des poules dans mon jardin, donc elles sont amusantes. Je m'occupe d'elles. Oui, j'aime la musique, je joue du piano. Je viens de partir en vacances en Italie, donc c'était sympa. Oui, c'était amusant.

Pieter Abbeel

Eh bien John, c'était une conversation fantastique. J'apprécie vraiment que tu aies pris le temps. Merci d'être venu.

John Schulman

Oh oui, merci de m'avoir invité. C'était génial.