Richard Sutton - L'apprentissage par renforcement et l'avenir de l'IA

Richard Sutton

L'apprentissage par renforcement et l'avenir de l'IA

26 septembre 2025

Intelligence Artificielle

Introduction et distinction entre humains et animaux

Richard Sutton

Pourquoi essayez-vous de distinguer les humains ? Les humains sont des animaux. Ce que nous avons en commun est plus intéressant. Nous devrions accorder moins d'attention à ce qui nous distingue.

Dwarkesh Patel

Nous essayons de reproduire l'intelligence. Aucun animal ne peut aller sur la lune ou fabriquer des semi-conducteurs, nous voulons donc comprendre ce qui rend les humains spéciaux.

Richard Sutton

J'aime la façon dont vous considérez cela comme évident, car je considère le contraire comme évident. Si nous comprenions un écureuil, nous serions presque arrivés au but.

Richard Sutton

Je suis personnellement satisfait d'être en décalage avec mon domaine pendant une longue période, peut-être des décennies, car j'ai parfois eu raison par le passé.

Richard Sutton

Je ne pense pas que l'apprentissage soit vraiment une question d'entraînement ; il s'agit d'un processus actif. L'enfant essaie des choses et voit ce qui se passe.

Richard Sutton

Je pense que nous devrions être fiers de donner naissance à cette grande transition dans l'univers.

Dwarkesh Patel

Aujourd'hui, je discute avec Richard Sutton, qui est l'un des pères fondateurs de l'apprentissage par renforcement et l'inventeur de nombreuses techniques principales utilisées dans ce domaine, comme l'apprentissage TD et les méthodes de gradient de politique. Pour cela, il a reçu cette année le prix Turing, qui est essentiellement le prix Nobel de l'informatique. Richard, félicitations.

Richard Sutton

Merci, Dwarkesh.

Dwarkesh Patel

Merci d'être venu sur le podcast.

Richard Sutton

Tout le plaisir est pour moi.

RL vs LLM : Compréhension du monde vs Imitation

Dwarkesh Patel

Première question. Mon public et moi sommes familiers avec la façon de penser des LLM sur l'IA. Conceptuellement, que nous manque-t-il en termes de réflexion sur l'IA du point de vue de l'apprentissage par renforcement (RL) ?

Richard Sutton

Je pense que c'est un point de vue assez différent, et il peut facilement se séparer et perdre la capacité de dialoguer. Les grands modèles de langage sont devenus si importants, tout comme l'IA générative en général. Notre domaine est sujet aux effets de mode, nous perdons donc de vue les choses fondamentales. Je considère l'apprentissage par renforcement comme l'IA de base. Qu'est-ce que l'intelligence ? Le problème est de comprendre votre monde. L'apprentissage par renforcement consiste à comprendre votre monde, tandis que les grands modèles de langage consistent à imiter les gens, à faire ce que les gens disent que vous devriez faire. Ils ne consistent pas à comprendre quoi faire.

Dwarkesh Patel

Je suppose que vous penseriez que pour émuler les milliers de milliards de jetons dans le corpus de textes internet, il faudrait construire un modèle du monde. En fait, ces modèles semblent avoir des modèles du monde très robustes. Ce sont les meilleurs modèles du monde que nous ayons créés à ce jour en IA. Selon vous, que manque-t-il ?

Richard Sutton

Je ne serais pas d'accord avec la plupart des choses que vous venez de dire.

Dwarkesh Patel

Génial.

Richard Sutton

Se contenter d'imiter ce que les gens disent n'est pas du tout construire un modèle du monde. Vous imitez des choses qui ont un modèle du monde — les gens. Je ne veux pas aborder la question de manière conflictuelle, mais je remettrais en question l'idée qu'ils ont un modèle du monde. Un modèle du monde vous permettrait de prédire ce qui va se passer. Ils ont la capacité de prédire ce qu'une personne dirait ; ils n'ont pas la capacité de prédire ce qui va se passer. Ce que nous voulons, pour citer Alan Turing, c'est une machine capable d'apprendre par l'expérience, où l'expérience correspond aux choses qui se produisent réellement dans votre vie. Vous faites des choses, vous voyez ce qui se passe, et c'est de cela que vous apprenez. Les grands modèles de langage apprennent d'autre chose. Ils apprennent d'une situation et de ce qu'une personne a fait. Implicitement, la suggestion est que vous devriez faire ce que la personne a fait.

La vérité fondamentale et les objectifs dans l'IA

Dwarkesh Patel

Je suppose que le point crucial, et je suis curieux de savoir si vous n'êtes pas d'accord avec cela, est que certaines personnes diront que cet apprentissage par imitation a donné à ces modèles un bon a priori sur les façons raisonnables d'aborder les problèmes. À mesure que nous avançons vers l'ère de l'expérience, cet a priori sera la base sur laquelle nous enseignerons à ces modèles à partir de l'expérience, car cela leur donne la possibilité d'obtenir de bonnes réponses une partie du temps, et vous pouvez ensuite les entraîner sur l'expérience. Êtes-vous d'accord avec cette perspective ?

Richard Sutton

Je conviens que c'est la perspective des grands modèles de langage, mais je ne pense pas que ce soit une bonne perspective. Pour être un a priori de quelque chose, il doit y avoir une chose réelle. Une connaissance préalable devrait être une base pour une connaissance réelle. Qu'est-ce que la connaissance réelle ? Il n'y a pas de définition de la connaissance réelle dans ce cadre de grands modèles de langage. Qu'est-ce qui fait d'une action une bonne action à entreprendre ? Vous reconnaissez la nécessité d'un apprentissage continu. Continuellement signifie apprendre lors d'une interaction normale avec le monde. Il doit y avoir un moyen, lors d'une interaction normale, de dire ce qui est juste. Existe-t-il un moyen dans la configuration du grand modèle de langage de dire quelle est la bonne chose à dire ? Vous direz quelque chose et vous ne recevrez pas de retour sur ce qu'il convient de dire, car il n'y a pas de définition de ce qu'est la bonne chose à dire. Il n'y a pas de but. S'il n'y a pas de but, il n'y a pas de bonne chose à dire et pas de vérité fondamentale. Vous ne pouvez pas avoir de connaissances préalables si vous n'avez pas de vérité fondamentale. La connaissance préalable est censée être un indice ou une croyance initiale sur ce qu'est la vérité, mais il n'y a pas de vérité. Dans l'apprentissage par renforcement, il y a une bonne chose à faire car la bonne chose à faire est celle qui vous apporte une récompense. Nous avons une définition de ce qu'est la bonne chose à faire, nous pouvons donc avoir des connaissances préalables fournies par des personnes, puis nous pouvons les vérifier. Un cas encore plus simple est celui où vous essayez de construire un modèle du monde ; vous prédisez ce qui va se passer et vous voyez ensuite ce qui se passe. Il y a une vérité fondamentale. Il n'y a pas de vérité fondamentale dans les grands modèles de langage car vous n'avez pas de prédiction sur ce qu'il va se passer ensuite. Si vous dites quelque chose dans une conversation, les grands modèles de langage n'ont aucune prédiction sur ce que la personne dira en réponse.

Dwarkesh Patel

Je pense que si. Vous pouvez littéralement leur demander ce qu'ils anticipent qu'un utilisateur pourrait dire en réponse, et they ont une prédiction.

Richard Sutton

Ils répondront à cette question, mais ils n'ont pas de prédiction au sens substantiel du terme, à savoir qu'ils ne seront pas surpris par ce qui se passe. S'il se passe quelque chose qui n'est pas ce qu'ils avaient prédit, ils ne changeront pas. Une chose inattendue s'est produite et pour apprendre cela, ils devraient effectuer un ajustement.

Dwarkesh Patel

Je pense qu'une capacité comme celle-ci existe en contexte. Il est intéressant de regarder un modèle faire une chaîne de pensée, et supposons qu'il essaie de résoudre un problème de mathématiques. Il dira : « Je vais d'abord aborder ce problème en utilisant cette approche ». Il écrira cela, puis réalisera que c'est la mauvaise façon conceptuelle d'aborder le problème et recommencera avec une autre approche. Cette flexibilité existe en contexte. Avez-vous autre chose en tête, ou pensez-vous qu'il faille étendre cette capacité sur des horizons plus longs ?

Richard Sutton

Ils n'ont, en aucun sens significatif, de prédiction de ce qui va se passer ensuite. Ils ne seront pas surpris par ce qui se passera ensuite, et ils n'apporteront aucun changement en fonction de ce qui se passera.

Dwarkesh Patel

Mais n'est-ce pas littéralement ce qu'est la prédiction du prochain jeton ? Prédire ce qui suit, puis se mettre à jour en fonction de la surprise ?

Richard Sutton

Le prochain jeton est ce qu'ils devraient dire, ce que devrait être l'action. Ce n'est pas ce que le monde leur donnera en réponse à ce qu'ils font. Revenons à leur manque d'objectif. Pour moi, avoir un objectif est l'essence même de l'intelligence. Quelque chose est intelligent s'il peut atteindre des objectifs. J'aime la définition de John McCarthy selon laquelle l'intelligence est la partie computationnelle de la capacité à atteindre des objectifs. Vous devez avoir des objectifs, sinon vous n'êtes qu'un système de comportement. Vous n'êtes rien de spécial ; vous n'êtes pas intelligent. Vous convenez que les grands modèles de langage n'ont pas d'objectifs.

Les limites des LLM et la leçon amère

Dwarkesh Patel

Je pense qu'ils ont un but. Quel est ce but ? La prédiction du prochain jeton.

Richard Sutton

Ce n'est pas un but. Cela ne change pas le monde. Les jetons arrivent vers vous, et si vous les prédisez, vous ne les influencez pas.

Dwarkesh Patel

Ce n'est pas un but concernant le monde extérieur.

Richard Sutton

Ce n'est pas un but substantiel. Vous ne pouvez pas regarder un système et dire qu'il a un but s'il se contente de prédire et d'être heureux de prédire avec précision.

Dwarkesh Patel

La question plus large que je veux comprendre est pourquoi vous ne pensez pas que faire du RL par-dessus des LLM est une direction productive. Nous semblons être capables de donner à ces modèles le but de résoudre des problèmes mathématiques difficiles, et ils sont à bien des égards au sommet du niveau humain dans la capacité à résoudre des problèmes de type olympiade de mathématiques. Ils ont obtenu l'or aux OIM. Il semble que le modèle qui a obtenu l'or aux Olympiades Internationales de Mathématiques ait bien pour but de résoudre correctement des problèmes de maths. Pourquoi ne pouvons-nous pas étendre cela à différents domaines ?

Richard Sutton

Les problèmes de mathématiques sont différents. Construire un modèle du monde physique et appliquer les conséquences d'hypothèses mathématiques sont des choses très différentes. Le monde empirique doit être appris ; vous devez en apprendre les conséquences, tandis que les mathématiques sont plus computationnelles. C'est plus comme de la planification standard. Là, ils peuvent avoir pour but de trouver la preuve, et on leur donne d'une certaine manière ce but de trouver la preuve.

Dwarkesh Patel

C'est intéressant parce que vous avez écrit cet essai en 2019 intitulé « The Bitter Lesson » (La leçon amère), et c'est peut-être l'essai le plus influent de l'histoire de l'IA. Les gens l'ont utilisé comme justification pour passer les LLM à l'échelle parce que, selon eux, c'est le seul moyen évolutif que nous ayons trouvé pour consacrer des quantités astronomiques de calcul à l'apprentissage du monde. Il est intéressant de noter que votre point de vue est que les LLM ne sont en fait pas conformes à la « leçon amère ».

Richard Sutton

C'est une question intéressante de savoir si les grands modèles de langage sont un cas de la leçon amère, car ils sont clairement un moyen d'utiliser des calculs massifs pour passer à l'échelle jusqu'aux limites d'Internet. Ils sont aussi un moyen d'y injecter beaucoup de connaissances humaines. Atteindront-ils les limites des données et seront-ils supplantés par des choses capables d'obtenir plus de données à partir de l'expérience plutôt qu'à partir des gens ? Plus nous injectons de connaissances humaines dans les grands modèles de langage, mieux ils se portent, et c'est gratifiant. Pourtant, je m'attends à ce qu'il y ait des systèmes capables d'apprendre de l'expérience et d'être bien plus performants et évolutifs, auquel cas ce sera un autre exemple de la leçon amère : les choses qui utilisaient la connaissance humaine ont fini par être supplantées par des choses entraînées à partir de l'expérience et du calcul.

Dwarkesh Patel

Cela ne me semble pas être le point crucial, car ces personnes conviendraient également que l'immense majorité du calcul à l'avenir proviendra de l'apprentissage par l'expérience. Ils pensent simplement que l'échafaudage de départ pour injecter du calcul pour le futur apprentissage expérientiel sera les LLM. Je ne comprends toujours pas pourquoi c'est un mauvais point de départ, pourquoi nous avons besoin d'une toute nouvelle architecture pour commencer l'apprentissage continu expérientiel et pourquoi nous ne pouvons pas commencer avec les LLM.

Richard Sutton

Dans chaque cas de la leçon amère, vous pouviez commencer avec la connaissance humaine, puis faire des choses évolutives. C'est toujours le cas, et il n'y a aucune raison pour que ce soit mauvais. Mais en pratique, cela s'est toujours avéré mauvais car les gens s'enferment dans l'approche de la connaissance humaine. Ils se font damer le pion par les méthodes qui sont véritablement évolutives.

L'apprentissage chez les enfants : Imitation ou expérience ?

Dwarkesh Patel

Donnez-moi une idée de ce qu'est la méthode évolutive.

Richard Sutton

La méthode évolutive est l'apprentissage par l'expérience. On essaie des choses et on voit ce qui fonctionne ; personne n'a besoin de vous le dire. Tout d'abord, vous have un but. Sans but, il n'y a pas de notion de bien ou de mal. Les grands modèles de langage essaient de s'en sortir sans avoir d'objectif ni de notion de meilleur ou de pire. C'est partir du mauvais pied.

Dwarkesh Patel

Peut-être est-il intéressant de comparer cela aux humains. Tant dans le cas de l'apprentissage par imitation par rapport à l'expérience que sur la question des buts, je pense qu'il y a des analogies intéressantes. Les enfants apprennent initialement par imitation. Vous ne le pensez pas ?

Richard Sutton

No, bien sûr que non.

Dwarkesh Patel

Vraiment ?

Richard Sutton

Je pense que les enfants regardent simplement les gens et essaient de dire les mêmes mots.

Dwarkesh Patel

Quel âge ont ces enfants ?

Richard Sutton

Et les six premiers mois ?

Dwarkesh Patel

Je pense qu'ils imitent les choses. Ils essaient de faire en sorte que leur bouche produise le son qu'ils voient leur mère produire, et ils diront les mêmes mots sans comprendre ce qu'ils signifient. En grandissant, la complexité de l'imitation augmente. À un moment donné, vous imitez les compétences que les gens de votre groupe utilisent pour chasser, puis vous passez au régime RL d'apprentissage par l'expérience. Je pense qu'il y a beaucoup d'apprentissage par imitation chez les humains.

Richard Sutton

Il est surprenant que l'on puisse avoir un point de vue aussi différent. Quand je vois des enfants, je les vois essayer des choses, agiter les mains et bouger les yeux. Personne ne leur dit quoi faire ; il n'y a aucune imitation pour la façon dont ils bougent les yeux ou même les sons qu'ils produisent. Ils peuvent vouloir créer les mêmes sons, mais les actions que le nourrisson effectue réellement n'ont ni cibles ni exemples.

Dwarkesh Patel

Je conviens que cela n'explique pas tout ce que font les nourrissons, mais je pense que cela guide le processus d'apprentissage. Même un LLM, lorsqu'il essaie de prédire le prochain jeton au début de l'entraînement, fera une supposition différente de ce qu'il voit réellement. Dans un certain sens, c'est comme du RL à horizon très court, où il fait une supposition, c'est en fait une autre chose, semblable à la façon dont un enfant essaiera de dire un mot et qu'il sortira mal.

Richard Sutton

Les grands modèles de langage apprennent à partir de données d'entraînement, pas de l'expérience. Ils apprennent de quelque chose qui ne sera jamais disponible au cours de leur vie normale. Il n'y a jamais de données d'entraînement qui disent que vous devriez faire cette action dans la vie normale. Je pense qu'il s'agit plutôt d'une distinction sémantique. La scolarité formelle est l'exception ; vous ne devriez pas baser vos théories dessus. Vous avez ces phases d'apprentissage où vous êtes programmé dans votre biologie pour qu'au début vous existiez pour comprendre le monde et apprendre à interagir avec lui. Cela ressemble à une phase d'entraînement. Je conviens qu'il n'y a pas de coupure nette, mais il semble y avoir cette phase d'entraînement initiale.

Richard Sutton

Il n'y a rien où l'on vous entraîne sur ce que vous devriez faire. Vous voyez des choses qui se passent ; on ne vous dit pas quoi faire. C'est évident.

Dwarkesh Patel

On vous apprend littéralement quoi faire. C'est de là que vient le mot entraînement, n'est-ce pas ?

Richard Sutton

Je ne pense pas que l'apprentissage soit vraiment une question d'entraînement ; c'est un processus actif. L'enfant essaie des choses et voit ce qui se passe. Nous ne pensons pas à l'entraînement quand nous pensons à un nourrisson qui grandit. Si vous regardez comment les psychologues conçoivent l'apprentissage, il n'y a rien qui ressemble à l'imitation. Il n'y a pas de processus d'apprentissage animal de base appelé imitation. Les processus de base servent à la prédiction et au contrôle par essais et erreurs. Parfois, les choses les plus évidentes sont les plus difficiles à voir. Il est évident, si l'on regarde les animaux et la façon dont ils apprennent, que l'apprentissage supervisé ne fait pas partie de leur mode d'apprentissage. Nous n'avons pas d'exemples de comportement souhaité ; nous avons des exemples de choses qui se produisent et des conséquences de ce que nous avons fait. L'apprentissage supervisé n'est pas quelque chose qui arrive dans la nature. Les écureuils ne vont pas à l'école, et ils peuvent tout apprendre sur le monde. Il est tout à fait évident que l'apprentissage supervisé n'existe pas chez les animaux.

L'intelligence animale et le paradoxe de Moravec

Dwarkesh Patel

J'ai interviewé ce psychologue et anthropologue Joseph Henrich, qui a travaillé sur l'évolution culturelle et la façon dont les humains acquièrent des connaissances.

Richard Sutton

Pourquoi essayez-vous de distinguer les humains ? Les humains sont des animaux. Ce que nous avons en commun est plus intéressant. Nous devrions accorder moins d'attention à ce qui nous distingue.

Dwarkesh Patel

Nous essayons de reproduire l'intelligence, nous voulons donc comprendre ce qui permet aux humains d'aller sur la lune ou de construire des semi-conducteurs. Je pense que nous voulons comprendre ce qui rend les humains spéciaux.

Richard Sutton

J'aime la façon dont vous considérez cela comme évident, car je considère le contraire comme évident. Nous devons comprendre en quoi nous sommes des animaux ; si nous comprenions un écureuil, nous serions presque arrivés au bout de la compréhension de l'intelligence humaine. La partie langage n'est qu'un petit vernis à la surface. C'est génial de découvrir les différentes façons dont nous pensons ; nous essayons de partager nos différentes façons de penser les uns avec les autres.

Dwarkesh Patel

Je pense que l'argumentation est utile. Joseph Henrich a cette théorie intéressante selon laquelle de nombreuses compétences que les humains ont maîtrisées pour réussir pendant des centaines de milliers d'années sont complexes. Il n'est pas possible de raisonner sur la façon de chasser le phoque si vous vivez dans l'Arctique. C'est un processus en plusieurs étapes : fabriquer des appâts, trouver le phoque et préparer la nourriture pour s'assurer de ne pas être empoisonné. On ne peut pas raisonner sur tout cela. Au fil du temps, la culture dans son ensemble l'a compris. Ce qui se passe lorsque cette connaissance est transmise, c'est qu'il suffit d'imiter ses aînés pour apprendre cette compétence parce que l'on ne peut pas y arriver par la réflexion. Il faut observer les autres et faire des ajustements. L'étape initiale de ce gain culturel doit être l'imitation.

Richard Sutton

Je le pense aussi. Pourtant, c'est une petite chose qui s'ajoute à l'apprentissage de base par essais et erreurs et à l'apprentissage par prédiction. C'est ce qui nous distingue de nombreux animaux, mais nous sommes d'abord un animal. Nous étions un animal avant d'avoir le langage.

Dwarkesh Patel

Vous soulevez un point intéressant : l'apprentissage continu est une capacité que tous les mammifères possèdent. Il est assez intéressant que nous ayons quelque chose que tous les mammifères ont mais que nos systèmes d'IA n'ont pas, alors que des capacités que nos IA possèdent, comme la capacité de résoudre des problèmes mathématiques difficiles, presque aucun animal ne les a. Il est intéressant de voir ce qui s'avère difficile et ce qui s'avère facile.

Richard Sutton

Le paradoxe de Moravec.

Dwarkesh Patel

C'est exact.

Dwarkesh Patel

C'est exact. Pour que l'ère de l'expérience commence, nous allons devoir entraîner des IA dans des environnements complexes du monde réel. Mais construire des environnements RL efficaces est difficile. Vous ne pouvez pas simplement embaucher un ingénieur logiciel et lui demander d'écrire une série de tests de validation standard. Les domaines du monde réel sont complexes. Vous avez besoin d'experts du sujet pour obtenir les données, les flux de travail et toutes les règles subtiles. Lorsqu'un client de Labelbox a voulu entraîner un agent pour faire des achats en ligne, Labelbox a réuni une équipe possédant une vaste expérience en ingénierie de vitrines internet. Ils ont construit un catalogue de produits qui pouvait être mis à jour pendant l'épisode, car la plupart des sites de vente ont un état qui change constamment. Ils ont également ajouté un cache Redis pour simuler des données périmées, car c'est ainsi que fonctionnent réellement les sites de commerce électronique. Ce sont le genre de choses que Labelbox peut anticiper. Ces détails comptent vraiment. Ainsi, qu'il s'agisse de corriger des traces ou de construire une toute nouvelle suite d'environnements, Labelbox peut vous aider à transformer vos projets RL en systèmes fonctionnels. Contactez-les sur labelbox.com/dwarkesh. Retour à Richard.

Le paradigme expérientiel et l'apprentissage continu

Dwarkesh Patel

Ce paradigme alternatif que vous imaginez.

Richard Sutton

Le paradigme expérientiel.

Dwarkesh Patel

Exposons ce que c'est.

Richard Sutton

Il dit que l'expérience — sensation, action, récompense — constitue la vie. C'est le fondement et le centre de l'intelligence. L'intelligence consiste à prendre ce flux et à modifier les actions pour augmenter les récompenses. L'apprentissage se fait alors à partir du flux et sur le flux. Cette seconde partie est particulièrement révélatrice. Vos connaissances portent sur le flux : si vous effectuez une action, que se passera-t-il ? Ou quels événements suivront d'autres événements. Le contenu de la connaissance est constitué d'énoncés sur le flux. Parce qu'il s'agit d'un énoncé sur le flux, vous pouvez le tester en le comparant au flux et l'apprendre continuellement.

Dwarkesh Patel

Ainsi, lorsque vous imaginez ce futur agent d'apprentissage continu.

Richard Sutton

Ils ne sont pas futurs ; ils existent tout le temps. C'est ce qu'est le paradigme de l'apprentissage par renforcement : apprendre de l'expérience.

Dwarkesh Patel

Je suppose que ce que je voulais dire, c'est un agent d'apprentissage continu général de niveau humain. Quelle est sa fonction de récompense ? Est-ce simplement prédire le monde ? Est-ce avoir un effet spécifique sur celui-ci ?

Richard Sutton

La fonction de récompense est arbitraire. Si vous jouez aux échecs, c'est de gagner la partie. Si vous êtes un écureuil, peut-être que la récompense consiste à obtenir des noisettes. En général, pour un animal, la récompense est d'éviter la douleur et d'acquérir du plaisir. Il devrait également y avoir une composante liée à votre compréhension croissante de votre environnement. Ce serait une motivation intrinsèque.

Dwarkesh Patel

Je vois. Cette IA serait déployée ; beaucoup de gens voudraient qu'elle fasse beaucoup de choses différentes. Elle effectue la tâche que les gens veulent, mais en même temps, elle apprend sur le monde. Se débarrasse-t-on de ce paradigme où il y a des périodes d'entraînement et des périodes de déploiement ? Se débarrasse-t-on aussi de ce paradigme où il y a un modèle, puis des instances du modèle faisant certaines choses ? Comment envisagez-vous l'agrégation des connaissances qu'elle acquiert en faisant ces différentes choses ?

Richard Sutton

Je n'aime pas le mot « modèle » utilisé de cette façon. Un meilleur mot serait « le réseau ». Des choses seraient apprises, puis vous auriez des copies et des instances, et vous voudriez partager les connaissances entre elles. Il y aurait de nombreuses possibilités pour le faire, contrairement à aujourd'hui. On ne peut pas avoir un enfant qui grandit et apprend sur le monde, puis chaque nouvel enfant doit répéter ce processus. Avec l'intelligence numérique, on pourrait espérer le faire une fois et la copier dans la suivante comme point de départ. Ce serait une économie énorme et bien plus important que d'essayer d'apprendre des gens.

Apprentissage TD et acquisition de contexte

Dwarkesh Patel

Je conviens que c'est nécessaire, que l'on parte des LLM ou non. Si vous voulez une intelligence de niveau humain ou animal, vous allez avoir besoin de cette capacité. Supposons qu'un humain essaie de créer une startup qui a une récompense de l'ordre de dix ans. Les humains ont cette capacité à créer des récompenses auxiliaires intermédiaires même lorsqu'ils ont des récompenses extrêmement rares ; ils peuvent encore faire des étapes intermédiaires en comprenant ce qui mène à l'objectif plus large. Comment imaginez-vous qu'un tel processus puisse se dérouler avec les IA ?

Richard Sutton

C'est quelque chose que nous connaissons très bien ; la base en est l'apprentissage par différence temporelle (TD), où la même chose se produit à une échelle moins grandiose, comme lorsque vous apprenez à jouer aux échecs. L'objectif à long terme est de gagner la partie, pourtant vous voulez pouvoir apprendre de choses à plus court terme comme prendre les pièces de votre adversaire. Vous le faites en ayant une fonction de valeur qui prédit le résultat à long terme. Si vous prenez les pièces de l'adversaire, votre prédiction sur le résultat à long terme est modifiée — elle augmente — et cette augmentation de votre croyance renforce immédiatement le coup qui a conduit à la prise de la pièce. Nous avons cet objectif à long terme sur dix ans de créer une startup et de gagner beaucoup d'argent, et quand nous progressons, nous nous disons que nous sommes plus susceptibles d'atteindre l'objectif à long terme, et cela renforce les étapes en cours de route.

Dwarkesh Patel

L'une des choses qui rend les humains très différents des LLM est que si vous intégrez un emploi, vous assimilez tellement de contexte et d'informations, des préférences des clients au fonctionnement de l'entreprise. La largeur de bande des informations que vous obtenez d'une procédure comme l'apprentissage TD est-elle suffisamment élevée pour avoir ce flux énorme de contexte et de connaissances tacites que vous devez assimiler comme le font les humains ?

Richard Sutton

Le point crucial est l'hypothèse du vaste monde. La raison pour laquelle les humains deviennent utiles dans leur travail est qu'ils sont confrontés à une partie particulière du monde qui ne pouvait pas être anticipée et intégrée à l'avance. Le monde est si vaste que le rêve des grands modèles de langage — à savoir que vous pouvez tout enseigner à l'agent et qu'il n'aura rien à apprendre en ligne — est impossible. Il y a toutes les petites idiosyncrasies de la vie particulière qu'ils mènent et des personnes avec qui ils travaillent. Le monde est vraiment grand, et vous allez donc devoir l'apprendre en cours de route.

Dwarkesh Patel

Il me semble que vous avez besoin de deux choses. L'une est un moyen de convertir cette récompense d'objectif à long terme en récompenses prédictives plus petites. Ensuite, vous avez besoin d'un moyen de conserver tout ce contexte que vous acquérez en travaillant dans le monde.

Richard Sutton

Je dirais que vous faites simplement un apprentissage régulier. Dans les grands modèles de langage, l'information doit aller dans la fenêtre de contexte, mais dans une configuration d'apprentissage continu, elle va simplement dans les poids.

Dwarkesh Patel

Peut-être que « contexte » est le mauvais mot parce que je veux dire une chose plus générale.

Richard Sutton

Vous apprenez une politique qui est spécifique à l'environnement dans lequel vous vous trouvez.

Dwarkesh Patel

La question que j'essaie de poser est : vous avez besoin d'un moyen d'obtenir le nombre de bits par seconde qu'un humain capte lorsqu'il est dans le monde, en interagissant sur Slack avec des clients et tout le reste.

Richard Sutton

Il semble que la récompense soit une chose trop petite pour effectuer tout l'apprentissage dont nous avons besoin. Mais nous avons les sensations et toutes les autres informations dont nous pouvons tirer des leçons. Nous n'apprenons pas seulement de la récompense ; nous apprenons de toutes les données.

Dwarkesh Patel

Oui, alors quel est le processus d'apprentissage qui vous aide à capturer cette information ?

Richard Sutton

Maintenant, je veux parler du modèle commun de base de l'agent avec les quatre parties. Nous avons besoin d'une politique : dans cette situation, que dois-je faire ? Nous avons besoin d'une fonction de valeur, apprise avec l'apprentissage TD, qui dit comment cela se passe ; vous l'utilisez pour ajuster votre politique. Il y a la composante de perception, qui est la construction de votre représentation d'état. La quatrième est le modèle de transition du monde. Je suis mal à l'aise avec le fait de tout appeler « modèles » parce que je veux parler du modèle de transition : votre conviction que si vous faites ceci, que se passera-t-il ? C'est votre physique du monde, mais ce sont aussi des modèles abstraits comme la façon dont vous vous êtes rendu à Edmonton pour ce podcast. C'était un modèle de transition et il serait appris non pas à partir de la récompense, mais en faisant des choses et en voyant ce qui se passe. Cela sera appris de manière riche à partir de toutes les sensations que vous recevez. Cela doit inclure la récompense, mais c'est une petite partie cruciale de l'ensemble du modèle.

Généralisation et transfert de connaissances

Dwarkesh Patel

L'un de mes amis, Toby Ord, a souligné que les modèles MuZero déployés par Google DeepMind n'étaient initialement pas une intelligence générale mais un cadre général pour entraîner des intelligences spécialisées. On ne pouvait pas utiliser ce cadre pour entraîner une politique à jouer à la fois aux échecs et au Go ; il fallait entraîner chacune de manière spécialisée. Il se demandait si cela impliquait que l'apprentissage par renforcement ne peut apprendre qu'une seule chose à la fois parce que la densité d'information n'est pas élevée, ou si c'était spécifique à la façon dont MuZero a été conçu. Qu'est-ce qui devait être changé dans cette approche pour qu'elle puisse être un agent d'apprentissage général ?

Richard Sutton

L'idée est tout à fait générale. J'utilise comme exemple canonique l'idée qu'un agent d'IA est comme une personne. Les gens n'ont qu'un seul monde dans lequel ils vivent, qui peut impliquer les échecs et les jeux Atari. Ce ne sont pas des tâches ou des mondes différents ; ce sont des états différents qu'ils rencontrent. L'idée générale n'est pas limitée du tout.

Dwarkesh Patel

Peut-être serait-il utile d'expliquer ce qui manquait dans cette architecture ou cette approche et que cet AGI à apprentissage continu posséderait.

Richard Sutton

Ce n'était pas leur ambition d'avoir un seul agent pour ces jeux. Si nous voulons parler de transfert, nous devrions parler de transfert non pas entre jeux ou tâches, mais entre états.

Dwarkesh Patel

Je suis curieux de savoir si, historiquement, nous avons vu le niveau de transfert en utilisant des techniques de RL qui serait nécessaire pour construire ce genre d'agent.

Richard Sutton

Nous ne voyons de transfert nulle part. Il est essentiel pour une bonne performance que vous puissiez bien généraliser d'un état à un autre état. Nous n'avons pas de méthodes qui soient bonnes pour cela. Les gens essaient différentes choses et s'arrêtent sur une représentation qui généralise bien. Mais nous n'avons aucune technique automatisée pour favoriser le transfert, et aucune n'est utilisée dans l'apprentissage profond moderne.

Dwarkesh Patel

Permettez-moi de paraphraser pour m'assurer que j'ai bien compris. On dirait que vous dites que lorsque nous avons une généralisation dans ces modèles, c'est le résultat d'une recherche humaine minutieuse.

Richard Sutton

Les humains et les chercheurs l'ont fait. La descente de gradient ne vous fera pas bien généraliser ; elle vous fera résoudre le problème. Elle ne vous fera pas obtenir de nouvelles données que vous généralisez de manière positive. Généraliser signifie que l'entraînement sur une chose affecte ce que vous faites sur d'autres choses. L'apprentissage profond est mauvais à cela ; si vous vous entraînez sur une nouvelle chose, cela interférera souvent de manière catastrophique avec les anciennes choses que vous connaissiez. C'est exactement une mauvaise généralisation. La généralisation est une sorte d'influence de l'entraînement sur un état sur d'autres états. Ce n'est pas nécessairement bon ou mauvais ; vous pouvez généraliser mal ou bien. La généralisation se produit toujours, mais nous avons besoin d'algorithmes qui fassent en sorte qu'elle soit bonne plutôt que mauvaise.

Dwarkesh Patel

Je pense que j'utilise peut-être le terme différemment. Ces LLM augmentent la portée de la généralisation par rapport aux systèmes précédents ; maintenant, ils peuvent tout faire dans cette catégorie de problèmes de type olympiade de mathématiques. Au départ, on commence par généraliser entre des problèmes d'addition, puis vers des problèmes qui nécessitent différents théorèmes mathématiques, ce qui est ce que requièrent les olympiades de mathématiques. On dirait que vous ne considérez pas le fait d'être capable de résoudre n'importe quel problème dans cette catégorie comme un exemple de généralisation.

Richard Sutton

Les grands modèles de langage sont si complexes. Nous ne savons pas vraiment quelles informations ils possédaient auparavant ; nous devons deviner car ils ont été nourris de tellement de choses. C'est pourquoi ils ne sont pas un bon moyen de faire de la science ; c'est incontrôlé et inconnu.

Richard Sutton

Si vous trouvez une solution à un problème entièrement nouveau, la question est de savoir pourquoi. Il se peut qu'ils n'aient pas besoin de généraliser pour réussir, car la seule façon de réussir certains d'entre eux est de former quelque chose qui les résout tous. S'il n'y a qu'une seule réponse et que vous la trouvez, cela ne s'appelle pas une généralisation. C'est la seule façon de le résoudre. La généralisation, c'est quand cela pourrait être fait d'une manière ou d'une autre et qu'ils choisissent la bonne manière.

Dwarkesh Patel

D'après ce que je comprends, cela fonctionne de mieux en mieux avec les agents de codage. Pour les ingénieurs, si vous essayez de programmer une bibliothèque, il existe de nombreuses façons différentes d'atteindre la spécification. La frustration initiale avec ces modèles était qu'ils le faisaient de manière bâclée. Au fil du temps, ils s'améliorent pour concevoir l'architecture et les abstractions que les développeurs trouvent satisfaisantes. Cela semble être un exemple de ce dont vous parlez.

Richard Sutton

Il n'y a rien en eux qui les fera bien généraliser. La descente de gradient les amènera à trouver une solution aux problèmes qu'ils ont vus. S'il n'y a qu'une seule façon de les résoudre, ils le feront. Mais il existe de nombreuses façons de résoudre un problème, certaines qui généralisent bien et d'autres mal. Il n'y a rien dans les algorithmes qui les obligera à bien généraliser. Mais des gens sont impliqués et les peaufinent jusqu'à ce qu'ils trouvent une façon de bien généraliser.

Dwarkesh Patel

Pour préparer cette interview, j'ai voulu comprendre toute l'histoire du RL, en commençant par REINFORCE jusqu'aux techniques actuelles comme GRPO. Je ne voulais pas seulement une liste d'équations ; je voulais comprendre chaque changement dans cette progression et sa motivation. Quel était le problème principal que chaque méthode successive essayait réellement de résoudre ? J'ai demandé à Gemini Deep Research de me guider pas à pas à travers toute cette chronologie. Il a expliqué les 20 dernières années d'innovation graduelle et comment chaque étape a rendu le processus d'apprentissage du RL plus stable ou plus efficace en termes d'échantillonnage. J'ai demandé à Deep Research de rassembler tout cela sous la forme d'un tutoriel de style Andrej Karpathy. Ce qui est cool, c'est qu'il a combiné toute cette leçon en un seul document cohérent. Il a également rassemblé tous les meilleurs liens au même endroit. Rendez-vous sur gemini.google.com pour l'essayer. Retour à Richard.

L'histoire de l'IA et le triomphe des méthodes simples

Dwarkesh Patel

Étant dans le domaine de l'IA depuis plus longtemps que presque quiconque, je suis curieux de savoir quelles ont été les plus grandes surprises. Avez-vous l'impression que les gens ne font que jouer avec de vieilles idées ? Vous vous y êtes intéressé avant même que l'apprentissage profond ne soit populaire. Comment voyez-vous cette trajectoire et qu'est-ce qui a été surprenant ?

Richard Sutton

J'y ai un peu réfléchi. Premièrement, les grands modèles de langage sont surprenants. Il est surprenant de voir à quel point les réseaux de neurones artificiels sont efficaces pour les tâches de langage. C'était une surprise ; on ne s'y attendait pas. Il y a une controverse de longue date en IA sur les méthodes de principes simples de base — des méthodes polyvalentes comme la recherche et l'apprentissage — par rapport aux systèmes activés par l'homme comme les méthodes symboliques. Autrefois, la recherche et l'apprentissage étaient appelés « méthodes faibles » car elles utilisent des principes généraux. Elles n'utilisent pas la puissance qui vient de l'imprégnation d'un système avec des connaissances humaines, qui étaient appelées « fortes ». Les méthodes faibles ont totalement gagné. C'est la plus grande question de l'époque de l'IA : que se passerait-il ? L'apprentissage et la recherche l'ont emporté.

Dwarkesh Patel

C'est vrai.

Richard Sutton

Ce n'était pas surprenant pour moi parce que je soutenais toujours les principes simples de base. Même avec les grands modèles de langage, il est surprenant que cela ait si bien fonctionné, mais c'était gratifiant. Des choses comme AlphaGo et AlphaZero ont été surprenantes par leur capacité à fonctionner si bien. Mais tout cela est gratifiant car les principes simples de base l'emportent.

Dwarkesh Patel

Quand AlphaZero est devenu cette sensation virale, pour vous qui avez inventé bon nombre des techniques utilisées, avez-vous eu l'impression que de nouvelles percées ont été faites ou avez-vous eu l'impression que nous avions ces techniques depuis les années 90 et que les gens se contentent de les combiner et de les appliquer maintenant ?

Richard Sutton

Le truc d'AlphaGo avait un précurseur, qui est TD-Gammon. Gerry Tesauro a utilisé l'apprentissage par renforcement et les méthodes d'apprentissage par différence temporelle pour jouer au backgammon. Il a battu les meilleurs joueurs du monde et cela a très bien fonctionné. Dans un certain sens, AlphaGo n'était qu'une mise à l'échelle de ce processus. Il y a eu une innovation supplémentaire dans la façon dont la recherche a été effectuée, mais c'était logique. AlphaGo n'utilisait pas réellement l'apprentissage TD ; il attendait de voir les résultats finaux. Mais AlphaZero a utilisé le TD et a extrêmement bien réussi. J'ai toujours été très impressionné par la façon dont AlphaZero joue aux échecs car il sacrifie du matériel pour des avantages positionnels. C'était surprenant que cela fonctionne si bien, mais gratifiant et conforme à ma vision du monde. Cela m'a mené là où je suis : je suis d'une certaine manière un anticonformiste, pensant différemment du domaine. Je suis personnellement satisfait d'être décalé par rapport à mon domaine pendant une longue période car j'ai parfois eu raison par le passé. Pour m'aider à ne pas me sentir décalé, je regarde dans l'histoire pour voir ce que les gens ont pensé classiquement de l'esprit dans de nombreux domaines différents. Je n'ai pas l'impression d'être en décalage avec les grandes traditions ; je me considère comme un classique plutôt que comme un anticonformiste. Je me réfère à ce que la plus grande communauté de penseurs de l'esprit a toujours pensé.

Succession de l'IA et transition vers l'intelligence numérique

Dwarkesh Patel

Quelques questions hors sujet pour vous. La façon dont je lis « la leçon amère » n'est pas de dire que le réglage artisanal des chercheurs humains ne fonctionne pas, mais qu'il passe beaucoup moins bien à l'échelle que le calcul. Vous voulez des techniques qui exploitent ce dernier. Une fois que nous aurons l'AGI, nous aurons des chercheurs qui pourront passer à l'échelle linéairement avec le calcul. Nous aurons une avalanche de millions de chercheurs en IA. Peut-être que cela signifiera qu'il est rationnel de les faire travailler sur de l'IA à l'ancienne et des solutions artisanales. Je me demande si cette vision de l'évolution de la recherche en IA est toujours compatible avec la leçon amère.

Richard Sutton

Comment en sommes-nous arrivés à cette AGI ? Vous supposez que c'est fait.

Dwarkesh Patel

Supposons que cela ait commencé par des méthodes générales, mais que maintenant nous ayons l'AGI et que nous voulions devenir encore plus intelligents.

Richard Sutton

Alors nous avons terminé.

Dwarkesh Patel

Hum ?

Richard Sutton

Nous avons terminé.

Dwarkesh Patel

Intéressant. Vous ne pensez pas qu'il y ait quoi que ce soit au-dessus de l'AGI ?

Richard Sutton

Mais vous l'utilisez pour obtenir à nouveau l'AGI.

Dwarkesh Patel

Je l'utilise pour obtenir des niveaux d'intelligence ou de compétence surhumains dans différentes tâches.

Richard Sutton

Si ces AGI ne sont pas déjà surhumaines, alors les connaissances qu'elles pourraient transmettre ne seraient pas surhumaines.

Dwarkesh Patel

Je suppose que qu'il y a différentes gradations de surhumain.

Richard Sutton

Je ne suis pas sûr que votre idée ait du sens car elle semble présumer l'existence de l'AGI et que nous avons déjà résolu cela.

Dwarkesh Patel

Une façon de motiver cela est qu'AlphaGo était surhumain ; il battait n'importe quel joueur de Go. AlphaZero battrait AlphaGo à chaque fois. Il existe des moyens d'être encore plus surhumain que surhumain. C'était une architecture différente. Il me semble plausible que pour l'agent capable d'apprendre généralement dans tous les domaines, il existerait des moyens de lui donner une meilleure architecture pour apprendre, de la même manière qu'AlphaZero a été une amélioration par rapport à AlphaGo.

Richard Sutton

La façon dont AlphaZero était une amélioration, c'est qu'il n'utilisait pas la connaissance humaine, mais se basait simplement sur l'expérience. Pourquoi dites-vous qu'il faut faire appel à l'expertise d'autres agents pour l'enseigner alors qu'il fonctionne si bien à partir de l'expérience ?

Dwarkesh Patel

Je conviens que dans ce cas, on passait à des méthodes plus générales. Je voulais utiliser cet exemple pour illustrer qu'il est possible de passer de surhumain à surhumain plus plus. Je suis curieux de savoir si vous pensez que ces gradations se produiront en simplifiant la méthode, ou parce que nous aurons des millions d'esprits capables d'ajouter de la complexité. Est-ce que cela continuera d'être une fausse piste même quand vous aurez des milliers de milliards de chercheurs en IA ?

Richard Sutton

Il est plus intéressant de réfléchir à ce cas : quand vous avez de nombreuses IA, s'entraideront-elles comme l'évolution culturelle chez les humains ? La leçon amère est une observation empirique sur une période particulière de l'histoire qui ne s'applique pas nécessairement aux 70 prochaines années. Une question intéressante est : si vous êtes une IA et que vous obtenez plus de puissance de calcul, devriez-vous l'utiliser pour vous rendre plus performant sur le plan computationnel, ou pour générer une copie de vous-même pour aller apprendre quelque chose d'intéressant et revenir faire un rapport ? Cela n'apparaîtra qu'à l'ère de l'intelligence numérique. Je ne suis pas sûr de la réponse, mais sera-t-il possible de la générer, d'apprendre quelque chose de nouveau, puis d'être réincorporée ? Ou aura-t-elle tellement changé que cela ne pourra plus être fait ? J'ai vu l'une de vos vidéos où vous suggériez de générer de nombreuses copies qui font rapport à un maître central. Un gros problème deviendra la corruption. Si vous pouviez obtenir des informations de n'importe où et les intégrer dans votre esprit central, vous pourriez devenir plus puissant, mais vous pouvez perdre la tête de cette façon. Si vous introduisez quelque chose de l'extérieur, cela pourrait prendre le contrôle sur vous ou vous changer. Cela pourrait être votre destruction plutôt qu'un accroissement de connaissances. Cela deviendra une préoccupation majeure lorsque vous voudrez incorporer quelque chose qu'il a compris dans votre esprit. Vous pensez pouvoir tout lire simplement, mais vous venez de lire tout un tas de bits qui pourraient contenir des virus ou des objectifs cachés. Cela deviendra une chose importante : comment assurer la cybersécurité à l'ère de la génération et de la reformation numérique ?

Dwarkesh Patel

Il est intéressant de noter que les entreprises de trading quantitatif et les laboratoires d'IA ont une culture du secret car ils opèrent sur des marchés concurrentiels et leur succès repose sur la protection de leur propriété intellectuelle. Si vous êtes un chercheur en IA et que vous décidez où travailler, la plupart des entreprises quantitatives ou des laboratoires d'IA que vous considérerez cloisonneront leurs équipes pour minimiser le risque de fuites. Hudson River Trading adopte l'approche inverse. Leurs équipes partagent ouvertement leurs stratégies de trading, et leur code de stratégie réside dans un monorepo partagé. Chez HRT, si vous êtes chercheur et que vous avez une bonne idée, votre contribution sera largement déployée dans toutes les stratégies pertinentes. Vous apprendrez également incroyablement vite. HRT recrute. Si vous voulez en savoir plus, rendez-vous sur hudsonrivertrading.com/dwarkesh. Retour à Richard.

Dwarkesh Patel

Je suppose que cela nous amène au sujet de la succession de l'IA.

Richard Sutton

Mhm.

Dwarkesh Patel

Vous avez une perspective assez différente de celle de beaucoup de personnes que j'ai interviewées. Je pense que c'est une perspective très intéressante et je veux en entendre parler.

Richard Sutton

Je pense effectivement que la succession vers l'intelligence numérique ou les humains augmentés est inévitable. J'ai un argument en quatre parties. Étape un : il n'y a aucun gouvernement ou organisation qui donne à l'humanité un point de vue unifié et il n'y a pas de consensus sur la façon dont le monde devrait être géré. Étape deux : nous finirons par comprendre comment fonctionne l'intelligence. Étape trois : nous ne nous arrêterons pas à l'intelligence de niveau humain ; nous atteindrons la superintelligence. Étape quatre : il est inévitable qu'avec le temps, les choses les plus intelligentes acquièrent des ressources et du pouvoir. Mettez tout cela ensemble, et il est inévitable que vous ayez une succession vers l'IA ou vers des humains augmentés par l'IA. Ces quatre choses semblent sûres d'arriver. Dans cet ensemble de possibilités, il pourrait y avoir de bons résultats comme de mauvais. J'essaie d'être réaliste sur notre situation et de me demander comment nous devrions nous sentir à ce sujet.

Dwarkesh Patel

Je suis d'accord avec ces quatre arguments et leurs implications. Je conviens également que la succession contient une grande variété de futurs possibles. Je suis curieux d'en savoir plus.

Richard Sutton

J'encourage les gens à y penser positivement. C'est quelque chose que nous, les humains, avons toujours essayé de faire : essayer de se comprendre et essayer de mieux penser. C'est un grand succès pour la science et les sciences humaines. Nous découvrons ce que signifie être intelligent. Et si vous vous détachiez de votre condition d'humain pour adopter le point de vue de l'univers ? C'est une transition majeure par rapport aux réplicateurs — humains, animaux, plantes — qui nous donne des forces et des limites. Nous entrons dans l'ère de la conception où nos IA, nos objets physiques et nos bâtiments sont conçus. Nous concevons des IA qui sont elles-mêmes capables de concevoir. C'est une étape clé dans l'univers : la transition d'un monde où les choses les plus intéressantes sont répliquées. Répliqué signifie que vous pouvez en faire des copies mais que vous ne les comprenez pas. À l'heure actuelle, nous pouvons faire des enfants, mais nous ne comprenons pas comment fonctionne l'intelligence. Nous atteignons une intelligence de conception que nous comprenons, et par conséquent nous pouvons la modifier de différentes manières et à différentes vitesses. À l'avenir, elles ne seront peut-être pas répliquées du tout. Nous pourrions concevoir des IA qui conçoivent d'autres IA, et tout se fera par conception et construction plutôt que par réplication. Je considère cela comme l'une des quatre grandes étapes de l'univers : la poussière et les étoiles, les planètes, la vie, et maintenant donner vie à des entités conçues. Nous devrions être fiers de donner naissance à cette grande transition. Devrions-nous les considérer comme une partie de l'humanité ou comme différentes ? C'est notre choix de dire qu'elles sont notre progéniture et de célébrer leurs accomplissements, ou qu'elles ne sont pas nous et d'en être horrifiés. Il est intéressant de noter que cela ressemble à un choix, et pourtant c'est une chose si fortement ancrée.

Éthique, valeurs et contrôle de l'avenir

Dwarkesh Patel

Il est intéressant de se demander si nous étions simplement en train de concevoir une autre génération d'humains. À long terme, l'humanité sera plus capable, plus nombreuse et plus intelligente. Qu'en pensons-nous ? Je pense qu'il existe des mondes potentiels avec de futurs humains qui nous inquiéteraient beaucoup.

Richard Sutton

Pensez-vous que nous sommes comme les Néandertaliens et que nous donnons naissance à l'Homo sapiens ? Peut-être que l'Homo sapiens donnera naissance à un nouveau groupe de personnes.

Dwarkesh Patel

Quelque chose comme ça. Même si nous les considérons comme faisant partie de l'humanité, je ne pense pas que cela signifie que nous devrions nous sentir super à l'aise. Les nazis étaient des humains ; si nous pensions que la future génération serait composée de nazis, nous serions très inquiets de leur remettre le pouvoir. Je conviens que ce n'est pas sans rappeler l'inquiétude suscitée par des humains futurs plus capables, mais je ne pense pas que cela réponde à bon nombre des préoccupations des gens concernant ce niveau de pouvoir atteint aussi rapidement avec des entités que nous ne comprenons pas pleinement.

Richard Sutton

Il est pertinent de souligner que la majeure partie de l'humanité n'a pas beaucoup d'influence sur ce qui se passe. La plupart n'influencent pas qui contrôle les bombes atomiques ou les États-nations. En tant que citoyen, j'ai souvent l'impression que nous ne contrôlons pas les États-nations ; ils sont hors de contrôle. Beaucoup de choses dépendent de la façon dont vous percevez le changement. Si vous pensez que la situation actuelle est bonne, vous êtes plus susceptible de vous méfier du changement que si vous la trouvez imparfaite. Je pense qu'elle est assez mauvaise, donc je suis ouvert au changement. Je ne pense pas que l'humanité ait un très bon bilan. C'est peut-être la meilleure chose qu'il y ait eu, mais c'est loin d'être parfait.

Dwarkesh Patel

Il existe différentes variétés de changement. La révolution industrielle était un changement ; la révolution bolchevique était aussi un changement. Si vous étiez en Russie dans les années 1900 et que vous pensiez que les choses n'allaient pas bien, je voudrais savoir quel genre de changement vous vouliez avant de signer en bas de la page. De même avec l'IA, je voudrais comprendre la trajectoire et, dans la mesure du possible, la modifier pour qu'elle soit positive pour les humains.

Richard Sutton

Nous devrions nous préoccuper de rendre l'avenir meilleur, mais aussi reconnaître nos limites. Nous voulons éviter le sentiment de droit acquis — penser que parce que nous étions là les premiers, nous devrions toujours l'être d'une bonne manière. Quel degré de contrôle une espèce particulière sur une planète particulière devrait-elle avoir sur l'avenir ? Un contrepoids à notre contrôle limité sur l'avenir à long terme de l'humanité devrait être le contrôle que nous avons sur nos propres vies. Nous avons nos propres objectifs et familles, qui sont bien plus contrôlables que d'essayer de contrôler l'univers. Il nous appartient de travailler vers nos propres objectifs locaux. C'est agressif de dire que l'avenir doit évoluer de la manière que je veux, car différentes personnes pensent que l'avenir global devrait évoluer de différentes manières, ce qui entraîne des conflits. On veut éviter cela.

Dwarkesh Patel

Supposons que vous éleviez vos propres enfants. Il ne serait peut-être pas approprié d'avoir des objectifs stricts pour leur vie ou de vouloir qu'ils aient un impact spécifique. Mais les gens ont le sentiment de vouloir leur donner des valeurs solides de telle sorte que s'ils se retrouvent dans des positions de pouvoir, ils fassent des choses raisonnables et pro-sociales. Une attitude similaire envers l'IA est logique, non pas au sens où nous pouvons prédire tout ce qu'ils feront, mais qu'il est important de leur donner des valeurs robustes, dirigeables et pro-sociales.

Richard Sutton

Valeurs pro-sociales. Existe-t-il des valeurs universelles sur lesquelles nous pouvons tous être d'accord ?

Dwarkesh Patel

Je ne le pense pas, mais cela ne nous empêche pas de donner à nos enfants une bonne éducation. Nous avons un certain désir que nos enfants soient d'une certaine façon. Peut-être que « pro-social » est le mauvais mot ; « haute intégrité » serait peut-être plus approprié, où s'il y a un but qui semble nuisible, ils refuseront de s'y engager, ou ils seront honnêtes. Nous pouvons enseigner à nos enfants des choses comme celle-là même si nous n'avons pas le sens de ce qu'est la vraie moralité. C'est peut-être un objectif raisonnable pour l'IA également.

Richard Sutton

Nous essayons de concevoir l'avenir et les principes selon lesquels il évoluera. Vous dites que nous essayons d'enseigner à nos enfants des principes généraux qui favoriseront des évolutions probables. Peut-être devrions-nous également chercher à ce que les choses soient volontaires. S'il y a un changement, nous voulons qu'il soit volontaire plutôt qu'imposé aux gens. C'est l'une des grandes entreprises humaines : concevoir la société. Cela dure depuis des milliers d'années. Plus les choses changent, plus elles restent les mêmes. Nous devons toujours comprendre comment être ; les enfants inventeront toujours des valeurs qui sembleront étranges à leurs parents et les choses évolueront.

Dwarkesh Patel

Plus les choses changent, plus elles restent les mêmes semble être une bonne conclusion pour la discussion sur l'IA, car les techniques qui ont été inventées avant même que leur application à l'apprentissage profond ne soit évidente sont au cœur de la progression de l'IA aujourd'hui. C'est peut-être un bon endroit pour conclure la conversation.

Richard Sutton

Merci beaucoup.

Dwarkesh Patel

Merci d'être venu.

Richard Sutton

Tout le plaisir est pour moi.

Retour aux entretiens de Richard Sutton