Andrej Karpathy

La Décennie des Agents : Pourquoi l'IA autonome prendra du temps

17 octobre 2025

Intelligence Artificielle
Illustration de Andrej Karpathy

Perspectives sur l'IA et l'Apprentissage par Renforcement

Andrej Karpathy

L'apprentissage par renforcement est terrible.

Andrej Karpathy

Il se trouve que tout ce que nous avions avant est bien pire.

Andrej Karpathy

Je suis en fait optimiste, je pense que c'est gérable. Je parais pessimiste seulement parce que lorsque je consulte mon fil Twitter, je vois tout ce genre de choses qui n'ont aucun sens pour moi. Une grande partie, je pense, n'est honnêtement que de la collecte de fonds.

Andrej Karpathy

Nous ne construisons pas réellement des animaux, nous construisons des fantômes, ces entités spirituelles éthérées parce qu'elles sont entièrement numériques et qu'elles imitent les humains. Et c'est un type d'intelligence différent.

Andrej Karpathy

C'est la routine habituelle car nous sommes déjà dans une explosion d'intelligence, et ce depuis des décennies. Tout s'automatise progressivement. C'est le cas depuis des centaines d'années.

Andrej Karpathy

N'écrivez pas d'articles de blog, ne faites pas de diapositives, ne faites rien de tout cela. Construisez le code, organisez-le, faites-le fonctionner. C'est la seule façon de procéder, sinon vous passez à côté de connaissances.

Andrej Karpathy

Si vous avez un tuteur IA parfait, vous pouvez peut-être aller extrêmement loin. Les génies d'aujourd'hui effleurent à peine la surface de ce qu'un esprit humain peut faire, je pense.

Pourquoi la Décennie des Agents ?

Animateur

Aujourd'hui, je suis assis avec Andrej Karpathy. Andrej, pourquoi dites-vous que ce sera la décennie des agents et non l'année des agents ?

Andrej Karpathy

Eh bien tout d'abord, merci de me recevoir ici. Je suis ravi d'être là. La citation que vous venez de mentionner, c'est la décennie des agents, c'est en fait une réaction à une citation préexistante je dois dire, où certains laboratoires, je ne sais pas exactement qui a dit ça, mais ils faisaient allusion au fait que c'était l'année des agents en ce qui concerne les LLM et la façon dont ils allaient évoluer. Cela m'a fait réagir car j'ai l'impression qu'il y a une certaine sur-prédiction dans l'industrie et dans mon esprit, cela est vraiment décrit de manière beaucoup plus précise comme étant la décennie des agents. Et nous avons quelques agents très précoces qui sont en fait extrêmement impressionnants et que j'utilise quotidiennement. Vous savez, Claude et Codex et ainsi de suite, mais j'ai toujours l'impression qu'il reste tellement de travail à faire. Donc je pense que ma réaction est que nous allons travailler avec ces choses pendant des décennies. Elles vont s'améliorer et ce sera merveilleux, mais je pense que je réagissais simplement aux délais suggérés.

Les Goulots d'Étranglement Techniques

Animateur

Et selon vous, qu'est-ce qui prendra une décennie à accomplir ? Quels sont les goulots d'étranglement ?

Andrej Karpathy

Eh bien, les faire fonctionner réellement. Dans mon esprit, quand on parle d'un agent ou de ce que les laboratoires ont en tête et de ce que j'ai peut-être aussi en tête, il faut y penser presque comme à un employé ou un stagiaire que vous embaucheriez pour travailler avec vous. Par exemple, vous travaillez avec des employés ici. Quand préféreriez-vous qu'un agent comme Claude ou Codex fasse ce travail ? Actuellement, bien sûr, ils ne le peuvent pas. Que faudrait-il pour qu'ils en soient capables ? Pourquoi ne le faites-vous pas aujourd'hui ? Et la raison pour laquelle vous ne le faites pas aujourd'hui est qu'ils ne fonctionnent tout simplement pas. Ils n'ont pas assez d'intelligence, ils ne sont pas assez multimodaux, ils ne savent pas utiliser un ordinateur et tout ce genre de choses. Et ils ne font pas beaucoup de choses auxquelles vous avez fait allusion plus tôt, ils n'ont pas d'apprentissage continu. Vous ne pouvez pas simplement leur dire quelque chose et ils s'en souviendront. Et ils manquent tout simplement de capacités cognitives et ça ne fonctionne pas. Je pense simplement qu'il faudra environ une décennie pour résoudre tous ces problèmes.

Intuition et Prédictions Temporelles

Animateur

Intéressant. En tant que podcasteur professionnel et observateur de l'IA de loin, il m'est facile d'identifier ce qui manque : l'apprentissage continu manque ou la multimodalité manque. Mais je n'ai pas vraiment de bon moyen d'essayer de fixer un calendrier pour cela. Par exemple, si quelqu'un demande 'combien de temps prendra l'apprentissage continu ?', je n'ai aucune idée préconçue de si c'est un projet qui devrait prendre cinq ans, 10 ans, 50 ans. Pourquoi une décennie ? Pourquoi pas un an ? Pourquoi pas 50 ans ?

Andrej Karpathy

Oui, je suppose que c'est là qu'entre en jeu ma propre intuition et aussi une sorte d'extrapolation par rapport à ma propre expérience dans le domaine. Je suis dans l'IA depuis presque deux décennies. Ça va faire peut-être 15 ans environ, pas si longtemps. Vous aviez Richard Sutton ici qui est là depuis bien plus longtemps, bien sûr. Mais j'ai environ 15 ans d'expérience à voir les gens faire des prédictions et à voir comment elles se sont réellement concrétisées. De plus, j'étais dans la recherche et j'ai travaillé dans l'industrie pendant un certain temps, donc je suppose que j'ai une intuition générale qui m'en reste et j'ai l'impression que les problèmes sont solubles, surmontables, mais qu'ils restent difficiles. Et si je fais une moyenne, cela ressemble à une décennie pour moi.

L'Évolution Historique et les Changements Sismiques

Animateur

C'est en fait assez intéressant. Je veux entendre non seulement l'histoire, mais aussi ce que les gens présents dans la salle ressentaient sur ce qui allait se passer à différents moments de rupture. De quelles manières leurs sentiments étaient-ils soit trop pessimistes, soit trop optimistes ? Peut-être devrions-nous les passer en revue un par un ?

Andrej Karpathy

Oui, je veux dire que c'est une question gigantesque parce que vous parlez bien sûr de 15 ans d'événements. L'IA est tellement merveilleuse car il y a eu un certain nombre de changements sismiques où tout le domaine a soudainement pris une direction différente. Et je suppose que j'en ai vécu deux ou trois. Et je pense qu'il continuera d'y en avoir car ils surviennent avec une régularité surprenante. Quand ma carrière a commencé, quand j'ai commencé à travailler sur l'apprentissage profond, quand je m'y suis intéressé, c'était par hasard en étant juste à côté de Jeff Hinton à l'Université de Toronto. Jeff Hinton est bien sûr la figure du parrain de l'IA. Et il entraînait tous ces réseaux neuronaux et je trouvais cela incroyablement intéressant, mais ce n'était pas du tout ce que tout le monde faisait dans l'IA. C'était un petit sujet de niche à part. C'est peut-être le premier changement sismique dramatique qui est venu avec AlexNet. Je dirais qu'AlexNet a en quelque sorte réorienté tout le monde et tout le monde a commencé à entraîner des réseaux neuronaux. Mais c'était encore très spécifique à chaque tâche. Peut-être que j'ai un classificateur d'images ou un traducteur automatique neuronal ou quelque chose comme ça. Et les gens ont commencé à s'intéresser très lentement aux agents. Les gens ont commencé à se dire d'accord, peut-être que nous avons coché la case du cortex visuel, mais qu'en est-il des autres parties du cerveau et comment pouvons-nous obtenir un agent réel complet ou une entité complète capable d'interagir réellement dans le monde ? Et je dirais que le virage de l'apprentissage par renforcement profond d'Atari en 2013 environ faisait partie de cet effort précoce sur les agents à mon avis, car c'était une tentative d'obtenir des agents qui ne se contentent pas de percevoir le monde, mais qui agissent aussi, interagissent et obtiennent des récompenses des environnements. Et à l'époque, c'était des jeux Atari. Et j'ai un peu l'impression que c'était une erreur, en fait. Et c'était une erreur que même le premier OpenAI dont je faisais partie a adoptée car à cette époque, l'esprit du temps était aux environnements d'apprentissage par renforcement, aux jeux, au gameplay, au fait de battre des jeux, et OpenAI faisait beaucoup de cela. C'était donc peut-être une autre partie importante de l'IA où, pendant peut-être deux, trois ou quatre ans, tout le monde faisait de l'apprentissage par renforcement sur des jeux. Fondamentalement, c'était un peu une erreur. Ce que j'essayais de faire à OpenAI en fait, c'est que j'ai toujours été un peu méfiant vis-à-vis des jeux comme étant la chose qui mènerait réellement à l'AGI car dans mon esprit, on veut quelque chose comme un comptable ou quelqu'un qui interagit réellement avec le monde réel. Et je ne voyais tout simplement pas comment les jeux y parvenaient. Mon projet à OpenAI s'inscrivait donc dans le cadre du projet Universe sur un agent qui utilisait un clavier et une souris pour faire fonctionner des pages Web. Je voulais vraiment avoir quelque chose qui interagisse avec le monde numérique réel, capable de faire du travail intellectuel. Il se trouve que c'était extrêmement précoce, beaucoup trop précoce. Tellement précoce que nous n'aurions pas dû travailler là-dessus. Car si vous tâtonnez simplement et que vous tapez au hasard sur le clavier et cliquez sur la souris en essayant d'obtenir des récompenses dans ces environnements, votre récompense est trop rare et vous n'apprendrez tout simplement pas et vous allez brûler une forêt de calculs sans jamais rien faire décoller. Ce qui vous manque, c'est ce pouvoir de représentation dans le réseau neuronal. Par exemple, aujourd'hui, les gens entraînent ces agents utilisant l'ordinateur, mais ils le font par-dessus un grand modèle de langage. Donc il faut d'abord obtenir le modèle de langage, il faut d'abord obtenir les représentations, et il faut le faire par tout le pré-entraînement et tout le travail sur les LLM. J'ai un peu l'impression, pour parler de façon informelle, que les gens essaient sans cesse d'obtenir la version complète trop tôt, à plusieurs reprises, où les gens ont vraiment essayé de s'attaquer aux agents trop tôt et cétait Atari et Universe et même ma propre expérience. Il faut d'abord faire certaines choses avant d'arriver à ces agents. Peut-être que maintenant les agents sont beaucoup plus compétents, mais peut-être qu'il nous manque encore certaines parties de cette pile. Je dirais que ce sont comme les trois grandes catégories de ce que les gens faisaient : entraîner des réseaux neuronaux par tâches, la première vague d'agents, puis les LLM et la recherche réelle du pouvoir de représentation des réseaux neuronaux avant d'ajouter tout le reste par-dessus.

Apprentissage à partir de Zéro vs Représentation

Animateur

Intéressant. Si je devais présenter de la manière la plus solide la perspective de Sutton, ce serait que les humains peuvent simplement tout assumer en même temps, ou même les animaux peuvent tout assumer en même temps. Les animaux sont peut-être un meilleur exemple car ils n'ont même pas l'échafaudage du langage. Ils sont simplement jetés dans le monde et doivent donner un sens à tout sans aucune étiquette. La vision de l'AGI devrait donc être simplement quelque chose qui regarde les données sensorielles, regarde l'écran de l'ordinateur et comprend ce qui se passe à partir de zéro. Je veux dire que si un humain était placé dans une situation similaire, il devrait être formé à partir de zéro, mais c'est exactement comme un humain ou un animal qui grandit. Alors pourquoi cela ne devrait-il pas être le