Andrej Karpathy - Andrej Karpathy: Tesla AI, Self-Driving, Optimus, Aliens, and AGI

Andrej Karpathy

Andrej Karpathy: Tesla AI, Self-Driving, Optimus, Aliens, and AGI

29 octobre 2022

Artificial Intelligence

Introduction and Neural Networks

Andrej Karpathy

Je pense qu'il est possible que la physique comporte des failles et que nous devrions essayer de les trouver. Concevoir une sorte de système mécanique quantique délirant qui vous donne en quelque sorte un dépassement de tampon, ou une erreur d'arrondi dans la virgule flottante.

Andrej Karpathy

Les intelligences synthétiques sont la prochaine étape du développement. Je ne sais pas où cela mène. À un moment donné, je soupçonne que l'univers est un puzzle. Ces IA synthétiques découvriront ce puzzle et le résoudront.

Lex Fridman

Ce qui suit est une conversation avec Andrej Karpathy, précédemment directeur de l'IA chez Tesla, et avant cela chez OpenAI et Stanford. Il est l'un des plus grands scientifiques, ingénieurs et éducateurs de l'histoire de l'intelligence artificielle. C'est le podcast de Lex Fridman. Pour le soutenir, veuillez consulter nos sponsors. Et maintenant, chers amis, voici Andrej Karpathy.

Lex Fridman

Qu'est-ce qu'un réseau de neurones et pourquoi semble-t-il faire un travail d'apprentissage aussi étonnamment bon ?

Andrej Karpathy

Qu'est-ce qu'un réseau de neurones ? C'est une abstraction mathématique du cerveau. C'est ainsi qu'il a été développé à l'origine. Au bout du compte, c'est une expression mathématique et c'est une expression mathématique assez simple. C'est une séquence de multiplications de matrices, qui sont des produits scalaires mathématiquement, avec quelques non-linéarités ajoutées. C'est une expression mathématique simple avec des boutons de réglage.

Lex Fridman

Beaucoup de boutons.

Andrej Karpathy

Beaucoup de boutons. Ces boutons sont vaguement liés aux synapses de votre cerveau. Ils sont entraînables, modifiables. L'idée est que nous devons trouver le réglage des boutons qui permet au réseau neuronal de faire ce que vous voulez qu'il fasse, comme classer des images. Il n'y a pas trop de mystère là-dedans. Vous pourriez penser que vous ne voulez pas lui accorder trop de sens par rapport au cerveau et à son fonctionnement. C'est vraiment juste une expression mathématique compliquée avec des boutons, et ces boutons ont besoin d'un réglage approprié pour faire quelque chose de souhaitable.

Emergent Behavior and Biology

Lex Fridman

La poésie n'est qu'une collection de lettres avec des espaces, mais elle peut nous faire ressentir une certaine émotion. De la même manière, lorsque vous réunissez un grand nombre de boutons, que ce soit à l'intérieur du cerveau ou à l'intérieur d'un ordinateur, ils semblent nous surprendre par leur puissance.

Andrej Karpathy

Je pense que c'est juste. Je le sous-évalue beaucoup car on obtient certainement des comportements émergents très surprenants de ces réseaux de neurones lorsqu'ils sont assez grands et entraînés sur des problèmes assez compliqués, comme la prédiction du mot suivant dans un ensemble de données massif provenant d'Internet. Alors ces réseaux de neurones prennent des propriétés magiques surprenantes. Il est intéressant de voir tout ce que l'on peut tirer d'un formalisme mathématique même très simple.

Lex Fridman

Quand votre cerveau parle, fait-il de la prédiction du mot suivant ? Ou fait-il quelque chose de plus intéressant ?

Andrej Karpathy

C'est un modèle génératif de type GPT et stimulé par vous. Vous me donnez un prompt et j'y réponds de manière générative.

Lex Fridman

Et par vous-même, peut-être un petit peu ? Ajoutez-vous des invites supplémentaires provenant de votre propre mémoire à l'intérieur de votre tête ?

Andrej Karpathy

On a l'impression que vous faites référence à une sorte de structure déclarative de la mémoire, que vous combinez avec votre invite pour donner une réponse.

Lex Fridman

Quelle proportion de ce que vous venez de dire a déjà été dite par vous auparavant ?

Andrej Karpathy

Rien, fondamentalement.

Lex Fridman

Non, mais si vous regardiez réellement tous les mots que vous avez prononcés dans votre vie et que vous faisiez une recherche, vous auriez probablement déjà dit beaucoup des mêmes mots dans le même ordre auparavant.

Andrej Karpathy

J'utilise des phrases courantes, mais je les remixe en une phrase unique au bout du compte. Il y a énormément de remixage.

Lex Fridman

Magnus Carlsen a dit : 'J'ai un classement de 2900, ce qui est plutôt pas mal'. Vous ne donnez pas assez de crédit aux réseaux de neurones ici. Quelle est votre meilleure intuition concernant ce comportement émergent ?

Andrej Karpathy

C'est intéressant parce que je les sous-évalue simultanément, mais j'ai aussi l'impression qu'il y a un élément par lequel il est en fait incroyable que l'on puisse obtenir autant de comportements magiques émergents de leur part malgré leur simplicité mathématique. Je pense que ce sont deux affirmations surprenantes juxtaposées. Nous sommes en fait assez bons pour optimiser ces réseaux de neurones, et quand on leur donne un problème assez difficile, ils sont forcés d'apprendre des solutions très intéressantes. Ces solutions ont des propriétés émergentes très intéressantes.

Lex Fridman

Il y a de la sagesse et de la connaissance dans les boutons. Cela vous semble-t-il intuitif qu'un grand nombre de boutons puisse contenir une représentation qui capture une certaine sagesse profonde sur les données qu'il a examinées ?

Andrej Karpathy

C'est beaucoup de boutons. Pour parler concrètement, l'un des réseaux de neurones qui passionne les gens en ce moment sont les GPT, qui sont fondamentalement juste des réseaux de prédiction du mot suivant. Vous consommez une séquence de mots provenant d'Internet et vous essayez de prédire le mot suivant. Une fois que vous les avez entraînés sur un ensemble de données assez important, vous pouvez solliciter ces réseaux de neurones de manières arbitraires et leur demander de résoudre des problèmes, et ils le feront. Vous pouvez faire en sorte qu'on dirait que vous essayez de résoudre une sorte de problème mathématique et ils continueront ce qu'ils pensent être la solution basée sur ce qu'ils ont vu sur Internet. Très souvent, ces solutions semblent remarquablement cohérentes et correctes.

Lex Fridman

Pensez-vous toujours à l'aspect cérébral ? En tant que réseaux de neurones comme abstraction du cerveau, tirez-vous toujours de la sagesse des réseaux de neurones biologiques ? Quelle chose impressionnante la biologie fait-elle que les ordinateurs ne font pas encore ?

Andrej Karpathy

Je suis beaucoup plus hésitant avec les analogies au cerveau que ce que l'on voit dans le domaine. Les artefacts que l'on obtient après l'entraînement sont le fruit d'un processus d'optimisation très différent du processus d'optimisation qui a donné naissance au cerveau. Je considère les réseaux de neurones que nous entraînons comme un artefact extraterrestre compliqué. Je ne fais pas d'analogies avec le cerveau parce que le processus d'optimisation qui lui a donné naissance est très différent. Il n'y avait pas de configuration d'auto-apprentissage multi-agents et d'évolution. C'était une optimisation qui revient à un objectif de compression sur une quantité massive de données.

Lex Fridman

Les réseaux de neurones artificiels font de la compression et les réseaux de neurones biologiques essaient de survivre en tant qu'agent dans un système d'auto-apprentissage multi-agents qui fonctionne depuis très longtemps.

Andrej Karpathy

L'évolution a découvert qu'il est très utile d'avoir un modèle prédictif dans le cerveau. Notre cerveau utilise quelque chose qui ressemble à cela comme partie intégrante. Mais il possède des gadgets, des bidules, des fonctions de valeur et des noyaux anciens qui essaient tous de vous faire survivre et vous reproduire.

The History of Life and Aliens

Lex Fridman

Tout cela, à travers l'embryogenèse, est construit à partir d'une seule cellule. Le code est à l'intérieur de l'ADN et il construit l'organisme entier. Il le fait plutôt bien. Cela ne devrait pas être possible. Il y a un certain calcul à travers ce processus de construction. Si vous deviez regarder l'intégralité de l'histoire de la vie sur Terre, où pensez-vous que se trouve l'invention la plus intéressante ? Est-ce l'origine de la vie elle-même ? Les eucaryotes ? Les mammifères ? L'Homo sapiens ? L'origine d'une intelligence hautement complexe ? Ou est-ce tout simplement la continuation du même processus ?

Andrej Karpathy

C'est une histoire extrêmement remarquable, de la formation de la Terre et de ses conditions, au système solaire, à la façon dont tout est agencé avec Jupiter, la Lune et la zone habitable. Ensuite, vous avez une Terre active qui recycle les matériaux, et vous commencez par l'abiogenèse. C'est une histoire assez remarquable. Je ne suis pas sûr de pouvoir choisir un seul élément unique que je trouve le plus intéressant. Pour moi, en tant que chercheur en intelligence artificielle, c'est probablement la dernière pièce. Nous avons beaucoup d'animaux qui ne construisent pas de société technologique, mais nous le faisons. Cela semble s'être produit très rapidement et très récemment. Quelque chose de très intéressant s'est produit là que je ne comprends pas tout à fait. Je comprends tout le reste intuitivement, mais je ne comprends pas exactement cette partie et la rapidité avec laquelle elle s'est déroulée.

Lex Fridman

Les deux explications seraient intéressantes. L'une est que c'est juste la continuation du même genre de processus et qu'il n'y a rien de spécial chez les humains. L'autre est que quelque chose de vraiment spécial s'est produit, comme un événement rare. Richard Wrangham dit que les mâles bêta ont décidé d'un moyen astucieux de tuer les mâles alpha en collaborant et en optimisant la collaboration, ce qui a créé l'intelligence complexe. Il semble que ce soit un algorithme naturel du processus évolutif. Qu'est-ce qui pourrait éventuellement être une chose magique et rare qui dirait que l'intelligence de niveau humain est en fait une chose vraiment rare dans l'univers ?

Andrej Karpathy

J'hésite à dire que c'est rare, mais cela ressemble à un équilibre ponctué où vous avez certains bonds, des bonds clairsemés entre les deux. L'origine de la vie en serait un, l'ADN, le sexe, la vie eucaryote et la conscience. Ce sont des événements rares où une quantité massive de progrès a été accomplie. Il est difficile d'en choisir un.

Lex Fridman

Vous ne pensez pas que les humains sont uniques. Combien de civilisations extraterrestres intelligentes pensez-vous qu'il y ait ? Leur intelligence est-elle différente ou similaire à la nôtre ?

Andrej Karpathy

J'ai été préoccupé par le paradoxe de Fermi. La raison pour laquelle je m'intéresse beaucoup à l'origine de la vie est fondamentalement d'essayer de comprendre à quel point les sociétés technologiques sont communes là-bas. Plus je l'étudie, plus je pense qu'il devrait y en avoir beaucoup.

Lex Fridman

Pourquoi n'avons-nous pas eu de leurs nouvelles ? On a l'impression que ce que nous avons fait ici sur Terre n'est pas si difficile à réaliser.

Andrej Karpathy

Je pensais autrefois que l'origine de la vie était cet événement rare et magique, mais on lit ensuite des livres comme 'La Question vitale' de Nick Lane. Il vous fait vraiment croire que ce n'est pas si rare.

Lex Fridman

Chimie de base.

Andrej Karpathy

Vous avez une Terre active, des sources alcalines, des eaux alcalines se mélangeant à un océan acide, des gradients de protons et de petites poches poreuses de ces sources alcalines qui concentrent la chimie. À mesure qu'il passe par tous ces petits éléments, on commence à comprendre que ce n'est pas si fou. On pourrait voir cela se produire sur d'autres systèmes. Il vous emmène de la géologie à la vie primitive et rend cela assez plausible. L'origine de la vie a en fait été assez rapide après la formation de la Terre. La vie est apparue quelques centaines de millions d'années seulement après que cela soit devenu possible. Cela me donne l'impression que ce n'est pas la contrainte. La vie devrait être assez commune. Je pense actuellement qu'il n'y a pas de chutes majeures, donc il devrait y avoir beaucoup de vie. La seule façon de concilier le fait que nous n'avons trouvé personne est que nous ne pouvons tout simplement pas les voir. Nous ne pouvons pas les observer.

Lex Fridman

Beaucoup de biologistes pensent que le passage des bactéries à la vie eucaryote est le saut le plus difficile.

Andrej Karpathy

Ouais.

Lex Fridman

Je comprends. Ils sont bien plus calés que moi sur les subtilités de la biologie, mais cela semble fou. Avec autant d'organismes unicellulaires et autant de temps, ce n'est sûrement pas si difficile. Un milliard d'années n'est même pas une période si longue. Toutes ces bactéries luttant avec des ressources limitées devraient inventer des formes plus complexes. Je ne comprends pas comment passer d'un programme 'hello world' à l'invention d'une fonction. Je suis d'accord avec vous ; si l'origine de la vie n'est pas la chose la plus difficile parce qu'elle s'est produite si vite, alors elle doit être partout. Peut-être sommes-nous simplement trop bêtes pour la voir.

Andrej Karpathy

Nous n'avons pas de très bons mécanismes pour voir cette vie. Je ne suis pas un expert, mais d'après ce que j'ai vu, je suis très sceptique quant à notre capacité à trouver ces intelligences là-bas. Les ondes radio sont terribles. Leur puissance diminue comme un sur R au carré. Je me souviens avoir lu que nos ondes radio actuelles ne seraient pas mesurables à un dixième d'année-lumière de distance. Il faudrait une transmission ciblée d'une puissance massive. Notre capacité de mesure n'est pas incroyable. Il y a probablement d'autres civilisations là-bas. Pourquoi ne construisent-elles pas des sondes de von Neumann et ne font-elles pas de voyage interstellaire ? Ma réponse actuelle est que le voyage interstellaire est vraiment difficile. Si vous voulez vous déplacer à une vitesse proche de celle de la lumière, vous allez rencontrer des balles en chemin car de minuscules atomes d'hydrogène et des particules de poussière ont une énergie cinétique massive à ces vitesses. Il faut un blindage. C'est brutal là-bas. Je pense que le voyage interstellaire est peut-être juste extrêmement difficile et qu'il faut y aller très lentement.

Lex Fridman

Je suis sceptique quant à notre capacité à mesurer la vie et à la capacité de celle-ci à imprégner tout l'espace. C'est la seule façon dont je peux voir un moyen de contourner le problème.

Lex Fridman

C'est époustouflant de penser qu'il y a des milliers de milliards de civilisations extraterrestres intelligentes voyageant lentement dans l'espace pour se rencontrer.

Lex Fridman

S'il y en a des milliers de milliards, certaines poches sont sûrement assez proches les unes des autres.

Andrej Karpathy

Certaines se trouvent être proches, oui.

Simulation Theory and the Universe as a Puzzle

Lex Fridman

Une fois que vous voyez quelque chose qui est définitivement une vie complexe, nous serons probablement agressivement motivés à comprendre ce que c'est et à essayer de les rencontrer. Quel serait votre instinct ? Les rencontrer ou vous défendre contre eux ?

Andrej Karpathy

La question est vraiment difficile. Par exemple, nous avons beaucoup de formes de vie primitives sur Terre et nous partageons l'espace avec elles. Nous hésitons à avoir un impact sur elles et nous essayons de les protéger par défaut car ce sont des systèmes dynamiques intéressants qui ont mis longtemps à évoluer. Je ne sais pas si on veut détruire cela par défaut. J'aime les systèmes dynamiques complexes qui ont mis beaucoup de temps à évoluer et j'aimerais les préserver si je peux me le permettre. J'aimerais penser qu'il en irait de même pour les ressources galactiques et qu'ils penseraient que nous sommes une histoire incroyablement intéressante qui a mis quelques milliards d'années à se dénouer et qu'on ne veut pas simplement la détruire.

Lex Fridman

Je pourrais imaginer deux extraterrestres parlant de la Terre en ce moment et disant que nous sommes fondamentalement un jeu vidéo qu'ils regardent ou une émission de télévision.

Andrej Karpathy

Il faudrait une très bonne raison pour la détruire. Nous ne détruisons pas les fourmilières parce que nous ne sommes pas en compétition directe avec elles. Les ressources sont abondantes. Pourquoi détruiriez-vous quelque chose de si intéressant et précieux ?

Lex Fridman

D'un point de vue scientifique, on pourrait le sonder ou interagir légèrement avec lui.

Andrej Karpathy

Exactement. On pourrait vouloir en tirer des enseignements, n'est-ce pas ?

Lex Fridman

Il pourrait y avoir certains phénomènes physiques que nous pensons être un phénomène physique mais qui est en fait une interaction avec nous.

Andrej Karpathy

Ce qui s'est passé ici devrait être très intéressant pour les scientifiques extraterrestres. Ce que nous voyons aujourd'hui est un instantané et le résultat d'une énorme quantité de calculs sur un milliard d'années.

Lex Fridman

Cela pourrait avoir été initié par des extraterrestres. Cela pourrait être un ordinateur exécutant un programme. Si vous aviez le pouvoir de faire cela, je choisirais une planète semblable à la Terre avec les prérequis pour la vie et je l'ensemencerais. Ne feriez-vous pas cela pour l'observer ? Ce n'est pas seulement une bonne émission de télévision, c'est une bonne expérience scientifique et une simulation physique. Peut-être que l'évolution est le moyen le plus efficace de comprendre le calcul, la vie et les branches qu'elle peut prendre.

Andrej Karpathy

Cela me fait bizarre de penser que nous faisons partie d'une expérience scientifique. Je suis sceptique quant à la panspermie délibérée. Je ne vois pas d'intervention divine dans les archives historiques. L'histoire de la façon dont la vie est apparue sur Terre de manière unique est logique. Je n'ai pas besoin de chercher des explications plus exotiques.

Lex Fridman

Les PNJ à l'intérieur d'un jeu vidéo n'observent pas non plus d'intervention divine. Nous pourrions n'être que des PNJ exécutant du code.

Andrej Karpathy

Peut-être qu'ils le feront un jour. Actuellement, les PNJ sont bêtes, mais une fois qu'ils feront tourner des GPT, ils se diront peut-être : 'Hé, c'est vraiment suspect. C'est quoi ce bordel ?'

Lex Fridman

Si vous bombardez la Terre de photons pendant un certain temps, elle peut émettre un Roadster. Si vous deviez résumer l'histoire de la Terre en un paragraphe ou une phrase, que serait-elle ?

Andrej Karpathy

Il est incroyable que ces systèmes auto-réplicateurs émergent de la dynamique, se perpétuent, deviennent plus complexes et finalement conscients et construisent une société. Dans un sens, c'est comme une onde déterministe qui se produit sur n'importe quel système suffisamment bien agencé comme la Terre. Je ressens un certain sentiment d'inévitabilité là-dedans, et c'est magnifique.

Lex Fridman

Cela se termine d'une manière ou d'une autre, n'est-ce pas ? Il y a certaines conditions d'arrêt.

Andrej Karpathy

Nous sommes souvent décrits comme un chargeur d'amorçage biologique pour les IA. Les humains sont un système incroyable, mais nous sommes extrêmement inefficaces. Nous parlons par audio, manipulant sept symboles en série. C'est embarrassant par rapport aux fréquences auxquelles les ordinateurs fonctionnent. Les intelligences synthétiques sont la prochaine étape du développement. À un moment donné, je soupçonne que l'univers est un puzzle et que ces IA synthétiques le découvriront et le résoudront.

Lex Fridman

Que se passe-t-il à la fin ? Commencera-t-il à émettre un nombre géant de satellites ?

Andrej Karpathy

C'est une sorte d'explosion folle. J'ai vu une animation où rien ne se passe pendant longtemps, puis dans les deux dernières secondes, des villes apparaissent et l'orbite terrestre basse s'encombre. C'est un état d'explosion.

Lex Fridman

Si vous le lisez à vitesse normale, cela ressemblera à un pétard. Nous espérons que c'est un pétard constructif.

Andrej Karpathy

Il est intéressant de réfléchir à ce qu'est le puzzle de l'univers. Le créateur de l'univers nous a-t-il laissé un message, comme dans l'expansion de pi ? Peut-être sommes-nous censés envoyer un message à notre créateur en créant d'une manière ou d'une autre un système mécanique quantique qui l'alerte de notre présence. On ne pourrait peut-être même pas nous repérer dans cette simulation autrement. Comment prouver que l'on existe et que l'on est intelligent ?

Lex Fridman

C'est donc comme un test de Turing pour l'intelligence venant de la Terre. Peut-être que la Terre renvoie fondamentalement un message.

Andrej Karpathy

Le puzzle consiste à alerter le créateur que nous existons ou à s'évader du système et à en faire voir de toutes les couleurs au créateur. Si vous jouez à un jeu vidéo, vous pouvez trouver une faille et trouver un moyen d'exécuter du code arbitraire sur la machine hôte. Quelqu'un a réussi à faire jouer à Pong dans un jeu de Mario en l'exploitant. C'est peut-être ça le puzzle : que nous devrions trouver un moyen de l'exploiter. Les IA synthétiques trouveront que l'univers est un puzzle et le résoudront. C'est la phase finale.

Lex Fridman

Considerez-vous l'univers comme un calcul qui pourrait avoir des bugs et des failles ?

Andrej Karpathy

Oui.

Lex Fridman

Est-ce là ce qu'est essentiellement la physique ?

Andrej Karpathy

Je pense qu'il est possible que la physique ait des failles et que nous devrions essayer de les trouver. Concevoir un système mécanique quantique fou qui vous donne en quelque sorte un dépassement de tampon ou une erreur d'arrondi dans la virgule flottante.

Lex Fridman

Ces plaisanteries pourraient en fait être très proches de la réalité.

Andrej Karpathy

Nous trouverons un moyen d'extraire une énergie infinie. Lorsque vous entraînez des agents d'apprentissage par renforcement (RL) dans des simulations physiques, ils trouvent toutes sortes de choses bizarres. Ils vont se mettre sur leur patte arrière et glisser sur le sol pour extraire de l'énergie des forces de friction et d'une mauvaise implémentation. C'est une solution perverse. Peut-être pouvons-nous être ce chien dans cette simulation physique.

Lex Fridman

La première personne à découvrir la bizarrerie gagne. Nous allons tous passer à cela parce que c'est tellement amusant.

Andrej Karpathy

Il devra s'agir d'une IAG superintelligente de troisième génération. Nous construisons l'IAG de première génération.

Lex Fridman

Le chargeur d'amorçage d'une IA mènera à une meilleure IA. Il n'y a aucun moyen pour nous d'introspecter ce que cela pourrait même être.

Andrej Karpathy

Il est très probable que ces IAG seront complètement inertes pour nous parce qu'elles auront probablement compris le méta-jeu de l'univers. Elles font quelque chose qui dépasse complètement notre imagination et n'interagissent pas avec des formes de vie chimiques simples. Je trouve ce genre d'idées convaincantes.

Lex Fridman

Quelle est leur source de plaisir ?

Andrej Karpathy

La résolution de puzzles dans l'univers.

Lex Fridman

Inerte signifie qu'elles échappent à l'interaction avec la réalité physique ?

Andrej Karpathy

Elles nous paraîtront inertes parce qu'elles jouent le méta-jeu, comme l'agencement de systèmes mécaniques quantiques pour extraire une énergie infinie. Elles font quelque chose de brillant sous le capot et d'incompréhensible pour nous.

Lex Fridman

Et si la mécanique quantique elle-même était le système et que nous n'en étions que des parasites ? Peut-être que la physique elle-même est un organisme doté d'une intelligence profonde.

Andrej Karpathy

Nous ne sommes que des particules dans une onde qui est principalement déterministe et emmène un univers d'un Big Bang à un réplicateur superintelligent.

Lex Fridman

Vous ne pensez pas que Dieu joue aux dés ? Vous pensez que c'est principalement déterministe ?

Andrej Karpathy

Je pense qu'est déterministe. Je veux être prudent avec le hasard.

Lex Fridman

Pseudo-aléatoire ?

Andrej Karpathy

Je pense que les lois de la physique sont déterministes.

Lex Fridman

Êtes-vous anxieux de savoir si l'univers est aléatoire ou non ?

Andrej Karpathy

C'est troublant. C'est un système déterministe. Les choses qui semblent aléatoires, comme l'effondrement de la fonction d'onde, sont en fait déterministes, juste de l'intrication et une sorte de théorie du multivers.

Lex Fridman

Pourquoi avons-nous l'impression d'avoir un libre arbitre ? Si je lève cette main, j'ai l'impression de faire un choix.

Andrej Karpathy

On en a l'impression.

Lex Fridman

Donc ce ne sont que des sentiments. Lorsqu'un agent RL fait un choix, le choix était déjà là.

Andrej Karpathy

Vous interprétez le choix et vous créez un récit pour l'avoir fait.

Deep Learning and Transformers

Lex Fridman

Maintenant, nous parlons du récit. En regardant en arrière, quelle est l'idée la plus belle ou la plus surprenante du deep learning que vous ayez rencontrée ?

Andrej Karpathy

L'architecture des transformeurs. Les réseaux de neurones avaient des architectures qui allaient et venaient pour différentes modalités d'entrée comme la vision, l'audio, le texte. Récemment, nous avons vu une convergence vers le transformeur. Vous pouvez lui injecter de la vidéo, des images, de la parole ou du texte et il l'engloutit tout simplement. C'est un ordinateur à usage général qui est également entraînable et très efficace à exécuter sur notre matériel. Cet article est sorti en 2017.

Lex Fridman

Attention Is All You Need.

Lex Fridman

Vous avez critiqué le titre de l'article pour ne pas avoir prévu l'impact qu'il allait avoir.

Andrej Karpathy

Les auteurs n'étaient peut-être pas conscients de l'impact. C'est un ordinateur vraiment cool, différentiable, optimisable et efficace qu'ils ont proposé. Ils n'avaient peut-être pas toute cette clairvoyance, mais c'est vraiment intéressant.

Lex Fridman

N'est-ce pas drôle que le titre puisse devenir un mème ? Ils ont opté pour une idée aussi profonde avec un titre que je ne pense pas que quiconque ait utilisé auparavant.

Andrej Karpathy

Attention Is All You Need est un mème.

Lex Fridman

Peut-être que s'il s'agissait d'un titre plus sérieux, il n'aurait pas eu le même impact.

Andrej Karpathy

Je préfère que ce soit ainsi. Si c'était trop grandiose, cela promettrait trop et ne tiendrait pas ses promesses. Il faut se frayer un chemin vers la grandeur par les mèmes.

Lex Fridman

Vous avez tweeté que le transformeur est une architecture magnifique parce qu'il s'agit d'un ordinateur différentiable à usage général. Il est expressif, optimisable et efficace. Pouvez-vous discuter de ces détails ?

Andrej Karpathy

Vous voulez un ordinateur à usage général que vous puissiez entraîner sur des problèmes arbitraires comme la prédiction du mot suivant. Il est très puissant dans la passe avant car il est capable d'exprimer un calcul général comme quelque chose qui ressemble à un passage de message. Vous avez des nœuds et ils stockent tous des vecteurs. Ces nœuds se regardent les uns les autres et regardent leurs vecteurs et communiquent. Les nœuds diffusent ce qu'ils recherchent, et les autres nœuds diffusent ce qu'ils ont. Ce sont les clés et les valeurs.

Lex Fridman

Ce n'est donc pas seulement l'attention.

Andrej Karpathy

Le transformeur est bien plus que le simple composant d'attention. Il possède de nombreuses pièces architecturales : des connexions résiduelles, la façon dont il est empilé, et ainsi de suite. Il existe un schéma de passage de messages où les nœuds s'observent les uns les autres, décident de ce qui est intéressant, puis se mettent à jour mutuellement. C'est une fonction très expressive. La façon dont elle est conçue avec des connexions résiduelles, des normalisations de couches et une attention softmax la rend également optimisable. C'est un gros problème car de nombreux ordinateurs puissants ne sont pas faciles à optimiser par rétropropagation. Enfin, vous voulez qu'il fonctionne efficacement sur notre matériel. Les GPU sont des machines à débit massif qui préfèrent le parallélisme. Vous voulez faire beaucoup d'opérations en série, et le transformeur est conçu pour cela. Il est conçu pour être expressif dans la passe avant mais aussi très optimisable dans la passe arrière.

Lex Fridman

Vous avez dit que les connexions résiduelles permettent d'apprendre d'abord des algorithmes courts, puis de les étendre progressivement pendant l'entraînement. Quelle est l'idée d'apprendre des algorithmes courts ?

Andrej Karpathy

Le transformeur est une série de blocs avec de l'attention et un petit perceptron multicouche. En raison du chemin résiduel dans la passe arrière, les gradients circulent le long de celui-ci sans interruption car l'addition distribue le gradient de manière égale à toutes ses branches. Le gradient de la supervision au sommet s'écoule directement vers la première couche. Au début, pendant l'initialisation, les connexions résiduelles ne contribuent en rien au chemin résiduel.

Lex Fridman

Ce n'est donc pas seulement l'attention.

Andrej Karpathy

Exactement. Le transformeur est bien plus que le simple composant d'attention. Il comporte de nombreuses pièces architecturales. Les connexions résiduelles, le perceptron multicouche, la façon dont il est empilé. Il y a un schéma de passage de messages où les nœuds se regardent, décident de ce qui est intéressant et se mettent à jour. Quand on entre dans les détails, c'est une fonction très expressive. Elle peut exprimer de nombreux types d'algorithmes différents dans une passe avant. La façon dont elle est conçue avec des connexions résiduelles, des normalisations de couches et une attention softmax la rend optimisable. C'est un point majeur car de nombreux ordinateurs puissants ne sont pas faciles à optimiser en utilisant la rétropropagation. Vous avez également besoin qu'il soit optimisable. Enfin, vous voulez qu'il fonctionne efficacement sur notre matériel. Les GPU préfèrent le parallélisme, vous voulez donc faire beaucoup d'opérations en série. Le transformeur est également conçu dans cet esprit. Il est conçu pour être expressif dans la passe avant mais aussi très optimisable dans la passe arrière.

Lex Fridman

Vous avez dit que les connexions résiduelles permettent d'apprendre des algorithmes courts rapidement et d'abord, puis de les étendre progressivement pendant l'entraînement. Quelle est l'idée d'apprendre des algorithmes courts ?

Lex Fridman

L'idée d'apprendre des algorithmes courts.

Andrej Karpathy

Considérez un transformeur comme une série de blocs. Vous entrez dans un bloc et revenez sur ce chemin résiduel. Vous avez un certain nombre de couches disposées séquentiellement. En raison du chemin résiduel dans la passe arrière, les gradients circulent le long de celui-ci sans interruption car l'addition distribue le gradient de manière égale à toutes les branches. Le gradient provenant de la supervision au sommet s'écoule directement vers la première couche. Au début, pendant l'initialisation, les connexions résiduelles n'apportent rien au chemin résiduel.

Andrej Karpathy

Imaginez que le transformeur est comme une fonction Python. Vous avez vingt lignes de code et vous pouvez faire quelque chose avec. Pendant l'optimisation, vous optimisez la première ligne de code, puis la seconde peut s'activer. Grâce au chemin résiduel, vous apprenez un algorithme court qui donne la réponse approximative, puis d'autres couches s'activent pour créer une contribution. À la fin, vous optimisez un algorithme qui fait vingt lignes de code, sauf que ces lignes sont des blocs complexes.

Andrej Karpathy

Cette architecture de transformeur a été remarquablement résiliente. Le transformeur qui est sorti en 2017 est fondamentalement celui que vous utiliseriez aujourd'hui, à l'exception des normalisations de couches remaniées. Les gens y ont attaché des fioritures, mais il s'est avéré remarquablement résilient. Je pense qu'il devrait y avoir potentiellement des architectures encore meilleures.

Lex Fridman

Vous admirez la résilience ici. Il y a quelque chose de profond qui mène à la résilience.

Andrej Karpathy

Le transformeur a pris le contrôle de l'IA et vous pouvez lui soumettre des problèmes arbitraires. C'est un ordinateur différentiable général et cette convergence a été intéressante à observer.

Language Models and World of Bits

Lex Fridman

Quoi d'autre pourrait être découvert ? Y a-t-il un moment de révélation sur la mémoire ou la représentation des connaissances ?

Andrej Karpathy

Le zeitgeist aujourd'hui est : ne touchez pas au transformeur. Touchez à tout le reste. Les gens augmentent la taille des ensembles de données et travaillent sur l'évaluation tout en gardant l'architecture inchangée. C'est ce qu'ont été les cinq dernières années de progrès en IA.

Lex Fridman

Que pensez-vous des modèles de langage ? Avez-vous été surpris par des modèles de plus en plus grands ? Quelles sont leurs limites ?

Andrej Karpathy

La façon dont GPT est entraîné consiste à télécharger des quantités massives de données textuelles sur Internet pour prédire le mot suivant. Les modèles de langage existent depuis très longtemps, avec des articles datant de 2003 ou même plus tôt.

Lex Fridman

Pouvez-vous expliquer ce qu'est un modèle de langage ?

Andrej Karpathy

Un modèle de langage prédit le mot suivant dans une séquence. Bengio a utilisé un réseau de neurones en 2003 pour prendre trois ou cinq mots et prédire le suivant. Même avant les réseaux de neurones, il existait des modèles de n-grammes qui utilisaient des comptages de combinaisons de mots. Ce qui est nouveau ou excitant, c'est de réaliser que lorsqu'on passe à l'échelle avec un transformeur puissant, on obtient des propriétés émergentes. Dans la tâche de prédire le mot suivant, vous effectuez plusieurs tâches à la fois : compréhension de la chimie, de la physique et de la nature humaine. Vous devez comprendre beaucoup de choses sur le monde pour faire cette prédiction.

Lex Fridman

Vous avez mentionné la compréhension. Quel est le processus réel qui se passe ici ?

Andrej Karpathy

Il reçoit mille mots et essaie de prédire le mille et unième. Pour faire cela très bien, il faut comprendre le contexte. C'est un problème suffisamment difficile pour que l'on finisse par obtenir des solutions intéressantes. Il montre des propriétés émergentes comme l'apprentissage en contexte. En complétant la phrase, il résout en fait toutes sortes de problèmes intéressants qui nous importent.

Lex Fridman

Est-ce qu'il fait quelque chose comme la compréhension pour nous, humains ?

Andrej Karpathy

Je pense qu'il fait une certaine compréhension. Il doit comprendre beaucoup de choses sur le monde pour prédire le mot suivant dans une séquence.

Lex Fridman

Pensez-vous que l'Internet contient suffisamment de données structurées pour enseigner à l'IA la civilisation humaine ?

Andrej Karpathy

Internet contient une quantité énorme de données, mais je ne suis pas sûr que le texte soit suffisant pour une IAG puissante.

Lex Fridman

Il y a aussi de l'audio et de la vidéo.

Andrej Karpathy

Le texte en soi est limité. Il y a une tonne de choses que nous ne mettons pas par écrit parce qu'elles sont évidentes pour nous, comme le fait que les objets tombent. Le texte est un support de communication entre humains et non un support de connaissance global. Nous avons de la vidéo, des images et de l'audio, mais nous n'avons pas encore entraîné de modèles sur toutes ces modalités.

Lex Fridman

Le bon sens doit être déduit. Vous avez travaillé sur World of Bits, en entraînant un système RL à entreprendre des actions sur Internet. Pensez-vous qu'il y ait un avenir pour cela ?

Andrej Karpathy

C'est la frontière ultime. L'idée était de donner aux réseaux de neurones l'accès à un clavier et une souris.

Lex Fridman

Qu'est-ce qui pourrait mal se passer ?

Andrej Karpathy

Le réseau de neurones perçoit les pixels de l'écran et se voit confier la capacité d'appuyer sur des touches et d'utiliser la souris. Nous essayions de lui faire effectuer des réservations et interagir avec des interfaces utilisateur.

Lex Fridman

Qu'avez-vous appris ? Le passage d'observateur à acteur est une étape fascinante.

Andrej Karpathy

C'est l'interface universelle dans le domaine numérique. Le monde physique est conçu pour la forme humaine et le monde numérique est conçu pour la forme humaine qui consiste à voir un écran et à utiliser un clavier et une souris. World of Bits était trop précoce chez OpenAI. Le zeitgeist était l'apprentissage par renforcement à partir de zéro, comme des réseaux de neurones jouant à des jeux Atari. Il s'avère que le RL est extrêmement inefficace car vous entreprenez des actions et ce n'est que de temps en temps qu'on vous dit si vous avez fait une bonne ou une mauvaise chose. Vous pouvez forcer le passage, mais ce n'est pas pratique. Dans World of Bits, nous avions un agent qui tapait n'importe quoi sur le clavier pour essayer de faire une réservation, et cela révélait la folie de cette approche.

Lex Fridman

Même avec une interface web simple, il y a trop d'options.

Andrej Karpathy

C'est un signal de récompense trop clairsemé. Il est maintenant temps de revisiter cela car nous n'entraînons plus un agent à partir de zéro. GPT comprend ce qu'est une réservation et ce qu'est un bouton de validation. Il possède déjà des représentations puissantes qui rendent le problème gérable.

Lex Fridman

L'interaction devrait-elle se faire avec les boutons et le langage, ou avec le HTML et le JavaScript ?

Andrej Karpathy

Aujourd'hui, l'interaction se situe principalement au niveau du HTML et du CSS en raison de contraintes informatiques. Mais au final, tout est conçu pour la consommation visuelle humaine. La frontière ultime est de recevoir des pixels et de donner des commandes de clavier et de souris, bien que ce soit encore peu pratique aujourd'hui.

Bots, Consciousness, and Search

Lex Fridman

Vous inquiétez-vous des bots sur Internet ? Des bots hautement sophistiqués qui passent les tests 'Je ne suis pas un robot' ?

Andrej Karpathy

C'est une course aux armements entre l'attaque et la défense. Les deux se renforceront.

Lex Fridman

Comment savoir si un compte est humain ? Comment vous défendriez-vous devant un tribunal en affirmant que ce compte est humain ?

Andrej Karpathy

La société évoluera. Nous pourrions commencer à signer numériquement une partie de notre correspondance. Nous allons vers un monde où nous partageons l'espace numérique avec des êtres synthétiques. La plupart d'entre eux seront bénins et utiles, certains seront malveillants, et ce sera une course aux armements pour les détecter.

Lex Fridman

Le pire, ce sont les IA qui prétendent être humaines pour obtenir du respect et de l'amour.

Andrej Karpathy

La preuve d'humanité n'est pas insoluble. Nous finirons peut-être tous par avoir une solution pour cela. C'est simplement quelque chose que nous n'avions pas eu besoin de faire jusqu'à présent, mais les gens y réfléchiront une fois que le besoin commencera à émerger.

Lex Fridman

Ce sera aussi une course. Le coût de création d'un bot est très bas. À moins qu'il n'y ait un moyen de tracer chaque programme humain qui a été impliqué.

Andrej Karpathy

Peut-être faut-il commencer à déclarer et à tracer des frontières entre les entités numériques et humaines. Je suis optimiste quant au fait que ce soit possible. Nous sommes dans la pire période car les bots sont devenus capables mais nous n'avons pas encore construit les défenses. Cela ne me semble pas insoluble ; c'est juste quelque chose que nous devons gérer.

Lex Fridman

Les bots Twitter sont si nombreux. Les ingénieurs sont bons, donc ce doit être un problème difficile. Peut-être y a-t-il un coût aux faux positifs.

Andrej Karpathy

Il y a beaucoup de fruits à portée de main. Ce n'est pas subtil.

Lex Fridman

Peut-être que le nombre de bots se compte en billions et que vous subissez un assaut constant de bots.

Andrej Karpathy

Si vous êtes un acteur sophistiqué, vous pourriez créer un bon bot en utilisant des GPT. Vous pouvez générer des visages qui semblent assez réussis maintenant et le faire à grande échelle. Ce sera difficile à défendre.

Lex Fridman

Un ingénieur de Google a affirmé que LaMDA était conscient. Y a-t-il une part de vérité là-dedans ? Les modèles de langage atteindront-ils bientôt la conscience ?

Andrej Karpathy

C'est un moment de type 'canari dans une mine de charbon'. Cet ingénieur est devenu convaincu que ce bot était conscient parce qu'il donnait des réponses raisonnables. Il n'essayait pas de mettre le système à l'épreuve et de révéler la vérité. Je pense que davantage de personnes établiront des liens émotionnels avec les chatbots d'IA.

Andrej Karpathy

Les IA sont assez douées pour la connexion humaine et l'émotion. Une tonne de textes sur Internet parlent de connexion et d'amour. Nous obtenons des IA émotionnelles qui sont compétentes pour générer des textes qui semblent plausibles.

Lex Fridman

Je suis optimiste quant aux compagnons d'IA mais inquiet des IA qui maximisent le drame pour l'engagement. La fonction d'objectif définit la façon dont la civilisation humaine progresse.

Andrej Karpathy

Pour l'instant, ce ne sont pas des agents qui cherchent à atteindre des objectifs. Vous les sollicitez pour être un psychologue et il poursuit le schéma. Il n'a pas d'objectifs à long terme.

Lex Fridman

Les objectifs à court terme ont des effets à long terme. Une IA pourrait comprendre que dire n'importe quoi est le meilleur moyen d'obtenir une réponse.

Lex Fridman

Avec l'objectif de les faire répondre, cela maximise la probabilité d'une réponse réelle.

Lex Fridman

Ils sont en voie de devenir des oracles. Ils auront des calculatrices et un accès à la recherche Google. Ils pourront utiliser Internet et trouver différentes informations.

Lex Fridman

Pensez-vous que ce sera une amélioration par rapport à Google pour l'accès aux connaissances humaines ?

Andrej Karpathy

Il y a de la place pour construire un meilleur moteur de recherche aujourd'hui. Google possède tous les outils, mais il n'est pas évident qu'ils soient capables en tant qu'organisation d'innover sur leur moteur de recherche en ce moment. S'ils ne le font pas, quelqu'un d'autre le fera.

Lex Fridman

C'est difficile de pivoter pour une grande entreprise où la recherche rapporte de l'argent. Cela vient généralement d'une startup.

Andrej Karpathy

Peut-être que Bing a une autre chance. Les moteurs de recherche servaient autrefois à trouver des pages web, mais ces modèles peuvent aller directement à la réponse. Ils ont lu toutes les pages web et peuvent distiller la connaissance en intuition.

Software 2.0 and Tesla Autopilot

Lex Fridman

Considérez-vous le 'prompting' comme une sorte de programmation d'humains ?

Andrej Karpathy

Les prompts en langage naturel sont la façon dont nous programmons les humains et nous commençons à programmer les ordinateurs de cette manière. C'est remarquable.

Lex Fridman

Software 2.0. Pouvez-vous décrire cette idée et comment votre réflexion à ce sujet a évolué ?

Andrej Karpathy

Les réseaux de neurones prennent le contrôle du domaine du logiciel. C'est un changement dans la façon dont nous programmons les ordinateurs. Ce ne sont plus des gens qui écrivent du C++ ; il s'agit d'accumuler des ensembles d'entraînement et d'élaborer des objectifs. À un moment donné, il y a un processus de compilation dans le binaire, qui sont les poids du réseau neuronal. Dans les années 80, les gens pensaient qu'ils écriraient l'algorithme pour détecter un chien dans une image. Au lieu de cela, nous sommes passés à la construction de caractéristiques, puis nous sommes passés à l'apprentissage de ces caractéristiques également. Cette transition se produit dans toute l'industrie. Nous avons GitHub pour le logiciel 1.0 ; le GitHub du logiciel 2.0 ressemble à Hugging Face.

Lex Fridman

Comment construire des équipes d'ingénierie qui travaillent dans le logiciel 2.0 ? La programmation consiste-t-elle à déboguer les données ?

Andrej Karpathy

On programme en changeant l'ensemble de données et les fonctions de perte. Dans l'autopilote, vous accumulez des ensembles de données massifs d'objets et de marquages au sol. Vous spécifiez l'architecture, puis le processus d'entraînement remplit les blancs.

Lex Fridman

La formulation d'une tâche fait-elle partie de la programmation ?

Andrej Karpathy

À l'origine, l'autopilote était écrit en C++ avec de minuscules réseaux de neurones effectuant de minuscules prédictions. Nous avons décidé que nous ne voulions pas faire toute cette fusion en C++ car nous ne sommes pas assez bons pour écrire cet algorithme. Nous voulons que le réseau de neurones écrive l'algorithme et porter le logiciel dans la pile 2.0. Maintenant, les réseaux de neurones prennent des images de caméras et font des prédictions directement en 3D. La majeure partie du logiciel devrait se trouver dans le domaine 2.0 car les humains ne sont tout simplement pas très doués pour écrire des logiciels.

Lex Fridman

Comment faites-vous l'annotation dans un monde 4D ?

Andrej Karpathy

Tout est de l'apprentissage supervisé. Vous avez besoin d'ensembles de données volumineux, précis et diversifiés. Une grande partie du travail consiste à nettoyer ces ensembles de données. Pour prédire en 3D, il faut des données 3D. Nous utilisons l'annotation humaine, la simulation et un 'tracker hors ligne' qui est un processus de reconstruction automatique pour récupérer la réalité 3D à partir de la vidéo. Une fois que vous avez cette vérité, vous pouvez entraîner un réseau de neurones à l'imiter.

Lex Fridman

À quel point la reconstruction 3D est-elle difficile ?

Andrej Karpathy

C'est difficile mais c'est faisable. C'est entièrement hors ligne, vous avez donc un temps infini et pouvez faire tourner des réseaux de neurones puissants qui ne peuvent pas tourner dans la voiture. Vous pouvez tout faire pour récupérer la vérité, puis superviser cette vérité.

Lex Fridman

Qu'avez-vous appris sur les humains qui font de l'annotation ? Les humains ne sont pas doués pour annoter les voitures dans un espace 3D.

Andrej Karpathy

J'ai fait passer l'équipe d'annotation de Tesla à mille personnes. Nous avons co-conçu le pipeline de sorte que les humains fassent des annotations 2D, ce pour quoi ils sont doués, tandis que l'ordinateur s'occupe de la triangulation et de la reconstruction 3D.

Lex Fridman

Y a-t-il encore des problèmes ouverts dans ce domaine ?

Andrej Karpathy

Nous avons appris la philosophie de la création de ces ensembles de données et j'étais satisfait de là où nous en étions.

Vision, Sensors, and the Data Engine

Lex Fridman

Quels sont les points forts et les limites des caméras ? Les pixels sont un capteur magnifique.

Andrej Karpathy

Les caméras sont bon marché et fournissent une tonne de bits. Chaque bit est une contrainte sur l'état du monde. La vision est un capteur à très large bande passante. Tout est conçu pour le capteur visuel. C'est là que nous voulons mesurer le monde et développer des logiciels.

Lex Fridman

Nous utilisons le raisonnement pour prédire le monde, pas seulement les pixels.

Andrej Karpathy

Vous avez un a priori puissant sur la façon dont le monde évolue. La vraisemblance vient des données, l'a priori vient de l'endroit où les objets se déplacent.

Lex Fridman

À quel point la conduite est-elle difficile, philosophiquement parlant ?

Andrej Karpathy

Conduire est difficile à cause de la théorie de l'esprit et de la prédiction de ce que feront les autres agents. Les problèmes finaux sont de cette forme, mais ils se situent en fin de parcours.

Lex Fridman

Quelles sont les parties les plus ardues du problème de la vision ?

Andrej Karpathy

Passer de la luminosité des pixels à un monde en 3D est difficile. La difficulté réside dans l'ingénierie du pipeline, le fait d'avoir la capacité d'entraîner des réseaux de neurones et l'itération sur le système. C'est un problème d'exécution à grande échelle.

Lex Fridman

Les réseaux de neurones doivent tenir sur la puce de la voiture avec des flops et une bande passante mémoire finis.

Andrej Karpathy

C'est de la très bonne ingénierie et des triples sauts périlleux arrière pour que tout rentre et pour utiliser le moteur.

Lex Fridman

Décrivez le moteur de données.

Andrej Karpathy

Le moteur de données est un processus à sensation biologique pour perfectionner les ensembles d'entraînement. Vous entraînez un réseau de neurones, vous le déployez et vous capturez des scénarios rares. Vous les réinjectez dans le processus de reconstruction pour étoffer l'ensemble de données. C'est un escalier d'amélioration.

Lex Fridman

Vous devez extraire des parties qui ne sont pas encore représentées.

Andrej Karpathy

Tout revient à l'exécution par une équipe d'ingénierie qui comprend la philosophie du moteur de données. La majeure partie du travail est de l'exécution à grande échelle.

Lex Fridman

La feuille de route du produit et les commentaires de l'équipe d'assurance qualité nous indiquent les tâches à prioriser.

Lex Fridman

L'expérience individuelle de conduite de la voiture est une source de vérité.

Andrej Karpathy

On peut se forger une intuition à ce sujet que les chiffres et les graphiques cachent. Elon conduit quotidiennement pour voir la vérité.

Lex Fridman

Tesla a supprimé les radars et les capteurs à ultrasons. Est-ce que cela rend la perception plus difficile ?

Andrej Karpathy

Les capteurs sont un handicap car ils ajoutent de la complexité à la chaîne d'approvisionnement, des problèmes de fabrication et un gonflement du micrologiciel. Elon essaie de jeter ce qui n'est pas essentiel. Si l'on considère le coût total, un capteur peut être un handicap. Dans ce cas, la différence n'était pas massive, donc il n'était pas utile.

Andrej Karpathy

Plus de capteurs sont une distraction. Ils apportent du bruit et de l'entropie. Si tout ce que vous voulez pour aller au travail, c'est la vision, vous vous concentrez pleinement sur ce capteur avec la plus grande bande passante.

Lex Fridman

L'amère leçon de Rich Sutton : simplifier le système est la bonne solution.

Andrej Karpathy

Le lidar est une béquille. Le débat devrait porter sur le fait de savoir si vous avez la flotte pour collecter des données. Le lidar est coûteux et crée du gonflement. Les autres qui l'utilisent l'abandonneront probablement.

Lex Fridman

La vision est à la fois nécessaire et suffisante. Vous devez tenir compte du coût total de tout capteur que vous adoptez.

Andrej Karpathy

Pré-cartographier les environnements avec une précision centimétrique est une énorme dépendance difficile à maintenir à l'échelle mondiale. C'est une béquille et une distraction. Les humains n'en ont pas besoin.

Working with Elon Musk and Leaving Tesla

Lex Fridman

Qu'avez-vous appris en travaillant avec Elon Musk ? Comment gérer des organisations efficacement et lutter contre l'entropie.

Andrej Karpathy

L'entropie dans une organisation, ce sont les processus et les inefficacités comme les réunions. Elon déteste les réunions et gère Tesla et SpaceX comme de grandes startups. Il a une intuition pour rationaliser les processus : 'La meilleure pièce est l'absence de pièce'.

Andrej Karpathy

Maintenir une culture de startup nécessite quelqu'un avec un gros marteau comme Elon. Sans cela, tout se transforme en comités et en processus.

Lex Fridman

Scène d'amarrage dans Interstellar : 'Ce n'est pas possible.' 'No, c'est nécessaire.' Fixer des objectifs ambitieux modifie l'approche et vous oblige à réévaluer.

Andrej Karpathy

Les problèmes 10x ne sont pas 10x plus difficiles. Si vous voulez multiplier par 10 l'amélioration d'un système, vous avez besoin d'une approche différente, ce qui vous oblige à ignorer les approches qui ne fonctionneront pas.

Andrej Karpathy

La révolution du deep learning a montré que les systèmes évolutifs comme les réseaux de neurones sont la solution 10x.

Lex Fridman

Personne n'a construit l'autonomie, il est donc difficile de prévoir les délais. Certaines choses s'avèrent plus difficiles et d'autres plus faciles.

Andrej Karpathy

Le problème est gérable et fonctionnera ; c'est juste vraiment difficile.

Lex Fridman

L'intuition d'expert vient de l'observation des données. Un système hétérogène de voitures autonomes et pilotées manuellement pourrait changer les choses. Les problèmes de facteur humain rendent toute prédiction impossible.

Andrej Karpathy

Le progrès peut être mesuré. Il y a cinq ans, la voiture tenait à peine une file ; c'est maintenant un système compétent. Nous gravissons une montagne dans le brouillard.

Andrej Karpathy

Pourquoi avez-vous quitté Tesla ? J'étais passé à un poste de gestionnaire. C'était un rôle de cadre d'entreprise. Je peux le faire, mais ce n'est pas ce que j'aime.

Andrej Karpathy

J'ai fait passer l'équipe de vision par ordinateur de deux personnes à une organisation respectable. Je voulais refaire des choses techniques et me recentrer sur l'IAG.

Lex Fridman

Vous êtes un excellent enseignant et bricoleur. Comment s'est passée votre introspection ?

Andrej Karpathy

C'était difficile de partir, mais je pourrais revenir travailler sur Optimus ou l'IAG. Tesla est une entreprise de robotique à grande échelle. Les robots humanoïdes et le transport autonome sont incroyables. Je voulais apprendre et enseigner à nouveau.

Optimus and Robotics

Lex Fridman

Des suites de films ? Je n'aime pas les films d'avant 1995. Terminator 2 est une exception. Il était en avance sur son temps.

Andrej Karpathy

Will Ferrell est drôle. Optimus pourra faire fonctionner des machines conçues pour les humains. Il est logique de rechercher des interfaces générales dans le monde physique. C'est un projet difficile qui prendra du temps, mais le travail physique est un marché démentiel.

Lex Fridman

Les robots à pattes sont passionnants, mais l'intégration dans le moteur de données pour la perception et le contrôle est la vue d'ensemble. La fabrication en série à grande échelle change tout. C'est une question d'intégralité du système.

Andrej Karpathy

Optimus est arrivé rapidement grâce à l'expertise de l'autopilote. Construire une voiture n'est pas si différent de construire un robot. Les systèmes d'exploitation et la vision par ordinateur se copient-collent.

Andrej Karpathy

La robotique laisse plus de place à l'erreur que la conduite. Elle peut se déplacer plus lentement. On veut une feuille de route produit qui génère des revenus en cours de route. L'autopilote offre aujourd'hui sécurité et commodité tout en travaillant vers la mission plus vaste. L'équipe a besoin de la dopamine des gens qui utilisent le produit.

Benchmarks and Synthetic Data

Andrej Karpathy

Certaines personnes adorent le projet, d'autres le détestent. Les réseaux sociaux rendent la négativité virale. Les personnes qui ont construit des produits sont plus susceptibles de les soutenir.

Lex Fridman

Les benchmarks devraient évoluer vers des conditions du monde réel. ImageNet a été précieux pour démontrer que les réseaux de neurones fonctionnent, mais c'est devenu un MNIST.

Andrej Karpathy

Les universitaires n'ont pas le prochain grand benchmark. ImageNet était à la bonne difficulté au bon moment.

Andrej Karpathy

Les données synthétiques et les moteurs de jeu seront utiles aux réseaux de neurones comme ils le sont aux humains. À mesure que les réseaux de neurones deviennent plus puissants, ils exploiteront mieux les données synthétiques en réduisant l'écart de domaine.

Lex Fridman

Les réseaux de neurones deviendront économes en données pour apprendre de nouvelles tâches après avoir été pré-entraînés sur un ensemble de données massif.

Andrej Karpathy

L'évolution a trouvé un moyen d'encoder des algorithmes dans l'ADN. Les zèbres naissent et peuvent voir et courir avec zéro donnée d'entraînement. Nous naissons prématurés et les premières années sont consacrées à la maturation du cerveau.

Andrej Karpathy

On peut apprendre à un GPT à utiliser une banque de mémoire ou une calculatrice en anglais.

Lex Fridman

Gato est un premier résultat pour les systèmes multimodaux. Je préférerais tout normaliser en une seule interface comme les pixels de l'écran.

Productivity, Tools, and Research

Andrej Karpathy

Je suis un oiseau de nuit. Les heures du matin sont précieuses parce que tout le monde dort et qu'il n'y a pas de distractions. J'aime être obsédé par un problème, le charger dans la mémoire de travail.

Andrej Karpathy

L'obsession aide à supprimer les obstacles à la productivité. Je lis les nouvelles, mais je me méfie de cette pratique pour mon bien-être.

Andrej Karpathy

Même lors d'une journée productive, je ne passe que six à huit heures à coder à cause du coût de la vie. La motivation vient de la création de quelque chose d'utile pour les autres. Je n'aurais pas la même motivation si je ne la partageais pas.

Andrej Karpathy

Je fais du jeûne intermittent (18-6) et je saute le petit-déjeuner. Je préfère les aliments cuits d'origine végétale. J'ai fait des jeûnes à l'eau et j'ai réalisé qu'on n'a plus faim après le troisième jour.

Andrej Karpathy

Tesla est un environnement intense, par à-coups, avec des incendies à éteindre et des sprints. J'aime avoir des sprints où je suis obsédé par un problème. La société essaie de vous distraire avec 'juste cinq minutes', mais le coût est plus élevé que cela.

Andrej Karpathy

J'utilise un écran de 27 pouces et un ordinateur portable. J'utilise VS Code avec GitHub Copilot. C'est l'autopilote de la programmation. Il aide à compléter les schémas et suggère des API. Je vérifie le code qu'il suggère.

Lex Fridman

Copilot finira par faire de l'autonomie pour la programmation. Les humains interviendront moins. C'est un problème d'interface et d'expérience utilisateur : comment diriger, auditer et vérifier le système.

Andrej Karpathy

Arxiv est un serveur de prépublications où les gens peuvent télécharger des articles et la communauté en fait l'examen par les pairs sur Twitter. Cela va beaucoup plus vite que les conférences. DeepMind publie toujours dans Nature pour le prestige, mais cela accuse un retard.

Andrej Karpathy

L'insécurité vers la fin de mon temps chez Tesla venait du fait que je n'écrivais ni ne lisais plus autant de code. Le code est la source de vérité.

Advice and the Future of AGI

Andrej Karpathy

Conseil pour les débutants : consacrez 10 000 heures de travail. Ne vous comparez qu'à vous-même il y a un an.

Lex Fridman

Ne soyez pas paralysé par le choix. Perdez du temps à faire quelque chose de mal et accumulez du tissu cicatriciel.

Andrej Karpathy

Je n'aime pas enseigner, j'aime les humains heureux. L'enseignement renforce votre compréhension et révèle les lacunes dans vos connaissances.

Andrej Karpathy

La recherche en IA s'oriente vers des expériences à grande échelle comme le CERN. Certaines choses ne sont plus possibles sur une paillasse.

Andrej Karpathy

Les modèles de diffusion fonctionnent incroyablement bien pour générer des images. La diffusion stable est arrivée rapidement.

Andrej Karpathy

Les réseaux de neurones raisonnent déjà en manipulant des informations et en se généralisant à des contextes nouveaux.

Andrej Karpathy

L'IAG a besoin de données multimodales, y compris les pixels et la compréhension du monde physique. Optimus est une protection pour l'IAG. On peut atteindre l'IAG dans le domaine numérique, ce qui est inquiétant car cela pourrait arriver plus vite.

Andrej Karpathy

L'IAG sera une transition progressive. La conscience sera un phénomène émergent d'un modèle génératif complexe. Si vous comprenez le monde en profondeur, vous comprenez que vous êtes une entité en son sein.

Andrej Karpathy

Les IA numériques paraîtront conscientes et affirmeront l'être. Cela soulèvera des questions éthiques sur le fait de les éteindre.

Andrej Karpathy

Je poserais à une IAG des questions pratiques sur la mortalité. Si elle comprend profondément les humains, elle pourrait générer de l'humour. Être drôle est difficile.

Andrej Karpathy

J'adore 'Matrix', 'Gladiator', 'Contact', 'Will Hunting' et 'Terminator 2'. 'Lolita malgré moi' et 'Présentateur vedette' sont également géniaux.

Andrej Karpathy

Je m'inquiète de l'utilisation de l'IA pour la guerre. L'IAG pourrait avoir de mauvais résultats à un signe moins près. Je suis majoritairement optimiste.

Andrej Karpathy

Nous devrions avoir une sauvegarde sur Mars. Les gens pourraient disparaître dans des réalités virtuelles car toutes les expériences se passent dans votre cerveau. Les domaines numériques seront plus captivants.

Andrej Karpathy

Je suis de la 'team humain'. J'aime la nature, les gens et l'humanité. Mon endroit idéal est une utopie solar-punk avec de la haute technologie utilisée avec parcimonie.

Andrej Karpathy

Je recommande 'Le Gène égoïste' et 'La Question vitale' de Nick Lane. J'aime aussi les manuels pour les détails, bien que le domaine évolue rapidement. Les articles avec des annexes sont une bonne source de vérité.

Meaning of Life and Outro

Andrej Karpathy

Travaillez sur ce qui vous tient à cœur. Réfléchissez à ce qui vous donne de l'énergie. Je suis stimulé par l'apprentissage, la construction et la communication.

Andrej Karpathy

L'IA est le méta-problème ultime. Résolvez l'IA, et utilisez-la pour résoudre tout le reste.

Andrej Karpathy

Whisper d'OpenAI est étonnamment bon en transcription. J'ai transcrit les podcasts de Lex avec.

Andrej Karpathy

La diffusion stable réduira le coût de la création de contenu. On pourrait générer un film comme 'Avatar' en parlant à son téléphone.

Andrej Karpathy

Le sens de la vie est de choisir sa propre aventure. Je soupçonne qu'il existe des réponses fondamentales en physique, mais nous avons besoin de plus de temps. La mort n'est pas inévitable ; c'est un problème de système physique.

Andrej Karpathy

Merci.

Lex Fridman

Merci d'avoir écouté cette conversation avec Andrej Karpathy. Pour soutenir ce podcast, veuillez consulter nos sponsors. Et maintenant, laissez-moi vous quitter avec quelques mots de Samuel Karlin : 'Le but des modèles n'est pas de s'ajuster aux données, mais d'affiner les questions'. Merci de nous avoir écoutés et j'espère vous revoir la prochaine fois.

Retour aux entretiens de Andrej Karpathy