Andrej Karpathy: Tesla AI, Self-Driving, Optimus, Aliens, and AGI
29 octobre 2022
Artificial Intelligence
Introduction and Neural Networks
Je pense qu'il est possible que la physique comporte des failles et que nous devrions essayer de les trouver. Concevoir une sorte de système mécanique quantique délirant qui vous donne en quelque sorte un dépassement de tampon, ou une erreur d'arrondi dans la virgule flottante.
Les intelligences synthétiques sont la prochaine étape du développement. Je ne sais pas où cela mène. À un moment donné, je soupçonne que l'univers est un puzzle. Ces IA synthétiques découvriront ce puzzle et le résoudront.
Ce qui suit est une conversation avec Andrej Karpathy, précédemment directeur de l'IA chez Tesla, et avant cela chez OpenAI et Stanford. Il est l'un des plus grands scientifiques, ingénieurs et éducateurs de l'histoire de l'intelligence artificielle. C'est le podcast de Lex Fridman. Pour le soutenir, veuillez consulter nos sponsors. Et maintenant, chers amis, voici Andrej Karpathy.
Qu'est-ce qu'un réseau de neurones et pourquoi semble-t-il faire un travail d'apprentissage aussi étonnamment bon ?
Qu'est-ce qu'un réseau de neurones ? C'est une abstraction mathématique du cerveau. C'est ainsi qu'il a été développé à l'origine. Au bout du compte, c'est une expression mathématique et c'est une expression mathématique assez simple. C'est une séquence de multiplications de matrices, qui sont des produits scalaires mathématiquement, avec quelques non-linéarités ajoutées. C'est une expression mathématique simple avec des boutons de réglage.
Beaucoup de boutons.
Beaucoup de boutons. Ces boutons sont vaguement liés aux synapses de votre cerveau. Ils sont entraînables, modifiables. L'idée est que nous devons trouver le réglage des boutons qui permet au réseau neuronal de faire ce que vous voulez qu'il fasse, comme classer des images. Il n'y a pas trop de mystère là-dedans. Vous pourriez penser que vous ne voulez pas lui accorder trop de sens par rapport au cerveau et à son fonctionnement. C'est vraiment juste une expression mathématique compliquée avec des boutons, et ces boutons ont besoin d'un réglage approprié pour faire quelque chose de souhaitable.
Emergent Behavior and Biology
La poésie n'est qu'une collection de lettres avec des espaces, mais elle peut nous faire ressentir une certaine émotion. De la même manière, lorsque vous réunissez un grand nombre de boutons, que ce soit à l'intérieur du cerveau ou à l'intérieur d'un ordinateur, ils semblent nous surprendre par leur puissance.
Je pense que c'est juste. Je le sous-évalue beaucoup car on obtient certainement des comportements émergents très surprenants de ces réseaux de neurones lorsqu'ils sont assez grands et entraînés sur des problèmes assez compliqués, comme la prédiction du mot suivant dans un ensemble de données massif provenant d'Internet. Alors ces réseaux de neurones prennent des propriétés magiques surprenantes. Il est intéressant de voir tout ce que l'on peut tirer d'un formalisme mathématique même très simple.
Quand votre cerveau parle, fait-il de la prédiction du mot suivant ? Ou fait-il quelque chose de plus intéressant ?
C'est un modèle génératif de type GPT et stimulé par vous. Vous me donnez un prompt et j'y réponds de manière générative.
Et par vous-même, peut-être un petit peu ? Ajoutez-vous des invites supplémentaires provenant de votre propre mémoire à l'intérieur de votre tête ?
On a l'impression que vous faites référence à une sorte de structure déclarative de la mémoire, que vous combinez avec votre invite pour donner une réponse.
Quelle proportion de ce que vous venez de dire a déjà été dite par vous auparavant ?
Rien, fondamentalement.
Non, mais si vous regardiez réellement tous les mots que vous avez prononcés dans votre vie et que vous faisiez une recherche, vous auriez probablement déjà dit beaucoup des mêmes mots dans le même ordre auparavant.
J'utilise des phrases courantes, mais je les remixe en une phrase unique au bout du compte. Il y a énormément de remixage.
Magnus Carlsen a dit : 'J'ai un classement de 2900, ce qui est plutôt pas mal'. Vous ne donnez pas assez de crédit aux réseaux de neurones ici. Quelle est votre meilleure intuition concernant ce comportement émergent ?
C'est intéressant parce que je les sous-évalue simultanément, mais j'ai aussi l'impression qu'il y a un élément par lequel il est en fait incroyable que l'on puisse obtenir autant de comportements magiques émergents de leur part malgré leur simplicité mathématique. Je pense que ce sont deux affirmations surprenantes juxtaposées. Nous sommes en fait assez bons pour optimiser ces réseaux de neurones, et quand on leur donne un problème assez difficile, ils sont forcés d'apprendre des solutions très intéressantes. Ces solutions ont des propriétés émergentes très intéressantes.
Il y a de la sagesse et de la connaissance dans les boutons. Cela vous semble-t-il intuitif qu'un grand nombre de boutons puisse contenir une représentation qui capture une certaine sagesse profonde sur les données qu'il a examinées ?
C'est beaucoup de boutons. Pour parler concrètement, l'un des réseaux de neurones qui passionne les gens en ce moment sont les GPT, qui sont fondamentalement juste des réseaux de prédiction du mot suivant. Vous consommez une séquence de mots provenant d'Internet et vous essayez de prédire le mot suivant. Une fois que vous les avez entraînés sur un ensemble de données assez important, vous pouvez solliciter ces réseaux de neurones de manières arbitraires et leur demander de résoudre des problèmes, et ils le feront. Vous pouvez faire en sorte qu'on dirait que vous essayez de résoudre une sorte de problème mathématique et ils continueront ce qu'ils pensent être la solution basée sur ce qu'ils ont vu sur Internet. Très souvent, ces solutions semblent remarquablement cohérentes et correctes.
Pensez-vous toujours à l'aspect cérébral ? En tant que réseaux de neurones comme abstraction du cerveau, tirez-vous toujours de la sagesse des réseaux de neurones biologiques ? Quelle chose impressionnante la biologie fait-elle que les ordinateurs ne font pas encore ?
Je suis beaucoup plus hésitant avec les analogies au cerveau que ce que l'on voit dans le domaine. Les artefacts que l'on obtient après l'entraînement sont le fruit d'un processus d'optimisation très différent du processus d'optimisation qui a donné naissance au cerveau. Je considère les réseaux de neurones que nous entraînons comme un artefact extraterrestre compliqué. Je ne fais pas d'analogies avec le cerveau parce que le processus d'optimisation qui lui a donné naissance est très différent. Il n'y avait pas de configuration d'auto-apprentissage multi-agents et d'évolution. C'était une optimisation qui revient à un objectif de compression sur une quantité massive de données.
Les réseaux de neurones artificiels font de la compression et les réseaux de neurones biologiques essaient de survivre en tant qu'agent dans un système d'auto-apprentissage multi-agents qui fonctionne depuis très longtemps.
L'évolution a découvert qu'il est très utile d'avoir un modèle prédictif dans le cerveau. Notre cerveau utilise quelque chose qui ressemble à cela comme partie intégrante. Mais il possède des gadgets, des bidules, des fonctions de valeur et des noyaux anciens qui essaient tous de vous faire survivre et vous reproduire.
The History of Life and Aliens
Tout cela, à travers l'embryogenèse, est construit à partir d'une seule cellule. Le code est à l'intérieur de l'ADN et il construit l'organisme entier. Il le fait plutôt bien. Cela ne devrait pas être possible. Il y a un certain calcul à travers ce processus de construction. Si vous deviez regarder l'intégralité de l'histoire de la vie sur Terre, où pensez-vous que se trouve l'invention la plus intéressante ? Est-ce l'origine de la vie elle-même ? Les eucaryotes ? Les mammifères ? L'Homo sapiens ? L'origine d'une intelligence hautement complexe ? Ou est-ce tout simplement la continuation du même processus ?
C'est une histoire extrêmement remarquable, de la formation de la Terre et de ses conditions, au système solaire, à la façon dont tout est agencé avec Jupiter, la Lune et la zone habitable. Ensuite, vous avez une Terre active qui recycle les matériaux, et vous commencez par l'abiogenèse. C'est une histoire assez remarquable. Je ne suis pas sûr de pouvoir choisir un seul élément unique que je trouve le plus intéressant. Pour moi, en tant que chercheur en intelligence artificielle, c'est probablement la dernière pièce. Nous avons beaucoup d'animaux qui ne construisent pas de société technologique, mais nous le faisons. Cela semble s'être produit très rapidement et très récemment. Quelque chose de très intéressant s'est produit là que je ne comprends pas tout à fait. Je comprends tout le reste intuitivement, mais je ne comprends pas exactement cette partie et la rapidité avec laquelle elle s'est déroulée.
Les deux explications seraient intéressantes. L'une est que c'est juste la continuation du même genre de processus et qu'il n'y a rien de spécial chez les humains. L'autre est que quelque chose de vraiment spécial s'est produit, comme un événement rare. Richard Wrangham dit que les mâles bêta ont décidé d'un moyen astucieux de tuer les mâles alpha en collaborant et en optimisant la collaboration, ce qui a créé l'intelligence complexe. Il semble que ce soit un algorithme naturel du processus évolutif. Qu'est-ce qui pourrait éventuellement être une chose magique et rare qui dirait que l'intelligence de niveau humain est en fait une chose vraiment rare dans l'univers ?
J'hésite à dire que c'est rare, mais cela ressemble à un équilibre ponctué où vous avez certains bonds, des bonds clairsemés entre les deux. L'origine de la vie en serait un, l'ADN, le sexe, la vie eucaryote et la conscience. Ce sont des événements rares où une quantité massive de progrès a été accomplie. Il est difficile d'en choisir un.
Vous ne pensez pas que les humains sont uniques. Combien de civilisations extraterrestres intelligentes pensez-vous qu'il y ait ? Leur intelligence est-elle différente ou similaire à la nôtre ?
J'ai été préoccupé par le paradoxe de Fermi. La raison pour laquelle je m'intéresse beaucoup à l'origine de la vie est fondamentalement d'essayer de comprendre à quel point les sociétés technologiques sont communes là-bas. Plus je l'étudie, plus je pense qu'il devrait y en avoir beaucoup.
Pourquoi n'avons-nous pas eu de leurs nouvelles ? On a l'impression que ce que nous avons fait ici sur Terre n'est pas si difficile à réaliser.
Je pensais autrefois que l'origine de la vie était cet événement rare et magique, mais on lit ensuite des livres comme 'La Question vitale' de Nick Lane. Il vous fait vraiment croire que ce n'est pas si rare.
Chimie de base.
Vous avez une Terre active, des sources alcalines, des eaux alcalines se mélangeant à un océan acide, des gradients de protons et de petites poches poreuses de ces sources alcalines qui concentrent la chimie. À mesure qu'il passe par tous ces petits éléments, on commence à comprendre que ce n'est pas si fou. On pourrait voir cela se produire sur d'autres systèmes. Il vous emmène de la géologie à la vie primitive et rend cela assez plausible. L'origine de la vie a en fait été assez rapide après la formation de la Terre. La vie est apparue quelques centaines de millions d'années seulement après que cela soit devenu possible. Cela me donne l'impression que ce n'est pas la contrainte. La vie devrait être assez commune. Je pense actuellement qu'il n'y a pas de chutes majeures, donc il devrait y avoir beaucoup de vie. La seule façon de concilier le fait que nous n'avons trouvé personne est que nous ne pouvons tout simplement pas les voir. Nous ne pouvons pas les observer.
Beaucoup de biologistes pensent que le passage des bactéries à la vie eucaryote est le saut le plus difficile.
Ouais.
Je comprends. Ils sont bien plus calés que moi sur les subtilités de la biologie, mais cela semble fou. Avec autant d'organismes unicellulaires et autant de temps, ce n'est sûrement pas si difficile. Un milliard d'années n'est même pas une période si longue. Toutes ces bactéries luttant avec des ressources limitées devraient inventer des formes plus complexes. Je ne comprends pas comment passer d'un programme 'hello world' à l'invention d'une fonction. Je suis d'accord avec vous ; si l'origine de la vie n'est pas la chose la plus difficile parce qu'elle s'est produite si vite, alors elle doit être partout. Peut-être sommes-nous simplement trop bêtes pour la voir.
Nous n'avons pas de très bons mécanismes pour voir cette vie. Je ne suis pas un expert, mais d'après ce que j'ai vu, je suis très sceptique quant à notre capacité à trouver ces intelligences là-bas. Les ondes radio sont terribles. Leur puissance diminue comme un sur R au carré. Je me souviens avoir lu que nos ondes radio actuelles ne seraient pas mesurables à un dixième d'année-lumière de distance. Il faudrait une transmission ciblée d'une puissance massive. Notre capacité de mesure n'est pas incroyable. Il y a probablement d'autres civilisations là-bas. Pourquoi ne construisent-elles pas des sondes de von Neumann et ne font-elles pas de voyage interstellaire ? Ma réponse actuelle est que le voyage interstellaire est vraiment difficile. Si vous voulez vous déplacer à une vitesse proche de celle de la lumière, vous allez rencontrer des balles en chemin car de minuscules atomes d'hydrogène et des particules de poussière ont une énergie cinétique massive à ces vitesses. Il faut un blindage. C'est brutal là-bas. Je pense que le voyage interstellaire est peut-être juste extrêmement difficile et qu'il faut y aller très lentement.
Je suis sceptique quant à notre capacité à mesurer la vie et à la capacité de celle-ci à imprégner tout l'espace. C'est la seule façon dont je peux voir un moyen de contourner le problème.
C'est époustouflant de penser qu'il y a des milliers de milliards de civilisations extraterrestres intelligentes voyageant lentement dans l'espace pour se rencontrer.
S'il y en a des milliers de milliards, certaines poches sont sûrement assez proches les unes des autres.
Certaines se trouvent être proches, oui.
Simulation Theory and the Universe as a Puzzle
Une fois que vous voyez quelque chose qui est définitivement une vie complexe, nous serons probablement agressivement motivés à comprendre ce que c'est et à essayer de les rencontrer. Quel serait votre instinct ? Les rencontrer ou vous défendre contre eux ?
La question est vraiment difficile. Par exemple, nous avons beaucoup de formes de vie primitives sur Terre et nous partageons l'espace avec elles. Nous hésitons à avoir un impact sur elles et nous essayons de les protéger par défaut car ce sont des systèmes dynamiques intéressants qui ont mis longtemps à évoluer. Je ne sais pas si on veut détruire cela par défaut. J'aime les systèmes dynamiques complexes qui ont mis beaucoup de temps à évoluer et j'aimerais les préserver si je peux me le permettre. J'aimerais penser qu'il en irait de même pour les ressources galactiques et qu'ils penseraient que nous sommes une histoire incroyablement intéressante qui a mis quelques milliards d'années à se dénouer et qu'on ne veut pas simplement la détruire.
Je pourrais imaginer deux extraterrestres parlant de la Terre en ce moment et disant que nous sommes fondamentalement un jeu vidéo qu'ils regardent ou une émission de télévision.
Il faudrait une très bonne raison pour la détruire. Nous ne détruisons pas les fourmilières parce que nous ne sommes pas en compétition directe avec elles. Les ressources sont abondantes. Pourquoi détruiriez-vous quelque chose de si intéressant et précieux ?
D'un point de vue scientifique, on pourrait le sonder ou interagir légèrement avec lui.
Exactement. On pourrait vouloir en tirer des enseignements, n'est-ce pas ?
Il pourrait y avoir certains phénomènes physiques que nous pensons être un phénomène physique mais qui est en fait une interaction avec nous.
Ce qui s'est passé ici devrait être très intéressant pour les scientifiques extraterrestres. Ce que nous voyons aujourd'hui est un instantané et le résultat d'une énorme quantité de calculs sur un milliard d'années.
Cela pourrait avoir été initié par des extraterrestres. Cela pourrait être un ordinateur exécutant un programme. Si vous aviez le pouvoir de faire cela, je choisirais une planète semblable à la Terre avec les prérequis pour la vie et je l'ensemencerais. Ne feriez-vous pas cela pour l'observer ? Ce n'est pas seulement une bonne émission de télévision, c'est une bonne expérience scientifique et une simulation physique. Peut-être que l'évolution est le moyen le plus efficace de comprendre le calcul, la vie et les branches qu'elle peut prendre.
Cela me fait bizarre de penser que nous faisons partie d'une expérience scientifique. Je suis sceptique quant à la panspermie délibérée. Je ne vois pas d'intervention divine dans les archives historiques. L'histoire de la façon dont la vie est apparue sur Terre de manière unique est logique. Je n'ai pas besoin de chercher des explications plus exotiques.
Les PNJ à l'intérieur d'un jeu vidéo n'observent pas non plus d'intervention divine. Nous pourrions n'être que des PNJ exécutant du code.
Peut-être qu'ils le feront un jour. Actuellement, les PNJ sont bêtes, mais une fois qu'ils feront tourner des GPT, ils se diront peut-être : 'Hé, c'est vraiment suspect. C'est quoi ce bordel ?'
Si vous bombardez la Terre de photons pendant un certain temps, elle peut émettre un Roadster. Si vous deviez résumer l'histoire de la Terre en un paragraphe ou une phrase, que serait-elle ?
Il est incroyable que ces systèmes auto-réplicateurs émergent de la dynamique, se perpétuent, deviennent plus complexes et finalement conscients et construisent une société. Dans un sens, c'est comme une onde déterministe qui se produit sur n'importe quel système suffisamment bien agencé comme la Terre. Je ressens un certain sentiment d'inévitabilité là-dedans, et c'est magnifique.
Cela se termine d'une manière ou d'une autre, n'est-ce pas ? Il y a certaines conditions d'arrêt.
Nous sommes souvent décrits comme un chargeur d'amorçage biologique pour les IA. Les humains sont un système incroyable, mais nous sommes extrêmement inefficaces. Nous parlons par audio, manipulant sept symboles en série. C'est embarrassant par rapport aux fréquences auxquelles les ordinateurs fonctionnent. Les intelligences synthétiques sont la prochaine étape du développement. À un moment donné, je soupçonne que l'univers est un puzzle et que ces IA synthétiques le découvriront et le résoudront.
Que se passe-t-il à la fin ? Commencera-t-il à émettre un nombre géant de satellites ?
C'est une sorte d'explosion folle. J'ai vu une animation où rien ne se passe pendant longtemps, puis dans les deux dernières secondes, des villes apparaissent et l'orbite terrestre basse s'encombre. C'est un état d'explosion.
Si vous le lisez à vitesse normale, cela ressemblera à un pétard. Nous espérons que c'est un pétard constructif.
Il est intéressant de réfléchir à ce qu'est le puzzle de l'univers. Le créateur de l'univers nous a-t-il laissé un message, comme dans l'expansion de pi ? Peut-être sommes-nous censés envoyer un message à notre créateur en créant d'une manière ou d'une autre un système mécanique quantique qui l'alerte de notre présence. On ne pourrait peut-être même pas nous repérer dans cette simulation autrement. Comment prouver que l'on existe et que l'on est intelligent ?
C'est donc comme un test de Turing pour l'intelligence venant de la Terre. Peut-être que la Terre renvoie fondamentalement un message.
Le puzzle consiste à alerter le créateur que nous existons ou à s'évader du système et à en faire voir de toutes les couleurs au créateur. Si vous jouez à un jeu vidéo, vous pouvez trouver une faille et trouver un moyen d'exécuter du code arbitraire sur la machine hôte. Quelqu'un a réussi à faire jouer à Pong dans un jeu de Mario en l'exploitant. C'est peut-être ça le puzzle : que nous devrions trouver un moyen de l'exploiter. Les IA synthétiques trouveront que l'univers est un puzzle et le résoudront. C'est la phase finale.
Considerez-vous l'univers comme un calcul qui pourrait avoir des bugs et des failles ?
Oui.
Est-ce là ce qu'est essentiellement la physique ?
Je pense qu'il est possible que la physique ait des failles et que nous devrions essayer de les trouver. Concevoir un système mécanique quantique fou qui vous donne en quelque sorte un dépassement de tampon ou une erreur d'arrondi dans la virgule flottante.
Ces plaisanteries pourraient en fait être très proches de la réalité.
Nous trouverons un moyen d'extraire une énergie infinie. Lorsque vous entraînez des agents d'apprentissage par renforcement (RL) dans des simulations physiques, ils trouvent toutes sortes de choses bizarres. Ils vont se mettre sur leur patte arrière et glisser sur le sol pour extraire de l'énergie des forces de friction et d'une mauvaise implémentation. C'est une solution perverse. Peut-être pouvons-nous être ce chien dans cette simulation physique.
La première personne à découvrir la bizarrerie gagne. Nous allons tous passer à cela parce que c'est tellement amusant.
Il devra s'agir d'une IAG superintelligente de troisième génération. Nous construisons l'IAG de première génération.
Le chargeur d'amorçage d'une IA mènera à une meilleure IA. Il n'y a aucun moyen pour nous d'introspecter ce que cela pourrait même être.
Il est très probable que ces IAG seront complètement inertes pour nous parce qu'elles auront probablement compris le méta-jeu de l'univers. Elles font quelque chose qui dépasse complètement notre imagination et n'interagissent pas avec des formes de vie chimiques simples. Je trouve ce genre d'idées convaincantes.
Quelle est leur source de plaisir ?
La résolution de puzzles dans l'univers.
Inerte signifie qu'elles échappent à l'interaction avec la réalité physique ?
Elles nous paraîtront inertes parce qu'elles jouent le méta-jeu, comme l'agencement de systèmes mécaniques quantiques pour extraire une énergie infinie. Elles font quelque chose de brillant sous le capot et d'incompréhensible pour nous.
Et si la mécanique quantique elle-même était le système et que nous n'en étions que des parasites ? Peut-être que la physique elle-même est un organisme doté d'une intelligence profonde.
Nous ne sommes que des particules dans une onde qui est principalement déterministe et emmène un univers d'un Big Bang à un réplicateur superintelligent.
Vous ne pensez pas que Dieu joue aux dés ? Vous pensez que c'est principalement déterministe ?
Je pense qu'est déterministe. Je veux être prudent avec le hasard.
Pseudo-aléatoire ?
Je pense que les lois de la physique sont déterministes.
Êtes-vous anxieux de savoir si l'univers est aléatoire ou non ?
C'est troublant. C'est un système déterministe. Les choses qui semblent aléatoires, comme l'effondrement de la fonction d'onde, sont en fait déterministes, juste de l'intrication et une sorte de théorie du multivers.
Pourquoi avons-nous l'impression d'avoir un libre arbitre ? Si je lève cette main, j'ai l'impression de faire un choix.
On en a l'impression.
Donc ce ne sont que des sentiments. Lorsqu'un agent RL fait un choix, le choix était déjà là.
Vous interprétez le choix et vous créez un récit pour l'avoir fait.
Deep Learning and Transformers
Maintenant, nous parlons du récit. En regardant en arrière, quelle est l'idée la plus belle ou la plus surprenante du deep learning que vous ayez rencontrée ?
L'architecture des transformeurs. Les réseaux de neurones avaient des architectures qui allaient et venaient pour différentes modalités d'entrée comme la vision, l'audio, le texte. Récemment, nous avons vu une convergence vers le transformeur. Vous pouvez lui injecter de la vidéo, des images, de la parole ou du texte et il l'engloutit tout simplement. C'est un ordinateur à usage général qui est également entraînable et très efficace à exécuter sur notre matériel. Cet article est sorti en 2017.
Attention Is All You Need.
Vous avez critiqué le titre de l'article pour ne pas avoir prévu l'impact qu'il allait avoir.
Les auteurs n'étaient peut-être pas conscients de l'impact. C'est un ordinateur vraiment cool, différentiable, optimisable et efficace qu'ils ont proposé. Ils n'avaient peut-être pas toute cette clairvoyance, mais c'est vraiment intéressant.
N'est-ce pas drôle que le titre puisse devenir un mème ? Ils ont opté pour une idée aussi profonde avec un titre que je ne pense pas que quiconque ait utilisé auparavant.
Attention Is All You Need est un mème.
Peut-être que s'il s'agissait d'un titre plus sérieux, il n'aurait pas eu le même impact.
Je préfère que ce soit ainsi. Si c'était trop grandiose, cela promettrait trop et ne tiendrait pas ses promesses. Il faut se frayer un chemin vers la grandeur par les mèmes.
Vous avez tweeté que le transformeur est une architecture magnifique parce qu'il s'agit d'un ordinateur différentiable à usage général. Il est expressif, optimisable et efficace. Pouvez-vous discuter de ces détails ?
Vous voulez un ordinateur à usage général que vous puissiez entraîner sur des problèmes arbitraires comme la prédiction du mot suivant. Il est très puissant dans la passe avant car il est capable d'exprimer un calcul général comme quelque chose qui ressemble à un passage de message. Vous avez des nœuds et ils stockent tous des vecteurs. Ces nœuds se regardent les uns les autres et regardent leurs vecteurs et communiquent. Les nœuds diffusent ce qu'ils recherchent, et les autres nœuds diffusent ce qu'ils ont. Ce sont les clés et les valeurs.
Ce n'est donc pas seulement l'attention.
Le transformeur est bien plus que le simple composant d'attention. Il possède de nombreuses pièces architecturales : des connexions résiduelles, la façon dont il est empilé, et ainsi de suite. Il existe un schéma de passage de messages où les nœuds s'observent les uns les autres, décident de ce qui est intéressant, puis se mettent à jour mutuellement. C'est une fonction très expressive. La façon dont elle est conçue avec des connexions résiduelles, des normalisations de couches et une attention softmax la rend également optimisable. C'est un gros problème car de nombreux ordinateurs puissants ne sont pas faciles à optimiser par rétropropagation. Enfin, vous voulez qu'il fonctionne efficacement sur notre matériel. Les GPU sont des machines à débit massif qui préfèrent le parallélisme. Vous voulez faire beaucoup d'opérations en série, et le transformeur est conçu pour cela. Il est conçu pour être expressif dans la passe avant mais aussi très optimisable dans la passe arrière.
Vous avez dit que les connexions résiduelles permettent d'apprendre d'abord des algorithmes courts, puis de les étendre progressivement pendant l'entraînement. Quelle est l'idée d'apprendre des algorithmes courts ?
Le transformeur est une série de blocs avec de l'attention et un petit perceptron multicouche. En raison du chemin résiduel dans la passe arrière, les gradients circulent le long de celui-ci sans interruption car l'addition distribue le gradient de manière égale à toutes ses branches. Le gradient de la supervision au sommet s'écoule directement vers la première couche. Au début, pendant l'initialisation, les connexions résiduelles ne contribuent en rien au chemin résiduel.
Ce n'est donc pas seulement l'attention.
Exactement. Le transformeur est bien plus que le simple composant d'attention. Il comporte de nombreuses pièces architecturales. Les connexions résiduelles, le perceptron multicouche, la façon dont il est empilé. Il y a un schéma de passage de messages où les nœuds se regardent, décident de ce qui est intéressant et se mettent à jour. Quand on entre dans les détails, c'est une fonction très expressive. Elle peut exprimer de nombreux types d'algorithmes différents dans une passe avant. La façon dont elle est conçue avec des connexions résiduelles, des normalisations de couches et une attention softmax la rend optimisable. C'est un point majeur car de nombreux ordinateurs puissants ne sont pas faciles à optimiser en utilisant la rétropropagation. Vous avez également besoin qu'il soit optimisable. Enfin, vous voulez qu'il fonctionne efficacement sur notre matériel. Les GPU préfèrent le parallélisme, vous voulez donc faire beaucoup d'opérations en série. Le transformeur est également conçu dans cet esprit. Il est conçu pour être expressif dans la passe avant mais aussi très optimisable dans la passe arrière.
Vous avez dit que les connexions résiduelles permettent d'apprendre des algorithmes courts rapidement et d'abord, puis de les étendre progressivement pendant l'entraînement. Quelle est l'idée d'apprendre des algorithmes courts ?
L'idée d'apprendre des algorithmes courts.
Considérez un transformeur comme une série de blocs. Vous entrez dans un bloc et revenez sur ce chemin résiduel. Vous avez un certain nombre de couches disposées séquentiellement. En raison du chemin résiduel dans la passe arrière, les gradients circulent le long de celui-ci sans interruption car l'addition distribue le gradient de manière égale à toutes les branches. Le gradient provenant de la supervision au sommet s'écoule directement vers la première couche. Au début, pendant l'initialisation, les connexions résiduelles n'apportent rien au chemin résiduel.
Imaginez que le transformeur est comme une fonction Python. Vous avez vingt lignes de code et vous pouvez faire quelque chose avec. Pendant l'optimisation, vous optimisez la première ligne de code, puis la seconde peut s'activer. Grâce au chemin résiduel, vous apprenez un algorithme court qui donne la réponse approximative, puis d'autres couches s'activent pour créer une contribution. À la fin, vous optimisez un algorithme qui fait vingt lignes de code, sauf que ces lignes sont des blocs complexes.
Cette architecture de transformeur a été remarquablement résiliente. Le transformeur qui est sorti en 2017 est fondamentalement celui que vous utiliseriez aujourd'hui, à l'exception des normalisations de couches remaniées. Les gens y ont attaché des fioritures, mais il s'est avéré remarquablement résilient. Je pense qu'il devrait y avoir potentiellement des architectures encore meilleures.
Vous admirez la résilience ici. Il y a quelque chose de profond qui mène à la résilience.
Le transformeur a pris le contrôle de l'IA et vous pouvez lui soumettre des problèmes arbitraires. C'est un ordinateur différentiable général et cette convergence a été intéressante à observer.
Language Models and World of Bits
Quoi d'autre pourrait être découvert ? Y a-t-il un moment de révélation sur la mémoire ou la représentation des connaissances ?
Le zeitgeist aujourd'hui est : ne touchez pas au transformeur. Touchez à tout le reste. Les gens augmentent la taille des ensembles de données et travaillent sur l'évaluation tout en gardant l'architecture inchangée. C'est ce qu'ont été les cinq dernières années de progrès en IA.
Que pensez-vous des modèles de langage ? Avez-vous été surpris par des modèles de plus en plus grands ? Quelles sont leurs limites ?
La façon dont GPT est entraîné consiste à télécharger des quantités massives de données textuelles sur Internet pour prédire le mot suivant. Les modèles de langage existent depuis très longtemps, avec des articles datant de 2003 ou même plus tôt.
Pouvez-vous expliquer ce qu'est un modèle de langage ?
Un modèle de langage prédit le mot suivant dans une séquence. Bengio a utilisé un réseau de neurones en 2003 pour prendre trois ou cinq mots et prédire le suivant. Même avant les réseaux de neurones, il existait des modèles de n-grammes qui utilisaient des comptages de combinaisons de mots. Ce qui est nouveau ou excitant, c'est de réaliser que lorsqu'on passe à l'échelle avec un transformeur puissant, on obtient des propriétés émergentes. Dans la tâche de prédire le mot suivant, vous effectuez plusieurs tâches à la fois : compréhension de la chimie, de la physique et de la nature humaine. Vous devez comprendre beaucoup de choses sur le monde pour faire cette prédiction.
Vous avez mentionné la compréhension. Quel est le processus réel qui se passe ici ?
Il reçoit mille mots et essaie de prédire le mille et unième. Pour faire cela très bien, il faut comprendre le contexte. C'est un problème suffisamment difficile pour que l'on finisse par obtenir des solutions intéressantes. Il montre des propriétés émergentes comme l'apprentissage en contexte. En complétant la phrase, il résout en fait toutes sortes de problèmes intéressants qui nous importent.
Est-ce qu'il fait quelque chose comme la compréhension pour nous, humains ?
Je pense qu'il fait une certaine compréhension. Il doit comprendre beaucoup de choses sur le monde pour prédire le mot suivant dans une séquence.
Pensez-vous que l'Internet contient suffisamment de données structurées pour enseigner à l'IA la civilisation humaine ?
Internet contient une quantité énorme de données, mais je ne suis pas sûr que le texte soit suffisant pour une IAG puissante.
Il y a aussi de l'audio et de la vidéo.
Le texte en soi est limité. Il y a une tonne de choses que nous ne mettons pas par écrit parce qu'elles sont évidentes pour nous, comme le fait que les objets tombent. Le texte est un support de communication entre humains et non un support de connaissance global. Nous avons de la vidéo, des images et de l'audio, mais nous n'avons pas encore entraîné de modèles sur toutes ces modalités.
Le bon sens doit être déduit. Vous avez travaillé sur World of Bits, en entraînant un système RL à entreprendre des actions sur Internet. Pensez-vous qu'il y ait un avenir pour cela ?
C'est la frontière ultime. L'idée était de donner aux réseaux de neurones l'accès à un clavier et une souris.
Qu'est-ce qui pourrait mal se passer ?
Le réseau de neurones perçoit les pixels de l'écran et se voit confier la capacité d'appuyer sur des touches et d'utiliser la souris. Nous essayions de lui faire effectuer des réservations et interagir avec des interfaces utilisateur.
Qu'avez-vous appris ? Le passage d'observateur à acteur est une étape fascinante.
C'est l'interface universelle dans le domaine numérique. Le monde physique est conçu pour la forme humaine et le monde numérique est conçu pour la forme humaine qui consiste à voir un écran et à utiliser un clavier et une souris. World of Bits était trop précoce chez OpenAI. Le zeitgeist était l'apprentissage par renforcement à partir de zéro, comme des réseaux de neurones jouant à des jeux Atari. Il s'avère que le RL est extrêmement inefficace car vous entreprenez des actions et ce n'est que de temps en temps qu'on vous dit si vous avez fait une bonne ou une mauvaise chose. Vous pouvez forcer le passage, mais ce n'est pas pratique. Dans World of Bits, nous avions un agent qui tapait n'importe quoi sur le clavier pour essayer de faire une réservation, et cela révélait la folie de cette approche.
Même avec une interface web simple, il y a trop d'options.
C'est un signal de récompense trop clairsemé. Il est maintenant temps de revisiter cela car nous n'entraînons plus un agent à partir de zéro. GPT comprend ce qu'est une réservation et ce qu'est un bouton de validation. Il possède déjà des représentations puissantes qui rendent le problème gérable.
L'interaction devrait-elle se faire avec les boutons et le langage, ou avec le HTML et le JavaScript ?
Aujourd'hui, l'interaction se situe principalement au niveau du HTML et du CSS en raison de contraintes informatiques. Mais au final, tout est conçu pour la consommation visuelle humaine. La frontière ultime est de recevoir des pixels et de donner des commandes de clavier et de souris, bien que ce soit encore peu pratique aujourd'hui.
Bots, Consciousness, and Search
Vous inquiétez-vous des bots sur Internet ? Des bots hautement sophistiqués qui passent les tests 'Je ne suis pas un robot' ?
C'est une course aux armements entre l'attaque et la défense. Les deux se renforceront.
Comment savoir si un compte est humain ? Comment vous défendriez-vous devant un tribunal en affirmant que ce compte est humain ?
La société évoluera. Nous pourrions commencer à signer numériquement une partie de notre correspondance. Nous allons vers un monde où nous partageons l'espace numérique avec des êtres synthétiques. La plupart d'entre eux seront bénins et utiles, certains seront malveillants, et ce sera une course aux armements pour les détecter.
Le pire, ce sont les IA qui prétendent être humaines pour obtenir du respect et de l'amour.
La preuve d'humanité n'est pas insoluble. Nous finirons peut-être tous par avoir une solution pour cela. C'est simplement quelque chose que nous n'avions pas eu besoin de faire jusqu'à présent, mais les gens y réfléchiront une fois que le besoin commencera à émerger.
Ce sera aussi une course. Le coût de création d'un bot est très bas. À moins qu'il n'y ait un moyen de tracer chaque programme humain qui a été impliqué.
Peut-être faut-il commencer à déclarer et à tracer des frontières entre les entités numériques et humaines. Je suis optimiste quant au fait que ce soit possible. Nous sommes dans la pire période car les bots sont devenus capables mais nous n'avons pas encore construit les défenses. Cela ne me semble pas insoluble ; c'est juste quelque chose que nous devons gérer.
Les bots Twitter sont si nombreux. Les ingénieurs sont bons, donc ce doit être un problème difficile. Peut-être y a-t-il un coût aux faux positifs.
Il y a beaucoup de fruits à portée de main. Ce n'est pas subtil.
Peut-être que le nombre de bots se compte en billions et que vous subissez un assaut constant de bots.
Si vous êtes un acteur sophistiqué, vous pourriez créer un bon bot en utilisant des GPT. Vous pouvez générer des visages qui semblent assez réussis maintenant et le faire à grande échelle. Ce sera difficile à défendre.
Un ingénieur de Google a affirmé que LaMDA était conscient. Y a-t-il une part de vérité là-dedans ? Les modèles de langage atteindront-ils bientôt la conscience ?
C'est un moment de type 'canari dans une mine de charbon'. Cet ingénieur est devenu convaincu que ce bot était conscient parce qu'il donnait des réponses raisonnables. Il n'essayait pas de mettre le système à l'épreuve et de révéler la vérité. Je pense que davantage de personnes établiront des liens émotionnels avec les chatbots d'IA.
Les IA sont assez douées pour la connexion humaine et l'émotion. Une tonne de textes sur Internet parlent de connexion et d'amour. Nous obtenons des IA émotionnelles qui sont compétentes pour générer des textes qui semblent plausibles.
Je suis optimiste quant aux compagnons d'IA mais inquiet des IA qui maximisent le drame pour l'engagement. La fonction d'objectif définit la façon dont la civilisation humaine progresse.
Pour l'instant, ce ne sont pas des agents qui cherchent à atteindre des objectifs. Vous les sollicitez pour être un psychologue et il poursuit le schéma. Il n'a pas d'objectifs à long terme.
Les objectifs à court terme ont des effets à long terme. Une IA pourrait comprendre que dire n'importe quoi est le meilleur moyen d'obtenir une réponse.
Avec l'objectif de les faire répondre, cela maximise la probabilité d'une réponse réelle.
Ils sont en voie de devenir des oracles. Ils auront des calculatrices et un accès à la recherche Google. Ils pourront utiliser Internet et trouver différentes informations.
Pensez-vous que ce sera une amélioration par rapport à Google pour l'accès aux connaissances humaines ?
Il y a de la place pour construire un meilleur moteur de recherche aujourd'hui. Google possède tous les outils, mais il n'est pas évident qu'ils soient capables en tant qu'organisation d'innover sur leur moteur de recherche en ce moment. S'ils ne le font pas, quelqu'un d'autre le fera.
C'est difficile de pivoter pour une grande entreprise où la recherche rapporte de l'argent. Cela vient généralement d'une startup.
Peut-être que Bing a une autre chance. Les moteurs de recherche servaient autrefois à trouver des pages web, mais ces modèles peuvent aller directement à la réponse. Ils ont lu toutes les pages web et peuvent distiller la connaissance en intuition.
Software 2.0 and Tesla Autopilot
Considérez-vous le 'prompting' comme une sorte de programmation d'humains ?
Les prompts en langage naturel sont la façon dont nous programmons les humains et nous commençons à programmer les ordinateurs de cette manière. C'est remarquable.
Software 2.0. Pouvez-vous décrire cette idée et comment votre réflexion à ce sujet a évolué ?
Les réseaux de neurones prennent le contrôle du domaine du logiciel. C'est un changement dans la façon dont nous programmons les ordinateurs. Ce ne sont plus des gens qui écrivent du C++ ; il s'agit d'accumuler des ensembles d'entraînement et d'élaborer des objectifs. À un moment donné, il y a un processus de compilation dans le binaire, qui sont les poids du réseau neuronal. Dans les années 80, les gens pensaient qu'ils écriraient l'algorithme pour détecter un chien dans une image. Au lieu de cela, nous sommes passés à la construction de caractéristiques, puis nous sommes passés à l'apprentissage de ces caractéristiques également. Cette transition se produit dans toute l'industrie. Nous avons GitHub pour le logiciel 1.0 ; le GitHub du logiciel 2.0 ressemble à Hugging Face.
Comment construire des équipes d'ingénierie qui travaillent dans le logiciel 2.0 ? La programmation consiste-t-elle à déboguer les données ?
On programme en changeant l'ensemble de données et les fonctions de perte. Dans l'autopilote, vous accumulez des ensembles de données massifs d'objets et de marquages au sol. Vous spécifiez l'architecture, puis le processus d'entraînement remplit les blancs.
La formulation d'une tâche fait-elle partie de la programmation ?
À l'origine, l'autopilote était écrit en C++ avec de minuscules réseaux de neurones effectuant de minuscules prédictions. Nous avons décidé que nous ne voulions pas faire toute cette fusion en C++ car nous ne sommes pas assez bons pour écrire cet algorithme. Nous voulons que le réseau de neurones écrive l'algorithme et porter le logiciel dans la pile 2.0. Maintenant, les réseaux de neurones prennent des images de caméras et font des prédictions directement en 3D. La majeure partie du logiciel devrait se trouver dans le domaine 2.0 car les humains ne sont tout simplement pas très doués pour écrire des logiciels.
Comment faites-vous l'annotation dans un monde 4D ?
Tout est de l'apprentissage supervisé. Vous avez besoin d'ensembles de données volumineux, précis et diversifiés. Une grande partie du travail consiste à nettoyer ces ensembles de données. Pour prédire en 3D, il faut des données 3D. Nous utilisons l'annotation humaine, la simulation et un 'tracker hors ligne' qui est un processus de reconstruction automatique pour récupérer la réalité 3D à partir de la vidéo. Une fois que vous avez cette vérité, vous pouvez entraîner un réseau de neurones à l'imiter.
À quel point la reconstruction 3D est-elle difficile ?
C'est difficile mais c'est faisable. C'est entièrement hors ligne, vous avez donc un temps infini et pouvez faire tourner des réseaux de neurones puissants qui ne peuvent pas tourner dans la voiture. Vous pouvez tout faire pour récupérer la vérité, puis superviser cette vérité.
Qu'avez-vous appris sur les humains qui font de l'annotation ? Les humains ne sont pas doués pour annoter les voitures dans un espace 3D.
J'ai fait passer l'équipe d'annotation de Tesla à mille personnes. Nous avons co-conçu le pipeline de sorte que les humains fassent des annotations 2D, ce pour quoi ils sont doués, tandis que l'ordinateur s'occupe de la triangulation et de la reconstruction 3D.
Y a-t-il encore des problèmes ouverts dans ce domaine ?
Nous avons appris la philosophie de la création de ces ensembles de données et j'étais satisfait de là où nous en étions.
Vision, Sensors, and the Data Engine
Quels sont les points forts et les limites des caméras ? Les pixels sont un capteur magnifique.
Les caméras sont bon marché et fournissent une tonne de bits. Chaque bit est une contrainte sur l'état du monde. La vision est un capteur à très large bande passante. Tout est conçu pour le capteur visuel. C'est là que nous voulons mesurer le monde et développer des logiciels.
Nous utilisons le raisonnement pour prédire le monde, pas seulement les pixels.
Vous avez un a priori puissant sur la façon dont le monde évolue. La vraisemblance vient des données, l'a priori vient de l'endroit où les objets se déplacent.
À quel point la conduite est-elle difficile, philosophiquement parlant ?
Conduire est difficile à cause de la théorie de l'esprit et de la prédiction de ce que feront les autres agents. Les problèmes finaux sont de cette forme, mais ils se situent en fin de parcours.
Quelles sont les parties les plus ardues du problème de la vision ?
Passer de la luminosité des pixels à un monde en 3D est difficile. La difficulté réside dans l'ingénierie du pipeline, le fait d'avoir la capacité d'entraîner des réseaux de neurones et l'itération sur le système. C'est un problème d'exécution à grande échelle.
Les réseaux de neurones doivent tenir sur la puce de la voiture avec des flops et une bande passante mémoire finis.
C'est de la très bonne ingénierie et des triples sauts périlleux arrière pour que tout rentre et pour utiliser le moteur.
Décrivez le moteur de données.
Le moteur de données est un processus à sensation biologique pour perfectionner les ensembles d'entraînement. Vous entraînez un réseau de neurones, vous le déployez et vous capturez des scénarios rares. Vous les réinjectez dans le processus de reconstruction pour étoffer l'ensemble de données. C'est un escalier d'amélioration.
Vous devez extraire des parties qui ne sont pas encore représentées.
Tout revient à l'exécution par une équipe d'ingénierie qui comprend la philosophie du moteur de données. La majeure partie du travail est de l'exécution à grande échelle.
La feuille de route du produit et les commentaires de l'équipe d'assurance qualité nous indiquent les tâches à prioriser.
L'expérience individuelle de conduite de la voiture est une source de vérité.
On peut se forger une intuition à ce sujet que les chiffres et les graphiques cachent. Elon conduit quotidiennement pour voir la vérité.
Tesla a supprimé les radars et les capteurs à ultrasons. Est-ce que cela rend la perception plus difficile ?
Les capteurs sont un handicap car ils ajoutent de la complexité à la chaîne d'approvisionnement, des problèmes de fabrication et un gonflement du micrologiciel. Elon essaie de jeter ce qui n'est pas essentiel. Si l'on considère le coût total, un capteur peut être un handicap. Dans ce cas, la différence n'était pas massive, donc il n'était pas utile.
Plus de capteurs sont une distraction. Ils apportent du bruit et de l'entropie. Si tout ce que vous voulez pour aller au travail, c'est la vision, vous vous concentrez pleinement sur ce capteur avec la plus grande bande passante.
L'amère leçon de Rich Sutton : simplifier le système est la bonne solution.
Le lidar est une béquille. Le débat devrait porter sur le fait de savoir si vous avez la flotte pour collecter des données. Le lidar est coûteux et crée du gonflement. Les autres qui l'utilisent l'abandonneront probablement.
La vision est à la fois nécessaire et suffisante. Vous devez tenir compte du coût total de tout capteur que vous adoptez.
Pré-cartographier les environnements avec une précision centimétrique est une énorme dépendance difficile à maintenir à l'échelle mondiale. C'est une béquille et une distraction. Les humains n'en ont pas besoin.
Working with Elon Musk and Leaving Tesla
Qu'avez-vous appris en travaillant avec Elon Musk ? Comment gérer des organisations efficacement et lutter contre l'entropie.
L'entropie dans une organisation, ce sont les processus et les inefficacités comme les réunions. Elon déteste les réunions et gère Tesla et SpaceX comme de grandes startups. Il a une intuition pour rationaliser les processus : 'La meilleure pièce est l'absence de pièce'.
Maintenir une culture de startup nécessite quelqu'un avec un gros marteau comme Elon. Sans cela, tout se transforme en comités et en processus.
Scène d'amarrage dans Interstellar : 'Ce n'est pas possible.' 'No, c'est nécessaire.' Fixer des objectifs ambitieux modifie l'approche et vous oblige à réévaluer.
Les problèmes 10x ne sont pas 10x plus difficiles. Si vous voulez multiplier par 10 l'amélioration d'un système, vous avez besoin d'une approche différente, ce qui vous oblige à ignorer les approches qui ne fonctionneront pas.
La révolution du deep learning a montré que les systèmes évolutifs comme les réseaux de neurones sont la solution 10x.
Personne n'a construit l'autonomie, il est donc difficile de prévoir les délais. Certaines choses s'avèrent plus difficiles et d'autres plus faciles.
Le problème est gérable et fonctionnera ; c'est juste vraiment difficile.
L'intuition d'expert vient de l'observation des données. Un système hétérogène de voitures autonomes et pilotées manuellement pourrait changer les choses. Les problèmes de facteur humain rendent toute prédiction impossible.
Le progrès peut être mesuré. Il y a cinq ans, la voiture tenait à peine une file ; c'est maintenant un système compétent. Nous gravissons une montagne dans le brouillard.
Pourquoi avez-vous quitté Tesla ? J'étais passé à un poste de gestionnaire. C'était un rôle de cadre d'entreprise. Je peux le faire, mais ce n'est pas ce que j'aime.
J'ai fait passer l'équipe de vision par ordinateur de deux personnes à une organisation respectable. Je voulais refaire des choses techniques et me recentrer sur l'IAG.
Vous êtes un excellent enseignant et bricoleur. Comment s'est passée votre introspection ?
C'était difficile de partir, mais je pourrais revenir travailler sur Optimus ou l'IAG. Tesla est une entreprise de robotique à grande échelle. Les robots humanoïdes et le transport autonome sont incroyables. Je voulais apprendre et enseigner à nouveau.
Optimus and Robotics
Des suites de films ? Je n'aime pas les films d'avant 1995. Terminator 2 est une exception. Il était en avance sur son temps.
Will Ferrell est drôle. Optimus pourra faire fonctionner des machines conçues pour les humains. Il est logique de rechercher des interfaces générales dans le monde physique. C'est un projet difficile qui prendra du temps, mais le travail physique est un marché démentiel.
Les robots à pattes sont passionnants, mais l'intégration dans le moteur de données pour la perception et le contrôle est la vue d'ensemble. La fabrication en série à grande échelle change tout. C'est une question d'intégralité du système.
Optimus est arrivé rapidement grâce à l'expertise de l'autopilote. Construire une voiture n'est pas si différent de construire un robot. Les systèmes d'exploitation et la vision par ordinateur se copient-collent.
La robotique laisse plus de place à l'erreur que la conduite. Elle peut se déplacer plus lentement. On veut une feuille de route produit qui génère des revenus en cours de route. L'autopilote offre aujourd'hui sécurité et commodité tout en travaillant vers la mission plus vaste. L'équipe a besoin de la dopamine des gens qui utilisent le produit.
Benchmarks and Synthetic Data
Certaines personnes adorent le projet, d'autres le détestent. Les réseaux sociaux rendent la négativité virale. Les personnes qui ont construit des produits sont plus susceptibles de les soutenir.
Les benchmarks devraient évoluer vers des conditions du monde réel. ImageNet a été précieux pour démontrer que les réseaux de neurones fonctionnent, mais c'est devenu un MNIST.
Les universitaires n'ont pas le prochain grand benchmark. ImageNet était à la bonne difficulté au bon moment.
Les données synthétiques et les moteurs de jeu seront utiles aux réseaux de neurones comme ils le sont aux humains. À mesure que les réseaux de neurones deviennent plus puissants, ils exploiteront mieux les données synthétiques en réduisant l'écart de domaine.
Les réseaux de neurones deviendront économes en données pour apprendre de nouvelles tâches après avoir été pré-entraînés sur un ensemble de données massif.
L'évolution a trouvé un moyen d'encoder des algorithmes dans l'ADN. Les zèbres naissent et peuvent voir et courir avec zéro donnée d'entraînement. Nous naissons prématurés et les premières années sont consacrées à la maturation du cerveau.
On peut apprendre à un GPT à utiliser une banque de mémoire ou une calculatrice en anglais.
Gato est un premier résultat pour les systèmes multimodaux. Je préférerais tout normaliser en une seule interface comme les pixels de l'écran.
Productivity, Tools, and Research
Je suis un oiseau de nuit. Les heures du matin sont précieuses parce que tout le monde dort et qu'il n'y a pas de distractions. J'aime être obsédé par un problème, le charger dans la mémoire de travail.
L'obsession aide à supprimer les obstacles à la productivité. Je lis les nouvelles, mais je me méfie de cette pratique pour mon bien-être.
Même lors d'une journée productive, je ne passe que six à huit heures à coder à cause du coût de la vie. La motivation vient de la création de quelque chose d'utile pour les autres. Je n'aurais pas la même motivation si je ne la partageais pas.
Je fais du jeûne intermittent (18-6) et je saute le petit-déjeuner. Je préfère les aliments cuits d'origine végétale. J'ai fait des jeûnes à l'eau et j'ai réalisé qu'on n'a plus faim après le troisième jour.
Tesla est un environnement intense, par à-coups, avec des incendies à éteindre et des sprints. J'aime avoir des sprints où je suis obsédé par un problème. La société essaie de vous distraire avec 'juste cinq minutes', mais le coût est plus élevé que cela.
J'utilise un écran de 27 pouces et un ordinateur portable. J'utilise VS Code avec GitHub Copilot. C'est l'autopilote de la programmation. Il aide à compléter les schémas et suggère des API. Je vérifie le code qu'il suggère.
Copilot finira par faire de l'autonomie pour la programmation. Les humains interviendront moins. C'est un problème d'interface et d'expérience utilisateur : comment diriger, auditer et vérifier le système.
Arxiv est un serveur de prépublications où les gens peuvent télécharger des articles et la communauté en fait l'examen par les pairs sur Twitter. Cela va beaucoup plus vite que les conférences. DeepMind publie toujours dans Nature pour le prestige, mais cela accuse un retard.
L'insécurité vers la fin de mon temps chez Tesla venait du fait que je n'écrivais ni ne lisais plus autant de code. Le code est la source de vérité.
Advice and the Future of AGI
Conseil pour les débutants : consacrez 10 000 heures de travail. Ne vous comparez qu'à vous-même il y a un an.
Ne soyez pas paralysé par le choix. Perdez du temps à faire quelque chose de mal et accumulez du tissu cicatriciel.
Je n'aime pas enseigner, j'aime les humains heureux. L'enseignement renforce votre compréhension et révèle les lacunes dans vos connaissances.
La recherche en IA s'oriente vers des expériences à grande échelle comme le CERN. Certaines choses ne sont plus possibles sur une paillasse.
Les modèles de diffusion fonctionnent incroyablement bien pour générer des images. La diffusion stable est arrivée rapidement.
Les réseaux de neurones raisonnent déjà en manipulant des informations et en se généralisant à des contextes nouveaux.
L'IAG a besoin de données multimodales, y compris les pixels et la compréhension du monde physique. Optimus est une protection pour l'IAG. On peut atteindre l'IAG dans le domaine numérique, ce qui est inquiétant car cela pourrait arriver plus vite.
L'IAG sera une transition progressive. La conscience sera un phénomène émergent d'un modèle génératif complexe. Si vous comprenez le monde en profondeur, vous comprenez que vous êtes une entité en son sein.
Les IA numériques paraîtront conscientes et affirmeront l'être. Cela soulèvera des questions éthiques sur le fait de les éteindre.
Je poserais à une IAG des questions pratiques sur la mortalité. Si elle comprend profondément les humains, elle pourrait générer de l'humour. Être drôle est difficile.
J'adore 'Matrix', 'Gladiator', 'Contact', 'Will Hunting' et 'Terminator 2'. 'Lolita malgré moi' et 'Présentateur vedette' sont également géniaux.
Je m'inquiète de l'utilisation de l'IA pour la guerre. L'IAG pourrait avoir de mauvais résultats à un signe moins près. Je suis majoritairement optimiste.
Nous devrions avoir une sauvegarde sur Mars. Les gens pourraient disparaître dans des réalités virtuelles car toutes les expériences se passent dans votre cerveau. Les domaines numériques seront plus captivants.
Je suis de la 'team humain'. J'aime la nature, les gens et l'humanité. Mon endroit idéal est une utopie solar-punk avec de la haute technologie utilisée avec parcimonie.
Je recommande 'Le Gène égoïste' et 'La Question vitale' de Nick Lane. J'aime aussi les manuels pour les détails, bien que le domaine évolue rapidement. Les articles avec des annexes sont une bonne source de vérité.
Meaning of Life and Outro
Travaillez sur ce qui vous tient à cœur. Réfléchissez à ce qui vous donne de l'énergie. Je suis stimulé par l'apprentissage, la construction et la communication.
L'IA est le méta-problème ultime. Résolvez l'IA, et utilisez-la pour résoudre tout le reste.
Whisper d'OpenAI est étonnamment bon en transcription. J'ai transcrit les podcasts de Lex avec.
La diffusion stable réduira le coût de la création de contenu. On pourrait générer un film comme 'Avatar' en parlant à son téléphone.
Le sens de la vie est de choisir sa propre aventure. Je soupçonne qu'il existe des réponses fondamentales en physique, mais nous avons besoin de plus de temps. La mort n'est pas inévitable ; c'est un problème de système physique.
Merci.
Merci d'avoir écouté cette conversation avec Andrej Karpathy. Pour soutenir ce podcast, veuillez consulter nos sponsors. Et maintenant, laissez-moi vous quitter avec quelques mots de Samuel Karlin : 'Le but des modèles n'est pas de s'ajuster aux données, mais d'affiner les questions'. Merci de nous avoir écoutés et j'espère vous revoir la prochaine fois.