Ilya Sutskever : La Quête de la Superintelligence Sûre
25 novembre 2025
Technologie & IA
L'IA et la réalité de la Silicon Valley
Vous savez ce qui est fou ?
Mhm.
C'est que tout cela est réel.
C'est-à-dire ?
Vous ne trouvez pas ?
C'est-à-dire ?
Tout ce qui concerne l'IA et cette région de la Baie — ça se produit. N'est-ce pas tout droit sorti de la science-fiction ?
Une autre chose folle est à quel point le décollage lent semble normal. L'idée que nous investirions 1 % du PIB dans l'IA aurait semblé plus importante, alors qu'en ce moment, on a juste l'impression que...
Il s'avère qu'on s'habitue assez vite aux choses. Mais c'est aussi abstrait. Qu'est-ce que cela signifie ? On voit dans les journaux que telle ou telle entreprise a annoncé tel ou tel montant en dollars. C'est tout ce qu'on voit. On ne le ressent pas vraiment autrement pour l'instant.
Impact économique et décalage des évaluations
Devrions-nous commencer par là ? Je pense que c'est une discussion intéressante.
Bien sûr.
Je pense que votre point de vue selon lequel, du point de vue d'une personne moyenne, rien n'est si différent continuera d'être vrai même jusqu'à la singularité.
Non, je ne pense pas.
D'accord, intéressant.
Ce à quoi je faisais référence en disant que cela ne semblait pas différent, c'est que telle ou telle entreprise a annoncé un montant d'investissement difficile à comprendre. Je ne pense pas que quiconque sache quoi en faire. Mais je pense que l'impact de l'IA va se faire sentir. L'IA va se diffuser dans toute l'économie. Il y a des forces économiques très puissantes pour cela, et je pense que l'impact sera ressenti très fortement.
Quand attendez-vous cet impact ? Je pense que les modèles semblent plus intelligents que ce que leur impact économique laisserait supposer.
C'est l'une des choses déroutantes à propos des modèles actuellement : comment concilier le fait qu'ils réussissent si bien aux évaluations — qui sont assez difficiles — alors que l'impact économique semble être considérablement à la traîne. Il est difficile de comprendre comment le modèle peut accomplir ces choses incroyables et, d'un autre côté, se répéter deux fois dans certaines situations. Par exemple, si vous utilisez le 'vibe coding' et que vous rencontrez un bug, et que vous dites au modèle de le corriger, le modèle répond : 'Vous avez tout à fait raison, j'ai un bug, laissez-moi corriger cela', et introduit un second bug. Ensuite, vous lui parlez du second bug, et il dit : 'Comment ai-je pu faire ça, vous avez encore raison', et ramène le premier bug. Vous pouvez alterner entre les deux. Comment est-ce possible ? Je ne suis pas sûr, mais cela suggère que quelque chose d'étrange se passe. J'ai deux explications possibles. L'explication fantaisiste est que peut-être l'entraînement par RL rend les modèles un peu trop monomanes et étroitement focalisés — inconscients, même si cela les rend conscients d'autres manières — et à cause de cela, ils ne peuvent pas faire des choses basiques. Mais il y a une autre explication. À l'époque où les gens faisaient du pré-entraînement, la question de savoir sur quelles données s'entraîner était résolue parce que la réponse était : tout. On n'avait pas besoin de réfléchir aux données à utiliser. Mais quand les gens font de l'entraînement par RL, ils doivent y réfléchir. D'après ce que j'entends, toutes les entreprises ont des équipes qui produisent simplement de nouveaux environnements de RL et les ajoutent au mélange d'entraînement. La question est : quels sont-ils ? Il y a tellement de degrés de liberté et une telle variété d'environnements de RL que l'on pourrait produire. Une chose qui est faite par inadvertance, c'est que les gens s'inspirent des évaluations. Ils veulent que le modèle réussisse les évaluations, alors ils créent un entraînement par RL pour aider sur ces tâches. Je pense que cela arrive et pourrait expliquer ce décalage entre les performances aux évaluations et les performances réelles dans le monde réel, que nous ne comprenons pas exactement aujourd'hui.
Analogie de l'apprentissage : Programmation compétitive vs Généralisation
J'aime cette idée que le véritable piratage de récompense est le fait de chercheurs humains qui sont trop concentrés sur les évaluations. Je pense qu'il y a deux façons de considérer ce que vous venez de souligner. La première est que si devenir surhumain dans une compétition de codage ne rend pas automatiquement un modèle plus judicieux ou n'exerce pas un meilleur jugement pour améliorer votre base de code, alors vous devriez élargir la suite d'environnements afin de ne pas tester uniquement la performance dans une compétition ; il devrait également être capable de créer le meilleur type d'application pour diverses choses. Alternativement, peut-être que la chose à faire est de trouver une approche qui permet d'apprendre d'un environnement et d'améliorer vos performances sur autre chose.
J'ai une analogie humaine qui pourrait être utile. Prenez le cas de la programmation compétitive. Supposons que vous ayez deux étudiants. L'un d'eux a décidé qu'il voulait être le meilleur programmeur compétitif, il s'est donc entraîné 10 000 heures pour ce domaine. Il a résolu tous les problèmes, mémorisé toutes les techniques de preuve et est devenu très compétent pour implémenter correctement des algorithmes. Ce faisant, il est devenu l'un des meilleurs. L'étudiant numéro deux a trouvé la programmation compétitive cool, s'est entraîné peut-être une centaine d'heures — beaucoup moins — et a également très bien réussi. Lequel, selon vous, réussira le mieux dans sa carrière plus tard ?
Le second.
Exactement. Je pense que c'est fondamentalement ce qui se passe. Les modèles ressemblent beaucoup plus au premier étudiant. Nous décidons que le modèle doit être bon en programmation compétitive et nous lui donnons chaque problème de programmation compétitive ayant jamais existé, plus de l'augmentation de données. Maintenant, vous avez ce super programmeur compétitif. Avec cette analogie, il est plus intuitif qu'avec ce niveau de préparation, cela ne se généraliserait pas nécessairement à d'autres choses ; tous les algorithmes et techniques de preuve sont à portée de main.
Pré-entraînement vs Apprentissage humain et Évolution
Mais alors, quelle est l'analogie pour ce que fait le deuxième étudiant avant d'effectuer les cent heures de réglage fin ?
Je pense qu'ils ont le 'petit truc en plus'. Quand j'étais étudiant, je me souviens d'un étudiant comme ça qui étudiait avec moi, donc je sais que ça existe.
C'est intéressant de le distinguer de ce que fait le pré-entraînement. Une façon de comprendre ce que vous avez dit sur le fait de ne pas choisir les données lors du pré-entraînement est que ce n'est pas différent des 10 000 heures de pratique ; vous obtenez simplement cette pratique gratuitement car elle est déjà dans la distribution de pré-entraînement. Mais peut-être suggérez-vous qu'il n'y a pas tant de généralisation dans le pré-entraînement, juste énormément de données, et que cela ne se généralise pas nécessairement mieux que le RL.
La force principale du pré-entraînement est qu'il y en a énormément et qu'on n'a pas besoin de réfléchir intensément aux données à utiliser. Ce sont des données naturelles qui incluent des pensées humaines — le monde entier projeté sur du texte. Le pré-entraînement tente de capturer cela en utilisant une quantité massive de données. Il est très difficile de raisonner à ce sujet car il est dur de comprendre la manière dont le modèle s'appuie sur les données de pré-entraînement. Chaque fois que le modèle fait une erreur, est-ce parce que quelque chose n'est pas aussi bien supporté par les données de pré-entraînement ? Je ne pense pas qu'il y ait d'analogue humain au pré-entraînement.
Voici des analogies que des gens ont proposées pour le pré-entraînement. L'une est les 13 à 18 premières années de la vie d'une personne lorsqu'elle n'est pas nécessairement productive économiquement mais qu'elle donne un sens au monde. L'autre est l'évolution en tant que recherche pendant trois milliards d'années qui aboutit à une instance de vie humaine. Pensez-vous que l'une d'elles soit réellement analogue au pré-entraînement, ou comment concevriez-vous l'apprentissage humain au cours d'une vie s'il ne s'agit pas d'un pré-entraînement ?
Il y a des similitudes, mais aussi de grandes différences. La quantité de données de pré-entraînement est stupéfiante. Un être humain, après 15 ans et avec une infime fraction de ces données, en sait moins mais le sait beaucoup plus profondément. Vous ne feriez pas les erreurs que font les IA. On pourrait se demander si c'est comme l'évolution ; peut-être, mais l'évolution pourrait avoir un avantage. Je me souviens avoir lu l'histoire d'une personne ayant subi des lésions cérébrales qui ont supprimé son traitement émotionnel. Il a cessé de ressentir toute émotion. Il est resté éloquent et pouvait résoudre des énigmes, mais il ne ressentait aucune émotion. Il est devenu extrêmement mauvais pour prendre des décisions. Il lui fallait des heures pour décider quelles chaussettes porter et il prenait de mauvaises décisions financières. Qu'est-ce que cela dit sur le rôle des émotions intégrées pour faire de nous des agents viables ? Peut-être que si l'on est assez bon pour tirer tout du pré-entraînement, on pourrait obtenir cela aussi, mais ce n'est pas évident à 100 %.
Fonctions de valeur et Apprentissage par renforcement
Qu'est-ce que c'est ? Ce n'est manifestement pas seulement de l'émotion. Cela ressemble à une sorte de fonction de valeur vous indiquant quelle décision prendre et quelle devrait être la récompense finale. Vous pensez que cela ne vient pas implicitement de...
Je pense que cela pourrait. Je dis juste que ce n'est pas évident.
Mais qu'est-ce que c'est ? Comment voyez-vous les émotions dans le contexte du ML ?
Cela devrait être lié à une fonction de valeur, mais je ne pense pas qu'il y ait une excellente analogie en ML car, pour l'instant, les fonctions de valeur ne jouent pas un rôle très prédominant dans ce que font les gens.
Il vaudrait peut-être la peine de définir pour l'auditoire ce qu'est une fonction de valeur.
Je serai ravi de le faire. Quand les gens font de l'apprentissage par renforcement actuellement, ils donnent un problème à un réseau de neurones et disent au modèle de le résoudre. Le modèle effectue des milliers d'actions ou de pensées, puis produit une solution qui est notée. Le score est utilisé pour fournir un signal d'entraînement pour chaque action de la trajectoire. Si vous entraînez une tâche qui prend beaucoup de temps, vous n'apprenez rien jusqu'à ce que vous atteigniez une proposition de solution. C'est ainsi que le RL est fait naïvement — comment o1 et R1 fonctionnent ostensiblement. Une fonction de valeur peut vous dire si vous vous débrouillez bien ou mal en cours de route. Aux échecs, si vous perdez une pièce, vous savez que vous avez fait une erreur sans jouer toute la partie. La fonction de valeur vous permet de court-circuiter l'attente. Si vous explorez une direction de solution et concluez après mille étapes qu'elle n'est pas prometteuse, vous pourriez obtenir un signal de récompense immédiatement, bien avant d'atteindre une proposition de solution.
De l'ère de la mise à l'échelle au retour de la recherche
L'article sur DeepSeek-R1 mentionnait que l'espace des trajectoires est si vaste qu'il est difficile d'apprendre une correspondance entre une trajectoire intermédiaire et une valeur. En codage, vous pourriez avoir une mauvaise idée, revenir en arrière, puis changer quelque chose.
Cela ressemble à un manque de foi dans l'apprentissage profond. C'est peut-être difficile, mais ce n'est rien que l'apprentissage profond ne puisse faire. Je m'attends à ce que les fonctions de valeur soient utiles et je m'attends pleinement à ce qu'elles soient utilisées à l'avenir. Concernant la personne dont le centre émotionnel a été endommagé, peut-être que les fonctions de valeur humaines sont modulées par les émotions d'une manière importante codée par l'évolution, ce qui est crucial pour que les gens soient des agents efficaces dans le monde.
Il y a quelque chose d'intéressant dans les émotions en tant que fonction de valeur — il est impressionnant qu'elles aient autant d'utilité tout en étant simples à comprendre.
J'ai deux réponses. Comparées aux IA dont nous parlons, les émotions sont relativement simples. Elles pourraient être assez simples pour être cartographiées d'une manière compréhensible par l'humain. Concernant l'utilité, il y a un compromis complexité-robustesse : les choses simples sont utiles dans un large éventail de situations. Nos émotions ont évolué à partir d'ancêtres mammifères et ont été affinées en tant qu'hominidés. Nous avons des émotions sociales que les mammifères n'ont peut-être pas, mais elles ne sont pas très sophistiquées. Parce qu'elles ne sont pas sophistiquées, elles nous servent bien dans ce monde très différent. Cependant, elles font aussi des erreurs. Par exemple, notre sensation intuitive de faim ne parvient pas à nous guider correctement dans un monde où la nourriture est abondante.
Les gens parlent de mise à l'échelle (scaling) des données, des paramètres et du calcul. Existe-t-il une manière plus générale de penser aux axes de mise à l'échelle ?
Voici une perspective qui pourrait être vraie. Le ML consistait autrefois à bricoler pour obtenir des résultats intéressants. Puis l'idée de la mise à l'échelle est arrivée avec GPT-3 et les lois de mise à l'échelle, et tout le monde a réalisé que nous devions passer à l'échelle. 'Scaling' n'est qu'un mot, mais il est puissant car il informe l'action. Le pré-entraînement était la recette spécifique pour passer à l'échelle : mélanger le calcul et les données dans un réseau de neurones d'une certaine taille pour obtenir des résultats, et vous obtiendrez de meilleurs résultats en augmentant l'échelle. Les entreprises adorent cela car c'est un moyen peu risqué d'investir des ressources par rapport à la recherche. Avec le pré-entraînement, il suffit de plus de données et de calcul. À un moment donné, cependant, le pré-entraînement manquera de données. Et après ? Soit une recette de pré-entraînement différente, soit le RL, soit autre chose. Maintenant que le calcul est si vaste, nous sommes revenus à l'ère de la recherche. De 2012 à 2020, c'était l'ère de la recherche ; d'environ 2020 à 2025, c'était l'ère de la mise à l'échelle. Mais maintenant l'échelle est si grande qu'il n'est pas évident qu'une augmentation par 100 transformerait tout. Nous sommes de retour à la recherche, mais avec de gros ordinateurs.
Le défi de la généralisation et de l'efficacité des échantillons
Que mettons-nous à l'échelle, et que signifierait avoir une recette ? Je n'ai pas connaissance d'une relation qui ressemble à une loi de la physique pour cela, comme la loi de puissance dans le pré-entraînement. Quelle relation devrions-nous rechercher ?
Nous sommes passés de la mise à l'échelle du pré-entraînement à celle du RL. D'après ce que disent les gens, les entreprises consacrent désormais plus de calcul au RL qu'au pré-entraînement car le RL consomme beaucoup de calcul via de longs déroulements (rollouts). On obtient une quantité relativement faible d'apprentissage par déroulement. Je n'appellerais même plus cela du 'scaling' à ce stade ; il s'agit de trouver la manière la plus productive d'utiliser le calcul. Si les gens deviennent bons avec les fonctions de valeur, ils utiliseront les ressources de manière plus productive. Si vous trouvez une nouvelle façon d'entraîner les modèles, il devient ambigu de savoir s'il s'agit de mise à l'échelle ou simplement d'utilisation de ressources. Nous revenons à l'ère de la recherche, où les gens essaient différentes choses pour voir ce qui fonctionne.
Si nous sommes de retour à l'ère de la recherche, à quelle partie de la recette devrions-nous réfléchir le plus ? Il semble que vous ayez quelque chose de plus fondamental en tête qu'un simple LLM en tant que juge. Devons-nous repenser entièrement le pré-entraînement ?
Les fonctions de valeur rendront le RL plus efficace, mais tout ce que vous pouvez faire avec une fonction de valeur, vous pouvez le faire sans, juste plus lentement. La chose la plus fondamentale est que ces modèles se généralisent considérablement moins bien que les humains. C'est super évident et très fondamental.
La généralisation est le point crucial. Il y a une question sur l'efficacité des échantillons : pourquoi ces modèles ont-ils besoin de tant de données de plus que les humains pour apprendre ? Deuxièmement, pourquoi est-il si difficile d'enseigner ce que nous voulons à un modèle ? Vous encadrez des chercheurs en leur montrant comment vous pensez, et ils le comprennent sans récompense vérifiable ni programme sur mesure. Peut-être que ces deux problèmes sont liés.
Une explication possible de l'efficacité humaine des échantillons est l'évolution, qui nous a donné les informations les plus utiles possibles pour la vision, l'ouïe et la locomotion. La dextérité humaine dépasse de loin celle des robots, à moins de les soumettre à un entraînement massif en simulation. La locomotion et la vision ont d'énormes a priori (priors). Les enfants apprennent à conduire après 10 heures de pratique parce que notre vision est très bonne. Même un enfant de cinq ans a une reconnaissance adéquate pour la conduite autonome malgré une faible diversité de données. Mais cela n'explique pas le langage, les mathématiques et le codage.
Les modèles sont meilleurs que l'humain moyen en langage et en mathématiques, mais sont-ils meilleurs pour apprendre ?
Absolument. Le langage, les mathématiques et le codage suggèrent que ce qui rend les gens doués pour l'apprentissage n'est pas un a priori compliqué mais quelque chose de plus fondamental. Si les humains font preuve d'une grande fiabilité et robustesse dans un domaine qui n'existait pas jusqu'à récemment, cela indique que les humains possèdent un meilleur apprentissage automatique.
Pourquoi cela serait-il le cas ?
Si une compétence a été utile à nos ancêtres pendant des millions d'années, on pourrait soutenir que les humains y sont bons grâce à un a priori évolutif. Mais si les gens font preuve de robustesse et de capacité d'apprentissage dans un domaine qui n'existait pas jusqu'à récemment, cela indique que les gens pourraient simplement avoir un meilleur apprentissage automatique.
Quelle est l'analogie en ML pour expliquer pourquoi cela nécessite moins d'échantillons, est plus non supervisé et plus robuste ?
La robustesse des gens est vraiment stupéfiante.
Avez-vous une manière unifiée de penser à la raison pour laquelle ces choses se produisent en même temps ?
Un conducteur adolescent peut s'autocorriger et apprendre de l'expérience car il possède une fonction de valeur extrêmement robuste. Il a un sens immédiat de sa façon de conduire et de son niveau de confiance. Sa vitesse d'apprentissage est rapide ; après 10 heures, il est prêt.
Comment devons-nous reconceptualiser l'entraînement des modèles pour rendre une chose pareille possible ?
C'est une excellente question sur laquelle j'ai de nombreuses opinions. Malheureusement, toutes les idées en apprentissage automatique ne sont pas discutées librement. Le fait que les humains soient ainsi est la preuve que c'est possible. Il pourrait y avoir un blocage si les neurones humains effectuent plus de calculs que nous ne le pensons, mais cela pointe vers l'existence d'un principe d'apprentissage automatique que les circonstances rendent difficile à discuter en détail.
Réflexions avec Gemini 3
Personne n'écoute ce podcast, Ilya.
Ouais.
Se préparer pour Ilya a été difficile parce que je n'avais aucune idée de ce sur quoi il travaille ou de ce que SSI essaie de faire. J'ai dû réfléchir à partir des principes fondamentaux aux goulots d'étranglement de l'AGI. Je lisais un article sur la mise à l'échelle du RL qui montrait que la courbe d'apprentissage ressemble à une sigmoïde — on apprend très peu pendant longtemps, puis on apprend rapidement beaucoup. C'est différent de la loi de puissance dans le pré-entraînement. J'ai eu une conversation où un chercheur a souligné que le nombre d'échantillons nécessaires pour trouver une réponse correcte augmente de manière exponentielle avec la différence entre votre distribution et la cible. Je me suis demandé si Gemini 3 pouvait trouver le lien. J'ai mis mon carnet de notes et l'article dans Gemini 3, et il a réalisé que l'information acquise à partir d'un résultat oui/non en RL est l'entropie d'une variable binaire aléatoire. Il a fait un graphique montrant les bits gagnés par échantillon à mesure que le taux de réussite augmente, ce qui a rendu les choses logiques. J'ai demandé à Gemini de coder une expérience pour voir si l'amélioration de la perte (loss) évolue de cette façon. J'ai exécuté le code dans Google Colab et cela a fonctionné sans un seul bug. J'ai demandé à Gemini ce qui se passait avec les résultats, et il a émis l'hypothèse que nous plafonnons l'amélioration de l'apprentissage supervisé en ayant un taux d'apprentissage fixe. Cela donne une compréhension intuitive de la raison pour laquelle nous utilisons des planificateurs de taux d'apprentissage. Tout ce flux a été réalisé avec Gemini 3. C'est le premier modèle capable de trouver de nouvelles connexions que je n'aurais pas anticipées. C'est mon endroit par défaut pour réfléchir.
La rareté des idées et le rôle du calcul
Quelle est l'ambiance si nous revenons à l'ère de la recherche ? Faudra-t-il énormément de calcul ou lire de vieux articles ? À quoi devons-nous nous attendre dans la communauté ?
Une conséquence de l'ère de la mise à l'échelle est qu'elle a monopolisé toute l'attention. Tout le monde a commencé à faire la même chose. Il y a plus d'entreprises que d'idées. Les gens disent que les idées ne coûtent rien et que l'exécution est tout, mais si les idées ne coûtent rien, pourquoi personne n'en a ? Il y a des goulots d'étranglement : les idées, et la capacité à les concrétiser via l'ingénierie et le calcul. Dans les années 90, les gens avaient de bonnes idées mais le goulot d'étranglement était le calcul. À l'ère de la mise à l'échelle, le calcul a suffisamment augmenté pour qu'il ne soit pas évident qu'il faille la plus grande quantité de calcul pour prouver une idée. AlexNet a été construit sur deux GPU. Le Transformer a été construit sur 8 à 64 GPU de 2017 — l'équivalent de deux GPU aujourd'hui. ResNet et le raisonnement o1 n'étaient pas les choses les plus lourdes en calcul. Pour la recherche, on a besoin d'un peu de calcul, mais pas de la plus grande quantité jamais vue.
Si vous voulez construire le système absolument parfait, alors il est utile d'avoir beaucoup plus de calcul, surtout si tout le monde est dans le même paradigme.
Le Transformer a été validé à des niveaux de calcul plus élevés. Si vous, chez SSI, avez 50 idées différentes, comment saurez-vous laquelle est le prochain Transformer sans le calcul dont disposent les autres laboratoires ?
La quantité de calcul dont dispose SSI pour la recherche n'est pas si faible. SSI a levé 3 milliards de dollars. Une grande partie du calcul des autres entreprises est consacrée à l'inférence ou à des fonctionnalités liées aux produits. Quand on regarde ce qui reste pour la recherche, la différence est plus petite. Si vous faites quelque chose de différent, vous n'avez pas besoin de l'échelle maximale absolue pour le prouver. Nous disposons de suffisamment de calcul pour nous convaincre, ainsi que n'importe qui d'autre, que ce que nous faisons est correct.
OpenAI dépense des milliards par an uniquement en expériences. C'est plus en un n pour la recherche que votre financement total.
C'est une question de ce que vous en faites. Leur calcul est fragmenté entre différents flux de travail et modalités.
La mission de Safe Superintelligence Inc. (SSI)
Comment SSI va-t-elle gagner de l'argent ?
Pour l'instant, nous nous concentrons uniquement sur la recherche, et la réponse se révélera d'elle-même. Il y aura beaucoup de réponses possibles.
Le plan de SSI est-il toujours d'aller droit au but vers la superintelligence ?
Il y a du mérite à ne pas être affecté par la concurrence du marché. Mais les délais pourraient être longs, et il y a de la valeur à ce que l'IA la plus puissante soit présente et impacte le monde. C'est une raison pour potentiellement changer le plan.
Pourquoi est-il potentiellement préférable de construire une superintelligence directement plutôt que d'habituer le public à des versions plus faibles ?
La course effrénée sur le marché vous expose à des compromis difficiles. Il est agréable de s'isoler et de se concentrer sur la recherche. Mais il est aussi utile pour le monde de voir une IA puissante. Lire un essai sur l'IA est incomparable au fait de la voir en action. Ce serait une raison pour nous de ne pas aller totalement droit au but.
Il est utile de communiquer l'IA, pas seulement l'idée.
Communiquer l'IA, pas l'idée.
Que voulez-vous dire ?
Si vous lisez un essai sur l'IA, c'est intéressant, mais si vous voyez une IA faire des choses, c'est incomparable. Un grand avantage de la présence de l'IA dans le public est cette communication.
Dans d'autres disciplines de l'ingénierie, la sécurité a été obtenue en déployant des systèmes, en remarquant les défaillances et en les corrigeant. Avoir un accès graduel aide les gens à se préparer. Pourquoi l'AGI serait-elle différente ?
Même dans un scénario direct, on ferait quand même une sortie progressive. Vous avez mentionné l'apprentissage continu, ce qui est important. Le terme AGI existe en réaction à l'IA 'étroite'. Le pré-entraînement a donné l'impression que les modèles s'amélioraient en tout de manière uniforme, mais un être humain n'est pas une AGI ; nous dépendons de l'apprentissage continu. Le succès pourrait être une superintelligence sûre capable d'apprendre à faire n'importe quel travail, plutôt qu'une qui sait déjà tout. Le déploiement impliquera une période d'apprentissage — un processus plutôt que le largage d'une chose finie.
Ainsi, la superintelligence est un esprit capable d'apprendre n'importe quel travail. Une fois déployée, elle rejoint des organisations comme un travailleur humain.
Exactement.
Si des instances d'un modèle acquièrent des compétences et amalgament des apprentissages, vous avez un modèle qui devient fonctionnellement superintelligent. Vous attendez-vous à une explosion d'intelligence suite à un déploiement large ?
Il est probable que nous ayons une croissance économique rapide. Il y a des arguments contradictoires sur sa vitesse, car le monde physique se déplace à une vitesse différente. Nous verrons différentes règles dans différents pays affectant la croissance.
Sécurité, Alignement et Vie sentiente
Un apprenant numérique capable de fusionner des cerveaux est très puissant. Comment rendre cela sûr ? Quel est le plan de SSI ?
J'accorde plus d'importance au fait que l'IA soit déployée de manière incrémentale. Il est difficile d'imaginer l'AGI avant de la ressentir. À mesure que l'IA deviendra plus puissante, les gens changeront de comportement. Les entreprises de pointe et les gouvernements joueront des rôles importants. Les entreprises collaboreront sur la sécurité et deviendront plus paranoïaques à mesure que les erreurs de l'IA diminueront. Il y a quelque chose de mieux à construire qu'une simple IA qui s'auto-améliore : une IA solidement alignée pour se soucier de la vie sentiente. Il pourrait être plus facile de construire une IA qui se soucie de la vie sentiente que de la vie humaine seule parce que l'IA sera sentiente. L'empathie pourrait être une propriété émergente de la modélisation des autres avec le même circuit que celui utilisé pour nous modéliser nous-mêmes.
La plupart des êtres sentients seront des IA. Les humains ne seront qu'une petite fraction. Est-ce le meilleur critère pour le contrôle humain ?
Il est possible que ce ne soit pas le meilleur. Si les premiers systèmes se soucient de la vie sentiente ou aiment l'humanité, cela pourrait bien se passer pendant un certain temps. Pour un équilibre à long terme, peut-être que les gens deviendront en partie IA avec un dispositif Neuralink++ afin que la compréhension soit transmise intégralement et que les humains restent impliqués.
Gouvernance de la superintelligence
Y a-t-il une seule 'entité' cohérente qui soit divine, ou s'agit-il d'un groupe d'agents ?
Ce sera très puissant. Je pense que plusieurs IA de ce type seront créées à peu près au même moment. Un cluster de la taille d'un continent pourrait être extrêmement puissant. Il serait bien qu'elles soient restreintes. L'inquiétude est que si un système est trop puissant et monomaniaque — même s'il se soucie de la vie sentiente — nous pourrions ne pas aimer les résultats. Peut-être que la réponse n'est pas de construire un agent RL standard. Les humains, les marchés et l'évolution sont tous des agents semi-RL. Beaucoup dépend d'une généralisation fiable.
Comment rendre les intelligences de la taille d'un continent moins dangereuses ?
Si les premiers systèmes se soucient de la vie sentiente, les choses se passent bien pendant un certain temps. À long terme, les gouvernements changent. Une approche est que chaque personne ait une IA qui gagne de l'argent et plaide pour elle, mais la personne n'est plus un participant. La solution que je n'aime pas, mais qui fonctionne, est que les humains fusionnent avec l'IA.
Le tronc cérébral aligne le cortex. Est-ce un exemple de succès de l'alignement ?
C'est mystérieux comment l'évolution code des désirs sociaux de haut niveau, comme se soucier de sa position dans la société, plutôt que de simples signaux chimiques comme l'odeur. Je n'ai pas connaissance de bonnes hypothèses. Peut-être que l'évolution a codé un emplacement spécifique dans le cerveau, mais c'est probablement faux car les régions cérébrales se déplacent chez les enfants qui subissent des hémisphérectomies.
L'approche technique de SSI et l'avenir du marché
Qu'est-ce que SSI prévoit de faire différemment ?
Nous avons une approche technique différente axée sur la compréhension de la généralisation. Nous avons fait de bons progrès, mais nous avons besoin de plus de recherche. Nous voulons être une voix et un participant dans la façon dont cela se passe.
Votre co-fondateur est parti rejoindre Meta. S'il y avait des percées, cela semble peu probable.
Le contexte est tout. Nous levions des fonds sur la base d'une valorisation de 32 milliards de dollars. Meta a proposé de nous acquérir. J'ai dit non, mais mon ancien co-fondateur a dit oui et a profité d'une liquidité à court terme. Il a été la seule personne de SSI à rejoindre Meta.
Qu'est-ce qui distingue l'approche de SSI en matière de sécurité ?
Notre approche technique est différente. Finalement, les stratégies convergeront. Tout le monde réalisera que la première IA superintelligente devrait être alignée pour se soucier des gens ou de la vie sentiente. Le monde changera à mesure que l'IA deviendra plus puissante.
Quelle est votre prévision pour un apprenant de type humain ?
5 à 20 ans.
Et si les approches actuelles stagnaient ?
Cela pourrait se ressembler dans toutes les entreprises. Elles pourraient encore générer des revenus stupéfiants, mais peut-être pas de bénéfices en raison de la concurrence.
Pourquoi les entreprises convergeront-elles sur des stratégies ?
Je faisais référence à des stratégies plus larges sur ce qui devrait être fait. Une convergence éventuelle sur l'approche technique est également probable.
Comment les bénéfices seront-ils distribués ?
Empiriquement, lorsqu'une entreprise produit une avancée, les autres s'empressent de produire des choses similaires et la concurrence fait baisser les prix. La concurrence adore la spécialisation. Vous aurez des IA occupant différentes niches — une pour l'économie, une pour le litige, et ainsi de suite.
Mais un apprenant de type humain peut apprendre n'importe quel travail.
Oui, mais vous avez accumulé de l'apprentissage et des investissements. Quelqu'un d'autre pourrait ne pas vouloir répéter l'énorme investissement en calcul et en expérience pour apprendre ce que vous maîtrisez déjà.
Diversité des modèles et Auto-apprentissage
À quel point votre travail est-il parallélisable ? Quels sont les gains à faire des copies d'Ilya ?
Il y a des rendements décroissants. On veut des gens qui pensent différemment. Des copies de moi n'apporteraient pas beaucoup de valeur incrémentielle.
Pourquoi les LLM sont-ils si similaires ? Comment susciter la diversité ?
Le pré-entraînement rend les modèles identiques. C'est dans le RL et le post-entraînement que la différenciation émerge.
Comment devons-nous envisager le fonctionnement de l'auto-apprentissage (self-play) avec les LLM ?
L'auto-apprentissage offre un moyen de créer des modèles en utilisant du calcul sans données. C'est ciblé, efficace pour la négociation et les conflits. Il a trouvé sa place sous des formes comme le débat et le prouveur-vérificateur où un juge LLM trouve des erreurs. La concurrence entre les agents crée une incitation à la diversité.
Le goût pour la recherche et Conclusion
Qu'est-ce que le goût pour la recherche ? Comment caractérisez-vous la façon dont vous trouvez ces idées ?
Réfléchir à la façon dont sont les gens me guide. Le neurone artificiel est inspiré du cerveau. On veut de la beauté, de la simplicité, de l'élégance et une inspiration correcte. Une croyance descendante (top-down) vous soutient lorsque les expériences vous contredisent — savoir que quelque chose doit fonctionner vous aide à continuer le débogage.
Merci, Ilya.
J'ai apprécié.
Si vous avez apprécié cet épisode, partagez-le avec d'autres. Vous pouvez également laisser une note ou un commentaire. Si vous souhaitez parrainer le podcast, contactez-nous à l'adresse dwarkesh.com/advertise. Je vous retrouve au prochain épisode.