Release Notes : Entretien avec Demis Hassabis sur Genie 3 et l'AGI
11 août 2025
Intelligence Artificielle
Introduction et aperçu des progrès
Aujourd'hui, nous sommes rejoints par Demis Hassabis, PDG de Google DeepMind.
Nous sortons pratiquement quelque chose chaque jour. C'est difficile à suivre, même en interne.
J'ai l'impression que nous livrons beaucoup de choses. DeepThink, médaille d'or aux OIM, Genie 3, dont l'accueil a été absolument incroyable.
Nous voulons construire ce que nous appelons un modèle du monde, qui est un modèle qui comprend réellement la physique du monde.
Construire la technologie et ensuite la mettre réellement entre les mains des gens est une si belle combinaison.
Nous commençons à voir la convergence de ces modèles vers ce que nous appelons un modèle omni, capable de tout faire.
Nous avons donc également annoncé notre partenariat avec Kaggle pour lancer Game Arena.
Comme son nom l'indique, les meilleurs modèles sont mis en concurrence les uns avec les autres.
À mesure qu'ils s'améliorent, les tests deviendront automatiquement plus difficiles. Et je pense que ce n'est que l'un des nombreux nouveaux benchmarks qui seront probablement nécessaires à mesure que nous nous rapprochons de l'AGI.
C'est un moment incroyable et passionnant dans l'industrie, je dirais.
Bonjour à tous, bienvenue dans Release Notes. Je m'appelle Logan Kilpatrick, de l'équipe Google DeepMind. Aujourd'hui, nous discutons avec Demis Hassabis, PDG de Google DeepMind. Demis, merci d'être ici. Ravi de discuter de toutes les sorties et des progrès que nous avons réalisés ces derniers mois.
Ravi d'être ici.
Un élan sans précédent
Commençons par cet élan sans précédent. J'ai l'impression que nous livrons beaucoup de choses. DeepThink, médaille d'or aux OIM, Genie 3, dont l'accueil a été absolument incroyable. 50 autres choses ces deux derniers mois que j'ai l'impression que nous avons déjà oubliées parce que les choses bougent si vite. Je suis curieux de connaître votre sentiment général sur ces progrès et cet élan actuel.
Oui, c'est fantastique à voir. Nous avons accéléré le rythme de nos sorties et de nos progrès ces deux dernières années et je pense que vous en voyez les résultats maintenant. Mais c'est un moment incroyable et passionnant dans l'industrie, je dirais. On dirait que des choses sortent tous les jours. Nous sortons pratiquement quelque chose chaque jour. C'est difficile à suivre, même en interne, et pour le domaine dans son ensemble. C'est donc passionnant à voir et je suis vraiment fier et satisfait de certains des derniers travaux que nous avons publiés.
DeepThink et les modèles de réflexion
Oui, comment voyez-vous DeepThink en particulier ? Évidemment, l'une des choses qui m'a le plus enthousiasmé est que le modèle est réellement disponible — une version du modèle médaille d'or aux OIM est disponible pour les abonnés de l'application Gemini. Les gens peuvent réellement mettre la main sur le modèle, ce qui, je pense, historiquement... nous pensions aux trucs Genie et je pense que construire la technologie puis la mettre réellement entre les mains des gens est une si belle combinaison. Donc, du point de vue de DeepThink, comment le voyez-vous ?
Eh bien, écoutez, je pense que l'avènement des modèles de réflexion est un peu un retour à nos premiers travaux sur les jeux, comme AlphaGo et AlphaZero. Nous avons toujours travaillé depuis le début de DeepMind en fait, l'histoire de notre travail a toujours porté sur des systèmes basés sur des agents. Ce que nous voulons dire par là, ce sont des systèmes capables d'accomplir une tâche complète, n'est-ce pas ? Surtout à nos débuts, en jouant très bien à un jeu. Et il y a un objectif et vous avez fondamentalement ce modèle — aujourd'hui nous avons des modèles multimodaux, vraiment puissants, qui modélisent le langage et tout ce qui nous entoure. Mais à l'époque, nous avions des modèles de jeu, puis vous aviez besoin d'une capacité de réflexion, de planification ou de raisonnement par-dessus. Et c'est évidemment la voie pour parvenir à l'AGI. Et puis bien sûr, une fois que vous avez la réflexion, vous pouvez faire du DeepThink ou du DeepThink extrêmement poussé, puis avoir une planification parallèle, vous pouvez faire de la planification et des réflexions en parallèle, puis vous rabattre sur la meilleure et prendre une décision avant de passer à la suivante. Je pense qu'il y a encore beaucoup d'innovation nécessaire à ce niveau. Mais il est passionnant de voir le rythme des progrès, même dans la partie réflexion. Et évidemment, pour des choses comme les mathématiques, le codage, les problèmes scientifiques, et aussi pour le jeu, vous allez avoir besoin de traiter et de planifier, et fondamentalement de mener cette réflexion, et pas seulement de sortir la première chose qui vient au modèle. Il est peu probable que cela soit suffisant. Vous voulez donc revenir en arrière et affiner vos propres processus de pensée, ce que font en effet les systèmes de réflexion.
Parallèles avec l'apprentissage par renforcement (RL)
Oui, je n'avais pas vu le jeu de réflexion et je l'ai regardé il y a probablement une semaine et demie ou quelque chose comme ça, et je gribouillais des notes en regardant et je me disais, attendez, Demis et l'équipe DeepMind étaient en avance sur tout ça. Il y avait tellement... et aussi il y avait juste tellement de parallèles intéressants alors que vous essayiez de mettre à l'échelle le RL pour résoudre des problèmes précédents, à quoi cela ressemble aujourd'hui — le goulot d'étranglement des données pour AlphaFold en est un bon exemple, et c'est similaire à la façon dont nous avons ce problème aujourd'hui avec les données d'experts humains pour certaines de ces tâches spécifiques à un domaine comme le codage ou juste en dehors des domaines scientifiques. Très intéressant. À quel point avez-vous l'impression d'un déjà-vu alors que nous résolvons maintenant ces problèmes avec des modèles de langage et en passant à l'échelle dans d'autres domaines ?
Oui, je pense que nous avons toujours été sur — je pense qu'il est devenu clair que nous avons toujours été sur la bonne voie avec — nous avons été les premiers à utiliser sérieusement le RL, fondamentalement. C'était l'un des premiers paris que nous avons faits en 2010 avec le deep learning. Et bien sûr notre travail sur Atari, qui a été la première chose, notre premier résultat marquant a été le premier véritable système de deep RL capable de faire quelque chose d'intéressant et d'utile. Dans ce cas, jouer à des jeux Atari des années 1970 juste à partir des pixels sur l'écran et être meilleur que n'importe quel humain. Et chose importante, jouer à n'importe quel jeu Atari, n'est-ce pas ? Dès la sortie de la boîte. Donc, il s'est généralisé. Et c'est vraiment ce qui, je pense, a prouvé au domaine que ces nouvelles techniques étaient prêtes à être mises à l'échelle et à être réellement utiles. Nous avons donc toujours eu cela à l'esprit, et la réflexion est quelque chose — si vous jouez aux échecs comme je l'ai fait quand vous étiez très jeune, c'est tout ce à quoi vous pensez : comment améliorer vos propres processus de pensée, comment fonctionne votre processus de pensée ? Et bien sûr, cela mène, du moins pour moi, à réfléchir aux neurosciences, à la façon dont le cerveau fonctionne, puis à l'IA comme cet outil incroyable, et aussi à essayer de distiller l'intelligence dans un artefact numérique. Et il y a encore un long chemin à parcourir. Les types de systèmes que nous avons aujourd'hui sont très bons pour certaines choses, mais ils sont encore assez imparfaits pour d'autres, et des choses relativement simples. Ils sont donc impressionnants, ils peuvent obtenir des médailles d'or aux OIM, ce qui est vraiment incroyable si on y pense juste à partir de la description en langage naturel. Et ce sont, au passage, juste des modèles Gemini avec DeepThink et un peu de réflexion supplémentaire. Ils ne sont pas spécialisés pour ces tests. Et pourtant, ils sont vraiment, vraiment bons. Mais d'un autre côté, ils peuvent encore faire des erreurs simples en mathématiques de niveau lycée ou sur des problèmes de logique simples ou des jeux simples s'ils sont posés d'une certaine manière. Cela doit donc signifier qu'il manque encore quelque chose et que ce sont des intelligences inégales ou dentelées. Dans certaines dimensions elles sont vraiment bonnes, dans d'autres leurs faiblesses peuvent être exposées assez facilement.
Genie 3 et les modèles du monde
Oui, je veux revenir là-dessus, mais avant cela, pouvons-nous approfondir Genie 3 ? Et je pense qu'il y a une transition intéressante autour du fait que les modèles ne sont pas excellents pour jouer aux jeux et pourtant j'ai vu un tas de gens commenter Genie 3 et la réaction a été une stupeur absolue. Les gens disent, c'est... j'ai vu des commentaires très extrêmes disant que nous sommes dans une simulation. C'est la preuve que tout est possible parce que les démos de Genie sont tellement bonnes. Alors, comment — et cela est aussi évidemment lié à la résolution du RL avec les jeux — si vous deviez regarder en arrière et réfléchir maintenant à ce moment Genie 3, pensez-vous que cela s'est passé comme vous l'auriez prévu ? J'ai l'impression qu'il n'est pas évident pour moi que rendre les modèles bons aux jeux aboutisse aux trucs de modèle du monde que nous avons aujourd'hui.
Bien sûr. Eh bien, Genie, c'est plusieurs branches de recherche et de réflexion qui se rejoignent, des idées qui se rencontrent. D'un côté, nous avons toujours utilisé les jeux de société comme un domaine stimulant pour améliorer nos idées d'algorithmes d'IA. Nous utilisions beaucoup les jeux vidéo, à la fois comme défis mais aussi pour créer des données synthétiques. Nous utilisions donc, et nous utilisons encore, beaucoup d'environnements simulés, des environnements très réalistes, construits de manière traditionnelle comme des moteurs de jeu 3D pour créer plus de données d'entraînement pour que nos systèmes comprennent le monde physique. La raison pour laquelle nous faisons cela est que nous voulons construire ce que nous appelons un modèle du monde, c'est-à-dire un modèle qui comprend réellement la physique du monde, n'est-ce pas ? La structure physique, comment les choses fonctionnent, les matériaux, les liquides, et même les comportements des objets vivants, les animaux, les êtres humains, n'est-ce pas ? C'est évidemment une partie critique de notre monde. Nous ne vivons pas seulement dans le langage et les mathématiques. Il y a le monde physique dans lequel nous existons. Et donc, si vous voulez, une AGI a clairement besoin de comprendre le monde physique. En partie aussi pour qu'elle puisse opérer dans le monde physique, que ce soit en robotique. Je veux dire, c'est ce qui freine la robotique. Elle a besoin d'un modèle du monde. Ou des choses comme le Projet Astra, notre projet Gemini Live sur le fait d'avoir un assistant universel qui peut vous aider dans la vie quotidienne, peut-être exister sur votre téléphone ou vos lunettes et vous aider au quotidien. Clairement, cela aurait aussi besoin de comprendre le contexte spatio-temporel dans lequel vous vous trouvez. Vous avez donc besoin d'un modèle du monde pour vraiment comprendre le monde et comment il fonctionne. Et l'un des moyens de prouver que vous avez un bon modèle du monde est de pouvoir générer le monde. Il existe de nombreuses façons de tester l'efficacité et la profondeur de votre modèle du monde, mais une excellente façon de le faire est simplement de lui demander d'inverser et de générer quelque chose sur le monde, comme ouvrir un robinet et du liquide en sort ou il y a un miroir et pouvez-vous vous voir dans le miroir ? Toutes ces choses. Et c'est vers cela que Genie se dirige, vers la construction de ce modèle du monde puis son expression, et le fait d'être réellement capable de générer des mondes cohérents. Et c'est la chose surprenante avec Genie 3, c'est que vous détournez le regard, vous revenez, et cette partie du monde est la même que vous l'avez laissée, ce qui est vraiment époustouflant. Et cela montre qu'il possède un très bon modèle sous-jacent de la façon dont le monde fonctionne.
Applications de Genie et futur du divertissement
Comment pensez-vous que les gens utiliseront Genie ? L'intentention est-elle que nous l'exploitions pour aider à améliorer Gemini et certaines de nos autres initiatives en robotique et à mettre cela à l'échelle ou pensez-vous qu'il y a réellement... évidemment je pourrais voir des gens jouer avec dans certains cas, mais pensez-vous qu'il y en ait...
Oui, c'est tellement passionnant dans de multiples dimensions. L'une d'elles est bien sûr que nous l'utilisons déjà pour notre propre entraînement. Nous avons donc un agent joueur de jeux appelé SIMA, agent simulé, qui peut dès sa sortie de boîte prendre les commandes et jouer à un jeu vidéo existant, n'est-ce pas ? Dans certains cas bien, dans d'autres moins bien. Mais ce qui est intéressant ici, c'est que vous pouvez placer cet agent SIMA dans Genie 3. Vous avez donc fondamentalement une IA jouant dans l'esprit d'une autre IA. C'est assez fou d'y penser. Donc Genie SIMA décide des actions à entreprendre et vous pouvez lui donner un but comme : va chercher la clé dans la pièce, et il enverra des commandes comme s'il jouait à un jeu vidéo normal, mais en fait, à l'autre bout, c'est Genie 3 qui génère le monde à la volée. Il y a donc une IA qui génère le monde et une autre IA à l'intérieur. Cela pourrait donc être vraiment utile pour créer des données d'entraînement illimitées. Je peux imaginer que ce soit très utile pour des choses comme la robotique, mais aussi pour entraîner nos systèmes d'AGI généraux. Mais aussi, cela a beaucoup de potentiel dans un sens appliqué pour le futur du divertissement interactif. J'ai beaucoup d'idées, comme vous ne seriez pas surpris, sur les types de jeux incroyables de nouvelle génération qui peuvent être créés. Et peut-être un nouveau type de divertissement auquel nous n'avons pas vraiment pensé auparavant, qui se situerait quelque part entre le film et le jeu, un nouveau genre de divertissement. Et enfin, peut-être la chose la plus intéressante de mon point de vue de scientifique est : qu'est-ce que cela nous dit réellement sur le monde réel et la physique et peut-être des choses comme la théorie de la simulation. On est obligé, quand on travaille là-dessus tard le soir et qu'on génère ces mondes entiers et qu'on réfléchit à la façon dont cette technologie fonctionne, de considérer aussi — et je l'ai toujours fait dans ma carrière — ce qui se passe dans le monde réel ? Quelle est la nature de la réalité ? Et en fait, c'est ce qui m'a poussé tout au long de ma carrière à construire l'IA comme cet outil incroyable pour la science. Et je pense que des choses comme VO 3, notre modèle vidéo, et le modèle vidéo-audio, et Genie 3, nous disent vraiment quelque chose sur la nature de la réalité si nous les regardons sous un angle légèrement différent.
Game Arena et nouveaux benchmarks
Oui, j'adore ça. Je pense que c'est une transition parfaite vers ce que vous disiez auparavant sur l'intelligence inégale. D'un côté, nous avons ce système époustouflant où les mondes sont générés et tout ça. De l'autre côté, vous prenez Gemini tel quel et vous lui demandez de jouer aux échecs — et je vous disais hors caméra que je suis nul. Je connais les règles des échecs mais je ne suis pas vraiment bon. Et je pense que je pourrais battre nos modèles aux échecs en ce moment. Alors comment faites-vous... et dans certains cas, ils ne peuvent même pas suivre les règles.
Nous avons donc également annoncé le partenariat du GDM avec Kaggle pour lancer Game Arena et offrir aux modèles un endroit où aller jouer à un tas de jeux différents et tester leurs capacités. Je suis curieux d'avoir votre réaction à cela.
Eh bien, regardez, c'est vraiment intéressant. C'est quelque chose de plus large, du genre : d'accord, maintenant, tous nos systèmes, les nôtres, Gemini, mais aussi ceux de nos concurrents s'améliorent de plus en plus. Nos systèmes peuvent faire des choses incroyables, générer des mondes simulés à partir de messages textuels, comprendre des vidéos, toutes ces choses cool, résoudre des problèmes de mathématiques, faire des choses en science. Mais je pense qu'intuitivement, nous avons tous joué avec ces chatbots et vous voyez assez facilement les limites de ce qu'ils peuvent faire, n'est-ce pas ? À mon avis, c'est l'une des choses qui manquent pour que ces systèmes soient une véritable AGI : la cohérence. Il ne devrait pas être aussi facile pour une personne moyenne de trouver une faille triviale dans le système. C'était autrefois compter le nombre de 'r' dans 'strawberry', n'est-ce pas ? Je pense que nous avons réussi à résoudre cela maintenant, mais il y a encore des choses assez triviales que ces systèmes — comme un écolier le ferait trivialement — que ces systèmes ne peuvent pas faire. Alors pourquoi cela ? C'est une bonne question. Il manque probablement des capacités de raisonnement et de planification, de mémoire, pour lesquelles peut-être une ou deux nouvelles innovations sont encore nécessaires dans ces domaines, au-delà de la simple mise à l'échelle. Mais c'est aussi en partie parce que nous avons peut-être besoin de benchmarks, de meilleurs benchmarks pour identifier ce pour quoi ces choses sont bonnes par rapport à ce pour quoi elles ne le sont pas. Ces systèmes sont très généraux, y compris Gemini, mais beaucoup des benchmarks que nous utilisons commencent à saturer. Donc, vous regardez certains des benchmarks mathématiques standard comme AIME, notre dernier résultat avec DeepThink était de 99,2 %. Donc, vous arrivez dans la zone de rendements très marginaux et il pourrait même y avoir une erreur dans le test. Et donc ils saturent rapidement. Et nous avons donc besoin de nouveaux benchmarks plus difficiles, mais aussi plus larges à mon avis. Comprendre la physique du monde et la physique intuitive et d'autres choses que nous tenons pour acquises en tant qu'humains et que nous trouvons faciles, comme l'intelligence physique également en fait, n'est-ce pas ? Nous n'avons pas vraiment de bons benchmarks pour ces choses, ainsi que certains benchmarks de sécurité aussi, pour tester des traits que vous ne voulez pas, comme la tromperie, des choses comme ça. Je pense donc qu'il y a un travail vraiment incroyable à faire pour créer des benchmarks qui ont vraiment du sens, qui testent des choses un peu plus compliquées ou subtiles que les examens scolaires de force brute que nous avons aujourd'hui. Et c'est pourquoi je suis si enthousiaste pour Game Arena car — et c'est vrai que c'est un peu un retour à nos racines, c'est pourquoi nous l'avons conçu — mais beaucoup des raisons pour lesquelles nous avons commencé par les jeux tiennent toujours aujourd'hui. Premièrement, ce sont des terrains de test très propres, n'est-ce pas ? Vous obtenez des ELO, vous pouvez obtenir des scores très facilement, c'est très objectif. Ce sont des mesures de performance très objectives. Il n'y a pas de subjectivité, pas de tests AB avec des êtres humains décidant des notes et ainsi de suite. Je pense juste que c'est super scientifique dans ce sens, n'est-ce pas ? L'autre chose est qu'ils s'adaptent automatiquement aux capacités des systèmes. Parce que les systèmes jouent les uns contre les autres dans des tournois — et c'est assez amusant à regarder même au niveau où ils en sont — c'est tout l'intérêt de Game Arena, comme son nom l'indique, c'est que les meilleurs modèles sont mis en concurrence les uns avec les autres. Ce que nous espérons, c'est que cela générera beaucoup de progrès parce que les systèmes... aujourd'hui, aucun des systèmes d'IA n'est très bon pour les jeux, y compris pour les échecs, mais même pour des jeux plus simples que cela. Et c'est une question intéressante : pourquoi ? Et je suis sûr qu'ils progresseront rapidement maintenant que nous avons une mesure pour cela avec Game Arena. Mais à mesure qu'ils s'améliorent, le test deviendra automatiquement plus difficile. Il n'est donc pas nécessaire — ce n'est pas comme l'AIME ou le GPQA où vous devez inventer des questions scientifiques plus difficiles, et puis qui va créer ces questions et ont-elles déjà fuité sur Internet ? Chaque jeu est unique parce qu'il est créé par les deux joueurs. Il y a donc une unicité là-dedans. C'est donc aussi agréable pour les tests. Et la dernière chose est que, tout comme nous l'avons fait avec nos propres premiers travaux sur les jeux, à mesure que les systèmes deviennent de plus en plus performants, vous pouvez introduire des jeux de plus en plus complexes dans la Game Arena. Nous avons commencé par les échecs pour des raisons évidentes, c'est le grand classique sur lequel nous testons l'IA, cela me tient à cœur bien sûr, mais l'idée est que nous allons l'étendre à potentiellement des milliers de jeux. Et ensuite vous obtiendrez un score global. Nous ne cherchons pas vraiment des systèmes qui jouent très bien à un seul jeu. Ils devraient être capables de jouer à tous les jeux avec un bon niveau. Cela pourrait être des jeux vidéo aussi bien que des jeux de société. Et chose encore plus intéressante, à terme, les systèmes d'IA devraient peut-être inventer leurs propres jeux et les enseigner aux autres — les autres systèmes d'IA doivent les apprendre. C'est donc comme apprendre un nouveau jeu qui n'a jamais existé auparavant. Il n'y a donc aucun moyen de faire du surapprentissage sur les données d'entraînement ou quoi que ce soit de ce genre. J'ai donc beaucoup d'idées sur ces environnements multi-agents que la Game Arena pourrait finir par prendre en charge. Je pense donc que ce sera un benchmark vraiment important qui durera longtemps. Et je pense que ce n'est que l'un des nombreux nouveaux benchmarks qui seront probablement nécessaires à mesure que nous nous rapprochons de l'AGI pour nous assurer que nous avons réellement couvert l'espace des capacités cognitives.
Défis de l'évaluation et fonctions de récompense
Oui, l'un des grands défis — et c'est ma réflexion, je voudrais votre réaction à ce sujet — au cours des deux dernières années, c'est qu'en réfléchissant davantage aux évaluations, il est devenu très clair qu'en fait, la plupart des problèmes de la vie sont des problèmes d'évaluation, et on n'y pense pas à moins de faire de l'IA et d'entraîner des modèles... mais la performance dans votre travail est un problème d'évaluation. La façon dont vous regardez toutes ces autres choses sont toutes des problèmes d'évaluation. Et il est intéressant de noter que nous ne faisons pas... l'équivalent humain pour résoudre ces problèmes — le truc Game Arena est sympa parce qu'il y a cette vérité empirique car le système a toutes ces contraintes. Mais si nous extrapolons, j'imagine qu'en dehors du domaine des jeux, on perd un peu de cela. Je réfléchissais à la façon de créer des environnements de RL pour toutes ces autres tâches que les humains font par exemple, et cela devient difficile parce que quelle est la source de vérité dans ces cas-là ? Et je suis curieux pour les environnements hors jeux, comment pensez-vous que nous parviendrons à commencer à capturer ces choses ?
Oui, cela a toujours été le défi difficile avec l'apprentissage par renforcement dans des domaines qui sont plus désordonnés ou proches du monde réel : comment spécifier la fonction de récompense ou la fonction objective que vous essayez d'optimiser ? Et je pense que dans notre monde et en tant qu'humains, nous n'avons pas de fonctions objectives uniques, n'est-ce pas ? C'est très désordonné. En fait, si je devais vous demander ce que vous optimisez, n'importe quel jour donné, vous pourriez donner une réponse différente, n'est-ce pas ? Et je pense que nous sommes multi-objectifs et que nous pondérons continuellement ces différents objectifs différemment les uns par rapport aux autres en fonction d'autres états comme votre état émotionnel, votre environnement physique, et où vous en êtes dans votre carrière, toutes ces choses. Mais d'une manière ou d'une autre, nous nous en sortons avec nos cerveaux et nous trouvons quelle est la bonne étoile polaire. Et je pense que nos systèmes, nos systèmes généraux, vont devoir faire cela aussi, en apprenant à interpréter peut-être ce que l'utilisateur humain essaie d'accomplir, puis à comprendre comment cela se traduit par un ensemble de fonctions de récompense utiles par rapport auxquelles optimiser. Il y a donc beaucoup d'expériences ici sur la métacognition ou le méta-RL où vous avez réellement un autre système au-dessus qui essaie de déterminer quelles sont les fonctions de récompense pour le système secondaire à optimiser. Et beaucoup de ces choses sont encore très largement des problèmes de recherche. Mais je pense encore une fois que nous faisions des recherches là-dessus il y a peut-être 10 ans, quand nous étions au milieu de nos travaux sur les jeux avec AlphaGo et AlphaZero, mais je pense que beaucoup de cela va revenir maintenant.
Utilisation d'outils et mise à l'échelle
J'ai l'impression que nous devrions commencer à le faire maintenant parce qu'on dirait que toutes les choses que DeepMind faisait il y a 10 ans sont maintenant exactement à la pointe de ce que tout le monde essaie de faire. Je veux revenir à cette tendance de la réflexion et aussi en lien avec la tendance du jeu. Nous avons historiquement eu toutes ces différentes dimensions de mise à l'échelle des modèles. Vous pouvez mettre à l'échelle le pré-entraînement, le post-entraînement. Les données ont été mises à l'échelle, la puissance de calcul a été mise à l'échelle. Ensuite, nous avons eu cette mise à l'échelle du raisonnement, qui est la façon dont une grande partie du nouveau DeepThink est activée par la mise à l'échelle du raisonnement. On a aussi l'impression maintenant que les outils sont cette nouvelle dimension de mise à l'échelle où, à mesure que vous donnez aux modèles des outils et des outils plus puissants et différents, ils sont capables de faire un tas de choses. Et je suis curieux de savoir comment cette nouvelle dimension de mise à l'échelle est liée à cette vision du monde de ce que nous avons fait avec les jeux et certains de ces environnements de RL simulés. Existe-t-il un monde où vous donnez au modèle un simulateur de physique et c'est un outil auquel il a accès ?
Oui, l'utilisation d'outils va être, et est l'une des capacités les plus importantes pour ces systèmes d'IA. Une grande partie de la réflexion — la raison pour laquelle la réflexion fait partie des systèmes est très importante car vous pouvez utiliser des outils pendant la réflexion, n'est-ce pas ? Vous pouvez appeler une recherche, vous pouvez utiliser un programme de mathématiques, vous pouvez faire du codage, revenir en arrière et ensuite mettre à jour votre planification sur ce que vous allez faire. Je pense que c'est encore assez naissant pour le moment, mais cela va être incroyablement puissant une fois que cela deviendra vraiment fiable et que nous aurons compris... et que les systèmes deviendront assez bons pour utiliser des outils assez sophistiqués de manière très fiable. Et puis vient la question intéressante de savoir ce que l'on laisse comme outil par opposition à ce que l'on met dans le système principal, le cerveau principal. Pour les humains c'est facile parce que nous sommes physiquement limités, donc tout ce qui n'est pas dans notre corps est un outil, n'est-ce pas ? Il n'y a donc pas de question sur ce qui est un outil ou ce qui est notre cerveau. Mais avec un système numérique, ces choses peuvent devenir floues. Alors, est-ce que la capacité de jouer aux échecs ou autre devrait être dans le modèle principal, ou est-ce qu'on utilise simplement Stockfish ou AlphaZero comme outil ? Et cet outil pourrait aussi être un système d'IA, il n'a pas besoin d'être un logiciel, il pourrait en fait être quelque chose comme AlphaFold ou autre. Et la question se pose de savoir où cette capacité aide d'autres capacités. Par exemple, les mathématiques et le codage, nous les mettons dans le modèle principal, le modèle principal Gemini, car cela semble élever tout le monde, n'est-ce pas ? Si vous devenez bon en codage, vous êtes bon en mathématiques, alors vos capacités de raisonnement sont tout simplement meilleures de manière générale. Et je soupçonne que cela puisse également se produire avec des choses comme les échecs. Mais d'un autre côté, vous ne voulez pas mettre trop de données spécialisées dans votre modèle général car cela pourrait nuire à d'autres choses. C'est donc tout à fait une question empirique. Est-ce que l'ajout de cette capacité aide les autres capacités ? Si oui, faites-le. Si cela nuit aux autres capacités générales, alors envisagez de l'utiliser comme un outil.
Modèles comme systèmes complets
Intéressant. L'une des questions que les développeurs — sous l'angle des développeurs qui construisent avec nos modèles — posent toujours concerne... c'est devenu très clair et vous venez de le dire. À mesure que le modèle raisonne, il utilise réellement des outils et fait tout ça. Historiquement, les modèles étaient des poids. Vous donnez un jeton, vous obtenez un jeton. Maintenant, on a l'impression que les modèles deviennent des systèmes complets en eux-mêmes et la façon dont les gens construisent réellement des applications sur les modèles change car le modèle fait tout simplement plus pour vous dès la sortie de boîte. Je suis curieux de voir comment cette transition du modèle, qui passe de simples poids quelque part à un véritable système, résonne avec votre vision du monde sur la façon dont les progrès se produisent et si nous verrons cela continuer. Et puis, je ne sais pas si vous avez des suggestions pour les gens qui construisent des trucs alors qu'ils réfléchissent à ce qu'ils doivent construire par rapport à ce point de savoir ce que je fais comme outil par rapport à ce que le modèle va avoir empiriquement comme partie intégrante.
Oui, les modèles s'améliorent rapidement et à mesure qu'ils acquièrent la capacité d'outil, parallèlement à la planification et à la réflexion, cela augmente de manière exponentielle ce que le système pourrait être capable de faire car il peut évidemment combiner des outils de manières et de combinaisons inédites. Une chose à laquelle vous pouvez penser est : quels sont les outils qui vont être incroyablement utiles pour les IA et commencer à les construire et à les fournir. Je pense qu'il y a beaucoup de potentiel là-bas. L'agent lui-même, même avec l'utilisation d'outils, n'est pas nécessairement suffisant pour constituer un produit complet. Il y a donc encore beaucoup de travail de produit à faire par-dessus. Maintenant, la partie difficile — et nous en avons déjà parlé — est que dans ce nouveau monde, cela nécessite des compétences très intéressantes de la part d'un chef de produit ou d'un concepteur de produit, car il faut concevoir... disons que votre produit sort dans un an, vous devez être très proche et comprendre le monde technologique pour anticiper où cette technologie en sera dans un an, et concevoir pour cela, n'est-ce pas ? Et quel que soit le peaufinage que vous apportez à votre produit, il doit permettre que le moteur sous le capot soit débranché et rebranché avec un système plus avancé qui sort tous les trois à six mois. Peut-être même plus vite que cela. Vous devez donc en tenir compte. Je ne pense pas que cela va changer. Et cette réflexion prospective porte sur tout l'écosystème web et la façon dont les applications fonctionnent, et des choses comme ça pourraient changer parce que des agents utilisent ces systèmes et sont capables de les utiliser comme des outils efficacement.
Convergence vers le modèle Omni
Oui, c'est tout à fait logique. Les progrès pour Genie 3 ont été incroyables. Et je pense que les gens perdent la tête face au système que nous avons actuellement. J'espère — je vais continuer à vous pousser — comment faire pour mettre le modèle entre les mains de plus de gens ? Alors, j'espère que cela viendra. Beaucoup de gens sont enthousiastes. Je suis sûr que vous avez reçu des messages de gens demandant comment utiliser le modèle. Où allons-nous à partir d'ici d'un point de vue modèle du monde Genie ?
Bien sûr, nous essayons de le rendre aussi efficace que possible maintenant afin de pouvoir le donner à plusieurs milliers de personnes. Il est actuellement en avant-première limitée. Mais nous réfléchissons également à la meilleure façon de le sortir en tant qu'expérience utilisateur. Nous aimerions que les gens puissent partager leurs créations entre eux et permettre aux gens de jouer dans les créations des autres et les choses qui ont été plébiscitées. Une communauté de contenu généré par les utilisateurs en quelque sorte. Et la chose intéressante est de maintenir la cohérence car peut-être que vous capturez l'éclair dans une bouteille à un moment donné, vous obtenez une excellente consigne qui crée un monde vraiment captivant. Comment nous assurer que nous pouvons régénérer ce monde pour que les prochains joueurs puissent y entrer et l'expérimenter ? Il y a donc pas mal d'idées là-dessus. Il y aura beaucoup plus d'informations à ce sujet bientôt. Et je pense que là où tout cela se rejoint, si vous pensez à Genie, à VO, à Gemini, ce sont des modèles séparés actuellement, mais nous commençons à voir la convergence de ces modèles vers ce que nous appelons un modèle omni, qui peut tout faire. Et nous pensons que c'est ce qu'un système AGI devrait être capable de faire : vraiment gérer tous ces différents aspects au même niveau de qualité que ce que nous voyons avec tous ces différents modèles spécialisés, mais peut-être dans un seul grand modèle.
Conclusion et célébration
J'adore ça. On plaisantait hors caméra sur toutes les histoires d'échecs et le fait que ce soit juste une bonne excuse pour nous d'aller jouer à des jeux. J'ai l'impression que Genie est une bonne excuse pour nous d'avoir une chance de créer des jeux et d'y jouer, et puis DeepMind est une entreprise de jeux vidéo.
Eh bien, c'est toujours mon plan secret : une fois l'AGI réalisée en toute sécurité, revenir avec ces outils et créer le meilleur jeu de tous les temps. Ce serait un véritable rêve devenu réalité.
Est-ce que ce sera un simulateur de montagnes russes ?
Oui, peut-être la version ultime de Theme Park, mais j'ai des idées de jeux plus ambitieuses. Nous construisons un tas de trucs de vibe coding dans AI Studio, donc j'ai l'impression que le monde idéal est qu'avant l'AGI, vous puissiez juste commencer à lancer un tas de ces idées et nous aurions toute une Demis Game Arena que vous construiriez vous-même en vibe coding.
Oui, nous aimerions essayer ça. C'est quelque chose qui figure en très bonne place sur ma liste de choses à faire, c'est sûr.
Je voulais aussi — et vous et moi avons échangé quelques tweets à ce sujet la semaine dernière, je crois, ou la semaine d'avant — nous célébrions environ 980 billions de jetons sur une base mensuelle et je pense que nous avons franchi la barre du quadrillion. Nous avons donc fait faire quelque chose de spécial pour vous.
Dans votre couleur bleue caractéristique.
Haha ! Merci beaucoup ! Wow, fantastique ! Génial !
Nous en aurons aussi des versions dérivées.
Merci beaucoup.
De rien. Oui, c'était vraiment amusant, Demis. Merci d'avoir pris le temps de venir. J'apprécie toutes les nuits blanches à réfléchir au futur et tout le travail acharné que vous et le reste de l'équipe DeepMind fournissez. Donc, c'était vraiment amusant.
Génial, eh bien, super discussion.
De même. Et merci à tous d'avoir regardé Release Notes, on se retrouve dans le prochain épisode.