L'avenir de Gemini, des modèles du monde et de l'auto-amélioration récursive
23 mai 2025
Intelligence Artificielle
Introduction et Modèles du Monde
la version de diffusion de Gemini, c'est rapide. Je ne m'attendais pas à ça.
Ouais.
Est-ce une rupture avec les Transformers ou est-ce autre chose ?
Nous allons donc pousser le paradigme de la diffusion aussi loin que possible, et là où nous devrons les réunir, nous le ferons.
Sommes-nous à ce point d'inflexion étant donné qu'il semble s'agir d'une intelligence artificielle qui s'auto-améliore ?
Nous travaillons désormais sans aucun doute sur des paradigmes d'auto-amélioration récursive.
Qu'advient-il des personnes qui font du travail intellectuel ?
Appuyez-vous simplement sur ces outils. Adoptez cet état d'esprit, en vous disant : regardez, vous avez maintenant ce super assistant avec vous en permanence, et profitez-en tout simplement.
Voyez-vous la page d'accueil de la recherche Google comme le premier endroit où les gens vont pour trouver des choses ?
Sundar, merci beaucoup de m'avoir accordé cet entretien. J'ai remarqué que vous aviez annoncé que le modèle Gemini allait être un modèle du monde, n'est-ce pas ? Vous passez à ce modèle du monde. Cela nécessite-t-il des changements d'architecture importants ? Est-ce une rupture avec les Transformers ou est-ce autre chose ?
Google DeepMind a toujours eu une vision large de tout ce qui doit être développé pour l'AGI. Ils ont donc des projets, à la fois sur les modèles G2 et des efforts parallèles pour construire des modèles du monde, ce qui est différent de la lignée principale de Gemini 1.5 Pro. Mais ce que nous apprenons là-bas fera son chemin ; comme quand nous avons construit VEO 3, il est ancré dans la physique, et certaines de ces innovations proviennent de notre travail sur les modèles du monde. C'est ainsi que je le verrais.
Diffusion vs Transformers et Vitesse d'Exécution
Et puis la version de diffusion de Gemini, c'est rapide. Je ne m'attendais pas à ça. Oui, je crois que c'était cinq fois plus rapide que le Flash Light. Est-ce que cela va commencer à s'intégrer dans ce modèle du monde ? Comment voyez-vous toutes ces différentes architectures ?
Écoutez, je pense que tout d'abord, aujourd'hui, tous nos modèles Gemini principaux sont des LLM auto-régressifs, ce sont des modèles et des architectures de prédiction du prochain jeton, alors que nos modèles d'image sont des modèles basés sur la diffusion. Faire de la diffusion de texte est donc un paradigme différent, vous avez pu voir que pour une même capacité, c'est bien plus rapide, mais c'est évidemment derrière la lignée principale de Gemini en termes de capacité. Mais je pense qu'il y aura des domaines où vous pourrez les utiliser. Nous allons donc pousser le paradigme de la diffusion aussi loin que possible, et là où nous devrons les réunir, nous le ferons. Je pense qu'il est bon de pousser toutes les directions en parallèle.
Oui, je pense que c'est logique, non ? On fait juste beaucoup de paris, on les pousse aussi loin que possible et on voit comment ils se rejoignent à la fin.
C'est exact.
AlphaEvolve et l'Auto-amélioration Récursive
La prochaine chose dont je voulais parler, c'est AlphaEvolve. J'ai l'article plusieurs fois, j'ai vu le projet, j'ai été absolument bluffé. C'est une IA qui peut découvrir de nouvelles connaissances, n'est-ce pas ? Et on a vraiment l'impression d'être à ce point d'inflexion de l'explosion de l'intelligence. Pensez-vous que nous ayons les bons ingrédients pour vraiment, sommes-nous à ce point d'inflexion étant donné qu'il semble s'agir d'une intelligence artificielle qui s'auto-améliore ?
Écoutez, vous avez tout à fait raison sur le potentiel de quelque chose comme AlphaEvolve. Je pense que c'est incroyable que nous ayons lancé cela une semaine avant la conférence I/O, en toute discrétion.
Ouais.
C'est l'un des travaux les plus révolutionnaires que nous menons. Nous avons beaucoup parlé d'agents aujourd'hui, mais le fait de pouvoir disposer de ces agents capables d'améliorer du code, de faire des découvertes, etc., quel paradigme extraordinaire. Je pense que c'est là que nous sous-estimons tous le potentiel de cette technologie. Il n'y a jamais rien eu de tel auparavant, c'est pourquoi j'ai toujours pensé que c'était l'une des choses les plus profondes jamais réalisées, plus profonde que le feu ou l'électricité. Mais je pense que lorsque nous progressons avec les agents, aujourd'hui les modèles sont coûteux et présentent une certaine latence. Donc, quand vous les enchaînez pour faire tout cela, c'est ce qui fait que ce n'est pas encore tout à fait là, mais nous travaillons maintenant sans aucun doute sur des paradigmes d'auto-amélioration récursive. Et donc je pense que le potentiel est énorme.
Efficacité, Infrastructure et TPU
Et si vous deviez désigner un domaine, qu'il s'agisse de l'intelligence centrale du modèle, de la mémoire ou de l'échafaudage autour des agents, quel est selon vous le domaine où l'amélioration aurait le plus d'impact ?
Écoutez, pour moi, trouver comment faire tout cela plus efficacement et améliorer l'efficacité de fonctionnement de tout cela est ce qui rendra tout cela beaucoup plus pratique à utiliser à grande échelle partout. C'est quelque chose qui nous obsède, c'est pourquoi notre 1.5 Flash, sur lequel nous nous concentrons toujours, est celui où nous apportons le plus d'intelligence au meilleur prix.
La bête de somme.
La bête de somme. Oui. Les plus grandes percées consisteront donc à faire en sorte que tout fonctionne de cette manière. Et c'est aussi pour cela que nous travaillons sur les TPU, ce qui génère une partie de cet avantage en matière d'infrastructure. C'est ce qui m'enthousiasme.
Agents, Mémoire et Protocoles Ouverts
Vous avez donc mentionné les agents. Je sais qu'une grande partie des présentations d'aujourd'hui portaient sur les agents. Je suis très optimiste pour les agents. La mémoire des agents en particulier est une chose à laquelle j'ai beaucoup réfléchi et cela rend les agents tellement plus puissants lorsqu'ils apprennent à communiquer de manière concise avec vous, lorsqu'ils en apprennent sur vous, ils deviennent de meilleure qualité, plus efficaces. Mais c'est aussi potentiellement un verrouillage, n'est-ce pas, pour les grandes entreprises. Pensez-vous qu'il y ait un besoin d'open source ou d'un protocole ouvert similaire au MCP ou de l'agent à agent, mais pour la mémoire des agents ?
C'est une excellente question. Écoutez, je pense que de toute évidence, lorsque vous donnez de la mémoire à ces modèles, d'importantes questions de confidentialité sont en jeu. Vous voulez vous assurer que l'utilisateur a le contrôle. Mais je pense qu'aujourd'hui, si vous décidez d'arrêter d'utiliser Gmail et que vous voulez partir, nous avons l'exportabilité des données, nous vous permettons d'exporter vos e-mails. Je pense que nous sommes peut-être dans cette phase initiale, mais je pense que ce sont d'excellents concepts à explorer : s'il s'agit de ma mémoire, comment puis-je l'emmener ailleurs en tant qu'utilisateur ayant le contrôle. Je ne vois pas pourquoi ces choses ne seraient pas possibles. Pour en revenir à cela, je pense que les protocoles ouverts finissent par être super importants. C'est pourquoi A2A et MCP sont des directions importantes et passionnantes. Je ne pense pas qu'il y aura une IA pour les gouverner toutes ou un seul agent. Vous en utiliserez beaucoup. Et donc, comprendre quelles sont vos données, comment les modèles peuvent y accéder, et peut-être les rendre portables, je pense que ce sont des choses qui valent la peine d'être réfléchies.
Projet Astra et Lunettes XR
Je suis donc allé au stand de démonstration. Je voulais essayer les nouvelles lunettes XR. Elles avaient l'air incroyables, basées sur le projet Astra. Pensez-vous que les lunettes soient en quelque sorte la forme optimale pour cette interaction personnelle avec l'intelligence artificielle ? Et si non, qu'est-ce que c'est, ou s'agit-il d'une combinaison de choses ? Qu'en pensez-vous ?
Écoutez, cela apparaîtra dans de nombreux endroits, mais les lunettes sont vraiment puissantes car, au fur et à mesure que vous vaquez à vos activités quotidiennes, vous interagissez simplement avec les choses et c'est dans votre champ de vision. Et peut-être qu'elles peuvent même vous parler de manière plus privée. Je pense donc que c'est incroyable. Vous venez de mentionner la mémoire, je viens de vivre cette expérience incroyable avec Astra où je lui ai montré quelques objets, puis j'ai dit plus tard que je ne savais pas où se trouvait un objet dans mon bureau. Il a dit « jouons au détective » et il pensait savoir où il se trouvait, mais quand j'y suis allé, j'ai sournoisement retiré l'objet. On pouvait l'entendre dire « je viens de le voir là, pouvez-vous dézoomer ? ». C'était presque comme s'il comprenait que j'avais en quelque sorte retiré l'objet de son champ de vision.
C'est tellement impressionnant.
La mémoire l'a donc rendu si intuitif à utiliser. J'ai adoré cette expérience.
L'avenir de la Recherche Google
Et pour continuer sur la voie de l'expérience utilisateur, dans cinq ans, voyez-vous la page d'accueil de la recherche Google comme le premier endroit où les gens vont pour trouver des choses ? Parce qu'il semble que votre Google fasse ressortir tout ce contexte là où se trouve l'utilisateur, presque de manière proactive, et on peut en quelque sorte voir la vision là-dedans. Alors, comment voyez-vous cette transition, s'il y a une transition ?
Écoutez, cela évoluera de manière surprenante, mais je suis très enthousiaste pour le mode IA. Je l'ai beaucoup utilisé. Je vois comment les autres y réagissent. C'est une expérience très axée sur l'IA et les gens sont si naturels, ils écrivent tellement, ils s'engagent, mais c'est ancré dans la recherche, cela peut utiliser tous les outils, cela aura un contexte personnel, et avec le temps nous pourrons y être proactifs également. Parce que vous portez vos lunettes, par exemple si vous êtes étudiant, vous dire « hé, tu dois faire tes devoirs, j'ai réservé du temps sur ton calendrier pour le faire », et quand vous vous asseyez pour le faire, il y a des trucs pré-emballés pour vous. Tout cela, je pense, est tout à fait envisageable. Les détails devront être peaufinés au fur et à mesure que nous progressons, mais c'est ce sur quoi nous travaillons.
Impact sur le Travail Intellectuel et Préparation
Oui, je veux dire, je suis extrêmement enthousiaste à l'idée de pouvoir disposer, j'utilise un tas de services Google différents, toutes mes informations sont là, de les voir remonter vers moi et de pouvoir avoir un agent qui peut en quelque sorte voir l'ensemble de ces données est incroyablement important. C'est ce que je vous ai dit plus tôt, c'est pourquoi je suis allé acheter un téléphone Android. Je veux vivre cela de première main quand ce sera prêt. J'ai donc une autre question pour vous. Beaucoup de gens sont inquiets face à ce nouveau monde où la majeure partie du travail intellectuel, et peut-être à terme tout le travail intellectuel, pourra être effectué par l'intelligence artificielle. Qu'advient-il de ces gens ? Qu'advient-il des personnes qui font du travail intellectuel ? Comment peuvent-ils se préparer, rester pertinents, comment restent-ils à la page ?
Je pense qu'au moins dans un avenir proche, je veux dire, c'est comme avoir un super-pouvoir avec soi, ce qui éliminera beaucoup de tâches ingrates, permettant d'opérer à un niveau supérieur. Je pense donc que l'opportunité est de réfléchir avec VEO 3 au nombre de nouveaux, imaginez si vous faites des vidéos sur YouTube, imaginez le futur dans lequel si vous voulez expliquer quelque chose à vos spectateurs, pouvoir avoir rapidement un prompt qui capture cela, en l'insérant dans votre vidéo. Nous mettons toujours des outils puissants entre les mains des gens. La meilleure façon de se préparer est de faire ce que vous faites et tout le monde devrait simplement s'appuyer sur ces outils.
Les tester.
Les tester, commencer à les utiliser. Je dis toujours aux gens quand ils viennent me voir et qu'ils font quelque chose, je leur demande : qu'en pense Gemini 1.5 Pro ? Nous avons eu la conférence I/O, je demande : qu'a pensé Gemini 1.5 Pro de la conférence I/O ? Adoptez simplement cet état d'esprit, en vous disant : regardez, vous avez maintenant ce super assistant avec vous en permanence, et profitez-en simplement et appuyez-vous dessus, je pense que nous allons tous avoir accès à beaucoup de nouveaux outils et capacités, et c'est ainsi que je vois les choses se passer.
Conclusion
Oui, je suis extrêmement optimiste quant à l'avenir. J'espère que les gens s'appuieront là-dessus. C'est vraiment passionnant. Sundar, je tiens à vous remercier infiniment. Ce fut un plaisir absolu.
Merci. Merci.