Sundar Pichai - L'avenir de Gemini, des modèles du monde et de l'auto-amélioration récursive

Sundar Pichai

L'avenir de Gemini, des modèles du monde et de l'auto-amélioration récursive

23 mai 2025

Intelligence Artificielle

Introduction et Modèles du Monde

Logan Kilpatrick

la version de diffusion de Gemini, c'est rapide. Je ne m'attendais pas à ça.

Sundar Pichai

Ouais.

Logan Kilpatrick

Est-ce une rupture avec les Transformers ou est-ce autre chose ?

Sundar Pichai

Nous allons donc pousser le paradigme de la diffusion aussi loin que possible, et là où nous devrons les réunir, nous le ferons.

Logan Kilpatrick

Sommes-nous à ce point d'inflexion étant donné qu'il semble s'agir d'une intelligence artificielle qui s'auto-améliore ?

Sundar Pichai

Nous travaillons désormais sans aucun doute sur des paradigmes d'auto-amélioration récursive.

Logan Kilpatrick

Qu'advient-il des personnes qui font du travail intellectuel ?

Sundar Pichai

Appuyez-vous simplement sur ces outils. Adoptez cet état d'esprit, en vous disant : regardez, vous avez maintenant ce super assistant avec vous en permanence, et profitez-en tout simplement.

Logan Kilpatrick

Voyez-vous la page d'accueil de la recherche Google comme le premier endroit où les gens vont pour trouver des choses ?

Logan Kilpatrick

Sundar, merci beaucoup de m'avoir accordé cet entretien. J'ai remarqué que vous aviez annoncé que le modèle Gemini allait être un modèle du monde, n'est-ce pas ? Vous passez à ce modèle du monde. Cela nécessite-t-il des changements d'architecture importants ? Est-ce une rupture avec les Transformers ou est-ce autre chose ?

Sundar Pichai

Google DeepMind a toujours eu une vision large de tout ce qui doit être développé pour l'AGI. Ils ont donc des projets, à la fois sur les modèles G2 et des efforts parallèles pour construire des modèles du monde, ce qui est différent de la lignée principale de Gemini 1.5 Pro. Mais ce que nous apprenons là-bas fera son chemin ; comme quand nous avons construit VEO 3, il est ancré dans la physique, et certaines de ces innovations proviennent de notre travail sur les modèles du monde. C'est ainsi que je le verrais.

Diffusion vs Transformers et Vitesse d'Exécution

Logan Kilpatrick

Et puis la version de diffusion de Gemini, c'est rapide. Je ne m'attendais pas à ça. Oui, je crois que c'était cinq fois plus rapide que le Flash Light. Est-ce que cela va commencer à s'intégrer dans ce modèle du monde ? Comment voyez-vous toutes ces différentes architectures ?

Sundar Pichai

Écoutez, je pense que tout d'abord, aujourd'hui, tous nos modèles Gemini principaux sont des LLM auto-régressifs, ce sont des modèles et des architectures de prédiction du prochain jeton, alors que nos modèles d'image sont des modèles basés sur la diffusion. Faire de la diffusion de texte est donc un paradigme différent, vous avez pu voir que pour une même capacité, c'est bien plus rapide, mais c'est évidemment derrière la lignée principale de Gemini en termes de capacité. Mais je pense qu'il y aura des domaines où vous pourrez les utiliser. Nous allons donc pousser le paradigme de la diffusion aussi loin que possible, et là où nous devrons les réunir, nous le ferons. Je pense qu'il est bon de pousser toutes les directions en parallèle.

Logan Kilpatrick

Oui, je pense que c'est logique, non ? On fait juste beaucoup de paris, on les pousse aussi loin que possible et on voit comment ils se rejoignent à la fin.

Sundar Pichai

C'est exact.

AlphaEvolve et l'Auto-amélioration Récursive

Logan Kilpatrick

La prochaine chose dont je voulais parler, c'est AlphaEvolve. J'ai l'article plusieurs fois, j'ai vu le projet, j'ai été absolument bluffé. C'est une IA qui peut découvrir de nouvelles connaissances, n'est-ce pas ? Et on a vraiment l'impression d'être à ce point d'inflexion de l'explosion de l'intelligence. Pensez-vous que nous ayons les bons ingrédients pour vraiment, sommes-nous à ce point d'inflexion étant donné qu'il semble s'agir d'une intelligence artificielle qui s'auto-améliore ?

Sundar Pichai

Écoutez, vous avez tout à fait raison sur le potentiel de quelque chose comme AlphaEvolve. Je pense que c'est incroyable que nous ayons lancé cela une semaine avant la conférence I/O, en toute discrétion.

Logan Kilpatrick

Ouais.

Sundar Pichai

C'est l'un des travaux les plus révolutionnaires que nous menons. Nous avons beaucoup parlé d'agents aujourd'hui, mais le fait de pouvoir disposer de ces agents capables d'améliorer du code, de faire des découvertes, etc., quel paradigme extraordinaire. Je pense que c'est là que nous sous-estimons tous le potentiel de cette technologie. Il n'y a jamais rien eu de tel auparavant, c'est pourquoi j'ai toujours pensé que c'était l'une des choses les plus profondes jamais réalisées, plus profonde que le feu ou l'électricité. Mais je pense que lorsque nous progressons avec les agents, aujourd'hui les modèles sont coûteux et présentent une certaine latence. Donc, quand vous les enchaînez pour faire tout cela, c'est ce qui fait que ce n'est pas encore tout à fait là, mais nous travaillons maintenant sans aucun doute sur des paradigmes d'auto-amélioration récursive. Et donc je pense que le potentiel est énorme.

Efficacité, Infrastructure et TPU

Logan Kilpatrick

Et si vous deviez désigner un domaine, qu'il s'agisse de l'intelligence centrale du modèle, de la mémoire ou de l'échafaudage autour des agents, quel est selon vous le domaine où l'amélioration aurait le plus d'impact ?

Sundar Pichai

Écoutez, pour moi, trouver comment faire tout cela plus efficacement et améliorer l'efficacité de fonctionnement de tout cela est ce qui rendra tout cela beaucoup plus pratique à utiliser à grande échelle partout. C'est quelque chose qui nous obsède, c'est pourquoi notre 1.5 Flash, sur lequel nous nous concentrons toujours, est celui où nous apportons le plus d'intelligence au meilleur prix.

Logan Kilpatrick

La bête de somme.

Sundar Pichai

La bête de somme. Oui. Les plus grandes percées consisteront donc à faire en sorte que tout fonctionne de cette manière. Et c'est aussi pour cela que nous travaillons sur les TPU, ce qui génère une partie de cet avantage en matière d'infrastructure. C'est ce qui m'enthousiasme.

Agents, Mémoire et Protocoles Ouverts

Logan Kilpatrick

Vous avez donc mentionné les agents. Je sais qu'une grande partie des présentations d'aujourd'hui portaient sur les agents. Je suis très optimiste pour les agents. La mémoire des agents en particulier est une chose à laquelle j'ai beaucoup réfléchi et cela rend les agents tellement plus puissants lorsqu'ils apprennent à communiquer de manière concise avec vous, lorsqu'ils en apprennent sur vous, ils deviennent de meilleure qualité, plus efficaces. Mais c'est aussi potentiellement un verrouillage, n'est-ce pas, pour les grandes entreprises. Pensez-vous qu'il y ait un besoin d'open source ou d'un protocole ouvert similaire au MCP ou de l'agent à agent, mais pour la mémoire des agents ?

Sundar Pichai

C'est une excellente question. Écoutez, je pense que de toute évidence, lorsque vous donnez de la mémoire à ces modèles, d'importantes questions de confidentialité sont en jeu. Vous voulez vous assurer que l'utilisateur a le contrôle. Mais je pense qu'aujourd'hui, si vous décidez d'arrêter d'utiliser Gmail et que vous voulez partir, nous avons l'exportabilité des données, nous vous permettons d'exporter vos e-mails. Je pense que nous sommes peut-être dans cette phase initiale, mais je pense que ce sont d'excellents concepts à explorer : s'il s'agit de ma mémoire, comment puis-je l'emmener ailleurs en tant qu'utilisateur ayant le contrôle. Je ne vois pas pourquoi ces choses ne seraient pas possibles. Pour en revenir à cela, je pense que les protocoles ouverts finissent par être super importants. C'est pourquoi A2A et MCP sont des directions importantes et passionnantes. Je ne pense pas qu'il y aura une IA pour les gouverner toutes ou un seul agent. Vous en utiliserez beaucoup. Et donc, comprendre quelles sont vos données, comment les modèles peuvent y accéder, et peut-être les rendre portables, je pense que ce sont des choses qui valent la peine d'être réfléchies.

Projet Astra et Lunettes XR

Logan Kilpatrick

Je suis donc allé au stand de démonstration. Je voulais essayer les nouvelles lunettes XR. Elles avaient l'air incroyables, basées sur le projet Astra. Pensez-vous que les lunettes soient en quelque sorte la forme optimale pour cette interaction personnelle avec l'intelligence artificielle ? Et si non, qu'est-ce que c'est, ou s'agit-il d'une combinaison de choses ? Qu'en pensez-vous ?

Sundar Pichai

Écoutez, cela apparaîtra dans de nombreux endroits, mais les lunettes sont vraiment puissantes car, au fur et à mesure que vous vaquez à vos activités quotidiennes, vous interagissez simplement avec les choses et c'est dans votre champ de vision. Et peut-être qu'elles peuvent même vous parler de manière plus privée. Je pense donc que c'est incroyable. Vous venez de mentionner la mémoire, je viens de vivre cette expérience incroyable avec Astra où je lui ai montré quelques objets, puis j'ai dit plus tard que je ne savais pas où se trouvait un objet dans mon bureau. Il a dit « jouons au détective » et il pensait savoir où il se trouvait, mais quand j'y suis allé, j'ai sournoisement retiré l'objet. On pouvait l'entendre dire « je viens de le voir là, pouvez-vous dézoomer ? ». C'était presque comme s'il comprenait que j'avais en quelque sorte retiré l'objet de son champ de vision.

Logan Kilpatrick

C'est tellement impressionnant.

Sundar Pichai

La mémoire l'a donc rendu si intuitif à utiliser. J'ai adoré cette expérience.

L'avenir de la Recherche Google

Logan Kilpatrick

Et pour continuer sur la voie de l'expérience utilisateur, dans cinq ans, voyez-vous la page d'accueil de la recherche Google comme le premier endroit où les gens vont pour trouver des choses ? Parce qu'il semble que votre Google fasse ressortir tout ce contexte là où se trouve l'utilisateur, presque de manière proactive, et on peut en quelque sorte voir la vision là-dedans. Alors, comment voyez-vous cette transition, s'il y a une transition ?

Sundar Pichai

Écoutez, cela évoluera de manière surprenante, mais je suis très enthousiaste pour le mode IA. Je l'ai beaucoup utilisé. Je vois comment les autres y réagissent. C'est une expérience très axée sur l'IA et les gens sont si naturels, ils écrivent tellement, ils s'engagent, mais c'est ancré dans la recherche, cela peut utiliser tous les outils, cela aura un contexte personnel, et avec le temps nous pourrons y être proactifs également. Parce que vous portez vos lunettes, par exemple si vous êtes étudiant, vous dire « hé, tu dois faire tes devoirs, j'ai réservé du temps sur ton calendrier pour le faire », et quand vous vous asseyez pour le faire, il y a des trucs pré-emballés pour vous. Tout cela, je pense, est tout à fait envisageable. Les détails devront être peaufinés au fur et à mesure que nous progressons, mais c'est ce sur quoi nous travaillons.

Impact sur le Travail Intellectuel et Préparation

Logan Kilpatrick

Oui, je veux dire, je suis extrêmement enthousiaste à l'idée de pouvoir disposer, j'utilise un tas de services Google différents, toutes mes informations sont là, de les voir remonter vers moi et de pouvoir avoir un agent qui peut en quelque sorte voir l'ensemble de ces données est incroyablement important. C'est ce que je vous ai dit plus tôt, c'est pourquoi je suis allé acheter un téléphone Android. Je veux vivre cela de première main quand ce sera prêt. J'ai donc une autre question pour vous. Beaucoup de gens sont inquiets face à ce nouveau monde où la majeure partie du travail intellectuel, et peut-être à terme tout le travail intellectuel, pourra être effectué par l'intelligence artificielle. Qu'advient-il de ces gens ? Qu'advient-il des personnes qui font du travail intellectuel ? Comment peuvent-ils se préparer, rester pertinents, comment restent-ils à la page ?

Sundar Pichai

Je pense qu'au moins dans un avenir proche, je veux dire, c'est comme avoir un super-pouvoir avec soi, ce qui éliminera beaucoup de tâches ingrates, permettant d'opérer à un niveau supérieur. Je pense donc que l'opportunité est de réfléchir avec VEO 3 au nombre de nouveaux, imaginez si vous faites des vidéos sur YouTube, imaginez le futur dans lequel si vous voulez expliquer quelque chose à vos spectateurs, pouvoir avoir rapidement un prompt qui capture cela, en l'insérant dans votre vidéo. Nous mettons toujours des outils puissants entre les mains des gens. La meilleure façon de se préparer est de faire ce que vous faites et tout le monde devrait simplement s'appuyer sur ces outils.

Logan Kilpatrick

Les tester.

Sundar Pichai

Les tester, commencer à les utiliser. Je dis toujours aux gens quand ils viennent me voir et qu'ils font quelque chose, je leur demande : qu'en pense Gemini 1.5 Pro ? Nous avons eu la conférence I/O, je demande : qu'a pensé Gemini 1.5 Pro de la conférence I/O ? Adoptez simplement cet état d'esprit, en vous disant : regardez, vous avez maintenant ce super assistant avec vous en permanence, et profitez-en simplement et appuyez-vous dessus, je pense que nous allons tous avoir accès à beaucoup de nouveaux outils et capacités, et c'est ainsi que je vois les choses se passer.

Conclusion

Logan Kilpatrick

Oui, je suis extrêmement optimiste quant à l'avenir. J'espère que les gens s'appuieront là-dessus. C'est vraiment passionnant. Sundar, je tiens à vous remercier infiniment. Ce fut un plaisir absolu.

Sundar Pichai

Merci. Merci.

Retour aux entretiens de Sundar Pichai