Sundar Pichai - Google I/O : L'ère Gemini et le futur des agents IA

Sundar Pichai

Google I/O : L'ère Gemini et le futur des agents IA

22 mai 2025

Technologie & IA

Introduction et Progrès de Gemini

Sundar Pichai

Bonjour à tous, bonjour. Bienvenue au Google I/O. C'est un plaisir de voir tout le monde ici à Shoreline et bonjour à tous ceux qui nous rejoignent virtuellement à travers le monde. J'ai appris qu'aujourd'hui marque le début de la saison Gemini. Je ne sais pas trop pourquoi c'est un tel événement, chaque jour est la saison Gemini ici chez Google. Normalement, vous n'auriez pas beaucoup entendu parler de nous dans les semaines précédant l'I/O. C'est parce que nous aurions gardé nos meilleurs modèles pour cette scène. Mais dans notre ère Gemini, nous sommes tout aussi susceptibles de lancer notre modèle le plus intelligent un mardi aléatoire en mars ou une percée vraiment géniale comme AlphaEvolve juste une semaine avant. Nous voulons mettre nos meilleurs modèles entre vos mains et dans nos produits dès que possible. C'est pourquoi nous livrons plus vite que jamais. Nous avons annoncé plus d'une douzaine de modèles et de percées en recherche et lancé plus de 20 produits et fonctionnalités d'IA majeurs depuis le dernier I/O. Je suis particulièrement enthousiasmé par les progrès rapides des modèles. Vous pouvez voir le changement de fonction en escalier ici. Les scores Elo, une mesure de progrès, ont augmenté de plus de 300 points depuis la première génération de Gemini Pro. Et aujourd'hui, Gemini 2.5 Pro domine le classement LM Arena dans toutes les catégories. Il est à la pointe de la technologie sur de nombreux points de référence. Nous avons également fait des progrès rapides en codage. Notre version 2.5 Pro mise à jour a atteint la première place sur WebDev Arena et dépasse désormais la version précédente de 142 points Elo. Il reçoit beaucoup d'amour sur les meilleures plateformes de codage grâce à vous tous. Sur Cursor, le principal éditeur de code IA, Gemini est le modèle à la croissance la plus rapide de l'année, produisant des centaines de milliers de lignes de code acceptées chaque minute. Maintenant, cette dernière étape est peut-être la plus impressionnante, du moins dans certains cercles. Il y a quelques semaines, Gemini a terminé Pokémon Bleu. Il a remporté les huit badges, s'est rendu à la Route Victoire, a vaincu le Conseil des Quatre et le champion, nous rapprochant d'un pas vers l'API, l'Intelligence Pokémon Artificielle.

Infrastructure et Performance

Sundar Pichai

Tous ces progrès sont rendus possibles par notre infrastructure de classe mondiale, le fondement de notre approche full-stack de l'IA. Notre TPU de septième génération, Ironwood, est le premier conçu pour alimenter la réflexion et l'inférence à grande échelle. Il offre des performances 10 fois supérieures à la génération précédente et contient un nombre incroyable de 42,5 exaFLOPS de calcul par pod, tout simplement incroyable. Et il sera disponible pour les clients de Google Cloud plus tard cette année. La force de notre infrastructure, jusqu'au TPU, est ce qui nous aide à fournir des modèles considérablement plus rapides. Parmi les meilleurs modèles du classement LM Arena, Gemini occupe les trois premières places pour le plus grand nombre de jetons de sortie générés par seconde, tout cela alors que les prix des modèles baissent considérablement. Il y a un compromis difficile entre le prix et les performances, pourtant, à maintes reprises, nous avons été en mesure de fournir les meilleurs modèles au prix le plus efficace. Non seulement Google mène cette frontière de Pareto, mais nous avons fondamentalement déplacé la frontière elle-même. Résultat, plus d'intelligence disponible pour tout le monde, partout.

Adoption et Croissance de l'IA

Sundar Pichai

Et le monde réagit et adopte l'IA plus rapidement que jamais. Comme indicateur de progrès, à la même époque l'année dernière, nous traitions 9,7 billions de jetons par mois à travers nos produits et API. Aujourd'hui, nous traitons 480 billions de jetons par mois, soit une augmentation d'environ 50 fois en seulement un an. Nous observons également une vague d'adoption de nos outils d'IA pour les développeurs. Aujourd'hui, plus de 7 millions de développeurs ont construit avec l'API Gemini via Google AI Studio et Vertex AI. Une croissance de plus de 5 fois depuis le dernier I/O et l'utilisation de Gemini sur Vertex AI a augmenté de plus de 40 fois depuis l'année dernière. L'adoption de l'IA augmente dans nos produits. L'application Gemini compte désormais plus de 400 millions d'utilisateurs actifs mensuels. Nous constatons une forte croissance et un engagement fort, en particulier avec les modèles 2.5. Pour ceux qui utilisent 2.5 Pro dans l'application Gemini, l'utilisation a augmenté de 45 %. Vous en apprendrez beaucoup plus sur l'application Gemini plus tard. Nous constatons également un élan incroyable dans la recherche. Aujourd'hui, les aperçus par l'IA comptent plus de 1,5 milliard d'utilisateurs chaque mois. Cela signifie que Google Search apporte l'IA générative à plus de personnes que n'importe quel autre produit au monde. Et avec les aperçus par l'IA, le mode IA est la prochaine grande étape pour Search. Vous en saurez plus à ce sujet plus tard.

Project Starline et Google Beam

Sundar Pichai

Tous ces progrès signifient que nous sommes dans une nouvelle phase de l'évolution de la plateforme d'IA, où des décennies de recherche deviennent une réalité pour les gens du monde entier. Je souhaite partager trois exemples de la manière dont la recherche transforme nos produits aujourd'hui : Project Starline, Astra et Mariner. Nous avons lancé Project Starline, notre technologie de vidéo 3D révolutionnaire, à l'I/O il y a quelques années. L'objectif était de créer le sentiment d'être dans la même pièce que quelqu'un, même si vous étiez loin. Nous avons continué à faire des progrès techniques et aujourd'hui nous sommes prêts à annoncer notre prochain chapitre, en présentant Google Beam, une nouvelle plateforme de communication vidéo axée sur l'IA. Beam utilise un nouveau modèle vidéo de pointe pour transformer des flux vidéo 2D en une expérience 3D réaliste. Dans les coulisses, un ensemble de six caméras vous capture sous différents angles et, grâce à l'IA, nous pouvons fusionner ces flux vidéo et vous restituer sur un écran de champ lumineux 3D. Avec un suivi de tête quasi parfait au millimètre près et à 60 images par seconde, le tout en temps réel. Le résultat, une expérience de conversation beaucoup plus naturelle et profondément immersive. Nous sommes ravis d'apporter cette technologie à d'autres. En collaboration avec HP, les premiers appareils Google Beam seront disponibles pour les premiers clients plus tard cette année. HP aura beaucoup plus à partager dans quelques semaines, restez à l'écoute. Au fil des ans, nous avons intégré la technologie sous-jacente de Starline dans Google Meet. Cela inclut la traduction vocale en temps réel pour aider à briser les barrières linguistiques. Voici un exemple de l'utilité que cela pourrait avoir lors de la réservation d'une location de vacances en Amérique du Sud alors que vous ne parlez pas la langue. Regardons cela.

Démo : Traduction Vocale en Temps Réel

Utilisateur (Démo Location)

Bonjour Camilla, laissez-moi activer la traduction vocale. C'est un plaisir de vous parler enfin. J'ai hâte de louer votre maison.

Camilla

Vous allez beaucoup vous amuser et je pense que vous allez adorer visiter la ville. La maison se trouve dans un quartier très agréable et offre une vue sur les montagnes.

Utilisateur (Démo Location)

Cela semble merveilleux. La maison est-elle proche des transports en commun ou recommandez-vous de louer une voiture ?

Camilla

Il y a un bus à proximité, mais je recommanderais de louer une voiture pour que vous puissiez visiter la nature et en profiter.

Utilisateur (Démo Location)

C'est génial.

Project Astra et Gemini Live

Sundar Pichai

Vous pouvez voir à quel point cela correspond au ton, aux schémas et même aux expressions du locuteur. Nous sommes encore plus proches d'une conversation naturelle et fluide entre les langues. Et aujourd'hui, nous introduisons cette traduction vocale en temps réel directement dans Google Meet. La traduction en anglais et en espagnol est désormais disponible pour les abonnés, et d'autres langues seront déployées dans les prochaines semaines. Et la traduction en temps réel arrivera pour les entreprises plus tard cette année. Un autre projet de recherche précoce qui a débuté sur la scène de l'I/O était Project Astra. Il explore les futures capacités d'un assistant IA universel capable de comprendre le monde qui vous entoure. Nous commençons à l'intégrer dans nos produits. Aujourd'hui, Gemini Live dispose des capacités de partage de caméra et d'écran de Project Astra afin que vous puissiez parler de tout ce que vous voyez. Les gens l'utilisent de tellement de façons, que ce soit pour s'entraîner à un entretien d'embauche ou pour se préparer à un marathon. Nous apprécions les commentaires de nos testeurs de confiance et de certains qui le sont un peu moins. Regardez.

Utilisateur (Démo Astra)

C'est un joli cabriolet.

Assistant IA (Démo Astra)

Je pense que vous avez confondu le camion poubelle avec un cabriolet. Y a-t-il autre chose que je puisse faire pour vous ?

Utilisateur (Démo Astra)

Que fait ce bâtiment tout mince dans mon quartier ?

Assistant IA (Démo Astra)

C'est un réverbère, pas un bâtiment.

Utilisateur (Démo Astra)

Pourquoi ces palmiers sont-ils si courts ? Ils m'inquiètent.

Assistant IA (Démo Astra)

Ils ne sont pas courts, ils sont en fait assez grands.

Utilisateur (Démo Astra)

Trop cool le cabriolet.

Assistant IA (Démo Astra)

Encore le camion poubelle. Autre chose ?

Utilisateur (Démo Astra)

Pourquoi les gens continuent-ils à livrer des colis sur ma pelouse ?

Assistant IA (Démo Astra)

Ce n'est pas un colis, c'est un boîtier technique.

Utilisateur (Démo Astra)

Pourquoi cette personne me suit-elle partout où je vais ?

Assistant IA (Démo Astra)

Personne ne vous suit, c'est juste votre ombre.

Project Mariner et l'Utilisation de l'Ordinateur

Sundar Pichai

Gemini est plutôt doué pour vous dire quand vous avez tort. Nous déployons cela pour tout le monde sur Android et iOS à partir d'aujourd'hui. Ensuite, nous avons également notre prototype de recherche Project Mariner. C'est un agent capable d'interagir avec le web et d'accomplir des tâches. Pour prendre du recul, nous voyons les agents comme des systèmes qui combinent l'intelligence des modèles d'IA avancés avec l'accès à des outils. Ils peuvent entreprendre des actions en votre nom et sous votre contrôle. L'utilisation de l'ordinateur est une capacité agentique importante. C'est ce qui permet aux agents d'interagir avec et d'utiliser des navigateurs et d'autres logiciels. Project Mariner a été une première étape dans le test des capacités d'utilisation de l'ordinateur. Nous l'avons lancé en tant que prototype de recherche précoce en décembre et nous avons fait beaucoup de progrès depuis. Premièrement, nous introduisons le multitâche et il peut désormais superviser jusqu'à 10 tâches simultanées. Deuxièmement, il utilise une fonctionnalité appelée 'Enseigner et Répéter'. C'est là que vous pouvez lui montrer une tâche une fois et il apprend un plan pour des tâches similaires à l'avenir. Nous apportons les capacités d'utilisation de l'ordinateur de Project Mariner aux développeurs via l'API Gemini. Des testeurs de confiance comme Automation Anywhere et UiPath commencent déjà à construire avec, et cela sera disponible plus largement cet été.

Écosystème d'Agents et Mode Agent

Sundar Pichai

L'utilisation de l'ordinateur fait partie d'un ensemble plus large d'outils que nous devrons construire pour qu'un écosystème d'agents s'épanouisse, comme notre protocole ouvert d'agent à agent pour que les agents puissent se parler entre eux. Nous avons lancé cela au Cloud Next avec le soutien de plus de 60 partenaires technologiques et espérons voir ce nombre croître. Ensuite, il y a le Model Context Protocol introduit par Anthropic pour que les agents puissent accéder à d'autres services. Et aujourd'hui, nous sommes ravis d'annoncer que notre SDK Gemini est désormais compatible avec les outils MCP. Ces technologies travailleront ensemble pour rendre les agents encore plus utiles. Et nous commençons à apporter des capacités agentiques à Chrome, Search et à l'application Gemini. Laissez-moi vous montrer ce qui nous passionne dans l'application Gemini. Nous appelons cela le mode Agent. Disons que vous voulez trouver un appartement pour vous et deux colocataires à Austin. Vous avez chacun un budget de 1 200 $ par mois. Vous voulez un lave-linge séchant ou au moins une laverie à proximité. Normalement, vous devriez passer beaucoup de temps à parcourir des listes interminables. En utilisant le mode Agent, l'application Gemini se met au travail dans les coulisses. Elle trouve des annonces sur des sites comme Zillow qui correspondent à vos critères et utilise Project Mariner si nécessaire pour ajuster des filtres très spécifiques. S'il y a un appartement que vous voulez visiter, Gemini utilise MCP pour accéder aux annonces et même programmer une visite en votre nom. Et il continuera à chercher de nouvelles annonces aussi longtemps que vous en aurez besoin, vous libérant ainsi pour faire ce que vous voulez, comme planifier la crémaillère. C'est formidable pour des entreprises comme Zillow qui attirent de nouveaux clients et améliorent les taux de conversion. Une version expérimentale du mode Agent dans l'application Gemini sera bientôt disponible pour les abonnés. Il s'agit d'un domaine nouveau et émergent et nous sommes impatients d'explorer la meilleure façon d'apporter les avantages des agents aux utilisateurs et à l'écosystème plus largement.

Contexte Personnel et Réponses Intelligentes

Sundar Pichai

La meilleure façon d'ancrer la recherche dans la réalité est de la rendre vraiment utile dans votre propre réalité. C'est là que la personnalisation sera vraiment puissante. Nous travaillons à donner vie à cela avec ce que nous appelons le Contexte Personnel. Avec votre permission, les modèles Gemini peuvent utiliser le contexte pertinent de vos applications Google d'une manière privée, transparente et entièrement sous votre contrôle. Laissez-moi vous montrer un exemple dans Gmail. Vous connaissez peut-être nos fonctionnalités de réponse intelligente basées sur l'IA. C'est incroyable de voir à quel point elles sont populaires. Imaginez maintenant si ces réponses pouvaient vous ressembler. C'est l'idée derrière les réponses intelligentes personnalisées. Disons que mon ami m'a écrit pour me demander conseil. Il fait un voyage en voiture vers l'Utah et se souvient que j'ai déjà fait ce voyage. Si je suis honnête, je répondrais probablement quelque chose de court et peu utile. Désolé Felix. Mais avec les réponses intelligentes personnalisées, je peux être un meilleur ami. C'est parce que Gemini peut faire presque tout le travail pour moi. Rechercher mes notes dans Drive, scanner les e-mails passés pour les réservations et trouver mon itinéraire dans Google Docs, voyage au parc national de Zion. Gemini fait correspondre mes salutations habituelles des e-mails passés, capture mon ton, mon style et mes choix de mots préférés, puis génère automatiquement une réponse. J'adore la façon dont il a inclus des détails comme le fait de limiter le temps de conduite à moins de cinq heures par jour et qu'il utilise mon adjectif préféré, passionnant. C'est super. Peut-être voulez-vous y apporter quelques modifications et cliquer sur envoyer. Cela sera disponible dans Gmail cet été pour les abonnés. Et vous pouvez imaginer à quel point le contexte personnel sera utile dans Search, Docs, Gemini et plus encore.

Conclusion

Sundar Pichai

Aujourd'hui, j'ai parlé d'intelligence, d'agents et de personnalisation. Ce sont quelques-unes des frontières où nous progresserons et vous entendrez d'autres exemples tout au long de la conférence.

Retour aux entretiens de Sundar Pichai