NVIDIA CES 2025 Keynote : L'ère de l'IA physique et des agents
5 janvier 2026
Technologie
Introduction et Changement de Plateforme
Bienvenue sur scène, le fondateur et PDG de NVIDIA, Jensen Huang.
Bonjour Las Vegas ! Bonne année ! Bienvenue au CES.
Eh bien, nous avons environ 15 conférences de contenu à condenser ici. Je suis ravi de vous voir tous. Il y a 3 000 personnes dans cet auditorium. Il y a 2 000 personnes dans une cour qui nous regardent. Il y a apparemment 1 000 autres personnes au quatrième étage où devaient se trouver les halls d'exposition de NVIDIA, regardant toutes cette conférence. Et bien sûr, des millions de personnes dans le monde entier vont regarder cela pour lancer cette nouvelle année.
Eh bien, tous les 10 à 15 ans, l'industrie informatique se réinitialise. Un nouveau changement de plateforme se produit. Du mainframe au PC, du PC à Internet, d'Internet au cloud, du cloud au mobile. Chaque fois, le monde des applications cible une nouvelle plateforme. C'est pourquoi on appelle cela un changement de plateforme. Vous écrivez de nouvelles applications pour un nouvel ordinateur.
Sauf que cette fois, il y a deux changements de plateforme simultanés, en fait, qui se produisent en même temps. Alors que nous passons maintenant à l'IA, les applications vont désormais être construites sur l'IA. Au début, les gens pensaient que les IA étaient des applications, et en fait, les IA sont des applications, mais vous allez construire des applications sur des IA.
Mais en plus de cela, la façon dont vous exécutez le logiciel, la façon dont vous développez le logiciel, a fondamentalement changé. Toute la pile à cinq couches de l'industrie informatique est en tant qu'être réinventée. Vous ne programmez plus le logiciel, vous entraînez le logiciel. Vous ne l'exécutez pas sur des CPU, vous l'exécutez sur des GPU.
Et alors que les applications étaient préenregistrées, précompilées et exécutées sur votre appareil, désormais les applications comprennent le contexte et génèrent chaque pixel, chaque jeton, entièrement à partir de zéro à chaque fois. L'informatique a été fondamentalement remodelée suite à l'informatique accélérée, suite à l'intelligence artificielle. Chaque couche de ce gâteau à cinq couches est maintenant réinventée.
Impact Économique et Modernisation de l'IA
Eh bien, cela signifie que quelque 10 000 milliards de dollars de la dernière décennie de l'informatique sont en train d'être modernisés vers cette nouvelle façon de faire de l'informatique. Cela signifie que des centaines de milliards de dollars, environ deux cents milliards de dollars de financement par capital-risque chaque année, sont investis dans la modernisation et l'invention de ce nouveau monde. Et cela signifie qu'une industrie de 100 000 milliards de dollars, dont plusieurs pour cent correspondent au budget R&D, bascule vers l'intelligence artificielle.
Les gens demandent d'où vient l'argent ? C'est de là que vient l'argent. La modernisation de l'IA vers l'IA, le déplacement des budgets de R&D des méthodes classiques vers les méthodes d'intelligence artificielle actuelles. Des montants énormes d'investissements arrivent dans cette industrie, ce qui explique pourquoi nous sommes si occupés. Et cette année passée n'a pas fait exception. Cette année passée a été incroyable.
Cette année passée, il y a une diapositive qui arrive. C'est ce qui arrive quand on ne s'entraîne pas. C'est la première conférence de l'année. J'espère que c'est votre première conférence de l'année, sinon vous avez été plutôt occupés. C'est notre première conférence de l'année. Nous allons enlever les toiles d'araignée.
Évolution des Modèles et Raisonnement
Et donc, 2025 a été une année incroyable. On aurait dit que tout arrivait en même temps, et en fait, c'était probablement le cas. La première chose, bien sûr, ce sont les lois de mise à l'échelle. En 2015, le premier modèle de langage qui, selon moi, allait vraiment faire la différence, a fait une énorme différence, il s'appelait BERT. En 2017, les Transformers sont arrivés.
Ce n'est que cinq ans plus tard, en 2022, que le moment ChatGPT s'est produit, et il a éveillé le monde aux possibilités de l'intelligence artificielle. Quelque chose de très important s'est produit un an après cela, le premier modèle o1 de ChatGPT, le premier modèle de raisonnement, complètement révolutionnaire, a inventé cette idée appelée mise à l'échelle au moment du test, qui est une chose très pleine de bon sens.
Non seulement nous pré-entrainons un modèle pour apprendre, mais nous le post-entrainons avec l'apprentissage par renforcement pour qu'il puisse acquérir des compétences, et maintenant nous avons aussi la mise à l'échelle au moment du test, qui est une autre façon de dire réfléchir. Vous réfléchissez en temps réel. Chacune de ces phases de l'intelligence artificielle nécessite une quantité énorme de calcul, et la loi informatique continue de s'étendre. Les grands modèles de langage continuent de s'améliorer.
Systèmes Agentiques et IA Physique
Pendant ce temps, une autre percée s'est produite, et cette percée a eu lieu en 2024. Des systèmes agentiques commencent à émerger. En 2025, cela a commencé à se répandre, à proliférer un peu partout. Des modèles agentiques qui ont la capacité de raisonner, de rechercher des informations, de faire de la recherche, d'utiliser des outils, de planifier l'avenir, de simuler des résultats, ont soudainement commencé à résoudre des problèmes très, très importants. L'un de mes modèles agentiques préférés s'appelle Cursor, qui a révolutionné la façon dont nous programmons des logiciels chez NVIDIA. Les systèmes agentiques vont vraiment prendre leur envol à partir de maintenant.
Bien sûr, il y avait d'autres types d'IA. Nous savons que les grands modèles de langage ne sont pas le seul type d'information. Partout où l'univers possède des informations, partout où l'univers possède une structure, nous pourrions enseigner à un grand modèle de langage, une forme de modèle de langage, à comprendre ces informations, à comprendre leur représentation et à transformer cela en une IA. L'une des plus grandes, des plus importantes, est l'IA physique, des IA qui comprennent les lois de la nature.
Et puis, bien sûr, les IA physiques concernent l'interaction des IA avec le monde, mais le monde lui-même possède des informations, des informations encodées, et c'est ce qu'on appelle la physique de l'IA. L'IA qui, dans le cas de l'IA physique, interagit avec le monde physique, et vous avez la physique de l'IA, l'IA qui comprend les lois de la physique.
Innovation Open Source et Modèles Ouverts
Et enfin, l'une des choses les plus importantes qui se sont produites l'année dernière, le progrès des modèles ouverts. Nous pouvons maintenant savoir que l'IA va proliférer partout lorsque l'open source, lorsque l'innovation ouverte, lorsque l'innovation dans chaque entreprise et chaque industrie à travers le monde est activée en même temps. Les modèles ouverts ont vraiment décollé l'année dernière. En fait, l'année dernière, nous avons vu l'avancée de DeepSeek-R1, le premier modèle ouvert qui est un système de raisonnement. Il a pris le monde par surprise et a littéralement activé tout ce mouvement. Un travail vraiment, vraiment passionnant. Nous en sommes très heureux.
Maintenant, nous avons des systèmes de modèles ouverts partout dans le monde, de toutes sortes, et nous savons maintenant que les modèles ouverts ont également atteint la frontière. Toujours solidement six mois derrière les modèles de pointe, mais tous les six mois, un nouveau modèle émerge, et ces modèles deviennent de plus en plus intelligents. À cause de cela, vous pouvez voir que le nombre de téléchargements a explosé.
Le nombre de téléchargements croît si vite parce que les startups veulent participer à la révolution de l'IA, les grandes entreprises le veulent, les chercheurs le veulent, les étudiants le veulent, presque tous les pays le veulent. Comment est-il possible que l'intelligence, la forme numérique de l'intelligence, laisse quelqu'un de côté ? Et donc, les modèles ouverts ont vraiment révolutionné l'intelligence artificielle l'année dernière. Toute cette industrie va être remodelée en conséquence.
Superordinateurs et Bibliothèques NVIDIA
Maintenant, nous avions ce pressentiment il y a quelque temps. Vous avez peut-être entendu dire qu'il y a plusieurs années, nous avons commencé à construire et à exploiter nos propres superordinateurs d'IA, nous les appelons DGX Clouds. Beaucoup de gens ont demandé : vous lancez-vous dans le secteur du cloud ? La réponse est non. Nous construisons ces superordinateurs DGX pour notre propre usage. Eh bien, il s'avère que nous avons des milliards de dollars de superordinateurs en service afin de pouvoir développer nos modèles ouverts.
Je suis tellement satisfait du travail que nous accomplissons. Il commence à attirer l'attention dans le monde entier et dans toutes les industries parce que nous effectuons des travaux sur des modèles d'IA de pointe dans de nombreux domaines différents. Le travail que nous avons accompli sur les protéines, en biologie numérique, LaProtina, pour pouvoir synthétiser et générer des protéines. OpenFold3 pour comprendre la structure des protéines. Evo2, comment comprendre et générer plusieurs protéines, autrement dit les débuts de la représentation cellulaire.
Earth-2, une IA qui comprend les lois de la physique. Le travail que nous avons fait avec FourCastNet, le travail que nous avons fait avec CorrDiff, a vraiment révolutionné la façon dont les gens font des prévisions météorologiques. Nemotron, nous y effectuons désormais un travail révolutionnaire. Le premier modèle hybride Transformer-SSM qui est incroyablement rapide et peut donc réfléchir très longtemps ou réfléchir très rapidement pendant peu de temps et produire des réponses intelligentes très astucieuses. Nemotron-3 est un travail révolutionnaire, et vous pouvez vous attendre à ce que nous livrions d'autres versions de Nemotron-3 dans un avenir proche.
Cosmos, un modèle de fondation mondial ouvert de pointe, capable de comprendre comment le monde fonctionne. GR00T, un système de robotique humanoïde, articulation, mobilité, locomotion. Ces modèles, ces technologies sont en train d'être intégrés et dans chacun de ces cas, ouverts au monde. Des modèles de robotique humanoïde de pointe ouverts au monde. Et puis aujourd'hui, nous allons parler un peu d'Alpamayo, le travail que nous avons accompli sur les voitures autonomes.
Non seulement nous mettons les modèles en open source, mais nous mettons également en open source les données que nous utilisons pour entraîner ces modèles. Car c'est ainsi, et seulement ainsi, que l'on peut véritablement avoir confiance dans la genèse des modèles. Nous mettons tous les modèles en libre accès, nous vous aidons à en créer des dérivés. Nous disposons d'une suite complète de bibliothèques, que nous appelons les bibliothèques NeMo, les bibliothèques Physics NeMo et les bibliothèques Clara NeMo, chacune des bibliothèques BioNeMo étant des systèmes de gestion du cycle de vie des IA.
Non seulement nous mettons les modèles en open source, mais nous mettons également en open source les données que nous utilisons pour entraîner ces modèles. Car c'est ainsi, et seulement ainsi, que l'on peut véritablement avoir confiance dans la genèse des modèles. Nous mettons tous les modèles en libre accès, nous vous aidons à en créer des dérivés. Nous disposons d'une suite complète de bibliothèques, que nous appelons les bibliothèques NeMo, les bibliothèques Physics NeMo et les bibliothèques Clara NeMo, chacune des bibliothèques BioNeMo étant des systèmes de gestion du cycle de vie des IA.
Afin que vous puissiez traiter les données, générer des données, entraîner le modèle, créer le modèle, évaluer le modèle, encadrer le modèle, jusqu'au déploiement du modèle. Chacune de ces bibliothèques est incroyablement complexe et tout est en open source. Et donc maintenant, sur cette plateforme, NVIDIA est un constructeur de modèles d'IA de pointe. Et nous le construisons d'une manière très spéciale. Nous le construisons de manière totalement ouverte afin de permettre à chaque entreprise, chaque industrie, chaque pays de faire partie de cette révolution de l'IA.
Je suis incroyablement proud du travail que nous y accomplissons. En fait, si vous remarquez les graphiques, ils montrent que notre contribution à cette industrie est sans égale. Et vous allez nous voir continuer à faire cela, voire à accélérer. Ces modèles sont également de classe mondiale. Tous les systèmes sont en panne. Cela n'arrive jamais à Santa Clara. Est-ce à cause de Las Vegas ? Quelqu'un a dû gagner le jackpot dehors. Tous les systèmes sont en panne.
Performance et Intelligence des Modèles
D'accord, je pense que mon système est toujours en panne, mais ce n'est pas grave. Je vais improviser au fur et à mesure. Ainsi, non seulement ces modèles sont à la pointe de la technologie, non seulement ils sont ouverts, mais ils sont également en tête des classements. C'est un domaine dont nous sommes très fiers. Ils dominent les classements en matière d'intelligence. Nous avons des modèles importants qui comprennent les documents multimodes, autrement appelés PDF. Le contenu le plus précieux au monde est capturé dans des PDF.
Mais il faut l'intelligence artificielle pour découvrir ce qu'il y a à l'intérieur, interpréter ce qu'il y a à l'intérieur et vous aider à le lire. Et donc, nos extracteurs de PDF, nos analyseurs de PDF, sont de classe mondiale. Nos modèles de reconnaissance vocale, absolument de classe mondiale. Nos modèles de recherche, essentiellement la recherche sémantique, la recherche par IA, le moteur de base de données de l'ère moderne de l'IA, de classe mondiale. Nous sommes donc constamment en tête des classements. C'est un domaine dont nous sommes très fiers.
Raisonnement et Agents d'IA
Et tout cela est au service de votre capacité à construire des agents d'IA. C'est vraiment un domaine de développement révolutionnaire. Vous savez, au début, quand ChatGPT est sorti, les gens disaient : mon Dieu, il produit des résultats vraiment intéressants, mais il hallucine énormément. Et la raison pour laquelle il hallucinait, bien sûr, c'est qu'il pouvait tout mémoriser du passé, mais il ne peut pas tout mémoriser du futur et de l'actuel. Il doit donc être ancré dans la recherche. Il doit faire des recherches fondamentales avant de répondre à une question.
La capacité de raisonner sur : dois-je faire des recherches ? Dois-je utiliser des outils ? Comment diviser un problème en étapes ? Chacune de ces étapes est quelque chose que le modèle d'IA sait faire, et ensemble, il est capable de les composer en une séquence d'étapes pour accomplir quelque chose qu'il n'a jamais fait auparavant, pour lequel il n'a jamais été entraîné. C'est la merveilleuse capacité de raisonnement. Nous pouvons être confrontés à une circonstance que nous n'avons jamais vue auparavant et la décomposer en circonstances, connaissances ou règles que nous savons appliquer parce que nous les avons vécues par le passé.
Ainsi, la capacité des modèles d'IA à pouvoir raisonner est désormais incroyablement puissante. La capacité de raisonnement des agents ouvre la porte à toutes ces différentes applications. Nous n'avons plus besoin d'entraîner un modèle d'IA à tout savoir dès le premier jour, tout comme nous n'avons pas besoin de tout savoir dès le premier jour, nous devrions être capables, dans chaque circonstance, de raisonner sur la manière de résoudre ce problème. Les grands modèles de langage ont maintenant fait ce bond fondamental.
La capacité d'utiliser l'apprentissage par renforcement, la chaîne de pensée, la recherche, la planification et toutes ces différentes techniques d'apprentissage par renforcement a permis d'acquérir cette capacité de base, et elle est désormais aussi totalement open source. Mais ce qui est vraiment formidable, c'est une autre percée qui s'est produite, et la première fois que je l'ai vue, c'était avec le Perplexity d'Arvind. Perplexity, la société de recherche, la société de recherche par IA, une société vraiment fantastique et innovante.
Et la première fois que j'ai réalisé qu'ils utilisaient plusieurs modèles en même temps, j'ai trouvé cela complètement génial. Bien sûr que nous ferions cela. Bien sûr qu'une IA ferait également appel à toutes les grandes IA du monde pour résoudre le problème qu'elle veut résoudre à n'importe quel moment de la chaîne de raisonnement. Et c'est la raison pour laquelle les IA sont réellement multimodales, ce qui signifie qu'elles comprennent la parole, les images, le texte, la vidéo, le graphisme 3D et les protéines ; elles sont multimodales.
C'est aussi multi-modèle, ce qui signifie qu'elle devrait pouvoir utiliser n'importe quel modèle qui correspond le mieux à la tâche. Elle est donc par définition multi-cloud, car ces modèles d'IA se trouvent dans tous ces endroits différents, et elle est également en cloud hybride. Parce que si vous êtes une entreprise ou si vous avez construit un robot ou quel que soit l'appareil, parfois c'est en périphérie, parfois dans une tour de cellule radio, peut-être parfois dans une entreprise ou peut-être un endroit, un hôpital, où vous avez besoin d'avoir les données en temps réel juste à côté de vous.
Quelles que soient ces applications, nous savons maintenant à quoi ressemblera une application d'IA dans le futur. Ou une autre façon d'y penser, puisque les applications futures sont construites sur des IA, c'est le cadre de base des applications futures. Ce cadre de base, cette structure de base des IA agentiques capables de faire les choses dont je parle, qui est multi-modèle, a maintenant dopé les startups d'IA de toutes sortes.
Et maintenant, vous pouvez aussi, grâce à tous les modèles ouverts et à tous les outils que nous vous avons fournis, personnaliser vos IA pour leur enseigner des compétences que personne d'autre n'enseigne. Personne d'autre ne rend son IA intelligente ou astucieuse de cette manière, vous pouvez le faire par vous-même. Et c'est ce que le travail que nous faisons avec Nemotron, NeMo et tout ce que nous faisons avec les modèles ouverts est destiné à faire.
Vous placez un routeur intelligent devant, et ce routeur est essentiellement un gestionnaire qui décide laquelle des tâches, en fonction de l'intention des invites que vous lui donnez, lequel des modèles est le mieux adapté à cette application, pour résoudre ce problème. Bon, maintenant avec cette architecture, qu'avez-vous ? Quand on pense à cette architecture, on a tout d'un coup une IA qui est d'un côté complètement personnalisable par vous.
Quelque chose que vous pourriez enseigner pour acquérir vos propres compétences pour votre entreprise. Quelque chose qui est un secret de domaine. Quelque chose où vous avez une expertise approfondie du domaine. Peut-être avez-vous toutes les données dont vous avez besoin pour entraîner ce modèle d'IA. D'un autre côté, votre IA est toujours à la pointe, par définition. Vous êtes toujours à la pointe d'un côté, vous êtes toujours personnalisé de l'autre, et ça devrait juste fonctionner.
Démo : Assistant Personnel avec Reachy
C'est pourquoi nous avons pensé faire le plus simple des exemples pour le mettre à votre disposition. Tout ce cadre, nous l'appelons un plan. Et nous avons des plans qui sont intégrés dans les plateformes SaaS d'entreprise partout dans le monde, et nous sommes vraiment satisfaits des progrès réalisés. Mais ce que nous allons faire, c'est vous montrer un court exemple de quelque chose que n'importe qui peut faire.
Construisons un assistant personnel. Je veux qu'il m'aide avec mon calendrier, mes e-mails, mes listes de tâches et même qu'il surveille ma maison. J'utilise Brev pour transformer mon DGX Spark en cloud personnel. Je peux donc utiliser la même interface que j'utilise un GPU cloud ou un DGX Spark. J'utilise une API de modèle de pointe pour commencer facilement.
Je veux qu'il m'aide avec mes e-mails, alors je crée un outil d'e-mail que mon agent pourra appeler. Je veux que mes e-mails restent privés, donc je vais ajouter un modèle ouvert qui s'exécute localement sur le Spark. Maintenant, pour n'importe quel travail, je veux que l'agent utilise le bon modèle pour la bonne tâche. J'utiliserai donc un routeur de modèle basé sur l'intention. De cette façon, les invites nécessitant des e-mails resteront sur mon Spark, et tout le reste pourra appeler le modèle de pointe.
Je veux que mon assistant interagisse avec mon monde, alors je vais le connecter au robot Reachy Mini de Hugging Face. Mon agent contrôle la tête, les oreilles et la caméra du Reachy avec des appels d'outils. Je veux donner une voix à Reachy, et j'aime vraiment ElevenLabs, alors je vais connecter leur API.
Salut, je suis Reachy, je fonctionne sur DGX Spark.
Hé Reachy, qu'est-ce qu'il y a sur ma liste de tâches aujourd'hui ?
Votre liste de tâches aujourd'hui : faire les courses, œufs, lait, beurre, et envoyer le nouveau script à Jensen.
D'accord, mais envoie une mise à jour à Jensen. Dis-lui que je l'aurai pour lui d'ici la fin de la journée.
C'est entendu.
Reachy, il y a aussi un croquis. Peux-tu le transformer en un rendu architectural ?
Bien sûr.
Sympa. Maintenant, fais une vidéo et montre-moi la pièce.
Et voilà.
Avec Brev, I can share access to my Spark and Reachy, so I'm going to share it with Anna.
Hé Reachy, que fait le toutou ?
Il est sur le canapé. Je me souviens que vous n'aimez pas ça. Je vais lui dire d'en descendre. Potato, descends du canapé !
Avec tous les progrès de l'open source, c'est incroyable de voir ce que l'on peut construire. J'aimerais beaucoup voir ce que vous créez.
IA d'Entreprise et Partenariats
N'est-ce pas incroyable ? Or ce qui est extraordinaire, c'est que c'est tout à fait banal maintenant. C'est tout à fait banal maintenant. Et pourtant, il y a quelques années à peine, tout cela aurait été impossible. Absolument inimaginable. Eh bien, ce cadre de base, cette façon élémentaire de construire des applications en utilisant des modèles de langage...
Utiliser des modèles de langage pré-entraînés et propriétaires, de pointe, les combiner avec des modèles de langage personnalisés dans un cadre agentique, un cadre de raisonnement qui vous permet d'accéder à des outils et des fichiers et peut-être même de vous connecter à d'autres agents. C'est fondamentalement l'architecture des applications d'IA, ou des applications de l'ère moderne.
Et la capacité pour nous de créer ces applications est incroyablement rapide. Et remarquez, si vous donnez à cette application des informations qu'elle n'a jamais vues auparavant ou dans une structure qui n'est pas représentée exactement comme vous le pensiez, elle peut toujours raisonner et faire son meilleur effort pour analyser les données, les informations, pour essayer de comprendre comment résoudre le problème. Intelligence artificielle.
D'accord, donc ce cadre de base est maintenant intégré dans tout ce que je viens de décrire. Nous avons eu l'avantage de travailler avec certaines des plus grandes entreprises de plateformes d'entreprise au monde. Palantir, par exemple. Toute leur plateforme d'IA et de traitement de données est en cours d'intégration, accélérée par NVIDIA aujourd'hui. ServiceNow, la plateforme leader mondiale de service client et de service aux employés.
Snowflake, la première plateforme de données au monde dans le cloud. Un travail incroyable y est accompli. CodeRabbit, nous utilisons CodeRabbit partout chez NVIDIA. CrowdStrike, créant des IA pour détecter, pour trouver les menaces liées à l'IA. NetApp, leur plateforme d'IA, leur plateforme de données dispose désormais de l'IA sémantique NVIDIA par-dessus et de systèmes agentiques par-dessus pour qu'ils puissent assurer le service client.
Mais l'important est là : non seulement c'est ainsi que l'on développe les applications aujourd'hui, mais ce sera l'interface utilisateur de votre plateforme. Qu'il s'agisse de Palantir, de ServiceNow ou de Snowflake et de bien d'autres entreprises avec lesquelles nous travaillons, le système agentique est l'interface. Ce n'est plus Excel avec un tas de cases où l'on saisit des informations, ce n'est peut-être plus seulement la ligne de commande.
Toutes ces informations multimodales sont désormais possibles, et la façon dont vous interagissez avec votre plateforme est beaucoup plus, disons, simple, comme si vous interagissiez avec des personnes. Voilà donc l'IA d'entreprise révolutionnée par les systèmes agentiques.
IA Physique et Simulation
La suite, c'est l'IA physique. C'est un domaine dont vous m'entendez parler depuis plusieurs années, en fait nous y travaillons depuis huit ans. La question est de savoir comment passer de quelque chose qui est intelligent à l'intérieur de l'ordinateur et qui interagit avec vous par des écrans et des haut-parleurs à quelque chose qui peut interagir avec le monde, c'est-à-dire qui peut comprendre le bon sens du fonctionnement du monde.
La permanence de l'objet. Si je détourne le regard et que je regarde à nouveau, cet objet est toujours là. La causalité. Si je le pousse, il bascule. Il comprend la friction et la gravité. Il comprend l'inertie. Qu'un gros camion qui roule sur la route va avoir besoin d'un peu plus de temps pour s'arrêter. Qu'une balle va continuer à rouler. Ces idées sont pleines de bon sens, même pour un petit enfant, mais pour l'IA, c'est totalement inconnu.
Nous devons donc créer un système qui permette aux IA d'apprendre le bon sens du monde physique, d'en apprendre les lois, mais aussi de pouvoir, bien sûr, apprendre à partir de données, et les données sont assez rares, et de pouvoir évaluer si cette IA fonctionne, ce qui signifie qu'elle doit simuler dans un environnement. Comment une IA sait-elle que les actions qu'elle effectue sont cohérentes avec ce qu'elle devrait faire si elle n'a pas la capacité de simuler la réponse du monde physique en retour sur ses actions ?
La réponse à ses actions est vraiment importante à simuler, sinon il n'y a aucun moyen de l'évaluer, c'est différent à chaque fois. Ainsi, ce système de base nécessite trois ordinateurs. Un ordinateur, bien sûr, celui que nous savons que NVIDIA construit pour entraîner les modèles d'IA. Un autre ordinateur que nous connaissons pour inférer les modèles. L'inférence du modèle est essentiellement un ordinateur de robotique qui fonctionne dans une voiture, dans un robot ou dans une usine, n'importe où en périphérie.
Mais il doit y avoir un autre ordinateur conçu pour la simulation. Et la simulation est au cœur de presque tout ce que fait NVIDIA. C'est là que nous sommes le plus à l'aise. Et la simulation a été véritablement le fondement de presque tout ce que nous avons fait avec l'IA physique. Nous avons donc trois ordinateurs et plusieurs piles qui s'exécutent sur ces ordinateurs, ces bibliothèques pour les rendre utiles.
Omniverse est notre monde de simulation basé sur la physique des jumeaux numériques. Cosmos, comme je l'ai mentionné plus tôt, est notre modèle de fondation, non pas un modèle de fondation pour le langage, mais un modèle de fondation du monde. Et il est également aligné avec le langage. Vous pourriez dire quelque chose comme : qu'arrive-t-il à la balle, et il vous dira que la balle roule dans la rue. Un modèle de fondation du monde donc, et puis bien sûr les modèles de robotique.
Nous en avons deux. L'un s'appelle GR00T, l'autre Alpamayo, dont je vais vous parler. Or, la chose la plus importante que nous devions faire avec l'IA physique, c'est de créer les données pour entraîner l'IA en premier lieu. D'où viennent ces données ? Plutôt que d'avoir des langages parce que nous avons créé un tas de textes que nous considérons comme la vérité terrain à partir de laquelle l'IA peut apprendre...
Comment enseigner à une IA la vérité terrain de la physique ? Il y a énormément de vidéos, énormément de vidéos, mais pas assez pour capturer la diversité et le type d'interactions dont nous avons besoin. C'est là que de grands esprits se sont réunis et ont transformé ce qui était autrefois du calcul en données. Maintenant, en utilisant la génération de données synthétiques qui est ancrée et conditionnée par les lois de la physique, ancrée et conditionnée par la vérité terrain...
Nous pouvons maintenant générer de manière sélective et intelligente des données que nous pouvons ensuite utiliser pour entraîner l'IA. Ainsi, par exemple, ce qui entre dans ce monde d'IA Cosmos, ce modèle mondial sur la gauche ici, est la sortie d'un simulateur de trafic. Or, ce simulateur de trafic est loin d'être suffisant pour qu'une IA puisse apprendre. Nous pouvons prendre cela, le mettre dans un modèle de fondation Cosmos et générer une vidéo panoramique basée sur la physique et physiquement plausible dont l'IA peut maintenant apprendre.
Vidéo : Modèle de Fondation NVIDIA Cosmos
Et il y en a tellement d'exemples. Laissez-moi vous montrer ce que Cosmos sait faire.
Le moment ChatGPT pour l'IA physique est proche. Mais le défi est clair. Le monde physique est diversifié et imprévisible. La collecte de données d'entraînement en conditions réelles est lente et coûteuse, et ce n'est jamais suffisant. La réponse réside dans les données synthétiques. Cela commence par NVIDIA Cosmos, un modèle de fondation mondial ouvert et de pointe pour l'IA physique.
Pré-entraîné sur de la vidéo à l'échelle d'Internet, des données de conduite et de robotique réelles et de la simulation 3D, Cosmos a appris une représentation unifiée du monde, capable d'aligner le langage, les images, la 3D et l'action. Il exécute des compétences d'IA physique comme la génération, le raisonnement et la prédiction de trajectoire. À partir d'une seule image, Cosmos génère une vidéo réaliste.
À partir de descriptions de scènes 3D, un mouvement physiquement cohérent. À partir de la télémétrie de conduite et des journaux de capteurs, une vidéo panoramique. À partir de simulateurs de planification, des environnements multi-caméras. Ou à partir d'invites de scénarios, il donne vie à des cas limites. Les développeurs peuvent exécuter des simulations interactives en boucle fermée dans Cosmos. Lorsque des actions sont effectuées, le monde réagit.
Cosmos raisonne. Il analyse les scénarios limites, les décompose en interactions physiques familières et raisonne sur ce qui pourrait arriver ensuite. Cosmos transforme le calcul en données, entraînant les véhicules autonomes pour les cas complexes et apprenant aux robots comment s'adapter à chaque scénario.
Véhicules Autonomes : Alpamayo
Cosmos est le premier modèle de fondation au monde, un modèle de fondation mondial. Il a été téléchargé des millions de fois, utilisé partout dans le monde par toutes sortes de personnes, préparant le monde à cette nouvelle ère de l'IA physique. Nous l'utilisons également nous-mêmes. Nous l'utilisons nous-mêmes pour créer notre voiture autonome. En l'utilisant pour la génération de scénarios et pour l'évaluation, nous pourrions avoir quelque chose qui nous permette de parcourir efficacement des milliards, des milliers de milliards de kilomètres, mais de le faire à l'intérieur d'un ordinateur.
Aujourd'hui, nous annonçons Alpamayo, la première IA de véhicule autonome pensante et raisonnante au monde. Alpamayo est entraîné de bout en bout, littéralement de l'entrée caméra à l'action de sortie. L'entrée caméra, ce sont des tas de kilomètres parcourus par la voiture elle-même, où nous la conduisons en tant qu'humains, par démonstration humaine, et nous avons des tas de kilomètres générés par Cosmos.
En plus de cela, des centaines de milliers d'exemples sont étiquetés très, très soigneusement afin que nous puissions enseigner à la voiture comment conduire. Alpamayo fait quelque chose de vraiment spécial. Non seulement il prend l'entrée des capteurs et active le volant, les freins et l'accélération, mais il raisonne également sur l'action qu'il est sur le point de prendre. Il vous indique l'action qu'il va entreprendre, les raisons pour lesquelles il en est arrivé à cette action, puis bien sûr la trajectoire.
Tout cela est couplé directement et entraîné très spécifiquement par une large combinaison de données entraînées par l'humain et de données générées par Cosmos. Le résultat est tout simplement incroyable. Non seulement votre voiture conduit comme vous vous y attendez, et elle conduit si naturellement parce qu'elle a appris directement de démonstrateurs humains, mais dans chaque scénario, lorsqu'elle se présente, elle raisonne, elle vous dit ce qu'elle va faire et elle raisonne sur ce qu'elle est sur le point de faire.
Or, la raison pour laquelle c'est si important, c'est à cause de la « longue traîne » de la conduite. Il nous est impossible de collecter simplement chaque scénario possible pour tout ce qui pourrait arriver dans chaque pays et chaque circonstance pour l'ensemble de la population. Cependant, il est très probable que chaque scénario, s'il est décomposé en un tas d'autres scénarios plus petits, soit tout à fait normal à comprendre pour vous.
Ainsi, ces longues traînes seront décomposées en circonstances tout à fait normales que la voiture sait gérer. Elle a juste besoin de raisonner à ce sujet. Alors, jetons un coup d'œil. Tout ce que vous allez voir est fait en une seule prise. Sans les mains.
Calcul de l'itinéraire vers votre destination.
Attachez votre ceinture.
Réseaux et Stockage pour l'IA
L'Ethernet est vraiment facile à gérer et tout le monde dispose d'une pile Ethernet et chaque centre de données au monde sait comment gérer l'Ethernet.
Et la seule chose que nous utilisions à l'époque s'appelait InfiniBand, qui est utilisé pour les superordinateurs.
InfiniBand a une latence très faible, mais bien sûr la pile logicielle, toute la gérabilité d'InfiniBand est très étrangère aux personnes qui utilisent Ethernet.
Nous avons donc décidé d'entrer sur le marché des commutateurs Ethernet pour la toute première fois. Spectrum-X a tout simplement décollé et a fait de nous la plus grande entreprise de réseau au monde, comme je l'ai mentionné.
Cette nouvelle génération Spectrum-X va perpétuer cette tradition.
Mais comme je l'ai dit plus tôt, l'IA a réinventé toute la pile informatique. Chaque couche de la pile informatique.
Il va de soi que lorsque l'IA commencera à être déployée dans les entreprises du monde entier, elle réinventera également la façon dont le stockage est effectué.
Eh bien, l'IA n'utilise pas SQL, l'IA utilise des informations sémantiques.
Et lorsque l'IA est utilisée, elle crée cette connaissance temporaire, cette mémoire temporaire appelée cache KV.
Combinaisons clé-valeur, mais c'est un cache KV. Essentiellement le cache de l'IA, la mémoire de travail de l'IA.
Et la mémoire de travail de l'IA est stockée dans la mémoire HBM.
Chaque jeton, pour chaque jeton, le GPU lit le modèle, le modèle entier.
Il lit toute la mémoire de travail et produit un jeton.
Et il stocke ce jeton en retour dans le cache KV.
Et la fois suivante, il lit toute la mémoire, il la fait défiler à travers notre GPU, puis génère un autre jeton.
Eh bien, il fait cela de manière répétée, jeton après jeton, et évidemment si vous avez une longue conversation avec cette IA, au fil du temps cette mémoire, cette mémoire de contexte va croître énormément.
Sans compter que les modèles grandissent, le nombre de tours de parole que nous utilisons avec les IA augmente.
Nous aimerions que cette IA reste avec nous toute notre vie et se souvienne de chaque conversation que nous avons eue avec elle, n'est-ce pas ?
Le moindre petit bout de recherche que je lui ai demandé.
Bien sûr, le nombre de personnes qui partageront ce superordinateur va continuer à croître.
Et donc cette mémoire de contexte, qui au départ tenait dans un HBM, n'est plus assez grande.
L'année dernière, nous avons créé la mémoire très rapide de Grace Blackwell, que nous avons appelée mémoire de contexte rapide.
C'est la raison pour laquelle nous avons connecté Grace directement à Hopper. C'est pourquoi nous avons connecté Grace directement à Blackwell, afin de pouvoir étendre la mémoire de contexte.
Mais même cela ne suffit pas. Et donc, la solution suivante est bien sûr d'aller sur le réseau, le réseau nord-sud, vers le stockage de l'entreprise.
Mais si vous avez énormément d'IA qui fonctionnent en même temps, ce réseau ne sera plus assez rapide.
La réponse est donc très clairement de faire différemment.
C'est pourquoi nous avons créé BlueField-4 afin de pouvoir essentiellement disposer d'un stockage de mémoire de contexte cache KV très rapide directement dans la baie.
Je vais vous montrer cela dans une seconde, mais il existe une toute nouvelle catégorie de systèmes de stockage et l'industrie est très enthousiaste car c'est un point critique pour presque tous ceux qui font beaucoup de génération de jetons aujourd'hui.
Les laboratoires d'IA, les fournisseurs de services cloud, ils souffrent vraiment de la quantité de trafic réseau causée par le déplacement du cache KV.
Et donc l'idée que nous créerions une nouvelle plateforme, un nouveau processeur pour exécuter l'intégralité du système de gestion de la mémoire de contexte cache KV dynamique et de le placer très près du reste de la baie est complètement révolutionnaire.
Architecture Vera Rubin et Performance
Alors voilà. C'est juste ici.
Voici donc tous les nœuds de calcul. Chacun d'entre eux est un NVLink 72.
Voici donc Vera Rubin NVLink 72, 144 GPU Rubin.
Voici la mémoire de contexte qui est stockée ici. Derrière chacun d'eux se trouvent quatre BlueFields.
Derrière chaque BlueField se trouvent 150 téraoctets de mémoire, de mémoire de contexte.
Et pour chaque GPU, une fois que vous l'avez alloué, chaque GPU recevra 16 téraoctets supplémentaires.
Désormais, à l'intérieur de ce nœud, chaque GPU dispose essentiellement d'un téraoctet.
Et maintenant, avec ce stockage de secours ici, directement sur le même trafic est-ouest exactement au même débit de données, 200 gigabits par seconde sur littéralement toute la structure de ce nœud de calcul, vous allez obtenir 16 téraoctets de mémoire supplémentaires.
D'accord, et voici le plan de gestion. Ce sont les commutateurs Spectrum-X qui les connectent tous ensemble.
Et ici, ces commutateurs à l'extrémité les connectent au reste du centre de données.
D'accord, et voici donc Vera Rubin.
Maintenant, il y a plusieurs choses qui sont vraiment incroyables à ce sujet.
Alors, la première chose que j'ai mentionnée est que tout ce système est deux fois plus économe en énergie, essentiellement deux fois plus performant en termes de température dans le sens où même si la puissance est deux fois plus élevée, la quantité d'énergie utilisée est deux fois plus élevée, la quantité de calcul est plusieurs fois plus élevée que cela, mais le liquide qui y entre reste à 45 degrés C.
Cela nous permet d'économiser environ 6 % de l'énergie des centres de données du monde entier. C'est donc un progrès majeur.
Le deuxième point très important est que l'ensemble de ce système est désormais sécurisé pour l'informatique confidentielle.
Ce qui signifie que tout est encodé en transit, au repos et pendant le calcul.
Et chaque bus est désormais crypté. Chaque PCIe Express, chaque NVLink, chaque NVLink entre CPU et GPU, entre GPU et GPU, tout est désormais crypté.
C'est donc sécurisé pour l'informatique confidentielle. Cela permet aux entreprises de se sentir en sécurité quant au fait que leurs modèles sont déployés par quelqu'un d'autre, mais qu'ils ne seront jamais vus par personne d'autre.
D'accord, ce système particulier est non seulement incroyablement économe en énergie, mais il y a une autre chose incroyable.
En raison de la nature de la charge de travail de l'IA, elle connaît des pics instantanés avec cette couche de calcul appelée « all-reduce ».
La quantité de courant, la quantité d'énergie utilisée simultanément est vraiment hors du commun.
Souvent, il y aura un pic de 25 %. Nous disposons désormais d'un lissage de la puissance sur l'ensemble du système afin que vous n'ayez pas à surprovisionner de 25 fois, ou à laisser 25 % de l'énergie gaspillée ou inutilisée.
Ainsi, vous pouvez désormais utiliser tout le budget de puissance et vous n'avez pas besoin de provisionner au-delà.
Et enfin, bien sûr, il y a la performance. Jetons un coup d'œil aux performances.
Ce sont des graphiques que seuls les constructeurs de superordinateurs d'IA adoreraient.
Il a fallu chacune de ces puces, une refonte complète de chacun des systèmes et la réécriture de toute la pile pour nous permettre de rendre cela possible.
En gros, il s'agit de l'entraînement du modèle d'IA, cette première colonne.
Plus vous entraînez vite les modèles d'IA, plus vite vous pouvez proposer la prochaine frontière technologique au monde. C'est votre délai de mise sur le marché, c'est votre leadership technologique, c'est votre pouvoir de fixation des prix.
Et donc, dans le cas du vert, il s'agit essentiellement d'un modèle de 10 000 milliards de paramètres.
Nous l'avons fait évoluer à partir de DeepSeek, c'est pourquoi nous l'appelons DeepSeek++. L'entraînement d'un modèle de 10 000 milliards de paramètres sur 100 000 milliards de jetons.
D'accord, et voici notre projection de simulation de ce qu'il nous faudrait pour construire le prochain modèle de pointe.
Le prochain modèle de pointe, Elon a déjà mentionné que la prochaine version de Grok, Grok 5 je crois, fait 7 000 milliards de paramètres, donc ici c'est 10.
En vert, c'est Blackwell et ici dans le cas de Rubin, remarquez que le débit est tellement plus élevé et par conséquent, il ne faut qu'un quart de ces systèmes pour entraîner le modèle dans le temps que nous avons imparti ici, à savoir un mois.
D'accord, le temps est donc le même pour tout le monde. Maintenant, la vitesse à laquelle vous pouvez entraîner ce modèle et la taille du modèle que vous pouvez entraîner déterminent comment vous allez atteindre la frontière technologique en premier.
La deuxième partie est le débit de votre usine. Blackwell est à nouveau en vert et le débit d'usine est important car votre usine, dans le cas d'un gigawatt, représente 50 milliards de dollars.
Un centre de données de 50 milliards de dollars ne peut consommer qu'un gigawatt de puissance.
Donc si vos performances, votre débit par watt est très bon par rapport à un débit médiocre, cela se traduit directement par vos revenus.
Les revenus de votre centre de données sont directement liés à la deuxième colonne.
Et dans le cas de Blackwell, c'était environ 10 fois plus que Hopper, dans le cas de Rubin, ce sera à nouveau environ 10 fois plus.
D'accord, et en ce qui concerne maintenant le coût des jetons, la rentabilité de la génération du jeton, voici Rubin à environ un dixième, tout comme dans le cas de. C'est ainsi que nous allons amener tout le monde à la prochaine étape pour pousser l'IA au niveau supérieur.
Conclusion
Et bien sûr, pour construire ces centres de données de manière économe en énergie et rentable.
Alors voilà. C'est NVIDIA aujourd'hui. Vous savez, nous avons mentionné que nous construisons des puces, mais comme vous le savez, NVIDIA construit désormais des systèmes entiers.
Et l'IA est une pile complète. Nous réinventons l'IA dans tous les domaines, des puces à l'infrastructure, en passant par les modèles et les applications.
Et notre travail consiste à créer l'intégralité de la pile afin que vous puissiez tous créer des applications incroyables pour le reste du monde.
Merci à tous d'être venus. Passez un excellent CES.
Maintenant, avant de vous laisser partir, il y avait tout un tas de diapositives que nous avons dû laisser de côté et nous avons donc quelques extraits ici. Je pense que cela vous plaira. Passez un excellent CES, les amis.