Demis Hassabis - Demis Hassabis on the Future of AI, Science, and AGI

Demis Hassabis

Demis Hassabis on the Future of AI, Science, and AGI

12 septembre 2025

Artificial Intelligence

Introduction and the Nobel Prize

Narrateur

Un génie qui pourrait détenir les cartes de notre avenir.

Narrateur

PDG de Google DeepMind, qui est le moteur de l'intelligence artificielle de l'entreprise.

Narrateur

Après son Nobel et son titre de chevalier du roi Charles, il est devenu un pionnier de l'intelligence artificielle.

Demis Hassabis

Nous avons été les premiers à commencer à le faire sérieusement à l'ère moderne. AlphaGo a été le grand tournant, je pense, non seulement pour DeepMind et mon entreprise, mais pour l'IA en général. Cela a toujours été mon objectif avec l'IA depuis mon enfance : l'utiliser pour accélérer les découvertes scientifiques.

Narrateur

Mesdames et messieurs, veuillez accueillir Demis Hassabis de Google DeepMind.

David Friedberg

Bienvenue. Ravi d'être ici. Merci d'avoir suivi Tucker, Mark Cuban et les autres. Tout d'abord, félicitations pour avoir remporté le prix Nobel.

Demis Hassabis

Merci beaucoup.

David Friedberg

Pour l'incroyable percée d'AlphaFold. Peut-être l'avez-vous déjà fait auparavant, mais je sais que tout le monde ici aimerait entendre votre récit de l'endroit où vous étiez quand vous avez remporté le prix Nobel. Comment l'avez-vous appris ?

Demis Hassabis

C'est un moment très surréaliste, évidemment. Tout est surréaliste. Ils vous préviennent 10 minutes avant que tout ne soit rendu public. Vous êtes sous le choc quand vous recevez cet appel de Suède. C'est l'appel dont rêve tout scientifique. Ensuite, la cérémonie dure toute une semaine en Suède avec la famille royale. C'est incroyable. Évidemment, cela existe depuis 120 ans. Et le plus incroyable, c'est qu'ils sortent ce livre Nobel du coffre-fort et vous signez votre nom à côté de tous les autres grands noms. C'est donc un moment tout à fait incroyable, en feuilletant les pages précédentes et en voyant Feynman, Marie Curie, Einstein et Niels Bohr, et on continue de remonter le temps et on peut mettre son nom dans ce livre. C'est incroyable.

David Friedberg

Aviez-vous le pressentiment d'avoir été nominé et que cela pourrait vous arriver ?

Demis Hassabis

On entend des rumeurs. C'est incroyablement verrouillé à notre époque, la façon dont ils gardent cela si secret. Mais c'est un trésor national pour la Suède. Et donc on entend dire que peut-être AlphaFold est le genre de chose qui mériterait cette reconnaissance. Et ils recherchent l'impact ainsi que la percée scientifique, l'impact dans le monde réel. Et cela peut prendre 20 ou 30 ans avant d'arriver. On ne sait donc jamais quand cela arrivera, ni si cela arrivera un jour. C'était donc une surprise.

DeepMind's Role within Alphabet

David Friedberg

Incroyable. Félicitations. Merci. Et merci de m'avoir laissé prendre une photo avec il y a quelques semaines quand nous étions à Londres, c'est quelque chose que je chérirai. Qu'est-ce que DeepMind au sein d'Alphabet ? Alphabet est une organisation tentaculaire, avec des unités commerciales éparpillées. Qu'est-ce que DeepMind ? De quoi êtes-vous responsable ?

Demis Hassabis

Nous voyons DeepMind maintenant, et Google DeepMind tel qu'il est devenu, nous avons fusionné il y a quelques années tous les différents efforts en matière d'IA au sein de Google et d'Alphabet, y compris DeepMind, en mettant tout cela ensemble, en réunissant les forces de tous les différents groupes dans une seule division. Et vraiment, la façon dont je le décris maintenant, c'est que nous sommes la salle des machines de tout Google et de tout Alphabet. Gemini, notre modèle principal que nous construisons, mais aussi beaucoup d'autres modèles que nous construisons également, les modèles vidéo et les modèles de monde interactifs, nous les intégrons partout dans Google maintenant. Ainsi, presque chaque produit, chaque surface intègre l'un de nos modèles d'IA. Des milliards de personnes interagissent désormais avec les modèles Gemini, que ce soit via AI Overview, le mode AI ou l'application Gemini. Et ce n'est que le début. Nous l'intégrons dans Workspace, dans Gmail, et ainsi de suite. C'est donc une opportunité fantastique pour nous de mener des recherches de pointe et de les diffuser immédiatement à des milliards d'utilisateurs.

David Friedberg

Et combien de personnes, quel est le profil ? S'agit-il de scientifiques, d'ingénieurs ? Quelle est la composition de votre organisation ?

Demis Hassabis

Il y a environ 5 000 personnes dans mon organisation, chez Google DeepMind. Et elle est composée à plus de 80 % d'ingénieurs et de chercheurs titulaires d'un doctorat. Donc environ 3 000 ou 4 000 personnes.

Genie: Generative World Models

David Friedberg

Il y a donc une évolution des modèles, beaucoup de nouveaux modèles sortent, ainsi que de nouvelles classes de modèles. L'autre jour, vous avez sorti ce modèle de monde Genie. Oui. Alors qu'est-ce qu'un modèle de monde Genie ? Et je pense que nous avons une vidéo de cela. Cela vaut-il la peine de la regarder pour pouvoir en parler en direct ?

Demis Hassabis

Nous pouvons regarder, bien sûr. Je pense qu'il faut le voir pour le comprendre car c'est tout à fait extraordinaire. Pouvons-nous lancer la vidéo ? Et ensuite Demis pourra commenter un peu ce que nous regardons.

Narrateur

Ce que vous voyez ne sont ni des jeux ni des vidéos. Ce sont des mondes. Chacun d'eux est un environnement interactif généré par Genie 3, une nouvelle frontière pour les modèles de monde. Avec Genie 3, vous pouvez utiliser le langage naturel pour générer une variété de mondes et les explorer de manière interactive, le tout avec une seule commande textuelle.

Demis Hassabis

Toutes ces vidéos, tous ces mondes interactifs que vous voyez, vous voyez quelqu'un qui peut réellement contrôler la vidéo. Ce n'est pas une vidéo statique. Elle a été générée par une commande textuelle, puis les gens peuvent contrôler l'environnement 3D à l'aide des touches fléchées et de la barre d'espace. Tout ce que vous voyez ici est généré à la volée. Ils n'existent pas tant que le joueur ou la personne qui interagit avec n'est pas allée dans cette partie du monde. Toute cette richesse, et vous verrez dans une seconde, c'est entièrement généré. Ce n'est pas une vraie vidéo. C'est généré, quelqu'un qui peint sa chambre, peignant des choses sur le mur, puis le joueur va regarder à droite puis regarder en arrière. Cette partie du monde n'existait pas auparavant, maintenant elle existe. Et puis il regarde en arrière et voit les mêmes traces de peinture qu'il a laissées juste avant. Et encore une fois, c'est entièrement, chaque pixel que vous voyez ici est entièrement généré. Et vous pouvez taper des choses comme une personne dans un costume de poulet ou un jet-ski, et cela les inclura en temps réel dans la scène. C'est vraiment époustouflant.

David Friedberg

Mais je pense que ce qui est difficile à saisir en regardant cela, parce que nous avons tous joué à des jeux vidéo qui ont un élément 3D lorsque vous êtes dans un monde immersif, mais aucun objet n'a été créé. Il n'y a pas de moteur de rendu. Vous n'utilisez pas Unity ou Unreal, qui sont les moteurs de rendu 3D. Ce ne sont en fait que des images 2D qui sont rendues, créées à la volée par l'IA.

Demis Hassabis

Ce modèle fait de l'ingénierie inverse sur la physique intuitive. Il a visionné plusieurs millions de vidéos et de vidéos YouTube et d'autres choses sur le monde, et à partir de l'à, il a fait de l'ingénierie inverse sur le fonctionnement d'une grande partie du monde. Ce n'est pas encore parfait, mais il peut générer une minute ou deux d'interaction cohérente en tant qu'utilisateur dans de nombreux mondes différents. Il y a des vidéos plus tard où vous pouvez contrôler un chien sur une plage ou une méduse ou ce n'est pas limité aux seules choses humaines.

David Friedberg

Parce que la façon dont un moteur de rendu 3D fonctionne, c'est que vous tapez, le programmeur programme toutes les lois de la physique. Comment la lumière se reflète-t-elle sur un objet ? Vous créez un objet 3D, la lumière se reflète, et ce que je vois visuellement est rendu par le logiciel parce qu'il contient toute la programmation sur la façon de créer la physique, de faire de la physique. Mais ce modèle a été entraîné uniquement à partir de vidéos et il a tout compris.

Demis Hassabis

Il a été entraîné à partir de vidéos et de quelques données synthétiques provenant de moteurs de jeux, et il a simplement fait de l'ingénierie inverse. Et pour moi, ce projet me tient très à cœur, mais il est aussi assez époustouflant car dans les années 90, au début de ma carrière, j'écrivais des jeux vidéo et de l'IA pour les jeux vidéo et des moteurs graphiques, et je me souviens à quel point il était difficile de faire cela à la main, de programmer tous les polygones et les moteurs physiques. Et c'est incroyable de voir cela se faire sans effort, tous les reflets sur l'eau et la façon dont les matériaux s'écoulent et les objets se comportent. Et il fait tout cela dès le départ.

David Friedberg

Je pense qu'il est difficile de décrire la complexité qui a été résolue avec ce modèle. C'est vraiment, vraiment époustouflant. Où cela nous mène-t-il ? Avançons ce modèle jusqu'à la Génération 5.

Demis Hassabis

La raison pour laquelle nous construisons ce genre de modèles est que nous sentons, et nous l'avons toujours senti, nous progressons évidemment sur les modèles de langage normaux comme avec notre modèle Gemini, mais dès le début avec Gemini, nous voulions qu'il soit multimodal. Nous voulions donc qu'il accepte n'importe quel type d'entrée, des images, de l'audio, de la vidéo, et qu'il puisse tout produire. Nous nous y sommes donc beaucoup intéressés car pour qu'une IA soit véritablement générale, pour construire une AGI, nous estimons que le système d'AGI doit comprendre le monde qui nous entoure et le monde physique qui nous entoure, pas seulement le monde abstrait des langages ou des mathématiques. Et bien sûr, c'est ce qui est crucial pour que la robotique fonctionne. C'est probablement ce qui lui manque aujourd'hui. Et aussi des choses comme les lunettes intelligentes, un système de lunettes intelligentes qui vous aide dans votre vie quotidienne. Il doit comprendre le contexte physique dans lequel vous vous trouvez et comment fonctionne la physique intuitive du monde. Nous pensons donc que la construction de ce type de modèles, ces modèles Genie et aussi Veo, nos meilleurs modèles de texte-vidéo, sont les expressions de notre construction de modèles de monde qui comprennent la dynamique du monde, la physique du monde. Si vous pouvez le générer, alors c'est une expression de la compréhension de ces dynamiques par votre système.

Robotics and Multimodal Models

David Friedberg

Et cela mène à un monde de la robotique finalement, un aspect, une application. Mais peut-être pouvons-nous en parler. Quel est l'état de l'art avec les modèles vision-langage-action aujourd'hui ? Un système généralisé, une boîte, une machine qui peut observer le monde avec une caméra, et ensuite je peux utiliser le langage, le texte ou la parole pour lui dire ce que je veux qu'il fasse, et ensuite il sait comment agir physiquement pour faire quelque chose dans le monde physique pour moi.

Demis Hassabis

C'est exact. Si vous regardez notre version Gemini Live de Gemini où vous pouvez pointer votre téléphone vers le monde qui vous entoure, je vous recommande à tous de l'essayer. C'est magique ce qu'il comprend déjà du monde physique. Vous pouvez considérer la prochaine étape comme l'intégration de cela dans une sorte d'appareil plus pratique comme des lunettes, et ce sera alors un assistant quotidien. Il sera capable de vous recommander des choses pendant que vous marchez dans la rue, ou nous pouvons l'intégrer à Google Maps. Et avec la robotique, nous avons construit ce que nous appelons les modèles Gemini Robotics, qui sont en quelque sorte des Gemini affinés avec des données robotiques supplémentaires. Et ce qui est vraiment cool avec ça, et nous avons publié des démos cet été, c'est que vous pouvez avoir ces installations de table avec deux mains interagissant avec des objets sur une table, deux mains robotisées, et vous pouvez simplement parler au robot. Vous pouvez dire : mets l'objet jaune dans le seau rouge ou quoi que ce soit d'autre, et il interprétera simplement cette instruction, cette instruction en langage, en mouvements moteurs. Et c'est là le pouvoir d'un modèle multimodal plutôt que d'un modèle spécifique à la robotique, c'est qu'il sera capable d'apporter une compréhension du monde réel à la façon dont vous interagissez avec lui. En fin de compte, ce sera l'interface utilisateur dont vous avez besoin ainsi que la compréhension dont les robots ont besoin pour naviguer dans le monde en toute sécurité.

David Friedberg

J'ai posé la question à Sundar. Cela signifie-t-il qu'en fin de compte, vous pourriez construire ce qui serait l'équivalent de, disons, soit un Unix, une couche de système d'exploitation, soit un Android pour la robotique généralisée, auquel cas si cela fonctionne assez bien sur suffisamment d'appareils, il y aura une prolifération d'appareils, d'entreprises et de produits robotiques qui prendront soudainement leur essor dans le monde parce que ce logiciel existe pour faire cela de manière générale ?

Demis Hassabis

Exactement. C'est certainement une stratégie que nous poursuivons, une sorte de version Android en tant que couche d'OS pour la robotique. Mais il y a aussi des choses très intéressantes concernant l'intégration verticale de nos derniers modèles avec des types de robots et des conceptions de robots spécifiques et une sorte d'apprentissage de bout en bout de cela aussi. Les deux sont en fait assez intéressants et nous poursuivons les deux stratégies.

David Friedberg

Pensez-vous que les robots humanoïdes sont un bon facteur de forme ? Est-ce que cela a du sens dans le monde ? Parce que certains ont critiqué cela comme étant bon pour les humains parce que nous sommes censés faire beaucoup de choses différentes, mais si nous voulons résoudre un problème, il peut y avoir un facteur de forme différent pour plier le linge ou faire la vaisselle ou nettoyer la maison ou autre.

Demis Hassabis

Ici, je pense qu'il y aura une place pour les deux. J'étais d'avis, il y a peut-être 5 ou 10 ans, que nous aurions des robots spécifiques à une forme pour certaines tâches. Et je pense que dans l'industrie, les robots industriels seront certainement comme ça, où vous pouvez optimiser le robot pour une tâche spécifique, qu'il s'agisse d'un laboratoire ou d'une ligne de production. Vous voudriez des types de robots assez différents. D'un autre côté, pour un usage général ou personnel de la robotique et simplement pour interagir avec le monde ordinaire, le facteur de forme humanoïde pourrait être assez important car, bien sûr, nous avons conçu le monde physique qui nous entoure pour les humains. Et donc les marches, les portes, toutes les choses que nous avons conçues pour nous-mêmes, plutôt que de toutes les changer dans le monde réel, il pourrait être plus facile de concevoir le facteur de forme pour qu'il fonctionne de manière transparente avec la façon dont nous avons déjà conçu le monde. Je pense donc qu'il y a un argument à faire valoir selon lequel le facteur de forme humanoïde pourrait être très important pour ce type de tâches. Mais je pense qu'il y a aussi une place pour des formes robotiques spécialisées.

David Friedberg

Avez-vous une opinion sur des centaines de millions, des millions, des milliers au cours des 5 prochaines années, 7 ans ? Je veux dire, avez-vous une vision de la chronologie dans votre tête ?

Demis Hassabis

Oui. Et je passe beaucoup de temps là-dessus. Je pense que nous sommes encore un peu au début de la robotique. Je pense qu'au cours des deux prochaines années, il y aura un véritable moment 'waouh' avec la robotique. Mais je pense que les algorithmes ont besoin d'un peu plus de développement. Les modèles à usage général sur lesquels ces modèles robotiques sont construits doivent encore être meilleurs, plus fiables et mieux comprendre le monde qui les entoure. Et je pense que cela viendra dans les deux prochaines années. Et puis aussi du côté du matériel, la clé est, je pense qu'un jour nous aurons des millions de robots aidant la société et augmentant la productivité. Mais la clé, quand on parle aux experts du matériel, est de savoir à quel moment on a le bon niveau de matériel pour passer à l'option de mise à l'échelle ? Parce qu'en fait, quand on commence à construire des usines pour essayer de fabriquer des dizaines de milliers, des centaines de milliers d'un type de robot particulier, il est plus difficile pour vous de mettre à jour et d'itérer rapidement la conception du robot. C'est donc l'une de ces questions où, si vous vous lancez trop tôt, la prochaine génération de robots pourrait être inventée dans 6 mois et être plus fiable, meilleure et plus agile.

David Friedberg

On dirait que, si l'on utilise une analogie informatique, nous sommes en quelque sorte dans l'ère des années 70, type PC-DOS...

Demis Hassabis

Potentiellement. Mais bien sûr, sauf que 10 ans se passent en 1 an, probablement. Il faut donc se mettre à jour rapidement. Peut-être que 2024 pourrait être l'une de ces années.

AI for Scientific Discovery

David Friedberg

Parlons donc d'autres applications, en particulier dans le domaine scientifique, cher à votre cœur en tant que scientifique, en tant que scientifique lauréat du prix Nobel. J'ai toujours eu le sentiment que les plus grandes choses que nous pourrions faire avec l'IA seraient les problèmes insolubles pour les humains avec notre technologie et nos capacités actuelles, nos cerveaux, etc., et que nous pourrions libérer tout ce potentiel. Quels sont les domaines scientifiques et les percées scientifiques qui vous passionnent le plus et quels types de modèles utilisons-nous pour y parvenir ?

Demis Hassabis

L'IA pour accélérer les découvertes scientifiques et aider à des choses comme la santé humaine a été la raison pour laquelle j'ai passé toute ma carrière sur l'IA. Et je pense que c'est la chose la plus importante que nous puissions faire avec l'IA. Et j'ai le sentiment que si nous construisons l'AGI de la bonne manière, ce sera l'outil ultime pour la science. Et je pense que nous avons montré chez DeepMind une grande partie du chemin à parcourir, évidemment AlphaFold est le plus célèbre, mais en fait, nous avons appliqué nos systèmes d'IA à de nombreuses branches de la science, qu'il s'agisse de la conception de matériaux, de l'aide au contrôle du plasma dans les réacteurs à fusion, de la prédiction météo ou de la résolution de problèmes mathématiques des Olympiades. Et les mêmes types de systèmes avec quelques ajustements supplémentaires peuvent résoudre beaucoup de ces problèmes complexes. Je pense donc que nous ne faisons qu'effleurer la surface de ce que l'IA sera capable de faire. Et il y a certaines choses qui manquent. L'IA d'aujourd'hui, je dirais, n'a pas de véritable créativité au sens où elle ne peut pas encore formuler une nouvelle conjecture ou une nouvelle hypothèse. Elle peut peut-être prouver quelque chose que vous lui donnez, mais elle n'est pas capable de proposer elle-même une nouvelle idée ou une nouvelle théorie. Je pense donc que ce sera l'un des tests, en fait, pour l'AGI.

David Friedberg

Qu'est-ce que cette créativité en tant qu'humain ? Qu'est-ce que la créativité alors ?

Demis Hassabis

Je pense que ce sont ces bonds intuitifs que nous célébrons souvent chez les meilleurs scientifiques de l'histoire et les artistes, bien sûr. Et peut-être que cela se fait par analogie ou par raisonnement analogique. Il existe de nombreuses théories en psychologie et en neurosciences sur la façon dont nous, en tant que scientifiques humains, procédons. Mais un bon test pour cela serait, par exemple, de donner à l'un de ces systèmes d'IA modernes une base de connaissances s'arrêtant en 1901 et de voir s'il peut formuler la relativité restreinte comme Einstein l'a fait en 1905. S'il est capable de faire cela, alors je pense que nous tenons quelque chose de vraiment, vraiment important, où nous approchons peut-être d'une AGI. Un autre exemple serait notre programme AlphaGo qui a battu le champion du monde de Go. Non seulement il a gagné il y a 10 ans, mais il a inventé de nouvelles stratégies qui n'avaient jamais été vues auparavant pour le jeu de Go. C'est le fameux coup 37 dans la deuxième partie qui est maintenant étudié. Mais un système d'IA peut-il concevoir un jeu aussi élégant, aussi satisfaisant, aussi esthétiquement beau que le Go, et pas seulement une nouvelle stratégie ? Et la réponse à ces questions pour le moment est non. C'est donc l'une des choses qui, selon moi, manquent à un véritable système général, un système AGI, c'est qu'il devrait être capable de faire ce genre de choses également.

Defining AGI and Missing Capabilities

David Friedberg

Pouvez-vous détailler ce qui manque et peut-être le relier au point de vue partagé par Dario, Sam et d'autres selon lequel l'AGI n'est que dans quelques années ? Ne souscrivez-vous pas à cette croyance et pouvez-vous nous aider à comprendre ce qui manque selon votre compréhension de la structure, de l'architecture du système ?

Demis Hassabis

Je pense que l'aspect fondamental de cela est : pouvons-nous imiter ces bonds intuitifs plutôt que les avancées progressives que les meilleurs scientifiques humains semblent capables de faire ? Je dis toujours que ce qui sépare un grand scientifique d'un bon scientifique, c'est qu'ils sont tous deux très capables techniquement, bien sûr, mais le grand scientifique est plus créatif. Ainsi, peut-être qu'il repérera un modèle dans un autre domaine qui peut avoir une analogie ou une correspondance de modèles avec le domaine qu'il essaie de résoudre. Et je pense qu'un jour l'IA sera capable de faire cela, mais elle n'a pas les capacités de raisonnement et certaines des capacités de réflexion qui seront nécessaires pour réaliser ce genre de percée. Je pense aussi que nous manquons de cohérence. On entend souvent certains de nos concurrents parler de ces systèmes modernes que nous avons aujourd'hui comme d'intelligences de niveau doctorat. Je pense que c'est absurde. Ce ne sont pas des intelligences de niveau doctorat. Ils ont certaines capacités qui sont du niveau doctorat, mais ils ne sont pas en général capables de performer sur tous les fronts au niveau du doctorat. En fait, comme nous le savons tous en interagissant avec les chatbots d'aujourd'hui, si vous posez la question d'une certaine manière, ils peuvent faire des erreurs simples même avec des mathématiques de lycée et des calculs simples. Cela ne devrait pas être possible pour un véritable système d'AGI. Je pense donc que nous sommes à 5 ou 10 ans d'avoir un système d'AGI capable de faire ces choses. Une autre chose qui manque est l'apprentissage continu, cette capacité à enseigner quelque chose de nouveau au système en ligne ou à ajuster son comportement d'une manière ou d'une autre. Ainsi, beaucoup de ces capacités fondamentales manquent encore. Et peut-être que le passage à l'échelle nous y mènera, mais je pense, si je devais parier, qu'il y a probablement une ou deux percées manquantes qui sont encore nécessaires et qui viendront au cours des 5 prochaines années environ.

Creative Tools and Democratization

David Friedberg

En attendant, certains rapports et systèmes de notation utilisés semblent démontrer deux choses. Premièrement, peut-être, et dites-moi si nous nous trompons là-dessus, une convergence des performances des grands modèles de langage. Et deuxièmement, peut-être, un ralentissement ou un plafonnement des améliorations de performance à chaque génération. Ces deux affirmations sont-elles généralement vraies ou pas vraiment ?

Demis Hassabis

No, nous ne voyons pas cela en interne. Et nous voyons toujours un taux de progrès énorme. Mais aussi, nous regardons les choses plus largement. Vous le voyez avec nos modèles Genie et nos modèles Veo et récemment Nano-Banana. Nano-Banana est incroyable. C'est fou. Oui, c'est fou. C'était en tête au niveau mondial. Est-ce que quelqu'un ici, puis-je voir qui l'a utilisé ? Quelqu'un a utilisé Nano-Banana ? C'est incroyable, n'est-ce pas ? Je suis un mordu qui utilisait Adobe Photoshop quand j'étais enfant et Kai's Power Tools, et je vous parlais de Bryce 3D. Les systèmes graphiques et la reconnaissance de ce qui s'y passe étaient tout simplement époustouflants.

Demis Hassabis

Je pense que c'est l'avenir de beaucoup de ces outils créatifs : vous allez juste vibrer avec eux ou simplement leur parler. Et ils seront assez cohérents pour que, comme avec Nano-Banana, ce qui est incroyable, c'est que c'est un générateur d'images, de pointe et le meilleur de sa catégorie, mais l'une des choses qui le rend si génial est sa cohérence. Il est capable de suivre les instructions sur ce que vous voulez changer et de garder tout le reste identique. Vous pouvez donc itérer avec lui et finalement obtenir le type de résultat que vous voulez. Et c'est, je pense, ce que sera l'avenir de beaucoup de ces outils créatifs et cela indique la direction. Et les gens adorent ça et ils aiment créer avec ça.

David Friedberg

Donc, la démocratisation de la créativité, je pense, est vraiment puissante. Je me souviens avoir dû acheter des livres sur Adobe Photoshop quand j'étais enfant, puis vous les lisiez pour apprendre comment supprimer quelque chose d'une image, comment le remplir, faire des contours progressifs et tout ça. Maintenant, n'importe qui peut le faire avec Nano-Banana et commencer simplement à expliquer au logiciel ce qu'il veut qu'il fasse, et il le fait.

Demis Hassabis

Je pense que vous allez voir deux choses : cette démocratisation de ces outils pour que tout le monde puisse simplement les utiliser et créer avec sans avoir à apprendre des UX et des UI incroyablement complexes comme nous avons dû le faire par le passé. Mais d'un autre côté, je pense que nous allons aussi, et nous collaborons également avec des cinéastes et des créateurs et artistes de haut niveau. Ils nous aident donc à concevoir ce que ces nouveaux outils devraient être, quelles fonctionnalités ils voudraient. Des gens comme le réalisateur Darren Aronofsky, qui est un de mes bons amis et un réalisateur incroyable, et lui et son équipe ont fait des films en utilisant Veo et certains de nos autres outils. Et nous apprenons beaucoup en les observant et en collaborant avec eux. Et ce que nous constatons, c'est que cela décuple et booste également les meilleurs professionnels, car tout d'un coup, les créatifs professionnels sont soudainement capables d'être 10 fois, 100 fois plus productifs. Ils peuvent simplement essayer toutes sortes d'idées qu'ils ont en tête, à un coût très bas, puis arriver à la belle chose qu'ils voulaient. Je pense donc que les deux sont vrais. Nous le démocratisons pour un usage quotidien, pour les créateurs YouTube et ainsi de suite, mais d'un autre côté, dans le haut de gamme, les gens qui comprennent ces outils — et tout le monde ne peut pas obtenir le même résultat avec ces outils, il y a une compétence là-dedans ainsi que la vision, la narration et le style narratif des meilleurs créatifs. Et je pense que cela leur permet simplement — ils apprécient vraiment d'utiliser ces outils car cela leur permet d'itérer beaucoup plus vite.

The Future of Entertainment and Co-creation

David Friedberg

Arrivons-nous dans un monde où chaque individu décrit le type de contenu qui l'intéresse ? Joue-moi de la musique comme Dave Matthews et ça jouera un nouveau morceau. Ou je veux jouer à un jeu vidéo qui se déroule, vous savez, dans le film Braveheart et je veux être dans ce film et je vis juste cette expérience. Finissons-nous là ? Ou avons-nous encore un processus créatif d'un vers plusieurs dans la société ? Quelle est l'importance culturelle — et je sais que c'est un peu philosophique, mais c'est intéressant pour moi — allons-nous encore avoir des récits où nous avons tous une histoire que nous partageons tous parce que quelqu'un l'a faite ? Ou allons-nous chacun commencer à développer et à tirer sur notre propre sorte de virtuel...

Demis Hassabis

Je prévois en fait un monde, et j'y pense beaucoup ayant commencé dans l'industrie du jeu en tant que concepteur de jeux et programmeur dans les années 90, c'est que l'avenir du divertissement, ce que nous voyons là est le début de l'avenir du divertissement. Peut-être un nouveau genre ou une nouvelle forme d'art, et où il y a un peu de co-creation. Je pense toujours que vous aurez les meilleurs visionnaires créatifs, ils créeront ces expériences captivantes et ces scénarios dynamiques, et ils seront de meilleure qualité même s'ils utilisent les mêmes outils que la personne ordinaire. Mais aussi, et ainsi des millions de personnes plongeront potentiellement dans ces mondes, mais peut-être qu'ils pourront aussi co-créer certaines parties de ces mondes. Et peut-être que le créatif principal est presque un éditeur de ce monde. C'est ce que je prévois dans les prochaines années, et j'aimerais que nous explorions cela nous-mêmes avec des technologies comme Genie.

Isomorphic Labs and Drug Discovery

David Friedberg

D'accord. Incroyable. Et comment passez-vous votre temps ? Êtes-vous chez Isomorphic ? Peut-être pouvez-vous simplement décrire ce qu'est Isomorphic et si vous y passez beaucoup de temps ?

Demis Hassabis

Oui. Je dirige également Isomorphic, qui est notre société dérivée pour révolutionner la découverte de médicaments, en s'appuyant sur notre percée AlphaFold dans le repliement des protéines. Et bien sûr, connaître la structure d'une protéine n'est qu'une étape dans le processus de découverte de médicaments. Vous pouvez donc considérer Isomorphic comme la construction de nombreux AlphaFold adjacents pour aider à des choses comme la conception de composés chimiques qui n'ont pas d'effets secondaires mais qui se lient au bon endroit sur la protéine. Et je pense que nous pourrions réduire la découverte de médicaments, qui prend des années, parfois une décennie, à peut-être des semaines ou même des jours au cours des 10 prochaines années.

David Friedberg

C'est incroyable. Pensez-vous que ce sera bientôt en clinique ou est-ce encore en phase de découverte et ensuite...

Demis Hassabis

Nous construisons la plateforme en ce moment même, et nous avons d'excellents partenariats avec Eli Lilly — je pense que vous avez eu le PDG qui s'est exprimé plus tôt — et Novartis, qui sont fantastiques, ainsi que nos propres programmes de médicaments internes. Et je pense que nous entrerons en phase préclinique au cours de l'année prochaine.

David Friedberg

Les candidats sont donc remis à la société pharmaceutique et celle-ci les fait ensuite progresser.

Demis Hassabis

C'est exact. Et nous travaillons sur les cancers, l'immunologie et l'oncologie, et nous travaillons avec des centres comme le MD Anderson.

Hybrid Models and Determinism

David Friedberg

Quelle part de cela nécessite — et je veux juste revenir à votre point sur l'AGI en rapport avec ce que vous venez de dire — les modèles peuvent être probabilistes ou déterministes, et dites-moi si je simplifie trop les choses : le modèle prend une entrée et produit quelque chose de très spécifique, comme s'il avait un algorithme logique et produisait la même chose à chaque fois, et il pourrait être probabiliste là où il peut changer les choses et faire des sélections, la probabilité est de 80 % que je choisisse cette lettre, 90 % que je choisisse cette lettre ensuite, etc. À quel point devons-nous développer des modèles déterministes qui se synchronisent avec, par exemple, la physique ou la chimie sous-jacente aux interactions moléculaires pendant que vous effectuez votre modélisation de découverte de médicaments ? À quel point construisez-vous de nouveaux modèles déterministes qui fonctionnent avec les modèles probabilistes entraînés sur des données ?

Demis Hassabis

C'est une excellente question. Pour le moment, et je pense probablement pour les 5 prochaines années environ, nous construisons ce qu'on pourrait appeler des modèles hybrides. AlphaFold lui-même est un modèle hybride où vous avez la composante d'apprentissage, cette composante probabiliste dont vous parlez, qui est basée sur des réseaux de neurones et des transformeurs et tout ça, et qui apprend des données que vous lui donnez, de toutes les données dont vous disposez. Mais aussi, dans beaucoup de cas en biologie et en chimie, il n'y a pas assez de données pour apprendre. Vous devez donc également intégrer certaines des règles de chimie et de physique que vous connaissez déjà. Par exemple, avec AlphaFold, l'angle des liaisons entre les atomes. Et s'assurer qu'AlphaFold comprenne qu'on ne peut pas avoir d'atomes qui se chevauchent, des choses comme ça. Maintenant, en théorie, il pourrait apprendre cela, mais cela gaspillerait une grande partie de sa capacité d'apprentissage. Il est donc préférable d'avoir cela comme contrainte. Le secret, avec tous les systèmes hybrides — et AlphaGo était un autre système hybride où il y avait un réseau de neurones apprenant le jeu de Go et quels types de modèles sont bons, et puis nous avions une recherche arborescente Monte Carlo par-dessus, qui s'occupait de la planification. Le secret est donc : comment marier un système d'apprentissage avec un système plus artisanal, un système sur mesure, et les faire bien fonctionner ensemble ? Et c'est assez complexe.

David Friedberg

Est-ce que ce genre d'architecture mène finalement aux percées nécessaires pour l'AGI, selon vous ? Y a-t-il des composants déterministes qui doivent être résolus et qui font défaut ?

Demis Hassabis

En fin de compte, ce que vous voulez faire, quand vous comprenez quelque chose avec l'un de ces systèmes hybrides, ce que vous voulez finalement faire, c'est l'intégrer en amont dans la composante d'apprentissage. C'est donc toujours mieux si vous pouvez faire de l'apprentissage de bout en bout et prédire directement la chose que vous recherchez à partir des données qui vous sont données. Ainsi, une fois que vous avez compris quelque chose en utilisant l'un de ces systèmes hybrides, vous essayez ensuite de revenir en arrière et de faire de l'ingénierie inverse sur ce que vous avez fait et de voir si vous pouvez incorporer cet apprentissage, cette information, dans le système d'apprentissage. Et c'est ce que nous avons fait avec AlphaZero, la forme plus générale d'AlphaGo. AlphaGo contenait des connaissances spécifiques au Go, mais avec AlphaZero, nous nous en sommes débarrassés, y compris des données humaines, des parties humaines dont nous avions appris, et il a en fait appris de zéro par lui-même. Et bien sûr, il a alors été capable d'apprendre n'importe quel jeu, pas seulement le Go.

Energy Demand and Efficiency

David Friedberg

On a fait beaucoup de battage médiatique sur la demande d'énergie découlant de l'IA. C'était une grande partie du sommet sur l'IA que nous avons tenu à Washington D.C. il y a quelques semaines. Cela semble être le sujet numéro un dont tout le monde parle dans la tech de nos jours. D'où viendra toute cette puissance ? Mais je vous pose la question : y a-t-il des changements dans l'architecture des modèles ou du matériel ou dans la relation entre les modèles et le matériel qui fassent baisser l'énergie par jeton produit ou le coût par jeton produit et qui, en fin de compte, pourraient peut-être atténuer la courbe de demande d'énergie qui se présente à nous ? Ou ne pensez-vous pas que ce soit le cas et que nous allons toujours avoir une courbe de demande d'énergie assez géométrique ?

Demis Hassabis

Il est intéressant de noter qu'encore une fois, je pense que les deux cas sont vrais dans le sens où, surtout nous chez Google et chez DeepMind, nous nous concentrons beaucoup sur des modèles très efficaces et puissants parce que nous avons nos propres cas d'utilisation internes, bien sûr, où nous devons fournir, disons, AI Overviews à des milliards d'utilisateurs chaque jour. Cela doit être extrêmement efficace, avoir une latence extrêmement faible et être très bon marché à servir. Nous avons donc été les pionniers de nombreuses techniques qui nous permettent de le faire, comme la distillation où un modèle interne plus grand entraîne le modèle plus petit. On entraîne donc le modèle plus petit à imiter le modèle plus grand. Et au fil du temps, si l'on regarde les progrès des deux dernières années, l'efficacité des modèles est 10 fois, voire 100 fois supérieure pour les mêmes performances. Maintenant, la raison pour laquelle cela ne réduit pas la demande est que nous n'avons pas encore atteint l'AGI. Donc aussi, pour les modèles de pointe, on continue de vouloir s'entraîner et expérimenter de nouvelles idées à des échelles de plus en plus grandes, tandis qu'en même temps, du côté du service, les choses deviennent de plus en plus efficaces. Les deux choses sont donc vraies. Et en fin de compte, je pense que du point de vue de l'énergie, je pense que les systèmes d'IA redonneront beaucoup plus à l'énergie et au changement climatique et à ce genre de choses qu'ils n'en consomment, en termes d'efficacité des réseaux électriques et des systèmes électriques, de conception de matériaux, de nouveaux types de propriétés, de nouvelles sources d'énergie. Je pense que l'IA aidera dans tous ces domaines au cours des 10 prochaines années, ce qui l'emportera de loin sur l'énergie qu'elle utilise aujourd'hui.

Vision for the Next 10 Years

David Friedberg

Comme dernière question, décrivez le monde dans 10 ans.

Demis Hassabis

Waouh. D'accord. 10 ans, même 10 semaines, c'est une vie entière dans l'IA. Mais j'ai vraiment l'impression que nous aurons l'AGI dans les 10 prochaines années, une AGI complète, et je pense que cela inaugurera une nouvelle ère dorée de la science, une sorte de nouvelle Renaissance. Et je pense que nous en verrons les bénéfices partout, de l'énergie à la santé humaine.

David Friedberg

Incroyable. Merci de vous joindre à moi pour remercier le lauréat du prix Nobel Demis Hassabis. Merci, David. C'était super. Merci.

Retour aux entretiens de Demis Hassabis