L'avenir de l'intelligence avec Demis Hassabis
4 septembre 2022
Intelligence Artificielle
Introduction et l'impact d'AlphaZero
Bienvenue à l'interview TED. Je suis votre hôte, Steven Johnson.
Lorsque les futurs historiens de la technologie reviendront sur les premières décennies du XXIe siècle, je soupçonne qu'ils désigneront une journée de la fin de l'année 2017 comme l'un des jalons durables de cette période. Le jour où le programme de deep learning AlphaZero a disputé 44 millions de parties d'échecs contre une version dupliquée de lui-même.
Le logiciel avait commencé la journée préchargé avec seulement les règles de base des échecs. Les pions ne peuvent avancer que tout droit à moins de capturer une pièce, les fous se déplacent en diagonale, on gagne en mettant le roi échec et mat, et ainsi de suite. Mais à la fin de ces 44 millions de parties, qui se sont déroulées en moins d'une journée, AlphaZero était devenu sans doute le joueur d'échecs le plus dominant que le monde ait jamais connu.
AlphaZero est l'un des nombreux projets pionniers d'IA créés par la société britannique DeepMind, fondée en 2010 par l'un des esprits les plus fascinants du monde numérique, Demis Hassabis.
Maintenant, si vous voulez vous sentir bien par rapport à votre propre CV, je vous suggère de vous boucher les oreilles dès maintenant car Hassabis a eu une carrière très productive pour un homme dans la quarantaine. Enfant, il était l'un des joueurs d'échecs juniors les mieux classés au monde. À l'adolescence, il a réussi à décrocher un emploi en tant que l'un des concepteurs principaux d'un jeu vidéo à succès.
Après avoir obtenu des diplômes en neurosciences à Cambridge et à l'University College London, il a fondé DeepMind au début de la trentaine, vendant l'entreprise à Google seulement quatre ans après sa fondation.
Maintenant, vous pouvez probablement imaginer que lorsque nous avons commencé à esquisser des idées pour une série d'entretiens sur l'avenir de l'intelligence, Demis Hassabis figurait en très bonne place sur la liste des personnes à qui nous voulions parler.
Mais ce qui est étrange avec DeepMind, comme beaucoup de laboratoires d'IA des grandes entreprises technologiques en ce moment, c'est que même si l'organisation travaille sur certaines des technologies les plus révolutionnaires et les plus controversées, presque rien n'est encore disponible pour l'interaction avec les consommateurs ordinaires.
DeepMind travaille sur des réseaux neuronaux capables de prédire la forme des protéines, ce qui pourrait un jour aider à concevoir un médicament pour guérir le cancer ou inverser la maladie de Parkinson. Ils travaillent sur une IA qui pourrait être capable de contrôler les réacteurs à fusion nucléaire, ce qui pourrait un jour nous donner une source d'énergie renouvelable à un coût bien inférieur.
Mais la plupart de ces projets sont encore confidentiels ou accessibles à un petit nombre de chercheurs extérieurs. Donc, pour l'heure qui vient, nous allons demander à Demis de nous donner un aperçu de ce qui se passe dans les coulisses et de nous dire où he pense que l'IA va nous mener dans les années à venir.
L'un des esprits les plus brillants du monde parlant de l'avenir de l'intelligence. C'est l'interview TED de cette semaine.
Parcours biographique et l'influence des jeux vidéo
Demis Hassabis, bienvenue à l'interview TED.
Merci de m'avoir invité.
Nous sommes ravis de vous recevoir dans l'émission. Nous allons aborder des questions profondes sur l'intelligence, le machine learning et l'avenir de la santé et de la créativité. Mais je voulais commencer par les jeux vidéo, ce qui est approprié pour l'histoire de DeepMind, et aussi pour votre propre histoire, car l'un de vos premiers emplois à l'adolescence était d'être l'un des concepteurs clés d'un jeu de simulation classique des années 90 appelé Theme Park, auquel j'ai joué à l'époque, et j'ai aussi joué à Black & White, auquel je crois que vous avez également participé. Je voulais commencer par une note biographique : comment avez-vous obtenu ce poste chez Theme Park et comment cela a-t-il mené au travail que vous faites avec l'IA ?
Les jeux sont un bon point de départ pour moi. Je joue à des jeux et je suis fasciné par eux aussi loin que je me souvienne, à commencer par les échecs, que j'ai appris à jouer à l'âge de quatre ans. J'ai été capitaine de nombreuses équipes de jeunes d'Angleterre et, pendant un certain temps, c'est ce que j'allais faire : être un joueur d'échecs professionnel.
Mais ce que cela m'a laissé, l'empreinte que cela a laissée sur moi, c'est de réfléchir à la réflexion. En essayant de s'améliorer, surtout en tant que jeune joueur d'échecs, on essaie d'améliorer sa prise de décision et sa planification et tout ce qui rend bon aux échecs, y compris la visualisation et l'imagination. Pour moi du moins, cela m'a amené à réfléchir à ce qu'il y avait dans le cerveau qui générait ces idées, parfois des erreurs, et cela m'a passionné pour le cerveau, les neurosciences et l'intelligence.
Ensuite, j'ai découvert les ordinateurs un peu plus tard et j'ai appris à programmer, et ces deux amours différents pour les ordinateurs et les jeux se sont naturellement rejoints dans la conception et la programmation de jeux vidéo. J'ai eu la chance de terminer deuxième d'un concours national de programmation quand j'avais environ 13 ou 14 ans, et le gagnant a décroché un emploi dans ce qui était alors la première maison de logiciels en Europe, appelée Bullfrog Productions. Ils ont créé des jeux incroyables comme Populous. J'ai appelé le PDG pour lui demander si je pouvais venir pour un stage, et j'ai fini par rester deux ans.
Je suppose que la plupart des adolescents de 14 ans se contentent de dire : "Je vais juste appeler le PDG".
Il était fasciné par ce que je faisais, puis j'ai fini par prendre un peu de temps entre l'école et l'université pour programmer Theme Park. Au milieu des années 90, c'était l'âge d'or de la conception de jeux et de la créativité, et une grande partie des meilleures technologies étaient développées dans le cadre des jeux, y compris les graphismes et l'IA. Tous les jeux que j'ai écrits, y compris Theme Park et Black & White, avaient l'IA comme composante centrale du gameplay, de sorte que le jeu réagit à vous et à votre façon de jouer en tant qu'individu.
Les jeux de simulation comme terrain d'entraînement
C'est une histoire tellement intéressante. Ces jeux de simulation où l'on gère des ressources, en essayant de se fixer des objectifs et en traitant plusieurs couches de simulation — en commençant par SimCity puis en passant par des jeux comme Theme Park et Black & White — c'est un argument que je soutiens depuis de nombreuses années : ils devraient être enseignés dans les écoles. C'est une façon de penser incroyablement riche et c'est très différent de la façon de penser que l'on a en lisant un roman ou en résolvant un problème mathématique, mais cela correspond au genre de réflexion que l'on doit avoir dans la vie, probablement plus que certains de ces autres domaines.
Je suis tout à fait d'accord. Je pense que les échecs devraient être enseignés dans le cadre du programme scolaire car ils enseignent des compétences phénoménales généralisables et transférables à d'autres aspects de la vie, comme la planification et la visualisation. Je suis également d'accord avec vous au sujet de ces types de jeux de simulation. On peut les appeler des bacs à sable ; l'idée est que c'est presque comme un parc de jeux pour votre créativité en tant que joueur. C'est très différent des jeux normaux où le jeu vous guide par la main. Dans Theme Park, vous concevez votre propre Disney World et des milliers de personnages IA entraient dans votre parc d'attractions et profitaient des manèges, et selon la qualité de la conception du parc, ils étaient plus ou moins heureux. S'ils étaient heureux, vous pouviez leur faire payer plus cher aux stands de burgers et pour les Cokes et les ballons. Il y a tout un modèle économique là-dessous. C'était une expérience vraiment intéressante et instructive pour moi, non seulement professionnellement mais aussi en démontrant la puissance de l'IA. À l'époque, il s'agissait d'une IA assez traditionnelle déployée dans un jeu avec des automates finis, pas comme l'IA que nous construisons aujourd'hui, mais c'était tout de même incroyable de voir à quel point les gens appréciaient l'interaction avec un jeu qui avait l'IA en son cœur.
DeepMind a une longue histoire impliquant des algorithmes développés pour jouer à des jeux, mais aucun d'entre eux n'était des jeux de simulation. C'est Space Invaders, Q*bert et StarCraft, mais il n'y a pas de joueurs simulés de Black & White dans le canon de DeepMind. Y a-t-il une raison à cela ? D'une certaine manière, c'est la vision archétypale d'une future IA que nous avons en tête — que nous aurions une intelligence artificielle capable de gérer la ville pour nous très efficacement. C'est probablement là que nous voulons aller, mais vous ne l'avez pas encore fait, n'est-ce pas ?
C'est une observation intéressante. Il y a trois chapitres dans ma vie où les jeux ont été importants : d'abord les échecs et ma jeunesse, puis la conception et l'écriture de jeux vidéo professionnels, et enfin ce troisième chapitre consistant à utiliser les jeux chez DeepMind dès le début dans le cadre de notre thèse et comme terrain d'entraînement pour les systèmes d'IA. C'est un terrain d'entraînement pratique pour de nombreuses raisons. Vous pouvez exécuter des millions de simulations à la fois dans le cloud et vous n'avez pas à vous soucier de la robotique réelle où l'on finit souvent par s'inquiéter de la casse du matériel. C'était quelque chose que je considérais comme le terrain d'entraînement idéal pour que les systèmes d'IA progressent rapidement. L'autre avantage des jeux est que les concepteurs et les sociétés de jeux ont passé des milliers d'années-personnes à créer des choses stimulantes pour les joueurs humains ; elles sont à la fois difficiles et amusantes à jouer. On peut monter dans l'échelle de difficulté même dans les jeux informatiques. Nous avons commencé de manière célèbre avec les jeux Atari — probablement les premiers jeux informatiques devenus populaires dans les années 70 et 80 — comme Space Invaders et Pong. C'était déjà assez difficile pour nous en 2012. Je me souviens que nous ne pouvions pas marquer un point à Pong.
C'est incroyable.
Je me souviens que pendant six mois, nous ne pouvions pas déterminer si c'était aléatoire ou si de temps en temps il renvoyait la balle, et il ne pouvait pas gagner un point contre l'IA intégrée. On se disait : "c'est impossible", car il apprenait uniquement à partir des pixels sur l'écran. Finalement, il a marqué un point. Nous aurions dû enregistrer ce moment, d'ailleurs. Puis, peu de temps après, il a gagné une partie en 21 points, et très vite après cela, il gagnait 21-0 et ne pouvait plus être battu. C'était la première fois que nous voyions cette amélioration exponentielle et nous allions la revoir à maintes reprises. Nous l'avons fait avec tous les jeux Atari, ce qui a été notre premier résultat célèbre et la naissance du deep reinforcement learning. Ensuite, nous passons à des jeux plus complexes comme le Go, le jeu de plateau le plus complexe qui existe, et des choses comme StarCraft, qui est le jeu de stratégie en temps réel le plus complexe. Nous choisissons des jeux qui sont au juste milieu : pas trop faciles pour que ce soit trivial de les résoudre, mais pas trop difficiles pour que l'on ne puisse détecter aucun progrès. La raison pour laquelle nous avons choisi des jeux plus compétitifs est qu'il est plus pratique d'avoir une mesure sur laquelle on peut s'appuyer pour progresser.
C'est vrai.
Gagner une partie rapporte une récompense au système car nous utilisons l'apprentissage par renforcement et maximisons le score dans un jeu comme Space Invaders. Très vite, on peut évaluer si l'on fait des progrès et utiliser cette récompense et ces mesures pour améliorer les algorithmes. Cela dit, je pense que nous évoluons maintenant, nous avons pratiquement gagné à tous les jeux existants, donc le Go et StarCraft. Nous nous tournons en fait davantage vers ces simulations de type bac à sable de forme libre maintenant, où la difficulté réside dans le fait que l'IA doit en quelque sorte définir ses propres objectifs.
C'est vrai.
Comme dans Minecraft ou un jeu de type Theme Park. Mais c'est vers cela que nous nous dirigeons maintenant, y compris en construisant nos propres simulations en interne.
Le Deep Reinforcement Learning expliqué
Ce qui rend précisément ces jeux intéressants intellectuellement pour un joueur humain, c'est que vous fixez vos propres objectifs et décidez quel genre de monde vous voulez construire. Toutes ces questions les rendent plus difficiles à utiliser comme mesure de progrès en mode entraînement. Je veux vous poser encore quelques questions sur les jeux, mais définissons d'abord le deep reinforcement learning et commençons peut-être par Pong. Je pense que ce n'est pas un excellent exemple de tâche simple : gagner une partie de Pong, ce qu'un enfant de six ans peut faire. C'était difficile au début parce que vous partiez de zéro, l'ordinateur n'en savait rien d'autre que les pixels. Expliquez-nous comment cela fonctionne.
Oui, exactement. La raison pour laquelle c'était difficile pour ces jeux Atari est que nous ne donnions au système que les valeurs brutes des pixels. Il ne connaissait pas les règles, ce qu'il contrôlait ou comment obtenir des points. Il devait le découvrir par lui-même. Il y a deux technologies principales que nous avons combinées. Premièrement, il y a le deep learning, qui est un réseau neuronal hiérarchique vaguement inspiré de l'architecture du cerveau. Le rôle de cette partie est de créer un modèle de l'environnement ou du flux de données dans lequel il se trouve — dans le cas d'Atari, l'écran Atari. Que sont ces nombres de pixels ? Évidemment, il y a des corrélations et une structure dans ces pixels, il doit donc le découvrir. Ensuite, il y a la deuxième partie, l'apprentissage par renforcement. Cette partie est celle qui maximise les récompenses ou satisfait les objectifs du système. Si l'agent se trouve dans un environnement, il a un objectif qu'il essaie d'atteindre, comme gagner une partie ou maximiser les points spécifiés par les concepteurs. Il dispose de ce modèle et doit trouver les bonnes actions à entreprendre à tout moment pour se rapprocher au mieux de son objectif global. Cette partie est l'apprentissage par renforcement. En fait, nous savons que c'est aussi ainsi que fonctionne le cerveau ; c'est le système dopaminergique du cerveau qui met en œuvre une forme d'apprentissage par renforcement appelée apprentissage par différence temporelle (TD learning). Nous combinons ces deux technologies — le deep learning pour la modélisation et l'apprentissage par renforcement pour la prise de décision — et nous appelons cela le deep reinforcement learning ou deep RL. Il s'avère que c'est extrêmement puissant et c'est aussi ce que nous avons utilisé dans AlphaGo. C'est efficace car l'apprentissage par renforcement est comme l'algorithme de planification ; c'est comme effectuer une recherche parmi toutes les possibilités, que ce soit pour une partie de Go ou d'Atari. Mais si vous faites simplement une recherche naïve par force brute et que vous regardez tout, ce n'est pas réalisable. Vous utilisez donc votre modèle pour imaginer différents chemins et le modèle vous indique à quoi l'environnement ressemblera potentiellement si vous effectuiez cette action. Cela aide à réduire cet espace de recherche de sorte qu'au final, le système ne regarde que les choses utiles, un peu comme le ferait un grand maître d'échecs humain.
Neurosciences et mécanismes de prédiction
L'une des choses que je trouve si intéressante dans la convergence des neurosciences et de l'IA au cours des 20 ou 30 dernières années, c'est notre compréhension de ce mécanisme de récompense, le mécanisme de la dopamine dont nous parlons dans le cerveau. On pense souvent que l'explication populaire est la réponse dopaminergique à une récompense dans le monde extérieur, mais en fait, elle répond aux attentes de récompense. Je pense que c'est également pertinent dans le monde de l'IA. Il y a une sorte de mécanisme de récompense attendue là aussi, n'est-ce pas ?
C'est exact. Il s'est avéré que ce n'est pas l'obtention de la récompense qui est importante, mais plutôt votre attente de savoir si vous allez obtenir cette récompense. D'une certaine manière, ce que font ces systèmes d'apprentissage par renforcement, c'est d'entraîner votre capacité prédictive. Ce qui est important, c'est que si je prédis que je vais recevoir une récompense et que j'en reçois une, cela signifie que mon modèle est bon. Mais si je ne prédis pas de récompense et que j'en reçois une, c'est une surprise positive. Je dois alors mettre à jour mon modèle pour qu'il comprenne cela et que la prochaine fois que je serai dans cette situation, il soit plus susceptible de prédire la bonne chose. En fin de compte, une grande partie de l'intelligence concerne la capacité prédictive. Puis-je prédire ce qui va se passer ensuite et utiliser cela pour éclairer ma planification ?
D'AlphaGo à AlphaZero : l'auto-apprentissage
Vous avez fait allusion à AlphaGo. Je voulais passer à AlphaZero, cette plateforme que vous avez développée. Je me souviens avoir lu qu'AlphaZero a joué 44 millions de parties d'échecs contre lui-même et est passé d'une connaissance nulle, à part les règles des échecs, au statut de plus grand joueur d'échecs ayant jamais existé. Ce qui est essentiel dans cette approche, c'est ce modèle contradictoire où deux versions du logiciel s'affrontent et entrent dans cette compétition où elles montent en puissance jusqu'au statut de grand maître plus. Ma question est de savoir dans quelle mesure ce modèle contradictoire est applicable dans des situations autres que les jeux ? Considérez-vous cela comme une stratégie utilisable en dehors du monde du jeu ?
Oui. Il serait peut-être utile de parler un peu de la lignée entre AlphaGo et AlphaZero. Avec AlphaGo, ce que nous avons fait, c'est mettre en place deux systèmes d'apprentissage par renforcement pour se défier l'un l'autre et monter en puissance en essayant de se battre mutuellement. Nous l'avons fait d'abord avec le Go et uniquement avec le Go dans AlphaGo. Ensuite, ce que nous avons fait avec AlphaZero a été de supprimer tout ce qui était spécifique au Go pour en faire un système de jeu général capable de jouer à n'importe quel jeu à deux joueurs à un niveau supérieur à celui de champion du monde. Il est intéressant d'essayer d'adapter d'autres choses plus générales qui ne sont pas des jeux à ce type de mécanisme d'auto-apprentissage. Parfois, il ne s'agit pas seulement de deux adversaires, mais cela peut aussi être le système et l'environnement qui sont l'adversaire d'une certaine manière. Nous l'avons étendu d'autres manières avec notre programme StarCraft. Là, nous avions une ligue d'agents ; nous en avions 20 ou 30 dans une ligue AlphaStar, chacun doté de stratégies différentes, puis il fallait utiliser un équilibre de Nash pour trouver quel agent était le meilleur du lot. C'est presque comme instaurer une dynamique de marché et laisser cela façonner le développement de l'agent. Nous appelons parfois cela l'apprentissage ouvert, où nous avons des environnements générés de manière procédurale en simulation, puis les jeux sont presque inventés de manière algorithmique, de petits mini-jeux de chat et de cache-cache. Les agents doivent comprendre par eux-mêmes dans ce jeu et généraliser à partir d'autres situations qu'ils ont rencontrées auparavant. Une chose mérite d'être mentionnée : bien que nous ayons commencé par les jeux comme terrain d'essai pratique, l'objectif ultime de DeepMind et de nos algorithmes était de construire des algorithmes à usage général. Gagner à ces jeux a toujours été un moyen d'arriver à une fin. Ce n'a jamais été une fin en soi, aussi fascinants que soient ces résultats. Ils ont permis de découvrir de nouvelles idées fabuleuses dans ces jeux et ont changé le monde de ces jeux. Mais en fin de compte, nous voulions construire des algorithmes puissants à usage général qui pourraient être transférés à des problèmes et des domaines du monde réel, y compris la science.
Oui, il m'a toujours semblé que le modèle de jeu contradictoire trouverait un parallèle évident dans le système immunitaire, évoluant en réponse à de nouveaux agents pathogènes imprévus qui apparaissent. Est-ce quelque chose sur lequel vous avez travaillé ?
Nous n'avons pas travaillé là-dessus, mais c'est sur notre liste de choses à faire. Je suis d'accord que les systèmes immunitaires ou les microbiomes pourraient être un espace contradictoire assez intéressant. Je pense aussi qu'il y a des applications dans la finance et les fintechs où l'on peut considérer le marché boursier comme un immense jeu. Il y aura très certainement des applications là-bas. Beaucoup de choses peuvent être reformulées, même des choses scientifiques, dans ce type de va-et-vient où cette progression se produit. Je pourrais imaginer une situation où une IA est l'environnement lui-même, appris à partir de données réelles, et l'autre IA est l'agent essayant d'accomplir quelque chose dans cet environnement. Un agent est celui qui essaie d'atteindre un objectif et l'autre est l'adversaire, c'est-à-dire l'environnement. Mais les deux sont des systèmes d'IA. C'est donc en fait assez général comme extension.
L'émergence des grands modèles de langage (GPT-3)
Quand on regarde le paysage général actuel, je pense que beaucoup d'entre nous ont vu AlphaGo et AlphaZero as des jalons majeurs, mais il y en a eu quelques autres ces dernières années, tant au sein de DeepMind que dans le domaine plus large. Y a-t-il d'autres points de repère au cours des trois ou quatre dernières années où vous vous êtes dit : "oh, ça c'est énorme, c'est quelque chose que je ne pensais pas que nous pourrions faire si vite" ?
Nous avons eu beaucoup de chance d'être à l'origine de plusieurs de ces grands moments, comme celui d'Atari d'abord, DQN, AlphaGo, AlphaZero, puis plus récemment AlphaFold. Mais celui qui, à l'extérieur, a été vraiment significatif est GPT-3 d'OpenAI. Pas tant parce qu'ils ont inventé une nouvelle technologie, mais parce qu'ils ont été les premiers à essayer d'y aller à grande échelle, comme pour la compréhension du langage, de manière brutale. Ce qui a été surprenant, c'est que j'ai vu ce développement depuis GPT-2, et ce n'était pas très impressionnant ; il faisait exactement ce à quoi je m'attendais, c'est-à-dire être une piètre mémorisation de ses données d'entraînement sans donner de réponse pertinente. On voyait qu'il ne faisait que mémoriser des choses et essayer de choisir le mot le plus proche. Ce n'était pas très convaincant. J'ai longtemps pensé que les deux problèmes liés au traitement du langage de cette manière seraient qu'il n'est pas ancré dans le monde réel, dans l'expérience réelle. Même en simulation, il s'agit toujours d'un véritable ancrage dans l'expérience sensorimotrice ; vous recevez des entrées sensorielles et vous pouvez alors former de vrais concepts sur les choses, des concepts ancrés ou des abstractions sur le fonctionnement du monde. Nous en débattions beaucoup au sein de DeepMind, mais aussi au sein de la communauté de l'IA : que se passerait-il si vous ne lisiez que Wikipédia et rien d'autre ? C'est un problème classique de l'IA traditionnelle qui a donné lieu à d'énormes projets dans les années 80 et 90. Il y a eu ce projet immense appelé Cyc de Doug Lenat. Il s'agissait littéralement de saisir manuellement dans une base de données les règles du monde, les règles logiques de son fonctionnement. Je pense que le rêve derrière cela était que vous lui posiez une question et que d'une manière ou d'une autre, il soit capable de vous donner des réponses de bon sens. Cela n'a jamais vraiment fonctionné car il est très difficile d'encapsuler toutes nos connaissances sous forme de règles. L'un des très gros problèmes était que ce n'était pas ancré. Il vivait juste dans le monde des symboles. Quand on lui parlait d'un chien, il ne savait pas vraiment qu'un chien a quatre pattes et aboie. Mais ce qui s'est passé avec GPT-3, c'est qu'il s'est avéré que le simple fait de passer à une échelle supérieure a permis de franchir un seuil d'une manière ou d'une autre. Soudain, il faisait des choses impressionnantes, pas seulement régurgiter du texte, mais fusionner et faire la moyenne de manière semi-intelligente de différentes choses qu'il avait apprises. Aujourd'hui, nous avons nos propres modèles très avancés, chez Google ou Meta, ainsi qu'OpenAI. Il est très intéressant de constater qu'à cette échelle, certaines des hypothèses initiales que l'on pouvait avoir sur l'intelligence et le fait de l'exercer à la manière du cerveau pourraient ne pas tenir.
Compréhension, conscience et échelle
Oui. C'est une période tellement intéressante. Je veux dire, vous avez probablement vu cet article que Google a publié où son PaLM ou LaMDA expliquait des blagues qu'il n'avait jamais vues auparavant. Cela n'a pas été reproduit ; on l'a accusé de sélection arbitraire et on se pose toutes ces questions, mais les réponses fournies dans cet article sont très sophistiquées. Il est important que les auditeurs comprennent ceci : quand nous disons que l'IA est capable de comprendre une blague, nous ne suggérons pas que l'IA est sensible ou consciente, mais plutôt qu'elle semble capable de représenter les concepts derrière la blague et ce qui la rend drôle d'une manière intelligible, condensable ou partageable. Et c'est quelque chose qui, je pense, pour la plupart des gens du domaine, n'était pas du tout évident : que les grands modèles de langage allaient en être capables.
Je suis tout à fait d'accord. Et je suis aussi d'accord sur le point de la conscience. Ces systèmes sont loin d'être — à mon avis, il n'y a même pas un semblant ou un soupçon de sensibilité ou de conscience pour le moment. Nous pouvons mettre cela de côté pour l'instant. Mais certainement, même la compréhension, je n'ai pas l'impression que ces systèmes comprennent vraiment au sens où nous l'entendons ce qu'ils disent. Malgré cela, ce qui est vraiment intéressant, c'est qu'ils peuvent toujours dire des choses intelligibles, assez utiles, y compris potentiellement expliquer des blagues, ce qui a toujours été considéré comme une forme d'intelligence d'ordre assez élevé, comme la compréhension de l'ironie ou du sarcasme. C'est un niveau de compréhension méta. Une fonction de haut niveau. Et bien sûr, il reste des questions : dans quelle mesure généralise-t-il ? Était-ce vraiment dans les données d'entraînement quelque part ? Je pense que l'une des raisons pour lesquelles nous n'avions pas nécessairement réalisé que ces systèmes seraient capables de faire ce genre de choses une fois arrivés à la bonne échelle est que nous sommes désormais bien au-delà de l'échelle où nous pouvons utiliser utilement des expériences de pensée humaine à ce sujet. Je m'asseyais il y a quelques années en rêvant : et si je lisais tout Wikipédia en tant que système d'IA naïf — que saurais-je ? Nous avons tous passé des heures sur Wikipédia à suivre des liens et à simplement apprécier la lecture d'articles au hasard. Il y a une tonne d'informations là-dessus. Mais je ne pense pas qu'aucun d'entre nous, avec nos esprits limités, puisse comprendre ce que ce serait de lire l'intégralité d'Internet. Qu'est-ce que cela signifie, à tant de niveaux ? Eh bien, tout d'abord, le voudrions-nous ? C'est une bonne question. Et qui sait ce qu'il y a dedans. Mais que contiendrait-il ? Nous avons maintenant 30 ans d'êtres humains, des milliards d'entre nous, mettant des choses sur cette ressource de connaissances partagées qu'est Internet. Pensez simplement au nombre de vidéos qui ont été enregistrées sur tous les appareils ; c'est ahurissant. Et peut-être se pourrait-il que nous ayons enregistré chaque recoin du monde d'une manière ou d'une autre. Presque tout ce qui peut être fait. C'est possible. Cela semble devoir être incalculablement vaste. Mais peut-être n'est-ce pas tout à fait aussi vaste qu'on pourrait l'imaginer. Par conséquent, si un grand modèle ingère toutes ces informations d'une manière ou d'une autre de façon utile, et bien sûr ces modèles sont actuellement très inefficaces en termes de données, surtout par rapport à quelque chose comme le cerveau, mais cela peut aussi être amélioré. Alors, quelles informations se trouvent réellement là-bas ? Il se pourrait bien que l'explication de blagues soit possible.
Le défi des hallucinations et de la fiabilité
D'après mon expérience avec les grands modèles de langage, le problème qui me semble être le plus difficile à résoudre est ce qu'on appelle parfois la tendance du modèle à halluciner. J'ai un jour demandé à GPT-3 d'écrire un essai sur un chimiste belge que j'avais inventé, et il a produit cette magnifique entrée de type Wikipédia remplie de détails, de citations et d'une biographie. Le logiciel ne semble tout simplement pas capable de dire : "Je ne connais pas la réponse à cela", et il va simplement improviser s'il n'a rien sur quoi s'appuyer. Ma question est la suivante : existe-t-il un moyen de résoudre ce problème ? Parce que c'est un problème majeur de fiabilité pour l'avenir.
Je pense que ce sera un problème difficile, mais je vois comment il pourrait être résolu. Je pense que le modèle a besoin d'une estimation de sa propre confiance dans une réponse. Et si celle-ci est inférieure à un certain seuil, il devrait dire : "Je ne sais pas". Pour le moment, je pense que nous ne permettons pas vraiment au système de faire cela. Des systèmes très modernes le font maintenant, ils disent "Je ne sais pas" ou posent une question complémentaire. Ce qu'ils me rappellent actuellement, c'est qu'en neurosciences, j'ai étudié des personnes atteintes d'amnésie hippocampique et elles ont tendance à fabuler parce qu'elles n'ont pas vraiment de mémoire. Ces systèmes sont également déficients en termes de mémoire. Je pense qu'avoir une estimation de ses propres réponses et de leur probabilité d'être bonnes ou non — et ensuite si l'on n'est pas confiant — on devrait simplement ne pas répondre.
Éthique, sécurité et méthode scientifique
Je suis simplement curieux de savoir si cela vous surprend en regardant la discussion plus large à ce sujet. Est-ce quelque chose que vous aviez anticipé lorsque vous avez commencé à envisager de lancer DeepMind, ou cela vous a-t-il surpris à un certain niveau ?
Cela ne me surprend pas dans un certain sens. Nous avions prévu le succès dès 2010 quand nous avons lancé DeepMind. Nous avons toujours considéré l'éthique et la sécurité comme des éléments clés de ce que nous faisions et des impacts éventuels de ces technologies. Parce que nous croyions en ce que nous faisions, nous étions convaincus que l'IA serait l'une des inventions les plus importantes de l'humanité et qu'elle pourrait être largement applicable. Il est donc naturel qu'un examen minutieux ait lieu et que de nombreux débats surgissent, en partie parce qu'il s'agit d'une technologie très naissante, donc encore en cours de définition. Il y a un grand potentiel tant pour le bien que pour le mal dans ces technologies. Nous devons donc gérer cela correctement et être très réfléchis. À mon avis, je pense que nous devrions utiliser la méthode scientifique pour le faire, être réfléchis, générer des hypothèses et essayer de mieux comprendre nos outils plutôt que de suivre simplement le trope de la Silicon Valley qui consiste à "avancer vite et tout casser". Je pense que nous ne devrions pas faire cela avec ce type de technologies car casser des choses dans le monde réel pourrait être très, très dommageable si la technologie est très puissante. Ce n'est pas juste une application de jeu ou de photo. Je pense que le langage en particulier a été un paratonnerre parce que contrairement peut-être aux jeux ou même à la science — qui sont des domaines relativement de niche. Je pense que la science est probablement à mon avis la chose la plus importante que nous puissions faire avec l'IA. Mais ces domaines sont un peu spécialisés pour le grand public. Alors qu'avec le langage, il n'est pas nécessaire d'être un chercheur en IA pour interagir avec l'un de ces systèmes et se dire : "waouh, que se passe-t-il ici ?" Et bien sûr, cela interagit déjà avec certaines des difficultés que nous voyons avec les réseaux sociaux en général et les deepfakes. Le domaine du langage a été rattrapé par toutes les dynamiques politiques et culturelles plus larges que nous observons.
AlphaFold : une révolution pour la biologie
Vous avez donc fait allusion à AlphaFold tout à l'heure, passons à ce sujet car il a des implications vraiment intéressantes pour la science et la santé. AlphaFold a fait la couverture du magazine Science. Dites-nous d'abord ce qu'est AlphaFold et où vous voyez cela aller.
AlphaFold est notre système pour résoudre ce qu'on a appelé le problème du repliement des protéines. Laissez-moi d'abord expliquer un peu le problème. Les protéines sont essentielles à la vie. Votre génome code pour des protéines, chaque gène code plus ou moins pour une protéine. Les protéines sont parfois appelées les chevaux de bataille de la biologie. Fondamentalement, toutes les fonctions biologiques de votre corps sont régies par des protéines. Le problème du repliement des protéines est le suivant : peut-on prédire, à partir de la séquence génétique appelée séquence d'acides aminés, la forme 3D que cette protéine prendra lorsqu'elle sera dans le corps ? La raison pour laquelle la forme 3D est importante est que la forme d'une protéine régit souvent sa fonction. Si vous voulez comprendre la fonction de la protéine, comment elle dysfonctionne dans une maladie et quels médicaments cibler, vous devez comprendre sa forme 3D. Depuis 50 ans, des gens travaillent sur ce problème. Il a été articulé pour la première fois par un prix Nobel, Christian Anfinsen, dans son discours de réception du prix Nobel en 1972, affirmant qu'il devrait être théoriquement possible de passer de la séquence unidimensionnelle à la forme tridimensionnelle. La méthode habituelle est un travail expérimental minutieux utilisant des machines massives, la cryo-microscopie électronique (cryo-EM) et des machines de cristallographie aux rayons X, et la règle générale est qu'il faut quatre ou cinq ans à un doctorant pour une seule protéine. Dans toute l'histoire de la biologie expérimentale, seules 150 000 protéines ont eu leur structure identifiée.
Et quelle est la gamme totale de protéines que nous connaissons ?
Il y en a plus de 100 millions connues de la science. Et des millions s'ajoutent chaque année parce que notre séquençage génétique est très rapide maintenant, mais cette prédiction de la structure des protéines est très lente expérimentalement. Nous avons donc utilisé ces données initiales pour entraîner AlphaFold, qui est un système d'apprentissage profond sur mesure et innovant comportant des éléments spécifiques liés à la biologie et à la physique. Il est capable de prendre une séquence d'acides aminés et de vous donner la structure 3D en quelques secondes avec une précision atomique. C'est le seuil à partir duquel il devient utile pour les biologistes et les chimistes, qui peuvent alors compter sur lui pour des tâches ultérieures comme la découverte de médicaments sans nécessairement avoir à effectuer les expériences minutieuses.
C'est donc comme s'il y avait une sorte de livre de codes où l'on a ces séquences d'acides aminés et où un petit sous-ensemble de l'ensemble du domaine a été traduit en une forme tridimensionnelle. Vous avez donc donné cela à AlphaFold et il est capable de détecter une sorte de motif sous-jacent dans tous ces codes traduits qu'il peut ensuite appliquer à de nouveaux codes qu'on lui donne sous la forme d'autres acides aminés.
C'est exact. Le système a en quelque sorte compris quelque chose sur le fonctionnement de la physique des protéines et la manière dont elles se replient. Il peut presque faire une traduction entre la séquence unidimensionnelle et, finalement, la structure tridimensionnelle. La première chose que nous avons faite a été de replier presque toutes les protéines du corps humain. Du jour au lendemain, nous avons plus que doublé le nombre de structures connues avec une grande précision. Nous en avons maintenant publié plus d'un million. Et au cours de l'année prochaine, nous prévoyons de publier les 100 millions de protéines connues de la science. Nous nous sommes associés à l'Institut européen de bio-informatique à Cambridge pour publier ouvertement toutes ces données au profit de la communauté scientifique et, en fait, comme un cadeau à l'humanité. Nous avons autorisé tout type d'utilisation. Les laboratoires pharmaceutiques pour la découverte de médicaments l'utilisent déjà depuis moins d'un an. Il a déjà été cité environ 3 000 fois, ce qui est un nombre énorme pour moins d'un an. Nous pensons que pratiquement tous les biologistes du monde ont consulté leurs protéines sur cette base de données.
Pour un non-scientifique, en quoi cela importera-t-il en premier lieu pour sa santé ? Où voyez-vous l'application la plus immédiate de cela ?
L'application la plus immédiate est la découverte de médicaments. Lorsque vous essayez de concevoir un nouveau composé, vous essayez fondamentalement de déterminer où, à la surface de la protéine, cette molécule doit se lier pour corriger le problème. Si vous connaissez maintenant la structure 3D et la surface, vous savez beaucoup mieux où cibler votre médicament. Cela devrait accélérer tous ces processus. L'autre chose est que j'espère que beaucoup de maladies actuellement considérées comme liées à des protéines qui se replient mal — comme Alzheimer pourrait l'être à cause de la protéine bêta-amyloïde — pourront être traitées. Beaucoup de ces régions de protéines sont déstructurées jusqu'à ce qu'elles interagissent avec quelque chose. AlphaFold s'avère être un très bon prédicteur de ces types de régions désordonnées. Les gens l'utilisent donc déjà. Non seulement il peut vous donner la structure 3D, mais il peut aussi vous dire quelles parties vont se déplier à moins d'interagir avec quelque chose. Je pense que ce sont les deux applications à court terme les plus évidentes.
Concepts abstraits et raisonnement analogique
Dans votre domaine, quel est le problème non résolu qui vous fascine le plus et dont vous aimeriez voir le mystère percé ? Si vous pouviez avancer de 10 ans, quel serait le problème que vous aimeriez le plus voir résolu ?
Celui sur lequel je passe le plus de temps à réfléchir est la notion de concepts abstraits ou de connaissances conceptuelles. Il existe des preuves que ces grands modèles actuels ont une certaine capacité de composition, mais elle est encore assez rudimentaire. Faire preuve de compréhension, c'est être capable d'abstraire des choses et d'appliquer ensuite ces abstractions dans une nouvelle situation de manière fluide. C'est ce qu'on appelle l'apprentissage par transfert ou le raisonnement analogique. Bien sûr, les humains font cela sans effort avec leur cerveau : apprendre quelque chose dans un domaine, trouver la structure sous-jacente, puis l'appliquer dans un nouveau domaine. Jusqu'à présent, les systèmes d'IA ne font pas vraiment cela de manière satisfaisante. Je pense que si l'on parvenait à résoudre ce problème, nous comblerions le fossé qui existe encore actuellement sur la manière de ramener ces systèmes d'apprentissage à la manipulation symbolique. Des choses comme les mathématiques et peut-être faire des découvertes mathématiques. Je pense que nous en sommes encore assez loin. Personne ne sait vraiment comment combler ce fossé. Nous avons des projets prototypes en cours sur ce problème, mais jusqu'à présent, je dirais que nous ne savons pas encore comment le résoudre. C'est un peu un mystère de savoir à quoi ces représentations conceptuelles devraient même ressembler.
L'IA et les limites de la créativité
Je pourrais vous parler pendant une journée entière. Mais une dernière question. Il y a un moment célèbre dans l'histoire de l'informatique primitive quand Ada Lovelace a prédit qu'à l'avenir, les ordinateurs ne seraient pas seulement utiles pour les mathématiques, mais qu'ils seraient un jour capables de composer de la musique et de faire d'autres travaux créatifs. J'étais donc curieux de savoir où vous pensiez que nous en étions maintenant et où nous en serions dans les années à venir en termes de créativité.
La façon dont je vois les choses actuellement, c'est que je placerais la créativité dans trois catégories si nous définissons la créativité comme le fait de produire quelque chose d'inédit ou de nouveau dans un but précis. Je pense que ce que les systèmes d'IA sont assez bons pour faire en ce moment, c'est l'interpolation et l'extrapolation. L'interpolation consiste à faire une moyenne à partir d'exemples. L'extrapolation ressemble davantage à ce qu'AlphaGo a fait, c'est-à-dire jouer 10 millions de parties de Go, observer les parties humaines, et proposer une nouvelle stratégie de Go ou d'échecs jamais vue auparavant. Le coup 37 de la deuxième partie du grand match que nous avons disputé contre le champion du monde a été salué comme un coup auquel aucun humain n'aurait jamais pensé. Il a été joué sur une mauvaise position, tous les professionnels s'en sont moqués, et maintenant des livres de Go sont écrits sur ce coup. Il est entré dans l'histoire du Go. Mais ce qui manque, c'est la véritable invention. Nos systèmes comme AlphaZero peuvent inventer de nouvelles stratégies aux échecs et au Go, mais ils ne peuvent pas inventer le Go. Ce serait alors le niveau de créativité le plus élevé. Pouvez-vous inventer un jeu aussi génial que le Go ou les échecs ? Ça, ils ne peuvent pas le faire. C'est un peu un mystère de savoir ce qu'est cette pensée hors des sentiers battus, mais je pense que c'est lié aux abstractions de concepts que j'ai mentionnées plus tôt. Si nous résolvons cela, on pourrait alors avoir des systèmes qui font ce que nous considérerions comme de la véritable créativité. Parce que si vous imaginez, quel genre d'instruction voudriez-vous donner à un grand modèle pour inventer le Go ? Vous diriez quelque chose comme : "peux-tu m'inventer un jeu que je puisse apprendre en cinq minutes mais qui ne puisse pas être maîtrisé en plusieurs vies, mais qui ne prenne que quatre heures à jouer pour qu'il s'insère dans ma journée, et qui soit esthétiquement beau ?" Mais tous ces mots sont des concepts de très haut niveau. Je suis presque certain que les modèles actuels n'inventeraient pas le Go. Et c'est le genre d'instruction que je pense que nous aimerions donner à nos systèmes. On pourrait imaginer qu'en science, nous avons créé AlphaFold, mais que faudrait-il pour qu'un système propose la relativité générale comme Einstein l'a fait et fasse réellement progresser notre connaissance du monde et de la physique, ce que je veux ultimement faire avec l'IA, en fait, c'est comprendre l'univers qui nous entoure. Cette question va nécessiter une véritable créativité, et nous n'y sommes pas encore.
Conclusion
Eh bien, Demis Hassabis, merci beaucoup pour cette conversation. C'était un véritable plaisir.
Merci beaucoup de m'avoir invité.