Demis Hassabis - La puissance des systèmes d'auto-apprentissage

Demis Hassabis

La puissance des systèmes d'auto-apprentissage

27 mars 2019

Intelligence Artificielle

Introduction et Historique du CBMM

Tomaso Poggio

Je suis Tomaso Poggio, le directeur du CBMM, qui accueille cette conférence. En 2011, Josh et moi avons organisé — Josh est là — l'un des symposiums pour le 150e anniversaire du MIT. Et le symposium s'intitulait Cerveaux, Esprits et Machines. Le dernier jour a été le plus passionnant du symposium : il portait sur le marché de l'intelligence. Nous avions invité de grandes entreprises comme IBM, Microsoft, Google, et ainsi de suite, ainsi que quelques startups. L'une d'elles était Mobileye, et Amnon vous a parlé hier de l'état de la conduite autonome. L'autre était DeepMind. Demis a pris la parole à ce moment-là. Il avait été chercheur postdoctoral pendant une courte période avec moi et à Harvard. Il était au CBMM dans ce qui était déjà alors le cœur de l'apprentissage automatique au MIT. Demis a alors parlé du plan d'affaires non officiel de DeepMind, qui consistait à créer la première IA dans le monde virtuel des jeux. Depuis lors, vous êtes revenu plusieurs fois pour nous tenir au courant des progrès de DeepMind. La dernière fois, je crois, c'était il y a trois ans. C'était peu de temps après qu'AlphaGo a remporté la compétition en Corée du Sud, à Séoul, contre Lee Sedol. Cette fois-ci, Demis pourrait très bien déclarer victoire dans le monde virtuel des jeux car ils ont tout réussi au-delà de toutes les espérances. Peut-être publierons-nous un nouveau plan d'affaires, un nouveau défi pour le monde réel. Nous verrons bien. J'ai souvent dit que l'intelligence — le problème de l'intelligence — est le plus grand problème de la science d'aujourd'hui et de demain. Et cela signifie aussi qu'il ne sera pas particulièrement facile de le résoudre. Je pense qu'il ne s'agit pas d'un seul problème, mais comme la biologie — la science de la vie — de la même manière, la science de l'intelligence regroupe de nombreux problèmes. Nous aurons besoin de nombreuses percées — pas une seule, mais de nombreux prix Nobel. Demis et le CBMM partagent tous deux l'idée que les neurosciences et les sciences cognitives seront au cœur des progrès qui permettront de mieux comprendre l'intelligence humaine et de développer des machines intelligentes. Le voyage sera peut-être plus long que ce que beaucoup pensent, mais il sera très gratifiant de bien des façons, intellectuellement et autrement. Et nous devrions apprécier ce voyage et apprécier le fait de marquer l'history. Veuillez donc accueillir Demis.

Approches de l'IA et Inspiration Biologique

Demis Hassabis

Merci Tommy. J'espère que vous m'entendez tous bien. Merci à tous d'être venus. C'est incroyable de vous voir tous ici. C'est toujours un vrai plaisir pour moi de revenir au MIT, de revoir de vieux amis et de constater l'ampleur du travail accompli par le CBMM et par vous tous, tant en neurosciences qu'en apprentissage automatique et dans leur croisement, qui me tient particulièrement à cœur. Aujourd'hui, j'ai pensé parler — il y a beaucoup de choses que je pourrais aborder parmi ce que nous avons fait depuis ma dernière visite il y a trois ans — mais j'ai intitulé mon exposé 'La puissance des systèmes d'auto-apprentissage' parce que je pense que ce que nous et d'autres avons montré ces dernières années, c'est à quel point ils peuvent être étonnamment utiles et à quel point des idées assez simples peuvent s'avérer puissantes. Je vais commencer par le cadre : j'ai toujours envisagé l'IA comme se divisant en deux types d'approches. C'est ainsi que nous envisageons l'IA dans son histoire. D'une part, nous pouvons essayer de construire des systèmes experts qui s'appuient sur des connaissances codées en dur, qui sont essentiellement conçus manuellement avec la solution à un problème. Ils sont généralement inspirés par les systèmes logiques et les mathématiques. Pendant longtemps, c'est ainsi que la plupart des gens ont tenté de construire l'IA. Le problème est que ces systèmes ne peuvent pas faire face à l'imprévu. En général, ils échouent de manière catastrophique si quelque chose n'a pas déjà été programmé en eux, s'ils rencontrent une situation inhabituelle que le programmeur n'avait pas prévue. L'autre problème intéressant est qu'ils sont limités aux types de solutions que nous, les programmeurs humains, sommes capables d'articuler. Par définition, ils sont limités à ces solutions pré-programmées. D'un autre côté, et c'est pourquoi je pense que nous vivons un moment passionnant de l'histoire scientifique, il y a eu cette sorte de grande renaissance de l'approche par système d'apprentissage où, au lieu de programmer des solutions, nous construisons des systèmes capables d'apprendre par eux-mêmes à partir de principes fondamentaux — d'apprendre leurs propres solutions aux problèmes. Nous espérons que ces systèmes seront suffisamment généraux pour s'adapter à toutes sortes de nouvelles tâches, peut-être des tâches qu'ils n'ont jamais vues auparavant, et même résoudre des problèmes que nous, en tant que scientifiques humains, ne sommes pas capables de résoudre. La promesse de ces systèmes est donc d'aller au-delà de ce que nous pouvons résoudre seuls. J'en parlerai dans la seconde partie. Si vous vous intéressez aux systèmes d'apprentissage, et c'est pourquoi je pense que ce que fait le CBMM est formidable tout comme ce que nous faisons chez DeepMind, nous pouvons nous tourner vers le meilleur système d'apprentissage que nous ayons, le cerveau humain, pour voir si nous pouvons nous inspirer d'une meilleure compréhension de celui-ci — nous inspirer de nouveaux algorithmes, de nouvelles représentations, de nouvelles architectures inspirées par les neurosciences et notre compréhension du cerveau, même si elle est incomplète. Je dirais que non seulement nous pouvons être inspirés, mais nous pouvons aussi valider des algorithmes que nous avons conçus nous-mêmes à partir d'approches mathématiques ou physiques, des approches orthogonales aux neurosciences. Si nous construisons un système comme celui-là — l'apprentissage par renforcement en est un bon exemple, ayant beaucoup progressé en ingénierie dans les années 80 et 90 — nous pouvons voir, lorsque nous découvrons que le cerveau implémente une forme d'apprentissage TD profond dans certains résultats célèbres des années 90, que l'apprentissage par renforcement fait vraisemblablement partie d'une solution globale d'IA. Nous pouvons donc insister davantage sur ces techniques si nous savons que le cerveau les utilise également. Ce point de validation est souvent négligé, mais il est très important lorsque vous dirigez un programme d'ingénierie majeur : où décidez-vous de redoubler d'efforts si quelque chose ne fonctionne pas ? Les choses ne fonctionnent souvent pas du premier coup, ni même après plusieurs tentatives en recherche et en ingénierie ; jusqu'où faut-il pousser cette approche ? Si vous pouvez vous laisser guider par le cerveau et vous rassurer en sachant que le cerveau implémente ces systèmes, cela peut être une source d'information cruciale.

La Lignée AlphaZero : Échecs, Go et Shogi

Demis Hassabis

Comme Tommy l'a mentionné, la dernière fois que j'étais ici — il y a trois ans, certains étaient peut-être déjà là — nous sortions tout juste de notre grand match AlphaGo à Séoul qui avait bouleversé la pensée traditionnelle sur le jeu de Go et surpris beaucoup de monde dans le domaine de l'IA. Plusieurs experts avaient affirmé que cela n'arriverait pas avant une décennie. Je ne vais pas parler d'AlphaGo aujourd'hui, mais si les coulisses du projet vous intéressent, je recommande ce documentaire réalisé par un grand cinéaste qui nous a suivis et a eu accès à tout notre parcours. Il est sur Netflix, Amazon et ailleurs. Aujourd'hui, je vais me concentrer sur ce que nous avons fait ces 12 derniers mois. Ce fut une année charnière pour nous chez DeepMind avec plusieurs percées intéressantes. La première chose dont je vais parler est AlphaZero. AlphaZero est notre dernière incarnation du programme AlphaGo. Je vais vous montrer, pour ceux qui ne le savent pas, la lignée d'AlphaZero. Tout d'abord, il y a eu l'AlphaGo original. C'était il y a plus de trois ans. AlphaGo était incroyablement fort, mais nous avons dû passer par une étape d'amorçage consistant à apprendre d'abord de parties humaines en prédisant ce que des joueurs humains — pas des experts, mais de bons amateurs — feraient. Nous avons téléchargé des parties de bases de données en ligne et entraîné nos systèmes de réseaux neuronaux à prédire les coups humains. Une fois qu'il a atteint un niveau raisonnable, nous avons lancé le processus d'auto-apprentissage en le faisant jouer contre lui-même pour s'améliorer. Mais nous voulions aller plus loin : chez DeepMind, nous avons toujours la généralité à l'esprit. C'est le but ultime : construire le système le plus pur possible avec le moins d'hypothèses, capable de fonctionner sur le plus grand nombre de domaines sans ajustement. Nous avons commencé par : 'le Go peut-il être craqué ?' C'était la question initiale. Après AlphaGo, nous avons essayé de supprimer tout ce qui était spécifique au Go. L'étape suivante fut AlphaGo Zero. Ici, nous avons supprimé l'étape initiale nécessitant des parties humaines pour l'amorçage. AlphaGo Zero a commencé par jouer de manière totalement aléatoire et s'est amélioré jusqu'à devenir plus fort que l'AlphaGo original uniquement par auto-apprentissage, en jouant des millions de parties contre lui-même. Le 'Zero' ici fait référence à l'utilisation de zéro connaissance humaine spécifique au domaine. C'est important car si nous voulons utiliser ces systèmes pour des problèmes du monde réel, nous n'aurons peut-être pas accès à des millions de données humaines. Enfin, il y a eu AlphaZero. Nous abandonnons le mot 'Go' car AlphaZero peut jouer à n'importe quel jeu à deux joueurs à information parfaite au niveau de champion du monde ou plus. J'ai mis un astérisque à 'n'importe quel' car nous n'en avons essayé que trois : les trois plus grands jeux pratiqués professionnellement — les échecs, dont je vais beaucoup parler ; le Go ; et le Shogi, les échecs japonais, une version extrêmement complexe jouée professionnellement au Japon. Comme vous le savez, les échecs et l'IA ont une longue histoire, depuis l'aube de l'informatique moderne avec Von Neumann, Turing, Shannon, mes héros scientifiques, et même Babbage. Turing avait même écrit un programme sur papier qu'il exécutait lui-même. Garry Kasparov a écrit récemment que les échecs ont toujours été considérés comme la drosophile du raisonnement. Je suis assez d'accord avec lui. Pourquoi ? On peut dire que les échecs ont été 'réglés' à la fin des années 90 quand IBM Deep Blue a battu Garry Kasparov. Depuis, les programmes d'échecs sont plus forts que les meilleurs humains. Mais pourquoi appliquer AlphaZero aux échecs alors que les machines battent déjà le champion du monde ? C'est différent du Go où aucun programme ne pouvait battre le champion du monde. La raison est un débat que j'ai eu avec l'un des responsables de Deep Blue en 2016. Murray Campbell est venu me voir après une conférence sur AlphaGo pour me demander ce qui se passerait si on appliquait cela aux échecs. Est-il possible que ces systèmes d'apprentissage soient plus forts que les systèmes conçus manuellement après 30 ans d'ingénierie et la distillation du savoir de centaines de grands maîtres ? C'est l'un des domaines les plus travaillés en IA. En tant que joueur d'échecs, je me demandais si le jeu était assez riche pour qu'un système apprenne de nouvelles théories capables de rivaliser avec ces machines optimisées pour la recherche par force brute. Nous avons conclu que nous n'en savions rien. C'est pour moi le signe d'une excellente question scientifique. Pour vous donner un exemple de la précision des moteurs actuels, le champion du monde de 2016 était Stockfish. C'est un programme open source dans la lignée de Deep Blue. Ils possèdent des milliers de règles artisanales sur les structures de pions, la sécurité du roi, etc., distillées par des programmeurs. Ils ont aussi des bases de données pour les ouvertures et les finales. Voilà à quoi ressemble un moteur d'échecs aujourd'hui. Nous, nous jetons toutes ces règles et les remplaçons par deux choses : l'apprentissage par renforcement par auto-apprentissage et la recherche arborescente de Monte Carlo. C'est tout. C'est un programme très simple une fois optimisé. Rapidement, comment ça marche : on crée l'architecture du réseau neuronal. Dans AlphaGo, nous avions deux réseaux : un pour réduire les coups probables (le réseau de politique) et un autre pour évaluer la position (le réseau de valeur). Avec AlphaZero, nous avons fusionné les deux. Cela rend la recherche arborescente très efficace. Nous commençons sans aucune connaissance. Nous faisons 100 000 parties d'auto-apprentissage. Cela crée un corpus de données synthétiques. Régulièrement, nous entraînons un nouveau réseau sur ces données. Nous le faisons jouer contre l'ancien. S'il gagne 55 % du temps, il remplace l'ancien. Ce régime simple est incroyablement puissant. Aux échecs, cela nécessite environ 40 millions de parties, chaque partie durant environ trois secondes. Avec 5 000 TPU, cela ne prend que quelques heures. Nous avons testé AlphaZero contre Stockfish 8 dans les conditions de championnat du monde. Nous avons gagné le match de 1 000 parties avec 155 victoires contre 6 défaites, le reste étant des nulles. Il dépasse Stockfish en quatre heures en partant de zéro. C'est pareil pour le Shogi et le Go. Ce qui m'intéresse, c'est l'efficacité de calcul. Les moteurs traditionnels examinent des dizaines de millions de coups par décision. Un grand maître humain en examine peut-être quelques centaines. AlphaZero est au milieu : il examine des dizaines de milliers de coups. Si vous coupez la recherche, les moteurs traditionnels sont nuls. AlphaZero, lui, garde un niveau de maître international sans aucune recherche. Mais le plus cool, c'est le style de jeu d'AlphaZero. Il privilégie la mobilité de ses pièces à la matérialité. Les moteurs traditionnels adorent le matériel, ils sont 'gourmands'. AlphaZero joue de manière dynamique et esthétique, ce qui a ravi le monde des échecs. Il adore sacrifier des pièces pour obtenir plus de mobilité. Il utilise le concept de 'Zugzwang' : mettre l'adversaire dans une position où tout coup aggrave sa situation. AlphaZero n'a pas de règle intégrée disant qu'une tour vaut cinq points, il voit les pièces comme des atouts contextuels. Nous avons montré ces parties à des amis grands maîtres, Matthew Sadler et Natasha Regan, qui ont trouvé sept nouveaux thèmes tactiques jamais vus auparavant. Ils ont écrit un livre intitulé 'Game Changer' à ce sujet.

Créativité et Débogage des Systèmes d'Apprentissage

Demis Hassabis

Exactement quel était le problème. Et nous avions un autre match contre le numéro un chinois que nous avons gagné en 2017 pour lequel nous devions nous préparer. Ke Jie avait vu ce qui s'était passé lors du match contre Lee Sedol, nous devions donc corriger cette faiblesse. On peut voir cela comme un bug s'il s'agissait d'un programme traditionnel. Dans ce cas, il suffirait d'écrire une nouvelle règle. Mais c'est un système d'auto-apprentissage, on ne peut pas simplement appliquer un correctif. Il faut l'encourager à explorer cette partie de l'espace de recherche. C'est délicat. Il va y avoir une nouvelle notion de ce qu'est le débogage pour ces systèmes. Comment savoir si on a couvert toute la surface de ce qu'on voulait faire ? Cela rejoint la compréhension du système. Ces systèmes ont une connaissance implicite incroyable, mais comment comprendre leurs décisions ? Il y a aussi des questions philosophiques sur la créativité. Je pense à trois niveaux : interpolation, extrapolation et innovation hors cadre. Je prétends qu'AlphaGo a montré des aspects de créativité par extrapolation, mais il ne peut pas faire d'innovation totale. AlphaGo ne peut pas inventer le Go. AlphaZero ne peut pas inventer les échecs. Malgré ces succès, les défis les plus intéressants restent à venir : apprentissage non supervisé, mémoire, planification basée sur l'imagination, concepts abstraits, compréhension du langage. Tout cela n'est pas résolu. Les dix prochaines années porteront sur le cœur de l'intelligence.

L'IA pour la Science et AlphaFold

Demis Hassabis

Les jeux et simulations sont le terrain d'entraînement parfait, mais le plan a toujours été d'appliquer ces solutions au monde réel. Nos algorithmes sont désormais assez matures pour être utiles dans de nombreux domaines : santé, énergie dans les centres de données, éducation, assistants virtuels. Nous avons par exemple amélioré l'efficacité de l'énergie éolienne de Google de 20 %. Mais ce qui me passionne vraiment, c'est d'utiliser l'IA pour la découverte scientifique. Je veux utiliser l'IA comme un outil pour les scientifiques. Pour qu'un problème soit adapté à l'approche AlphaZero, il faut trois caractéristiques : une recherche combinatoire massive, une fonction objective claire et beaucoup de données ou un simulateur efficace. Nous construisons une équipe scientifique de 100 personnes chez DeepMind. Nous travaillons sur la génomique, les démonstrations de théorèmes, la chimie quantique, la fusion nucléaire et le design de matériaux. Pour finir, je vais parler d'AlphaFold, notre tentative de résoudre le problème du repliement des protéines. Les protéines sont les briques de la vie. Le défi est de prédire la structure 3D d'une protéine à partir de sa séquence d'acides aminés. La structure détermine la fonction. Si nous comprenons cela, nous comprendrons mieux ces machines moléculaires. Cela aura un impact majeur sur la compréhension des maladies et la découverte de médicaments. AlphaFold utilise un réseau neuronal entraîné sur 30 000 structures connues pour prédire des angles et des distances entre acides aminés. Nous utilisons ensuite une optimisation numérique pour trouver la structure candidate. Nous avons testé cela lors de CASP13, les 'Jeux Olympiques' du repliement des protéines. C'est un test en aveugle. Nous avons gagné la compétition de manière inattendue, en étant 25 % meilleurs que l'équipe suivante.

Conclusion : Vers une Science Assistée par l'IA

Demis Hassabis

C'est la preuve que l'IA peut s'attaquer à des problèmes scientifiques majeurs. Nous ne sommes pas encore au niveau de précision d'un angström requis par les biologistes, mais nous continuons. L'IA est une méta-solution. Face à la surcharge d'informations et à la complexité, l'IA peut convertir des données non structurées en connaissances utiles. Mon rêve est une science assistée par l'IA. Mais nous devons construire l'IA de manière responsable, sûre et au bénéfice de tous. C'est une technologie neutre, tout dépend de la façon dont la société décide de la déployer. Enfin, le neuroscientifique en moi pense que construire l'IA avec une inspiration biologique est le meilleur moyen de comprendre les mystères de l'esprit, de la créativité et de la conscience. Merci de votre attention.

Retour aux entretiens de Demis Hassabis