L'avenir de l'IA et l'apprentissage auto-supervisé avec Yann LeCun
23 novembre 2020
Intelligence Artificielle
Introduction et parcours
Bienvenue dans une édition très passionnante de la série éducative de Rebellion. Nous avons une légende vivante avec nous, un professeur que j'admire depuis plus de 20 ans. Le professeur Yann LeCun de NYU est également responsable de l'IA pour Facebook. Son travail sur la vision par ordinateur a redéfini le domaine. Il est considéré comme un parrain des CNN, un parrain de l'apprentissage profond, un parrain de l'IA en réalité. Et l'avoir avec nous est un véritable honneur pour quelqu'un comme moi qui a passé toute sa vie dans l'apprentissage automatique et l'IA. C'est vraiment un rêve devenu réalité de vous avoir dans l'émission, Professeur LeCun. Merci beaucoup.
C'est un plaisir de vous rencontrer. C'est également un plaisir d'être dans votre émission.
Opinions sur l'apprentissage par renforcement
Alors, commençons par l'apprentissage par renforcement profond. Cela m'a été présenté récemment par un étudiant et cela semble être une fusion très passionnante de l'apprentissage profond et de l'apprentissage par renforcement. Avez-vous une opinion à ce sujet ? Si oui, nous aimerions l'entendre.
J'ai en fait des opinions non orthodoxes assez tranchées sur l'apprentissage par renforcement en général. Dans le contexte de l'apprentissage automatique et de l'IA, l'apprentissage automatique a en quelque sorte pris le dessus sur l'IA dans une certaine mesure de nos jours. Il existe trois types d'apprentissage que les gens utilisent, trois paradigmes. Le plus courant que tout le monde utilise est l'apprentissage supervisé. Ensuite, il y a le moins courant, l'apprentissage par renforcement, qui est principalement utilisé pour les jeux. Il existe un certain nombre d'applications dans le monde réel dans lesquelles il est utilisé, mais c'est un très petit nombre. Ensuite, il y a l'apprentissage non supervisé, auto-supervisé, quelque chose de plutôt mal défini, qui est peut-être le type d'apprentissage que nous observons chez les animaux et les humains. La question est : où se trouve l'avenir de l'IA ? Presque toute l'IA est de l'apprentissage supervisé, presque tout l'apprentissage automatique est de l'apprentissage supervisé. Une petite partie est de l'apprentissage par renforcement. Un nombre croissant de recherches est en fait basé sur ce qu'on appelle l'apprentissage auto-supervisé, particulièrement dans le traitement du langage naturel et un peu dans la vision par ordinateur. Ce qui fait la différence entre toutes ces choses, c'est que dans l'apprentissage supervisé, vous dites à la machine quelle est la réponse pour chaque exemple que vous lui montrez. Vous lui montrez une image d'une voiture, d'un camion, d'un éléphant ou d'une table et vous lui dites que c'est un camion ou un éléphant. Si la réponse est différente de ce que vous voulez, vous ajustez les paramètres pour que la réponse se rapproche de celle souhaitée. Dans l'apprentissage par renforcement, vous ne donnez pas la bonne réponse à la machine. Vous lui dites simplement que la réponse qu'elle a produite était bonne ou pas très bonne. Vous lui donnez une sorte de note sur la qualité de la réponse. Ce que la machine doit faire, c'est trouver dans quelle direction se modifier pour que sa réponse se rapproche de celle que vous voulez. Cette évaluation est appelée le renforcement ou la fonction de valeur. La machine ne connaît pas cette fonction. Elle doit essayer des choses pour comprendre comment s'améliorer. L'apprentissage auto-supervisé ou non supervisé s'apparente davantage à l'apprentissage du monde, à la compréhension de son fonctionnement sans être dirigé vers une tâche particulière. L'apprentissage par renforcement a beaucoup enthousiasmé les gens au cours des cinq ou six dernières années en raison de grands succès dans des jeux comme les jeux Atari, les jeux vidéo, les échecs et le Go. Ces machines nécessitent une quantité énorme d'interactions avec le jeu pour pouvoir apprendre des choses. Les meilleurs joueurs de Go qui s'entraînent seuls doivent jouer l'équivalent de dizaines de millions de parties avant de bien jouer. Il y a un système mis au point par DeepMind pour jouer à StarCraft qui doit s'entraîner pendant l'équivalent de 200 ans de jeu en temps réel, ce qui est bien plus que n'importe quel humain. L'apprentissage par renforcement est très puissant, mais il est incroyablement inefficace en termes de nombre d'essais. Le système doit tout apprendre de zéro.
Évolution et limites de l'apprentissage par renforcement
Il doit vraiment fonctionner en vase clos. On doit tout lui donner à la petite cuillère. Je suppose que cela le rend limité, mais où voyez-vous son évolution au-delà de la finance et des jeux ?
Ça a coupé un peu, donc je n'ai pas eu la question.
Au-delà de la finance et des jeux, où voyez-vous évoluer l'apprentissage par renforcement ?
Dans les situations où vous avez une sorte de processus continu que vous devez apprendre en ligne, l'apprentissage par renforcement peut être utilisé. Il existe de nombreuses situations de ce type où l'objectif est très clair et où vous pouvez utiliser l'apprentissage supervisé. Vous voulez effectuer une prédiction de séries temporelles, par exemple. La prédiction de séries temporelles est une forme d'apprentissage supervisé. Ou vous pourriez dire l'apprentissage auto-supervisé parce que les données que vous utilisez pour entraîner la machine sont de même nature que l'entrée qu'elle observe. Vous n'avez pas besoin d'utiliser l'apprentissage par renforcement car l'apprentissage par renforcement correspond à la situation où la fonction de coût n'est pas claire. Il n'est pas clair comment calculer votre performance. Vous devez être informé de votre performance par un système externe.
Le battage médiatique autour de l'apprentissage profond
Alors, en passant à l'apprentissage profond, pensez-vous qu'il soit surmédiatisé ?
Je pense que cela dépend de la personne à qui vous parlez ou que vous écoutez. Il y a certainement beaucoup de gens qui vont surmédiatiser l'apprentissage profond. Ce sont des gens qui recherchent soit de l'argent, soit de l'attention, essentiellement. Il y a des gens qui sont tout à fait réalistes quant aux résultats potentiels de l'apprentissage profond. Ils ont tendance à être ceux qui sont davantage du côté scientifique des choses, du côté de la recherche. Les gens du côté de la recherche et de la science sont bien conscients des limites des techniques qu'ils utilisent et ils n'ont pas forcément une forte incitation à survendre ce qu'ils font, sauf à leurs pairs, mais leurs pairs sont formés pour détecter les absurdités, donc ça ne marche pas très bien. Dans le contexte de l'industrie, des médias ou du public, c'est différent. Il y a beaucoup de battage médiatique là-bas et il doit être dénoncé car il crée des attentes très élevées pour beaucoup de gens qui ne sont ensuite pas satisfaites. Quand cela s'est produit dans le passé dans le contexte de l'IA, cela a créé une grande déception et un hiver de l'IA où les gens disaient : vous m'avez promis la lune et vous ne tenez pas vos promesses.
Q-learning et contrôle optimal
Vous êtes professeur à Courant et j'étais au forum des carrières de NYU l'automne dernier et presque un quant sur deux venait me voir et commençait à parler de Q-learning. Pensez-vous que le Q-learning soit surmédiatisé ?
Peut-être. C'est très utile dans certaines situations. Je pense qu'il y a beaucoup de situations où les gens tentent d'utiliser l'apprentissage par renforcement alors que ce n'est pas la chose la plus efficace à faire. Si vous êtes un quant, vous voulez prendre la bonne décision, mais vous voulez aussi modéliser le marché ou l'ensemble des instruments financiers que vous manipulez. Une partie est la prédiction. Étant donné que vous avez une bonne prédiction et un bon modèle du système que vous essayez de contrôler, quelle action allez-vous entreprendre ? Pour la première partie, la modélisation du système, nous parlons d'apprentissage supervisé ou auto-supervisé, essentiellement de prédiction de séries temporelles. Pour la seconde partie, cela dépend de la quantité que vous optimisez. Vous voulez maximiser le rendement et il se pourrait que la séquence d'actions pour le faire ne puisse pas être dérivée directement de votre prédiction. Mais il se pourrait qu'elle le puisse. Historiquement, en remontant des décennies en arrière, il y avait deux façons d'aborder ce genre de problème. L'une est l'apprentissage par renforcement et l'autre est le contrôle optimal. Dans de nombreuses situations, la bonne chose à faire est plus proche du contrôle optimal que de l'apprentissage par renforcement. C'est beaucoup plus efficace à bien des égards.
L'héritage des Bell Labs et les débuts des réseaux neuronaux
Professeur LeCun, l'idée m'est venue pendant que nous parlions. Je sais que vous étiez aux Bell Labs. Est-ce que l'apprentissage profond était utilisé aux Bell Labs ?
Bien sûr, je peux répondre. On ne l'appelait pas apprentissage profond à l'époque. On appelait cela des réseaux neuronaux ou des réseaux neuronaux multicouches. Nous avons changé le nom au milieu des années 2000 pour refléter le fait que les systèmes que nous utilisions étaient légèrement plus généraux que cela. Aux Bell Labs, je suis arrivé fin 1988. L'une des premières choses que j'ai faites a été de développer des réseaux convolutionnels et je les ai appliqués à la reconnaissance de caractères. AT&T a fini par construire une série de systèmes basés sur cette technologie qui ont été commercialisés pour la lecture de chèques.
Votre technologie de vision par ordinateur a permis aux banques de lire les chèques. Vous avez complètement changé la donne pour la finance. C'est une partie des travaux que j'ai lus pour la première fois quand j'étais encore étudiant et que j'ai découvert votre travail en tant que chercheur. Diriez-vous que l'apprentissage profond existait déjà dans les années 80 ou dès les années 70 ?
C'est vraiment à la fin des années 80 que les choses ont commencé. L'algorithme de rétropropagation qui est universellement utilisé pour entraîner les réseaux de neurones est apparu vers 1986. C'est vraiment ce qui a permis les réseaux de neurones multicouches. Les réseaux convolutionnels sont apparus vers 1988. C'est ce qui nous a permis de faire de la vision par ordinateur essentiellement, mais à l'époque c'était des images en noir et blanc. La reconnaissance de caractères était certainement une grande réussite. Ils ont été déployés commercialement par AT&T vers 1994, je pense, et ont continué jusqu'au début des années 2000.
La recherche chez Facebook AI Research (FAIR)
Essayez-vous de rendre l'IA de Facebook plus proche d'un Bell Labs en termes de recherche ?
Cela ressemble beaucoup aux Bell Labs à bien des égards. J'ai lancé Facebook AI Research et quand j'ai rejoint l'entreprise, c'est ce qu'on m'a demandé de faire. Je me suis appuyé sur mon expérience des Bell Labs et des AT&T Labs. J'ai aussi travaillé brièvement chez NEC Labs et dans quelques autres entreprises. Je savais comment la recherche dans l'industrie peut réussir. J'ai sélectionné quelques-unes des meilleures idées des Bell Labs, du Xerox PARC, d'IBM et de Microsoft Research et j'ai essayé de créer une organisation de recherche ambitieuse dans ses objectifs, capable de mener des recherches à long terme où les gens ne sont pas dirigés de haut en bas. La recherche effectuée au sein de Facebook AI Research est ascendante ; les chercheurs choisissent leurs sujets. En même temps, nous établissons des canaux avec le groupe de développement afin que toute innovation puisse avoir un impact sur le produit. Cela a été très réussi en fait.
Travaillez-vous toujours de la maison ou êtes-vous de retour au bureau ?
Oui, tout est à distance.
Réseaux antagonistes génératifs (GAN)
Merveilleux. Pour en revenir aux réseaux antagonistes génératifs, quel est votre sentiment à ce sujet ? Est-ce l'architecture du futur ?
Les réseaux antagonistes génératifs, les GAN. Je pense que cela a ouvert les yeux de beaucoup de gens, y compris les miens, sur de nouvelles façons de construire des réseaux de neurones ou des systèmes d'apprentissage qui capturent la structure des données.
En quoi diffèrent-ils d'un réseau de neurones bayésien ?
Ils ne sont pas du tout bayésiens. Ils ne sont même pas probabilistes. Ce qu'un GAN fait, c'est qu'il peut transformer une série de nombres aléatoires en un objet structuré, disons une image. Vous entraînez un réseau de neurones de sorte que lorsque vous tirez un ensemble aléatoire de nombres d'une distribution gaussienne, il en ressort à l'autre bout l'image d'un visage ou d'un chien. Lorsque vous modifiez légèrement ces nombres aléatoires, vous obtenez un visage légèrement différent. C'est l'idée d'un modèle génératif. Certains sont probabilistes, d'autres non. Les GAN ne modélisent pas la densité de probabilité de la sortie. C'est un ensemble de méthodes intéressant et j'ai été vraiment enthousiasmé par elles pendant un moment. Je le suis moins maintenant. J'essaie de les remplacer par quelque chose de plus efficace car elles présentent des défauts techniques. J'essaie de trouver une méthode générale pour entraîner les machines à apprendre la structure des données sans être entraînées pour une tâche particulière. Le GAN est une façon particulière de faire cela.
Apprentissage multitâche et auto-supervisé
C'est très cool. En parlant d'entraînement, pensez-vous qu'entraîner un modèle unique sur plusieurs problèmes à la fois, un seul réseau de neurones capable de faire à la fois de la reconnaissance faciale et vocale, serait plus efficace à l'avenir ?
Désolé pour cela. J'ai dû m'absenter quelques secondes pour changer l'éclairage. Il y a cette grande question de savoir comment rendre les machines apprenantes plus générales. Vous entraînez un système à faire de la reconnaissance d'images sur un ensemble de données particulier et vous montrez des images légèrement différentes et ces systèmes sont un peu fragiles. Parfois, ils se concentrent sur des biais dans les données qui ne sont pas pertinents. Par exemple, vous entraînez un système sur ImageNet. L'une des catégories est une vache et toutes les photos de vaches sont dans un champ. Si vous montrez au système une photo d'une vache sur une plage, le système ne dit pas que c'est une vache parce que chaque vache qu'il a jamais vue était sur un fond vert. Il utilise le contexte pour effectuer la reconnaissance. Il n'a pas complètement compris le concept de vache. Comment rendre ces systèmes moins spécialisés et moins fragiles ? L'apprentissage multitâche, qui est ce que vous décrivez, consiste à entraîner le système non pas sur une seule tâche, mais sur de nombreuses tâches différentes. Par exemple, il y a quelques années, le meilleur système de vision par ordinateur que Facebook utilisait était un grand réseau convolutionnel entraîné à prédire les hashtags que les gens tapent sur Instagram. Ce réseau de neurones était très bien entraîné pour reconnaître à peu près n'importe quoi par la suite. Vous supprimez la dernière couche et en ajoutez une nouvelle que vous entraînez pour la tâche que vous voulez. Comme la majeure partie du réseau de neurones a appris à reconnaître des images, vous n'avez pas besoin de beaucoup d'échantillons pour l'entraîner. C'est cette idée d'apprentissage faiblement supervisé ou de transfert d'apprentissage. En fin de compte, ce sur quoi les gens travaillent maintenant, c'est l'apprentissage auto-supervisé. Vous entraînez le système non pas à reconnaître quelque chose, mais à représenter les données de manière efficace. Ensuite, vous utilisez ce système pré-entraîné comme entrée pour un système qui effectue la tâche souhaitée. Cela a été étonnamment efficace dans le traitement du langage naturel. Cela progresse très rapidement en vision.
L'avenir de l'IA : Apprendre comme les humains
Très cool. En parlant de progrès, nous arrivons à la fin de notre émission. Je suppose, qu'est-ce qui vous passionne le plus dans le monde de l'IA en ce moment ?
Toute l'idée de l'apprentissage auto-supervisé. La grande question que nous devons résoudre est de savoir comment un jeune enfant apprend à manipuler des objets ou de nouveaux concepts. Vous montrez à un jeune enfant quelques images d'un éléphant et cet enfant saura ce qu'est un éléphant quelle que soit sa pose. Vous apprenez à conduire une voiture en environ 20 heures d'entraînement. Vous vous en sortez plutôt bien et presque personne ne vous a dit comment conduire. Vous apprenez plus ou moins par vous-même. Les systèmes d'apprentissage automatique d'aujourd'hui nécessiteraient des millions d'essais ou des milliards d'exemples et des millions d'heures de pratique, causant de nombreux accidents dans le cas des voitures autonomes. C'est l'un des principaux obstacles à la conduite complètement autonome.
Le cas Tesla et la compétition technologique
Alors je suppose que vous seriez d'accord pour dire que l'avance de Tesla d'Elon Musk est assez considérable ?
Tesla n'est pas tellement en avance sur tout le monde.
Vous pensez que c'est deux ans d'avance ? Quel chiffre donneriez-vous ?
Personne n'a plus de quelques mois d'avance sur les autres.
Très intéressant. Je suis tellement content de vous avoir posé la question.
En termes de concepts et d'algorithmes, certaines personnes investissent dans le matériel pendant longtemps et si le matériel s'avère important, il est difficile pour d'autres entreprises de rattraper leur retard, mais elles finissent par le faire. En recherche sur l'IA, personne n'a plus de quelques mois d'avance sur quiconque.
Professeur LeCun, tant de grands gestionnaires de fonds que je connais chez Fidelity possèdent des actions Tesla parce qu'ils pensent qu'ils auront cinq à dix ans de monopole sur la technologie sans conducteur. Et c'est là qu'ils voient la valeur.
C'est probablement faux.
Wow. C'est incroyable.
Là où elles peuvent avoir cinq ou dix ans d'avance, c'est dans la technologie des batteries car elles ont les grandes usines que personne d'autre ne construit. Mais l'IA ? J'en doute. Beaucoup d'autres entreprises ont une technologie similaire. Elles n'ont peut-être pas la même quantité de données ou de matériel spécialisé, mais elles peuvent l'acheter chez NVIDIA et ARM maintenant. Je ne pense pas.
Robotique et conclusion
Vos sentiments sur le stockage des batteries sont partagés par de nombreux PDG de la robotique qui sont venus dans notre émission. Ils ont dit que le stockage d'énergie sera ce qui permettra à la robotique d'avancer. Et donc c'est quelque chose que nous devons déplacer...
Il y a de nombreux problèmes en robotique. L'un d'eux est cette question de l'apprentissage auto-supervisé dont je vous parlais. Les voitures autonomes sont une sorte de robot, mais ce que nous aimerions, ce sont des robots domestiques, des robots virtuels et des assistants virtuels à qui vous pouvez parler, qui peuvent répondre à n'importe quelle question et vous assister dans votre vie quotidienne. Pour cela, nous devons faire le prochain grand bond en IA. Cela viendra de la découverte de moyens permettant aux machines d'apprendre aussi efficacement que les humains et les animaux. Les paradigmes actuels de l'apprentissage automatique nécessitent trop d'échantillons pour apprendre ce que les humains et les animaux apprennent en quelques heures. Il nous manque une pièce maîtresse. À mon avis, cela s'appelle l'apprentissage auto-supervisé.
C'était une conversation incroyable, Professeur. Vous êtes absolument une source de connaissances fantastique. Je ne pourrais pas vous être plus reconnaissant. Et restez en sécurité pendant ces temps de folie.
Merci, vous aussi. De rien. C'était amusant.