Yann LeCun

L'histoire et l'avenir de l'IA : du matériel aux réseaux de neurones profonds

8 mai 2019

Intelligence Artificielle
Illustration de Yann LeCun

Introduction et contexte historique

Yann LeCun

Merci, Eugenio. C'est un réel plaisir d'être ici. Je réfléchissais au fait que je vois ici beaucoup de vieux amis des Bell Labs que je n'ai pas vus depuis longtemps, comme Brian Ackland. Je n'ai pas assisté à l'ISSCC depuis environ 30 ans. J'étais concepteur de puces, mais je suis un peu dépassé. J'espère pas trop.

L'essor de l'IA et l'apprentissage supervisé

Yann LeCun

L'apprentissage automatique et l'IA sont dans l'actualité. C'est devenu très important ces dernières années. Beaucoup de grandes entreprises sont désormais construites autour de l'IA et de l'apprentissage profond. Le sujet pique l'intérêt de cette communauté depuis longtemps. On pourrait dire que l'histoire de l'IA est intimement liée à l'histoire du développement du matériel.

Yann LeCun

Ce qu'est l'IA aujourd'hui, c'est l'apprentissage supervisé. C'est un paradigme d'entraînement particulier pour les machines qui consiste à montrer des exemples à une fonction paramétrée de ce que nous voulons qu'elle fasse, en lui donnant la bonne réponse et en la laissant ajuster ses paramètres pour que la réponse se rapproche de celle que nous voulons.

Yann LeCun

En entraînant de telles machines avec des millions ou des centaines de millions de paramètres, nous pouvons leur faire accomplir n'importe quelle fonction que nous voulons, comme reconnaître des objets dans des images. Cela fonctionne étonnamment bien pour la reconnaissance vocale, la reconnaissance d'images, la génération de légendes pour les images, la traduction de langues, la classification de textes, etc.

Yann LeCun

Mais c'est une forme spécifique d'apprentissage qui ne nous mènera pas, du moins pas seule, à des machines véritablement intelligentes. L'histoire des réseaux de neurones remonte aux années 1940 et 50, en particulier les années 1950 avec le perceptron, qui était une pièce matérielle. C'était un ordinateur analogique où les poids réglables des réseaux de neurones étaient implémentés par des potentiomètres avec des moteurs dessus.

Histoire des réseaux de neurones et du matériel

Yann LeCun

L'apprentissage consistait à appuyer sur un bouton et à faire tourner des moteurs. Il existait des implémentations concurrentes comme le système Adaline de Bernie Widrow qui utilisait des cellules électrochimiques. Ce qui s'est passé ensuite, c'est la création du paradigme standard pour la reconnaissance de formes qui a survécu jusqu'à assez récemment. Il est encore largement utilisé : vous prenez un signal, disons une image, et vous avez un module conçu manuellement qui transforme cette image en un vecteur de caractéristiques, un grand vecteur que vous fournissez à un classificateur entraînable ; seul le classificateur est entraînable.

Yann LeCun

À l'époque moderne, les réseaux de neurones ont changé ce modèle. Il y avait des limitations et les gens ont abandonné l'idée que ce modèle pouvait être utilisé pour progresser vers l'IA. Il a réussi pour la reconnaissance de formes. Cela a provoqué un hiver des réseaux de neurones de la fin des années 60 au milieu des années 80.

Yann LeCun

Une des raisons est le matériel. Les gens avaient les mauvais neurones. Les neurones utilisés à l'époque étaient des neurones binaires. Cela a empêché les gens de penser à utiliser la descente de gradient dans les systèmes multicouches parce qu'on ne peut pas rétropropager le gradient à travers des neurones binaires.

Yann LeCun

C'est seulement au début des années 80, quand des stations de travail avec des performances décentes en virgule flottante ont commencé à apparaître, que les gens ont commencé à penser qu'il était raisonnable de faire des multiplications en virgule flottante des milliers de fois dans un réseau de neurones. C'est alors que la rétropropagation, l'idée que l'on peut entraîner des systèmes multicouches avec la descente de gradient, est apparue.

Principes de l'apprentissage profond et rétropropagation

Yann LeCun

Cela a été déclenché par les progrès du matériel disponible. Ce qui s'est passé ensuite est l'idée que l'on peut empiler plusieurs modules, chacun étant entraînable, et les entraîner de bout en bout en utilisant une méthode basée sur la descente de gradient. Ce que vous mettez dans ces boîtes sont des fonctions très simples à implémenter d'un point de vue matériel.

Yann LeCun

Des choses comme multiplier un vecteur par une matrice et passer tous les composants du vecteur de sortie par une non-linéarité ponctuelle aussi simple qu'un redresseur demi-onde. Quand je parle à des informaticiens, je dois expliquer ce qu'est un redresseur demi-onde, mais dans cette salle, je n'ai pas besoin d'expliquer. Vous empilez des opérateurs linéaires, la multiplication matricielle, avec une non-linéarité ponctuelle.

Yann LeCun

Vous pouvez prouver qu'avec seulement deux couches, vous pouvez approximer n'importe quelle fonction que vous voulez. Il y a un avantage à empiler plusieurs couches et vous obtenez ainsi une représentation plus puissante des fonctions. C'est l'idée de l'apprentissage profond et des réseaux de neurones. Vous pouvez entraîner cela en utilisant la descente de gradient. Vous minimisez une fonction objectif par rapport à tous les paramètres de votre système.

Yann LeCun

Dans l'apprentissage supervisé, elle mesure l'écart entre la sortie souhaitée et la sortie obtenue en utilisant des méthodes sophistiquées d'optimisation stochastique. Pour calculer le gradient, vous utilisez l'algorithme de rétropropagation, qui consiste à faire fonctionner le circuit et une version légèrement modifiée du circuit à l'envers pour propager les gradients.

Yann LeCun

C'est une application pratique de la règle de dérivation des fonctions composées, donc il n'y a rien de compliqué en termes de mathématiques. L'idée existe depuis les années 60, mais pour l'apprentissage automatique seulement depuis le milieu des années 80.

Expérimentations matérielles aux Bell Labs

Yann LeCun

J'ai rejoint les Bell Labs en 1988 et le groupe que j'ai rejoint, dirigé par Larry Jackel, se concentrait sur la construction de dispositifs pour les réseaux de neurones.

Yann LeCun

Ils ont commencé par construire un réseau de résistances en utilisant la lithographie par faisceau d'électrons. Ils pouvaient construire des réseaux de résistances incroyablement petits pour l'époque. Puis ils ont réalisé que les amplificateurs qu'il faut mettre au bout ne sont pas si petits. L'avantage de fabriquer de petits réseaux de résistances n'était pas si grand, et ils n'étaient pas programmables.

Yann LeCun

La puce de deuxième génération était mixte analogique-numérique, où les entrées-sorties étaient numériques, mais le calcul interne était analogique. Les poids étaient ternaires. On pouvait combiner plusieurs lignes dans l'un de ces éléments pour obtenir une profondeur de bits pour le calcul.

Yann LeCun

L'avant-dernière puce à laquelle j'ai participé était la puce ANNA, présentée à l'ISSCC en 1991. Cela signifie accélérateur de réseau de neurones analogique. Elle utilisait une résolution d'environ six bits sur les poids, environ trois bits sur les activations des neurones, et elle avait 64 neurones avec 64 entrées chacun avec des registres à décalage pour pouvoir effectuer plusieurs convolutions efficacement.

Yann LeCun

C'était une puce d'accélération de réseau convolutif en 1991. Le projet a débuté en 1989. Elle était capable de 4 milliards d'opérations par seconde, ce qui était inouï. C'était un succès technique dans la mesure où nous pouvions faire fonctionner des reconnaisseurs de caractères à 10 000 reconnaissances par seconde, mais ce ne fut pas un succès commercial car personne ne voulait vraiment l'utiliser.

Réseaux convolutifs et premières applications

Yann LeCun

Au moment où elle a été placée dans une carte, les gens ont perdu tout intérêt pour les réseaux de neurones. Un réseau convolutif est une manière particulière de connecter les neurones de sorte que vous n'ayez pas à utiliser une matrice complète pour multiplier le vecteur d'entrée. Imaginez que vous ayez une image représentée par une grille de pixels, et que vous effectuiez une opération de convolution sur celle-ci, où les coefficients du filtre sont appris dans le cadre du processus de rétropropagation.

Yann LeCun

Vous ne concevez pas les filtres, vous laissez l'algorithme de descente de gradient trouver les bons filtres. Il y a plusieurs couches dans un réseau convolutif, des banques de filtres suivies d'une non-linéarité, suivie d'une opération de regroupement, qui est un maximum ou une moyenne de la réponse des filtres dans une région. Le but est de construire une invariance par translation dans la représentation. Ceci est inspiré par des travaux classiques en neurosciences des années 60.

Yann LeCun

Voici une vidéo d'une version plus jeune de moi-même en 1992, et voici mon numéro de téléphone aux Bell Labs, à Holmdel, qui ne fonctionne plus. J'appuie sur une touche et une caméra vidéo reconnaît les caractères. Elle peut le faire à quelques dizaines de caractères par seconde. Cela fonctionne sur le DSP32C, l'un des premiers DSP en virgule flottante fabriqués par AT&T, dans une carte insérée dans un PC.

Yann LeCun

Ceci est un exemple de la façon dont ces choses fonctionnaient. La représentation interne est hiérarchique en raison des multiples couches. Ce que vous obtenez à l'intérieur est une représentation abstraite qui devient plus abstraite à mesure que vous montez dans les couches, qui représente le caractère et apprend à extraire les caractéristiques appropriées.

Yann LeCun

Nous avons réalisé que nous pouvions utiliser ces systèmes pour reconnaître plusieurs objets sans avoir à segmenter explicitement les objets au préalable. C'est important si vous voulez détecter des objets dans des images naturelles ou séparer les caractères d'un mot cursif.

Yann LeCun

Finalement, nous avons assemblé cela dans un système capable de reconnaître les chèques bancaires et cela a été largement déployé par NCR, une filiale d'AT&T. À la fin des années 90, ce système lisait entre 10 et 20 % de tous les chèques aux États-Unis. Ce fut un grand succès : scientifique, technologique et commercial. Le jour même où nous avons célébré le lancement, AT&T a annoncé son démantèlement et le département a été dissous.

Le deuxième hiver des réseaux de neurones

Yann LeCun

C'est typique. Ce qui s'est passé au milieu des années 90, c'est qu'il y a eu un deuxième hiver des réseaux de neurones. Les gens de la communauté de l'apprentissage automatique ont perdu tout intérêt pour ces méthodes dans les années 90. Il est intéressant de comprendre pourquoi.

Yann LeCun

Le matériel était lent pour le calcul en virgule flottante. La taille du réseau de neurones que l'on pouvait entraîner était relativement restreinte et il fallait deux semaines pour entraîner un réseau de neurones. Les données étaient rares et les réseaux de neurones étaient gourmands en données, donc la collecte de données n'était possible que pour un petit nombre d'applications comme la reconnaissance de caractères ou de la parole.

Yann LeCun

C'était avant Internet. Les outils logiciels interactifs devaient être construits à partir de rien. Il n'y avait ni Python ni MATLAB. Nous avons fini par écrire notre propre interpréteur et compilateur Lisp relié à une bibliothèque de réseaux de neurones. C'est le prédécesseur des frameworks logiciels modernes pour l'apprentissage profond.

Yann LeCun

L'open source n'était pas courant à l'époque pré-Internet. Il n'était pas facile de communiquer les connaissances nécessaires pour faire fonctionner ces choses. Beaucoup de gens ont essayé les réseaux de neurones et n'ont pas réussi à les faire fonctionner, concluant qu'ils ne marchaient pas. Cela a créé l'hiver, qui a duré encore 10 ans.

L'influence du matériel sur la recherche

Yann LeCun

Une leçon que nous avons apprise aux Bell Labs est qu'il est difficile de réussir avec du matériel exotique. Le progrès est passé de l'analogique câblé à l'hybride analogique-numérique programmable, puis au tout numérique. Les limitations matérielles influencent la direction de la recherche. Les informaticiens aiment penser de manière abstraite en espérant que le matériel finira par soutenir leurs idées.

Yann LeCun

Mais notre réflexion est limitée par le matériel à notre disposition. Tout ce que vous concevrez pour la prochaine décennie influencera la recherche en IA. Il est important de construire la bonne chose. De bons outils logiciels façonnent la recherche et donnent des super-pouvoirs. La performance du matériel compte pour la R&D où vous avez besoin d'un cycle rapide pour l'expérimentation.

Yann LeCun

Quand le matériel est trop lent, que le logiciel n'est pas disponible ou que les expériences ne sont pas facilement reproductibles, les bonnes idées peuvent être abandonnées. Les réseaux de neurones étaient une bonne idée, mais ils ont été abandonnés pendant environ 10 ans. Puis il y a eu un printemps vers 2006. Quelques-uns d'entre nous savaient que les réseaux de neurones étaient une bonne idée et ont essayé de raviver l'intérêt pour eux délibérément.

La conspiration de l'apprentissage profond et le renouveau

Yann LeCun

J'appelle cela la conspiration de l'apprentissage profond ; elle était composée de moi-même, Geoffrey Hinton et Yoshua Bengio. Nous avons essayé de raviver l'intérêt de la communauté pour ces méthodes. Pendant ce temps, je pensais que les réseaux de neurones pourraient être utilisés pour des applications comme le pilotage de robots. Voici un projet DARPA entre 2005 et 2009 qui utilisait un réseau convolutif pour faire de la segmentation sémantique.

Yann LeCun

En faisant glisser un réseau convolutif sur une fenêtre et en lui demandant de classer chaque pixel selon qu'il correspond au sol où le robot peut rouler ou à un obstacle, vous pouvez construire une carte et faire circuler un robot tout en évitant les obstacles.

Yann LeCun

C'était intéressant et réussi. C'est similaire aux techniques utilisées aujourd'hui par les systèmes de conduite autonome pour détecter les obstacles et déterminer où la rue est praticable. Les doctorants ont écrit le code et entraîné les réseaux, ils sont donc confiants que le robot ne va pas les écraser.

Segmentation sémantique et NeuFlow

Yann LeCun

Nous avons réalisé que nous pouvions utiliser la même technique pour faire de la segmentation sémantique plus sophistiquée, en étiquetant chaque pixel d'une image avec sa catégorie. Des ensembles de données de quelques milliers d'images ont commencé à apparaître. Nous avons construit un système basé sur des réseaux convolutifs et conçu une architecture que nous avons fait fonctionner sur un FPGA en temps réel à environ 20 images par seconde.

Yann LeCun

C'était l'architecture NeuFlow, conçue par Clément Farabet. Nous avons battu les records sur un certain nombre de jeux de données et envoyé un article à une conférence majeure de vision par ordinateur, et l'article a été rejeté malgré de meilleures performances et une vitesse 50 fois supérieure au meilleur concurrent.

Yann LeCun

La raison était que la plupart des évaluateurs n'avaient jamais entendu parler des réseaux convolutifs et ne pouvaient pas croire qu'une méthode dont ils n'avaient jamais entendu parler puisse si bien fonctionner. C'était en 2011. Aujourd'hui, vous ne pouvez pas faire accepter un article au CVPR à moins d'utiliser des réseaux convolutifs. C'est l'architecture NeuFlow que je mentionnais.

Yann LeCun

Cela a été fait entre 2008 et 2011. Elle exploite la structure des convolutions pour minimiser le trafic mémoire et effectuer des opérations successivement sans retourner en mémoire. Elle utilise une architecture de flux de données, ravivant de vieilles idées des années 1970.

Yann LeCun

Nous avons collaboré avec le laboratoire d'Eugenio Culurciello et obtenu la conception d'une puce qui n'a jamais été correctement fabriquée. Ces idées ont partiellement influencé certaines des personnes travaillant sur la conduite autonome utilisant désormais la segmentation sémantique en temps réel. La révolution de l'apprentissage profond s'est produite vers 2012.

La révolution ImageNet et l'IA à l'échelle

Yann LeCun

En vision par ordinateur, elle s'est produite vers 2012-2013 lorsque nos collègues de l'Université de Toronto ont utilisé une implémentation sur GPU d'un réseau convolutif qui leur a permis d'entraîner un grand réseau convolutif avec 1 milliard de connexions et de battre le record sur le jeu de données ImageNet.

Yann LeCun

Ce fut un moment décisif car la communauté de la vision par ordinateur est passée à l'utilisation des réseaux convolutifs. Depuis lors, nous avons vu des progrès et une réduction du taux d'erreur au point qu'il est supérieur à la performance humaine et n'est plus un jeu de données intéressant.

Yann LeCun

Le nombre de couches dans ces réseaux a explosé et un réseau de neurones typique utilisé en production aujourd'hui compte environ 50 couches. C'est l'un des grands changements : les réseaux de neurones sont désormais très profonds et relativement grands, mais des travaux sont en cours pour optimiser leur empreinte mémoire et leurs besoins de calcul.

Yann LeCun

Un réseau de neurones typique de reconnaissance d'images entraîné à reconnaître des objets génériques nécessite environ 10 milliards d'opérations pour une seule propagation et occupe entre 50 et 100 mégaoctets en mémoire. C'est une question importante car des entreprises comme Facebook et Google utilisent largement ces réseaux convolutifs pour le filtrage et le classement de contenu.

Yann LeCun

Chaque fois que quelqu'un télécharge une photo sur Facebook, elle passe par des réseaux convolutifs qui effectuent des tâches comme la détection de contenu répréhensible, la reconnaissance faciale ou la génération de descriptions pour les malvoyants. Une quantité importante de calcul est consacrée à ces choses.

Yann LeCun

Cela augmentera à mesure que nous étendrons le filtrage de contenu à la vidéo en direct, où vous voudrez générer des sous-titres ou traduire la langue en temps réel. Cela va peser sur le matériel et créer une demande pour votre travail. La vision par ordinateur a progressé ces dernières années.

Applications modernes et reproductibilité

Yann LeCun

Les réseaux de neurones utilisés aujourd'hui sont assez grands et peuvent identifier des objets, tracer des contours et déterminer la pose de corps humains. Vous pouvez compter les moutons ou estimer la pose de corps humains.

Yann LeCun

Ceci est une démo d'un estimateur de pose corporelle en temps réel fonctionnant sur un iPhone à 20 images par seconde. Tout cela est en open source. Facebook distribue tout cela en open source. Il y a beaucoup d'applications de cela à l'imagerie médicale et c'est l'un des sujets les plus brûlants en radiologie.

Yann LeCun

J'y vois des opportunités pour l'accélération matérielle. Applications dans les transports, la santé et la science ; les réseaux de neurones sont utilisés pour la physique, pour analyser les résultats de la physique des hautes énergies. Qu'avons-nous appris ? De bons résultats ne suffisent pas. Les rendre facilement reproductibles les rend crédibles.

Yann LeCun

Si vous ne permettez pas aux gens de reproduire les résultats, ils n'y croiront pas. Le progrès matériel permet des percées. Les GPU à usage général auraient dû arriver 10 ans plus tôt. Désolé, NVIDIA. Des gens chez Microsoft ont commencé à expérimenter avec les GPU pour les réseaux de neurones au milieu des années 2000, mais personne n'était intéressé à l'époque.

Besoins matériels et nouvelles architectures

Yann LeCun

Si j'ai un message pour le matériel dont nous avons besoin aujourd'hui, c'est un meilleur support pour les convolutions car il y a des régularités qui ne sont pas exploitées. Et du matériel qui ne nécessite pas de traitement par lots. Pour faire fonctionner un réseau de neurones sur un GPU et le saturer, vous devez attendre que 100 images apparaissent et exécuter 100 copies en parallèle.

Yann LeCun

Cela facilite la parallélisation et repose sur la multiplication matricielle. Cela va disparaître. Les nouveaux réseaux de neurones ne seront pas comme ça. Les plateformes open source diffusent des idées et les réseaux convolutifs seront bientôt partout : matériel à bas coût et basse consommation pour les voitures, les caméras, les aspirateurs, les lunettes de réalité augmentée et les jouets.

Yann LeCun

Qu'en est-il des nouvelles architectures ? Il en existe quatre types : les réseaux augmentés par mémoire, les réseaux dynamiques, les réseaux convolutifs sur graphes et les réseaux à activation parcimonieuse.

Yann LeCun

Les réseaux augmentés par mémoire, c'est l'idée que si l'on veut qu'une machine raisonne, il faut lui donner une mémoire de travail, une mémoire associative. Vous avez un réseau de neurones récurrent avec des boucles qui peuvent itérer et accéder à une mémoire. Cette mémoire est une puce RAM logicielle. Vous lui fournissez un vecteur d'adresse.

Yann LeCun

Cette adresse est comparée à des clés à l'aide d'un produit scalaire. C'est un algorithme du plus proche voisin. Cela génère des coefficients utilisés pour calculer une combinaison linéaire de valeurs. Considérez cela comme un circuit RAM où tout est logiciel afin que vous puissiez rétropropager le gradient à travers lui.

Yann LeCun

Ce modèle est largement utilisé dans les réseaux à mémoire et les réseaux transformateurs comme BERT, qui réussit pour le traitement du langage naturel. Deuxièmement, les réseaux de neurones deviennent dynamiques. Au lieu d'une architecture fixe, vous écrivez un programme où chaque appel se fait vers un module qui appelle un réseau de neurones.

Yann LeCun

Le programme comporte des conditions et des boucles. L'architecture du réseau de neurones varie en fonction des données. Cela brise les hypothèses sur la façon dont nous parallélisons sur le matériel. C'est un travail de Facebook AI Research. Vous montrez une image et une phrase au système l'interrogeant sur la taille de l'objet.

Yann LeCun

Pour répondre, vous devez revenir à l'image et configurer votre système visuel pour détecter les bonnes choses. C'est ce que fait ce réseau de neurones. Il calcule l'architecture d'un autre réseau de neurones qui calculera la réponse. L'architecture est dynamique. C'est l'avenir.

Yann LeCun

Cela a amené les gens à réfléchir au logiciel 2.0, où un programme est un graphe de calcul généré dynamiquement où les appels de fonction se font vers un module paramétrable dont la fonction est finalisée par l'entraînement. Troisièmement : les réseaux convolutifs sur graphes.

Yann LeCun

L'entrée d'un réseau de neurones n'est pas un tenseur mais une fonction sur un graphe. Le graphe peut changer de structure à chaque point de données. Le réseau de neurones est dynamique. C'est populaire pour analyser les réseaux sociaux, comprendre la chimie ou trouver comment passer d'une molécule à une autre.

Yann LeCun

Je vais passer sur la parcimonie. Leçons apprises : les réseaux dynamiques gagnent en popularité. Les réseaux augmentés par mémoire à grande échelle nécessiteront une mémoire associative efficace et des moteurs de recherche de plus proches voisins. Les ConvNets sur graphes sont prometteurs. Peut-être dirons-nous adieu à la multiplication matricielle et aux tenseurs comme opérations élémentaires.

L'apprentissage par renforcement vs Humains

Yann LeCun

L'apprentissage par renforcement fonctionne bien pour les jeux, mais il nécessite de nombreux essais. Si nous utilisions l'apprentissage par renforcement standard pour entraîner une voiture, elle devrait conduire des millions d'heures et causer des milliers d'accidents avant d'apprendre à conduire.

Yann LeCun

Comment se fait-il que les humains puissent apprendre à conduire en 20 heures sans s'écraser ? Nous aimerions construire des machines intelligentes ayant autant de bon sens qu'un chat domestique. Nos machines les plus intelligentes n'en ont pas actuellement.

L'avenir : Apprentissage auto-supervisé

Yann LeCun

Les humains et les animaux apprennent par l'observation. Nous aimerions que les machines fassent de même. L'avenir de l'IA est l'apprentissage auto-supervisé. Nous apprenons en comprenant comment le monde fonctionne, pas en nous faisant dire le nom des choses.

Yann LeCun

Nous pouvons le faire en nous entraînant à prédire, comme la prédiction vidéo. Prédire les prochaines images d'une vidéo à partir du passé. Nous pouvons le faire efficacement pour le texte, mais pas encore pour la vidéo.

Yann LeCun

La quantité d'informations que nous donnons à la machine pendant l'apprentissage par renforcement est faible. Pour l'apprentissage supervisé, nous en donnons un peu plus. Mais dans l'apprentissage auto-supervisé, nous demandons à la machine de tout prédire à partir d'une entrée qu'elle fait semblant de ne pas connaître.

Yann LeCun

Ce sont des informations plus riches. Une conséquence est que les réseaux de neurones que nous entraînons seront beaucoup plus grands que ceux que nous avons. Cela créera une demande pour ce que vous construisez. L'apprentissage auto-supervisé en vision par ordinateur consiste à remplir les blancs dans les images ou à prédire la vidéo.

Yann LeCun

Dans le texte, cela consiste à bloquer des mots et à demander à la machine de remplir les blancs. Cela mène à des machines qui représentent le texte avec précision. Mais il y a un problème : vous devez gérer l'incertitude du monde lors de la prédiction vidéo.

Yann LeCun

Il y a différents futurs. Si vous demandez à une machine de faire une prédiction d'un stylo qui tombe, elle pourrait prédire la moyenne de toutes les directions, ce qui donnerait un stylo transparent dans toutes les positions. Ce n'est pas bon.

Yann LeCun

Représenter l'incertitude est le grand défi technique. La prochaine révolution de l'IA ne sera pas supervisée. Il est crucial d'apprendre des modèles prédictifs pour que les machines puissent prédire à l'avance les conséquences de leurs actions.

Modèles prédictifs et réseaux antagonistes (GANs)

Yann LeCun

Si une voiture autonome prédit que tourner à gauche vers une falaise entraînera un accident, elle peut s'en empêcher. Comment entraînons-nous les machines à avoir des modèles du monde qui utilisent des prédictions en présence d'incertitude ?

Yann LeCun

Les réseaux antagonistes génératifs sont prometteurs. Cela consiste à entraîner deux réseaux de neurones, proposés par Ian Goodfellow. Les visages que vous voyez ici ne sont pas réels. Ce sont des personnes inexistantes produites en tirant un vecteur aléatoire et en le passant dans un réseau de neurones.

Yann LeCun

Ceci est un projet chez Facebook générant des vêtements. Nous avons entraîné des réseaux génératifs sur des images d'un créateur de mode et cela génère ces choses. Les créateurs s'en inspirent. Nos cerveaux sont des machines à prédire.

Yann LeCun

Voici des exemples d'utilisation de réseaux antagonistes pour la prédiction vidéo. Si nous pouvions faire cela, nous pourrions l'utiliser pour les voitures autonomes afin de prédire où vont les voitures autour de nous et éviter les accidents. C'est un projet de Kevin Couprie et Pauline Luc chez Facebook AI Research à Paris.

Yann LeCun

Cela fonctionne bien jusqu'à quelques secondes dans le futur. Voici un autre projet que j'ai réalisé à NYU sous contrat avec NVIDIA pour entraîner un système de conduite autonome à prédire ce que les voitures autour de vous vont faire. Vous les avez observées et vous essayez de prédire où elles iront ensuite.

Yann LeCun

Vous entraînez un réseau de neurones à faire cela avec des techniques qui lui permettent de gérer l'incertitude. À gauche se trouve ce qui se passe dans la vie réelle. La deuxième colonne montre ce qui se passe si un modèle prédictif ne gère pas bien l'incertitude ; la prédiction devient floue. Les autres colonnes utilisent des modèles où vous tirez différents échantillons.

Yann LeCun

Si vous placez ce système à l'intérieur de quelque chose qui lui permet d'apprendre à conduire, il apprendra effectivement. Vous déroulez le système prédictif, calculez une fonction de coût et faites fonctionner cela pendant quelques secondes. Tout cela se passe dans la tête de la machine.

Yann LeCun

Vous rétropropagez le gradient à travers lui et entraînez un réseau de neurones à apprendre à conduire pour minimiser les collisions. Si vous jouez des tours pour gérer l'incertitude, voici ce que vous obtenez. C'est la voiture qui se conduit toute seule ; le point blanc indique si la voiture accélère ou tourne.

Parcimonie, efficacité énergétique et cas d'utilisation

Yann LeCun

Elle réussit à ne pas s'écraser souvent. L'apprentissage auto-supervisé est l'avenir. Les réseaux seront beaucoup plus grands, peut-être avec une activité parcimonieuse. La meilleure façon de représenter les données est de n'activer qu'un petit nombre de neurones. Nos cerveaux ne sont actifs qu'à environ 2 % à tout moment.

Yann LeCun

Cela rend notre cerveau économe en énergie. La consommation électrique est d'environ 25 watts pour 10^18 opérations par seconde. L'exploitation de la parcimonie arrive. Le matériel d'apprentissage profond a quatre cas d'utilisation : la R&D haut de gamme nécessitant une virgule flottante de 32 bits et un parallélisme élevé ; puis l'entraînement de routine.

Yann LeCun

L'entraînement de routine peut être effectué avec du FP 16 bits. Vous voulez que le coût soit modéré. Ensuite, il y a l'inférence dans les centres de données, de plus en plus importante pour la compréhension du contenu. Cela peut fonctionner en virgule flottante 8 ou 16 bits, avec une faible consommation d'énergie.

Yann LeCun

La dernière application est l'inférence sur des appareils embarqués qui doivent être à bas coût et à basse consommation. Il y a eu des travaux chez Facebook AI Research pour repenser la façon dont vous représentez les nombres en virgule flottante avec une faible précision. Ce serait utile pour la RA, la VR et les robots domestiques.

Spéculations et conclusion

Yann LeCun

Ma dernière diapositive concerne les spéculations. Il y a eu des travaux sur les architectures neuromorphiques et les neurones impulsionnels. Je suis sceptique à ce sujet, mais intéressé à en discuter. Je suis aussi intéressé par le calcul analogique, la spintronique et les implémentations optiques. Merci.