L'Avenir du Travail : IA et Robotique
17 novembre 2017
Technologie & Intelligence Artificielle
Introduction et Portée du Symposium
Et c'est un plaisir pour moi de présenter un leader mondial dans le domaine de la robotique, un citoyen exceptionnel du MIT et le cerveau derrière tout cet événement, la directrice du CSAIL, la professeure Daniela Rus.
Merci beaucoup, Rafael. Merci d'être présent. Merci. Ainsi, au cours des deux prochains jours, ce symposium couvrira un large éventail de sujets liés à l'avenir du travail, de l'économie à la technologie, de la sociologie au droit, du commerce à l'éthique, et tout ce qu'il y a entre les deux. Ce mélange de perspectives n'a jamais été aussi important alors que nous cherchons à comprendre comment notre monde va changer et comment nous pouvons travailler ensemble pour garantir que ce changement profite à tous.
Visions d'un Monde Automatisé
Le fait qu'il y ait des changements n'est une surprise pour aucun d'entre nous. Aujourd'hui, la téléprésence permet aux étudiants de rencontrer des tuteurs et aux médecins de voir des patients à des milliers de kilomètres. Les robots aident à la surveillance des installations, les capteurs en réseau soutiennent les robots dans leurs activités et l'impression 3D crée des produits personnalisés. Nous sommes entourés d'un monde de possibilités, des possibilités qui ne feront que s'élargir à mesure que nous commençons à imaginer ce que nous pouvons faire avec les progrès de l'intelligence artificielle et de la robotique. Imaginez donc un monde où les tâches routinières vous sont retirées. Les produits frais arrivent directement sur votre palier, livrés par des drones. Les poubelles sortent d'elles-mêmes, et des systèmes d'infrastructures intelligents facilitent le ramassage automatisé. Les assistants d'IA, incarnés ou non, agissent comme nos anges gardiens et veillent à ce que nous maximisions et optimisions nos vies pour bien vivre et travailler efficacement. Comment vivrons-nous dans ce monde ? Comment apprendrons-nous ? Comment travaillerons-nous ? Comment serons-nous payés ? Que ferons-nous de nos loisirs ? Comment s'assurer que la vie de chacun sera meilleure ?
Défis Mondiaux et Potentiel de l'IA
Je crois que la technologie a le potentiel de nous soutenir, des défis locaux, comme rendre le trajet entre la maison et le travail facile et sûr, aux enjeux mondiaux. En tant que société, nous avons de nombreux défis majeurs à résoudre : les inégalités, le logement abordable, les soins de santé, l'emploi, l'éducation, la sécurité, le changement climatique, les fausses informations, et tout le reste. La technologie en général et l'IA in particulier peuvent être un vecteur incroyable de changement positif alors que nous travaillons ensemble pour résoudre ces problèmes. Elle peut nous rassembler. Elle peut nous donner des moyens de naviguer vers la vérité dans un monde inondé de faits alternatifs. Elle peut s'occuper des tâches routinières pour nous donner plus de temps pour résoudre les problèmes qui exigent créativité, collaboration et stratégie. Je sais que cela semble optimiste. L'IA ne va pas résoudre tous nos problèmes, pas plus qu'elle ne va détruire le monde.
Capacités et Limites de l'IA
Aujourd'hui, l'IA peut traiter des chiffres et mémoriser, faire des prédictions et aider aux prévisions mieux que les humains ne le peuvent. Mais l'IA ne peut pas raisonner, ne peut pas bien communiquer, ni comprendre le monde comme nous le faisons, car elle manque de bon sens. Cela ne signifie pas que l'IA n'est pas un outil puissant, seulement qu'il ne s'agit pas des humains ou des machines. Considérez plutôt les humains et les machines travaillant ensemble avec des systèmes d'IA. Les humains peuvent augmenter et amplifier de nombreux aspects du travail et de la vie.
Collaboration Humain-Machine et Exemples Actuels
Par exemple, dès aujourd'hui, les entreprises utilisent l'IA pour comprendre ce que les clients disent sur les réseaux sociaux en temps quasi réel. Des systèmes peuvent alerter automatiquement les entreprises sur des problèmes de chaîne d'approvisionnement, et Microsoft a récemment annoncé que son système de reconnaissance vocale a réduit le taux d'erreur à 5,1 %, ce qui correspond à l'erreur des meilleurs transcripteurs humains. Par ailleurs, Google Translate a rendu possibles les traductions instantanées. Imaginez l'impact de ces avancées sur notre capacité à communiquer facilement les uns avec les autres, quelle que soit notre langue maternelle, et sur notre facilité à donner des instructions à tout, des robots dans les usines à nos voitures. En parlant de voitures, la branche crédit de la Ford Motor Company teste un nouveau logiciel qui utilise l'apprentissage automatique pour mieux évaluer les demandes de prêt reçues par les souscripteurs. Et les créateurs de ce logiciel pensent qu'il fera une énorme différence pour les personnes sans antécédents de crédit qui ont actuellement du mal à obtenir des prêts. L'apprentissage automatique alimente de nombreux autres services : recommandations de produits, prévention du blanchiment d'argent, et même efficacité énergétique. J'ai été ravie d'apprendre qu'une division de DeepMind de Google a pu améliorer l'efficacité du refroidissement des propres centres de données de Google de plus de 40 %. Comme les centres de données consomment environ 3 % de l'énergie mondiale chaque année, vous pouvez imaginer l'impact sur l'environnement si nous pouvions appliquer ces techniques à tous les systèmes du monde entier. À mesure que les barrières à l'entrée s'abaissent, nous verrons probablement des opportunités pour les entreprises de toutes sortes de tirer parti de ce que l'IA peut faire, et dans certains cas, cela inclut la transformation d'industries entières.
L'IA dans la Santé et la Recherche Médicale
Prenons le domaine médical par exemple. Regina Barzilay du CSAIL a fait équipe avec des médecins du MGH pour utiliser l'apprentissage automatique afin d'améliorer la détection et prévenir le surtraitement du cancer du sein. Leur méthode diagnostique correctement 97 % des cancers du sein comme malins et réduit le nombre de chirurgies bénignes de plus de 30 % par rapport à l'état actuel de l'art. DeepMind s'associe à des médecins pour entraîner l'IA à planifier des traitements contre le cancer. L'IA Watson d'IBM est testée par des médecins dans 55 hôpitaux à travers le monde, et l'IA permet également la découverte de nouveaux traitements. Autrefois, il fallait plus de 12 ans pour mettre un nouveau médicament sur le marché à un coût de 2,6 milliards de dollars. Mais maintenant, avec l'apprentissage automatique, les ordinateurs peuvent choisir les expériences à réaliser, et en utilisant cette approche, nous avons récemment appris que cette technique donne déjà des résultats prometteurs pour retarder l'apparition de la SLA. L'IA ne remplace pas les médecins. Elle ne peut pas s'asseoir avec les patients, discuter d'un diagnostic ou examiner des plans de traitement. Mais l'IA peut aider les médecins à poser le bon diagnostic et à reconnaître toutes les options de traitement disponibles, tout en libérant du temps pour le passer réellement avec les patients. J'aime partager cet exemple parce que je pense qu'il répond à la grande inquiétude que beaucoup ont au sujet de l'IA. Les avancées de l'IA montrent ce que les humains et les machines peuvent faire lorsqu'ils travaillent ensemble.
Éducation et Adaptation de la Main-d'œuvre
Mais cela soulève également des questions sur le fait de savoir si l'IA va supprimer des emplois humains et apporte des craintes de perte de contrôle et de stabilité dans nos vies. Cette préoccupation est exactement le genre de question que nous sommes ici pour aborder. Car si je ne crois pas que nous puissions empêcher la technologie de progresser, je crois que nous avons le pouvoir de décider de certaines des conséquences. La main-d'œuvre va changer. Tout comme l'agriculture a été profondément transformée par les machines par le passé, il y aura des changements profonds dus à l'avancement de l'IA et de la robotique. Aujourd'hui, nous entamons la conversation pour comprendre comment ces changements peuvent servir le bien commun. Comment les professions peuvent-elles être améliorées avec des machines prenant en charge les tâches monotones, laissant plus de temps aux gens pour appliquer leur expertise ? Nous devons réfléchir à la manière de préparer toutes les parties de notre société à un avenir avec les machines. Dans une récente lettre ouverte à Jeff Bezos publiée dans le Boston Globe, il était suggéré que chaque école ait un professeur d'informatique. Ceux d'entre vous qui me connaissent savent que c'est une musique à mes oreilles, car l'éducation jouera un rôle encore plus critique à l'avenir, et je crois que l'alphabétisation du XXIe siècle exige que les gens sachent comment fabriquer des choses et comment les programmer. Mais cela ne suffit pas. Nous avons également besoin de programmes d'apprentissage tout au long de la vie pour aider les gens à s'adapter au travail avec les machines. Nous devons réellement adopter l'apprentissage continu comme mode de vie. Certaines organisations créatives prennent des mesures de reconversion. Par exemple, Bit Source, dont vous entendrez parler demain, reconvertit des mineurs de charbon en mineurs de données pour pourvoir de nombreux emplois de codage ouverts aujourd'hui. Les universités proposent des MOOC, par exemple le MIT a été pionnier en créant edX. Les entreprises se mobilisent également. Google a récemment engagé 1 milliard de dollars dans des programmes pour reconvertir les travailleurs, et Steve Wozniak a annoncé son propre programme d'éducation en ligne. À quoi ressembleront ces programmes d'apprentissage tout au long de la vie, comment nous les construirons, comment nous les financerons et quels devraient être les rôles des universités et des entreprises dans ce processus sont des questions ouvertes, et c'est l'un des sujets que nous devrons discuter pour combler le fossé entre la technologie, les économistes, les entreprises et les décideurs politiques. J'espère que c'est une conversation que nous aurons aujourd'hui.
Présentation des Intervenants et du Modérateur
Je suis ravie d'accueillir tous les visionnaires qui participeront à nos panels aujourd'hui et demain. Je suis aussi très, très heureuse d'accueillir nos conférenciers d'honneur. Aujourd'hui, vous entendrez Eric Schmidt, président d'Alphabet de Google, et Yann LeCun, directeur de la recherche en IA chez Facebook. Ils discuteront de l'état de l'art et des opportunités dans l'IA. Demain, nous accueillerons les dirigeants de Bit Source, l'entreprise du Kentucky qui reconvertit des mineurs en utilisant l'idée que les compétences en résolution de problèmes dans une mine de charbon pourraient également être mises à profit pour écrire des programmes et travailler avec des ordinateurs. Tout au long de notre programme, vous serez entre les mains expertes de notre modérateur, John Markoff, journaliste lauréat du prix Pulitzer qui couvre les développements technologiques depuis des décennies. John a plus de 2 000 articles à son actif, principalement pour le New York Times. Il a été parmi les premiers rédacteurs à couvrir des sujets importants allant du premier virus informatique significatif à l'émergence du navigateur web et à l'essor des machines. J'ai toute confiance qu'entre ses mains, nous serons capables de découvrir de nouvelles perspectives et de trouver un terrain d'entente.
Le Rêve Américain et l'Avenir de la Société
Ces deux jours sont le début de nombreuses conversations importantes. Ils représentent une opportunité majeure pour nous de nous mettre au défi de voir la technologie comme quelque chose qui unit les gens. Quand je suis arrivée aux États-Unis en 1982, j'ai laissé derrière moi une dictature oppressive avec des pénuries alimentaires, de grandes peurs, des persécutions et une oppression politique. Aujourd'hui, je peux être ici avec vous pour discuter de sujets importants, et aujourd'hui, beaucoup de gens considèrent cela comme le rêve américain. Alors, que devrions-nous faire pour nous assurer que le rêve américain reste vrai pour tout le monde ? Que nous construisions pour notre pays un avenir porteur d'espoir pour tous ? Que nous construisions une société qui attire les meilleures personnes au monde pour venir ici réaliser leurs rêves, et une société qui soutient l'innovation et l'entrepreneuriat, embrasse l'apprentissage tout au long de la vie et la méritocratie, et aide chacun à profiter de la prospérité que la technologie peut apporter. Où les gens trouvent des moyens significatifs de contribuer avec détermination. Je crois que la technologie peut être un outil vers cet avenir, et je suis très enthousiaste à l'idée de discuter avec vous aujourd'hui et demain de ce que nous pouvons faire pour qu'il en soit ainsi. Merci beaucoup.
Introduction de Yann LeCun
Maintenant, je suis absolument ravie de présenter notre premier conférencier. J'aimerais vous inviter à m'aider à accueillir Yann LeCun, directeur de la recherche en IA chez Facebook, professeur à NYU et père fondateur des réseaux de neurones convolutifs. Yann a été un pionnier des réseaux de neurones, et son travail a inspiré des milliers de personnes à travers le monde à se lancer dans l'apprentissage automatique. Et son travail a stimulé des applications révolutionnaires dans divers domaines allant de la reconnaissance d'images à la reconnaissance vocale, en passant par la médecine et les véhicules autonomes. Yann a été un défenseur incroyable de l'IA à travers les décennies, malgré les hauts et les bas du domaine, ce qui est la marque d'un véritable érudit. Yann a apporté de nombreuses contributions, mais j'aimerais souligner un projet qu'il a réalisé en 2003 dans le cadre d'un projet d'incubation de la DARPA pour créer une première preuve de concept d'un système d'apprentissage automatique de bout en bout pour la conduite autonome. Ce projet s'appelait DAVE et a véritablement servi d'élan à l'approche actuelle de NVIDIA pour les véhicules autonomes et à certains de nos propres projets ici au MIT. J'ai eu le privilège de connaître Yann et son travail depuis de nombreuses années, et je suis tellement impressionnée par sa capacité à être un visionnaire aussi brillant tout en conservant son sens de l'humour terre-à-terre et sa chaleur. Et donc je n'ai pas été surprise récemment d'apprendre que son nom LeCun, qui dérive de l'ancienne forme bretonne Le Cunff, signifie le gars sympa. Nous sommes donc honorés de l'avoir aujourd'hui. Veuillez vous joindre à moi pour accueillir Yann.
L'IA comme Technologie à Usage Général
Merci, Daniela. C'est un réel plaisir d'être ici. Je dois faire un terrible aveu. C'est une conférence sur l'avenir du travail, et je ne suis certainement pas économiste. Mais je fréquente quelques économistes, Eric entre autres, et j'étais récemment à une conférence à Toronto avec beaucoup d'économistes très éminents qui parlaient de l'IA et la décrivaient en termes de technologie à usage général. Ils la voient donc comme une technologie qui va se diffuser dans toute la société et l'économie et transformer la façon dont les affaires sont menées dans la plupart des secteurs. Je n'avais jamais pensé à cela de cette façon, et j'ai été vraiment intéressé par l'histoire de ce phénomène au cours des siècles précédents, sur la manière dont ce type de technologie pénètre la société. Alors, comme je ne suis pas économiste, je vais plutôt parler de la science et de la technologie de l'IA, donner un petit état de l'art, puis peut-être parler des limites et de la manière dont nous pourrions éventuellement les dépasser.
Les Vagues de l'IA et l'Apprentissage Profond
Bien sûr, vous connaissez tous l'histoire de l'IA, il y a eu un certain nombre de vagues d'approches différentes, dont beaucoup ont suscité de grands espoirs qui n'ont pas forcément été comblés au final. Lorsque les espoirs ne sont pas comblés, la vague d'intérêt pour cet ensemble particulier de techniques retombe. Il y a eu plusieurs vagues d'apprentissage automatique et de réseaux neuronaux, plusieurs vagues d'approches plus symboliques et d'autres types d'approches. Et en ce moment, nous sommes assez proches du sommet d'une nouvelle vague, peut-être déclenchée par l'émergence de l'apprentissage profond. Chaque fois qu'une telle vague se produit, l'ensemble des techniques développées finit par faire partie de la boîte à outils, et nous n'en parlons plus en termes d'IA. Si vous remontez à l'histoire de la première vague des réseaux de neurones, on a l'impression que tous les travaux dans ce domaine se sont arrêtés à la fin des années 60, en partie à cause d'un livre écrit par des professeurs du MIT, Marvin Minsky et Seymour Papert. Mais en fait, cela a juste changé de nom. Les gens ont continué ce qu'ils faisaient, sauf qu'ils appelaient cela des filtres adaptatifs au lieu d'apprentissage automatique, d'intelligence artificielle ou de cerveaux artificiels. Et on voit cela dans les différentes vagues de l'IA. Je me demande donc ce qui va arriver à cette vague. Comment s'appellera-t-elle dans 10 ans, dans 5 ans ? Et quelle sera la prochaine vague ?
Applications de la Perception par l'IA
Ce que nous pouvons faire avec l'IA maintenant que nous ne pouvions pas faire avant, ou du moins pas dans la même mesure, c'est la perception. Et cela a bien sûr de nombreuses applications partout dans l'économie. Des choses comme l'analyse d'images médicales et les voitures autonomes, qui sont probablement les deux applications les plus visibles qui apparaîtront au cours des prochaines années et dont le public aura connaissance. Il y a beaucoup d'autres applications pour l'accessibilité pour les malvoyants, par exemple, la traduction, connecter les gens, ce qui intéresse beaucoup Facebook, les assistants virtuels, même si cela va prendre du temps. Et, bien sûr, la recherche, la récupération d'informations de contenu, les jeux, la sécurité, etc., et la science. La science est en fait également affectée par l'apprentissage profond.
Apprentissage Supervisé et Architectures de Réseaux
Toutes ces applications utilisent actuellement l'apprentissage supervisé. Et l'apprentissage supervisé est — je suis sûr qu'il y a des économistes ici dans la salle — c'est comme la régression, n'est-ce pas ? Vous avez des entrées et des sorties, vous avez des X et vous avez des Y, et vous devez apprendre une fonction qui fait correspondre les X aux Y. Vous avez un nombre limité d'échantillons et vous espérez qu'avec ce nombre limité d'échantillons, la machine pourra apprendre la correspondance appropriée. Vous voulez, par exemple, faire correspondre la parole à des mots, des images à des catégories, des portraits à des noms, des photos à des légendes, du texte à des sujets, vous voyez le genre. Essentiellement, le processus est que la machine est une fonction avec de nombreux paramètres qui peuvent être ajustés, symbolisés par ces boutons ici, et vous montrez une image, ou n'importe quelle entrée, vous attendez que la machine produise une réponse. Si la réponse est fausse, vous ajustez tous les paramètres pour que la sortie se rapproche de celle que vous voulez. C'est l'apprentissage supervisé. C'est très réussi, et je dirais que presque 100 % de toutes les applications de l'apprentissage automatique résultent de l'apprentissage supervisé. La question suivante est : comment construire cette boîte ? Ce n'est plus une boîte physique, bien que ce l'était dans les années 50, c'est un logiciel. Une manière particulière de construire ces boîtes sont des réseaux convolutifs ou des réseaux récurrents, il y a maintenant toute une ménagerie d'architectures dérivées de ces mécanismes et assemblées en blocs. C'est la substance de l'apprentissage profond : le fait de pouvoir prendre des blocs fonctionnels, chacun ayant des paramètres ajustables, et de les assembler dans une sorte de graphe de calcul. Et si tous ces modules sont différentiables, vous pouvez utiliser l'apprentissage profond ou la descente de gradient pour les entraîner.
Évolution Historique et Données Massives
Il y a eu des applications précoces des réseaux de neurones, certaines à petite échelle, d'autres à plus grande échelle. L'une des applications dans laquelle j'ai été impliqué concernait la reconnaissance de caractères. Ces choses ont été très largement déployées au milieu des années 90 pour reconnaître les chèques et divers autres documents. Mais cela n'a pas empêché le domaine de se désintéresser de ces techniques au milieu des années 90. Je pense que les sociologues des sciences devront éclaircir ce point car j'étais trop impliqué pour vraiment comprendre quelle était la dynamique. Mais il est intéressant de savoir pourquoi cela s'est produit afin de peut-être faire différemment la prochaine fois. Ce qui s'est passé au cours des dernières années, grosso modo les cinq dernières années, c'est que ces idées qui remontent aux années 90 ont été mises en avant parce que les ordinateurs sont devenus plus puissants et les ensembles de données plus volumineux. Et ces méthodes prospèrent sur les grands ensembles de données. Vous avez besoin d'un grand nombre d'échantillons pour entraîner un système d'apprentissage profond pour une nouvelle tâche. Une fois que le système est entraîné, si vous voulez ajouter une catégorie, vous n'avez pas besoin de tant d'échantillons, mais la première étape pour que le système apprenne quoi que ce soit nécessite beaucoup de données. Ce n'est que récemment que notre monde numérique a produit assez de données pour que ce soit possible, sauf pour la reconnaissance vocale et manuscrite. Il y a environ sept ans, des ensembles de données pour la reconnaissance d'images sont devenus disponibles et les GPU sont apparus, ce qui a permis à mon collègue Geoffrey Hinton et ses étudiants d'implémenter des réseaux convolutifs très efficaces sur GPU. Ils ont ensuite battu des records en reconnaissance d'images, ce qui a aidé à faire changer d'avis la communauté de la vision par ordinateur et plus tard d'autres communautés qui étaient sceptiques auparavant. Depuis lors, nous assistons à une inflation de la taille et du nombre de couches de ces réseaux et à une ménagerie d'architectures différentes. C'est ce qui rend cela intéressant.
Robotique et Conduite Autonome
Daniela a mentionné l'un des projets de robotique dans lequel j'étais impliqué. Je devrais dire que l'idée d'apprendre une tâche de robotique pour la conduite de bout en bout remonte en fait aux années 80 — c'est Dean Pomerleau à CMU qui a entraîné un réseau de neurones à conduire un camion. C'était assez réussi, ça s'appelait ALVINN. Et ce que nous avons fait plus récemment, c'est utiliser des réseaux convolutifs pour cela. Ensuite, la DARPA a décidé de financer un projet de conduite de robot tout-terrain qui nous a permis de développer ces techniques pour étiqueter chaque élément de l'image comme étant franchissable ou non. Il s'avère qu'on peut piloter des robots de cette façon. Cela a plutôt bien fonctionné. Voici deux des étudiants qui ont travaillé sur ce projet, Raia Hadsell, qui dirige le groupe de robotique chez DeepMind, et Pierre Sermanet, qui taquine ce pauvre robot, et qui travaille sur la robotique chez Google Brain. Ils sont assez confiants que le robot ne va pas les écraser parce qu'ils ont écrit le code et l'ont entraîné. C'était l'état de l'art pour les réseaux convolutifs pour la conduite et la reconnaissance d'images vers 2008.
Avancées en Vision par Ordinateur (Mask R-CNN)
Et ce qui s'est passé depuis est tout simplement étonnant, même pour moi. C'est un travail très récent présenté à la conférence ICCV par des chercheurs de Facebook AI Research. L'auteur principal est Kaiming He, et c'est un type particulier de réseau convolutif appelé Mask R-CNN qui combine plusieurs techniques. Ce système peut faire de la segmentation d'instances. Il peut prendre une image et tracer le masque ou le contour et la boîte englobante de chaque objet individuel, puis les étiqueter avec une catégorie. Il connaît les objets individuels. Il n'étiquette pas tout le bloc comme personne, il connaît chaque individu. La performance de ce système est vraiment impressionnante. Ce papier a d'ailleurs remporté le prix du meilleur papier à l'ICCV pour cette raison. Il peut identifier de petits objets, des objets qui se chevauchent, des sacs à dos, des moutons. Il y a toujours une photo de mouton en vision par ordinateur. Et il fait diverses autres choses comme cela avec des vues partielles et des occlusions. Si vous aviez demandé à un chercheur il y a 5 ou 10 ans combien de temps il nous faudrait pour résoudre ce problème, il aurait probablement refusé tout pronostic. Cela semblait totalement inatteignable il y a quelques années seulement. Le même système peut être entraîné pour plusieurs tâches, comme évaluer la pose de corps humains. C'est très utile pour des applications en réalité augmentée, réalité virtuelle, mais aussi pour savoir ce que les gens font dans les images.
Au-delà de la Perception : Raisonnement et Graphes Dynamiques
C'est donc la perception. La perception fonctionne vraiment, et il y a un nombre immense d'applications possibles. Mais ce qui manque à la perception, c'est le raisonnement. L'intelligence n'est pas seulement la perception ; il y a aussi le raisonnement, la mémoire, la planification. Il y a le bon sens. Daniela l'a mentionné. Daniela a mentionné deux choses : le bon sens et les fausses informations. Je vais parler du premier mais pas du second. Voici un exemple de travail qui aborde le problème du raisonnement. C'est du raisonnement visuel. Le problème ici est de répondre à des questions du type : y a-t-il un cube mat qui a la même taille que l'objet en métal rouge ? Si vous voulez que le système réponde à cette question, il doit se configurer lui-même pour calculer la réponse. Ils ont compris qu'ils pouvaient injecter la phrase codée en vecteurs dans un réseau neuronal récurrent, LSTM. Ce LSTM produit un vecteur qui représente la question puis l'injecte dans un autre LSTM qui le restitue sous forme de programme visuel. Ce programme va produire un graphe d'opérateurs destinés à répondre à la question. Ce graphe est généré dynamiquement en fonction de la question. Ce n'est pas nouveau dans les réseaux de neurones, mais c'est une idée qui gagne en popularité : l'architecture du réseau n'est pas fixe mais dépend des données. C'est ce qu'on appelle les graphes dynamiques. Nous travaillons chez Facebook sur des cadres d'apprentissage profond capables de gérer ces graphes. C'est crucial pour la compréhension du langage naturel et pour le raisonnement. Le système va produire ce graphe d'opérateurs. Le premier va filtrer les objets jaunes, produisant un masque pour chaque objet jaune.