Séminaire Baidu avec Yann LeCun : L'avenir de l'IA et de l'apprentissage auto-supervisé
1 mars 2022
Intelligence Artificielle
Introduction et Bienvenue
Génial. Merci à tous d'être venus au séminaire d'aujourd'hui. C'est un grand plaisir d'avoir le professeur Yann LeCun de Meta AI comme conférencier aujourd'hui. Mais d'abord, notre CTO de Baidu, le Dr Haifeng Wang, aimerait souhaiter la bienvenue à Yann et à l'auditoire. Haifeng est le directeur de la technologie de Baidu, tout en restant un chercheur actif dans de nombreux domaines de l'IA et de l'apprentissage profond, en particulier le traitement du langage naturel comme la traduction automatique, les modèles de langage pré-entraînés, les graphes de connaissances et les technologies de recherche. Veuillez accueillir Haifeng.
D'accord. Bonjour Yann, bonjour à tous. Bienvenue chez Baidu. C'est la deuxième fois que Yann rend visite à Baidu, virtuellement cette fois-ci. La première fois, c'était en 2013, lorsque Yann a visité Baidu pour le deuxième sommet technologique de Baidu. Je me souviens encore de son exposé fantastique sur l'apprentissage profond. Près de 10 ans se sont écoulés et l'apprentissage profond, comme tout le monde le sait, a transformé tous les aspects de l'apprentissage automatique et de l'intelligence artificielle dans l'industrie ainsi que dans le milieu universitaire. Aujourd'hui, Yann est de nouveau parmi nous et nous allons découvrir ses réflexions étonnantes sur l'IA. Permettez-moi de présenter brièvement le conférencier d'aujourd'hui, le Dr Yann LeCun. Actuellement, il est le scientifique en chef de l'IA chez Meta et professeur Silver à l'université de New York (NYU). Il est également membre de l'Académie nationale des sciences et de l'Académie nationale d'ingénierie des États-Unis, parmi de nombreux autres honneurs. Yann a été reconnu comme l'un des trois pionniers de l'apprentissage profond et a reçu le prix Turing de l'ACM pour ses percées conceptuelles et techniques qui ont fait des réseaux de neurones profonds un composant essentiel de l'informatique. Je suis ravi de vous avoir ici. S'il vous plaît, revenez nous voir. Merci.
Défis de l'ingénierie financière et non-stationnarité
Merci, Haifeng. C'était une excellente introduction. En fait, je me souviens avoir également invité Yann à l'Université Rutgers en 2013. Quelle coïncidence. Voici l'ordre du jour d'aujourd'hui. Avant l'exposé de recherche, je remercie Yann d'avoir accepté de faire cette session de conversation de 30 minutes. C'est informel, comme un panel. Nous avons un certain nombre d'invités spéciaux qui poseront des questions à Yann. C'est pour le plaisir et pour l'éducation, et j'espère que le public l'appréciera également. Nous avons le Dr Li Deng et le Dr Andrea Montanari. Nous allons commencer par le Dr Li Deng. Bienvenue, Li. Li a reçu le prix d'excellence technologique 2015 de l'IEEE Signal Processing Society pour ses contributions exceptionnelles à la reconnaissance vocale automatique et à l'apprentissage profond. Il a également reçu le prix du leadership industriel de l'IEEE 2019 pour ses recherches pionnières et le développement de l'apprentissage profond à grande échelle qui a perturbé l'industrie mondiale de la reconnaissance vocale, ainsi que pour son leadership dans le traitement du langage naturel et l'ingénierie financière. Li est membre de l'Académie canadienne d'ingénierie. Il était le directeur de l'IA chez Citadel America et, avant cela, il était scientifique en chef de l'IA et responsable du centre technologique d'apprentissage profond chez Microsoft. Actuellement, il conseille plusieurs startups d'IA dans la Silicon Valley et est professeur affilié à l'Université de Washington. Li, bienvenue à nouveau chez Baidu et s'il vous plaît, partagez vos questions avec Yann.
J'ai visité Baidu cette même année dans le bâtiment que l'on peut voir juste derrière Haifeng.
Merci beaucoup, Yann. J'ai écouté beaucoup de vos conférences et j'en ai apprécié chaque minute. Quand j'étais chez Microsoft, j'ai tellement appris de vous. Après avoir rejoint une société de fonds spéculatifs, j'ai rencontré de nombreux problèmes différents que je n'ai pas le droit de discuter à l'extérieur. Cependant, il y a maintenant une opportunité de vous poser des questions, en espérant obtenir de vous un aperçu des défis de l'ingénierie financière auxquels notre industrie est confrontée. Nous avons résolu une partie du problème en utilisant l'apprentissage profond, mais il reste des problèmes très importants à résoudre. Le problème critique dans la prédiction des marchés financiers est d'avoir des distributions très différentes entre les ensembles d'entraînement et de test. C'est le genre de problème impliquant l'interpolation et l'extrapolation dont parlent Yoshua Bengio et Geoffrey Hinton. À cause de la concurrence, la distribution change vraiment rapidement. J'ai récemment lu un article que vous avez écrit sur la façon dont, en haute dimensionnalité, l'apprentissage profond peut faire de l'extrapolation plutôt que de la simple interpolation. Cet aperçu m'a aidé à réfléchir à la manière de gérer les processus non stationnaires impliqués dans la prédiction du marché. C'est très différent de la prédiction du langage naturel où tout est statique. Sur le marché financier, la distribution change pour des raisons spécifiques telles que les lois économiques régissant la concurrence. Dans quelle mesure pensez-vous que vos idées sur les capacités de généralisation peuvent être applicables à des problèmes où la distribution change rapidement et où vous ne connaissez pas la prochaine distribution ?
Je ne suis pas du tout un expert en prédiction financière ou en marchés. Mais une chose que je sais, c'est qu'ils sont très bruyants par définition car les autres personnes jouant sur le marché essaient de le rendre imprévisible. La grande question n'est pas seulement de savoir comment gérer les signaux non stationnaires, mais comment gérer les niveaux de bruit élevés et l'incertitude. Ce n'est pas seulement une bonne chose de prédire, mais il est aussi important de savoir quand votre prédiction est bonne ou mauvaise et de produire peut-être une sorte de distribution sur votre prédiction. Je parlerai de la façon dont on gère l'incertitude dans la partie technique de l'exposé. S'il y a une grande incertitude, il peut être très difficile de prédire le signal directement, vous pourriez donc vouloir prédire une représentation de celui-ci à la place, comme s'il va monter ou descendre à long terme. Nous devrions peut-être abandonner l'idée que nous devons prédire les variables directement et nous concentrer sur la modélisation des représentations. J'expliquerai davantage dans la partie technique.
Merci pour cet aperçu. La partie bruit est l'entrée et la sortie est le signal, mais le signal est souvent faux, comme lorsqu'un tweet de Trump provoque un changement temporaire. Dans notre industrie, nous comprenons les raisons du bruit et de la non-stationnarité en utilisant la théorie économique. La clé est de savoir comment incorporer ces connaissances préalables dans le modèle. Lorsque nous avons essayé d'utiliser une logique de prédiction vidéo similaire à la vôtre, ce fut un désastre car les informations du domaine n'étaient pas incorporées. Vous supposez que plusieurs vidéos peuvent être prédites et vous devez choisir laquelle est la bonne. Je pense que les connaissances préalables sur la structure de la sortie devraient être incorporées. J'attends avec impatience votre solution technique, qui, je l'espère, inspirera notre industrie.
Les prochaines grandes tendances de l'apprentissage automatique
Nous avons encore quelques invités qui peuvent poser une question. Je réserverai la prochaine question pour plus tard. Merci, Li. Ensuite, accueillons le professeur Sanjeev Arora de l'Université de Princeton. Sanjeev, es-tu là ?
Salut. Salut Yann. Ravi de te voir.
Le professeur Arora fait partie du département d'informatique de l'université de Princeton. Il a mené des recherches inspirantes en informatique théorique et en apprentissage automatique théorique. Le professeur Arora est membre de l'Académie nationale des sciences des États-Unis. Merci d'être venu et s'il vous plaît, partagez votre question.
Salut Yann. Je n'ai pas discuté avec toi depuis un moment. Au cours des 10 dernières années, tu m'as alerté sur les prochaines grandes tendances. Quelle est celle d'aujourd'hui en apprentissage automatique ?
C'est une combinaison de deux choses. La première est l'apprentissage auto-supervisé. Pour construire des machines intelligentes, nous avons besoin qu'elles comprennent comment le monde fonctionne par l'observation, et l'apprentissage auto-supervisé est le moyen d'y parvenir. Deuxièmement, nous devrons peut-être abandonner l'idée que nous devons tout prédire. Nous ne pouvons pas entraîner un système à prédire chaque détail d'une vidéo, comme la texture d'un tapis ou des feuilles qui bougent. Nous devons abandonner les modèles génératifs. Cela semble peu orthodoxe, mais j'en suis venu à le croire très fermement. La prochaine grande étape, ce sont les méthodes non contrastives pour les modèles non génératifs.
J'attends cela avec impatience. Je vois que vous avez beaucoup d'autres personnes qui veulent poser des questions, je vais donc leur laisser la parole. Merci.
Convergence des disciplines et normes de preuve
Ensuite, accueillons le professeur Andrea Montanari de l'Université de Stanford. Andrea fait partie du département de statistique, du département de mathématiques et de l'école d'ingénierie. C'est un chercheur accompli en statistiques, en mathématiques, en physique théorique et en apprentissage automatique. Il a été conférencier lors du Congrès international des mathématiciens en 2020. Andrea, bienvenue et s'il vous plaît, partagez votre question.
Merci pour l'invitation. Bonjour Yann. Je veux poser une question sociologique. J'ai été témoin d'une convergence de diverses communautés en sciences computationnelles et en mathématiques appliquées. Il y a 20 ans, l'optimisation, la théorie de l'information, les statistiques et l'informatique théorique étaient des groupes séparés, mais ils s'unifient progressivement. Bien que cela soit prometteur, il y a des risques car différentes personnes ont des normes différentes sur ce que signifie "prouver" ou "démontrer" quelque chose. Au sein d'une communauté plus restreinte, il existe une notion précise de la norme de preuve. Je voulais avoir votre avis sur cette tendance et ses risques.
Je pense que c'est une bonne chose que les gens contribuent avec différentes méthodes et idées de ce que signifie prouver quelque chose. Il y a quelques années, Sanjeev m'a invité à donner une conférence sur l'épistémologie de l'apprentissage profond. À l'époque, l'apprentissage profond était très empirique, et nous devions développer la théorie pour expliquer pourquoi ces artefacts fonctionnaient. C'est là que nous avons besoin d'une vaste collection de personnes issues de la théorie des probabilités, de la théorie de l'information, des mathématiques appliquées, des neurosciences théoriques et de l'informatique théorique. Même les physiciens reviennent dans le domaine en utilisant des techniques de la physique de la matière condensée. Je suis ouvert à différentes méthodologies car nous avons besoin de différentes façons de penser à des problèmes complexes. Je ne vois pas les différentes normes comme un problème ; je les vois comme une bonne chose.
Une partie de moi est tout à fait d'accord avec vous. Une autre partie de moi est parfois effrayée quand je vois un article publié où les gens croient que quelque chose a été prouvé, mais quand on lit l'article, ce n'est pas le cas.
Clairement, il y a des preuves dont l'applicabilité est restreinte, et il faut connaître les conditions dans lesquelles elles s'appliquent. Parfois, des preuves qui semblent inattaquables peuvent vous envoyer dans la mauvaise direction. Avant que l'apprentissage profond ne soit populaire, les théoriciens disaient que l'on pouvait approximer n'importe quelle fonction en la développant sur une base de grande dimension et en utilisant l'optimisation convexe. Nous avons dû les convaincre que pour rendre une fonction complexe pratique, elle a besoin de couches ou d'étapes séquentielles, et la théorie de l'époque ne permettait pas de rendre cela visible. Les choses prouvées peuvent parfois s'avérer trompeuses même si elles sont exactes.
IA Générale, Raisonnement et Explicabilité
Je suis tout à fait d'accord. Yann disant qu'il n'est pas un théoricien me rappelle l'époque où je l'ai invité à Cornell en 2010. Pendant le dîner, Yann nous a raconté comment il avait dérivé de beaux théorèmes quand il était jeune, qu'il a découvert plus tard s'appeler la loi de Marchenko-Pastur. C'est une preuve suffisante que Yann est bien préparé théoriquement. Maintenant, j'aimerais inviter Jianwen Xie de Baidu Research à poser une question. Jianwen est diplômé de l'UCLA et a quelques questions pour vous.
J'ai eu de l'aide pour cette dérivation. Je travaillais avec un physicien qui a fait le calcul de rupture de symétrie de réplique, ce que je n'aurais pas pu faire.
Bonjour Professeur LeCun, bienvenue chez Baidu. J'ai une question fondamentale liée à l'IA générale. Nous avons vu un grand succès avec les performances de l'apprentissage profond dans toutes sortes de tâches d'IA. Pensez-vous qu'une représentation de type grammaire, par exemple un graphe et-ou ou un arbre syntaxique, manque encore dans les systèmes d'IA de pointe ? Les connaissances apprises manquent-elles d'explicabilité ? Si oui, comment pouvons-nous y parvenir ?
Il y a deux parties à votre question. L'une est de savoir comment amener les systèmes d'apprentissage profond à représenter des objets structurés complexes comme des arbres et des graphes, par opposition à de simples tableaux multidimensionnels. Je suis enthousiasmé par les réseaux de neurones sur graphes et l'apprentissage profond géométrique, car il y a beaucoup à explorer là-bas. Concernant les représentations de type grammaire, ce qui manque, c'est le raisonnement. Le raisonnement traditionnel basé sur les symboles et la logique est incompatible avec l'apprentissage basé sur le gradient. La question est de savoir comment remplacer les symboles par des vecteurs et les opérations logiques par des opérations numériques. Concernant l'explicabilité, je ne crois pas que l'IA explicable soit particulièrement utile. Cela rassure les gens, mais ce n'est pas réellement nécessaire. Nous travaillons avec d'autres humains sans comprendre du tout comment ils fonctionnent, et nous prenons des médicaments dont les mécanismes d'action ne sont pas entièrement compris, mais dont l'efficacité est prouvée. Bien que certaines situations nécessitent des explications, pour la plupart des applications, ce n'est pas particulièrement utile.
Bruit adverse et variables latentes
Merci pour ce partage. Yann, cela vous dérange-t-il de retarder votre exposé de cinq minutes ? Je vois que Ken a levé la main. Ken et Yann, vous étiez collègues aux Bell Labs.
Salut Ken, c'était il y a longtemps.
Salut. J'essaie de réactiver mon micro. J'ai posé une question dans le chat avec Li Deng. Vous suggériez que les situations adverses, comme sur le marché boursier où d'autres traders cherchent à vous avoir, sont importantes. Il est important de penser que l'adversaire cherche réellement à vous avoir plutôt que de supposer un bruit aléatoire. C'est précisément un bruit non aléatoire. Vous devriez être beaucoup plus paranoïaque que de supposer un bruit aléatoire.
Absolument. Existe-t-il un type d'apprentissage automatique qui traite cela ? Les GAN sont un moyen, mais un moyen très primitif. Je me demande si vous pouvez offrir une structure et des connaissances pour résoudre ce problème.
Si un système d'IA utilise un modèle du monde pour prédire les conséquences, il a besoin d'une variable latente pour rendre compte des choses qu'il ne connaît pas, y compris les mouvements d'un adversaire. Même dans des situations non conflictuelles, comme la conduite, vous devez prédire ce que les autres voitures feront pour conduire en toute sécurité. Il y a un grand nombre de choses possibles qu'elles peuvent faire, et vous pouvez modéliser cela avec une variable latente. Lorsque vous modifiez cette variable latente, votre prédiction varie sur un ensemble de futurs plausibles. Si vous savez que le monde est adverse, vous choisissez une valeur pour la variable latente qui maximise votre coût. Le marché boursier est comme ça, sauf que vous avez de nombreux adversaires.
Prédiction vidéo et architecture JEPA
Ceci conclut notre session de conversation. Merci Yann, c'était amusant. Nous pourrons laisser d'autres questions pour après l'exposé. Yann, j'espère que cela ne vous dérange pas de rester jusqu'à 20h30. Je vois plusieurs amis ici, comme Yi Ma de Berkeley. J'ai la première question. Pourquoi avez-vous renoncé à prédire les images au niveau du pixel ? Est-ce que cela n'a pas bien fonctionné dans les expériences, ou ne voyez-vous pas la nécessité de prédire les pixels pour votre architecture JEPA ?
Je suis flatté que vous soyez venus.
Cela fonctionne dans des cas simples, comme la prédiction de voitures vertes sur un fond noir, mais pour les vidéos naturelles, cela ne fonctionne pas. Beaucoup de gens essaient de faire de la prédiction vidéo et ne font pas du bon travail.
Je pensais que ce serait utile en pratique. En Chine, les caméras vidéo sont partout, et il serait utile de prédire des actions criminelles potentielles 10 ou 20 secondes à l'avance. Baidu n'est pas fortement impliqué dans cela, mais d'autres entreprises le sont. Y a-t-il des questions sur les EBM ou l'apprentissage par renforcement ? Je vois le professeur Liu de l'UT Austin ici. Avez-vous des commentaires ?
Méthodes contrastives vs régularisées
Tant mieux pour vous.
Merci. Je veux poser une question sur les méthodes contrastives par rapport aux méthodes régularisées. Elles me semblent très similaires. Vous pouvez considérer les méthodes contrastives comme une approximation parce que la régularisation pousse tout vers les données, ce qui équivaut à pénaliser tous les autres points de données. Vous pouvez considérer les méthodes contrastives comme une approximation de Monte-Carlo des méthodes régularisées. Je pense aussi que les modèles basés sur l'énergie et l'apprentissage auto-supervisé récent sont différents. Pensez-vous que les méthodes régularisées ont des avantages pour apprendre les distributions de Boltzmann ?
Je pense que les méthodes contrastives sont les mêmes partout. La divergence contrastive, les GAN, les auto-encodeurs de débruitage et les réseaux siamois sont tous des méthodes contrastives. Dans les modèles basés sur l'énergie, ce sont juste différentes façons de faire monter l'énergie. Cependant, lorsque votre espace de représentation est de grande dimension et que votre surface d'énergie est flexible, vous devez faire monter l'énergie à de nombreux endroits. Cela nécessite un nombre d'échantillons exponentiel par rapport à la dimension, donc cela ne passera pas à l'échelle.
C'est lié à la NP-dureté du problème. Si vous voulez faire la même chose dans un espace de grande dimension, vous devez intégrer dessus. Je pensais que les méthodes contrastives utilisaient Monte-Carlo alors que la régularisation était autre chose.
Laissez-moi donner deux exemples. Le premier est les K-moyennes. Cela peut être vu comme un modèle basé sur l'énergie où l'énergie d'un point est la distance au carré par rapport au prototype le plus proche. Le volume de l'espace de basse énergie est limité par K. C'est une méthode non contrastive. Le deuxième est le codage parcimonieux, une méthode régularisée. Vous avez un vecteur latent Z multiplié par une matrice de décodage. L'énergie est l'erreur de reconstruction au carré plus la norme L1 de Z. Ce régularisateur limite le volume de l'espace qui peut prendre une énergie basse sans avoir besoin d'échantillons contrastifs. J'en cherchais un qui fonctionnerait pour les architectures à intégration conjointe.
Je vois. Si vous apprenez un modèle d'énergie général avec des réseaux de neurones compliqués, vous devez intégrer et approximer. Mais si vous avez un moyen intelligent de manipuler le modèle pour éviter l'intégration, c'est mieux.
Réduction de débit et représentations de données
Merci, Professeur Liu. Yi Ma, voudriez-vous dire bonjour ?
Salut. Désolé d'avoir manqué la première partie de votre exposé. Pour donner suite à la discussion, nous avons travaillé sur une mesure de théorie de l'information qui mesure le volume de données. C'est similaire à la réduction de débit et cela s'occupe de retracer le volume des représentations de données. Cela pourrait être un candidat ayant des propriétés intéressantes, comme une généralisation du modèle parcimonieux à plusieurs sous-espaces de faible dimension.
Yi a proposé l'une des meilleures alternatives à VICReg, appelée réduction de débit.
Réduction de débit. Réduction de débit maximale.
C'est une formulation différente, mais cela revient fondamentalement à faire la même chose. C'est une excellente alternative et l'un de mes postdoctorants l'utilise.
J'en parlerai plus en détail quand je visiterai FAIR. Merci.
Questions du public : JEPA, Responsabilité et Physique
Nous devrions respecter les questions dans la boîte de discussion. Yann, cela vous dérange-t-il de choisir quelques questions pour y répondre ?
Je vais commencer par le bas. "Le système JEPA général nécessite-t-il une optimisation à deux niveaux ou à plusieurs niveaux pour gérer la variable latente Z ?" Cela dépend de l'architecture. Vous pouvez utiliser des méthodes basées sur le gradient pour optimiser la variable latente. Si votre prédicteur n'est pas trop compliqué en tant que fonction du latent, ce sera simple. Nous avons fait des expériences préliminaires avec des architectures à intégration conjointe où le prédicteur prédit des transformations entre deux images, et cela semble fonctionner correctement. Demain, Meta AI publiera un article de blog expliquant ces idées, et je termine un article qui paraîtra dans quelques semaines.
Que devrions-nous faire ensuite, Ping ?
C'est à vous de voir. Peut-être une question plus courte, comme "Dans la nouvelle architecture, y a-t-il de la place pour inclure la responsabilité ?"
Si par responsabilité vous voulez dire aligner le comportement d'un agent autonome pour qu'il ne tue pas de gens et qu'il fasse de bonnes choses, vous feriez cela à l'intérieur du module de coût intrinsèque. Ce sont des fonctions de coût immuables et câblées qui poussent le système vers certains comportements. Il est plus facile de spécifier des comportements via des fonctions de coût que par programmation directe. Vous le programmeriez comme un module à l'intérieur du coût intrinsèque.
Merci. "Pensez-vous que le paradigme de recherche de l'IA ressemblera davantage à la physique à l'avenir ? Le succès de la recherche en physique peut-il inspirer la communauté de l'IA ?"
Je suis un grand fan du lien entre la physique et l'apprentissage automatique. La physique peut apporter des méthodologies pour l'analyse mathématique, telles que les méthodes de physique statistique pour analyser la convergence ou la généralisation. Toutes les mathématiques dans les modèles basés sur l'énergie sont dérivées de la thermodynamique. Inversement, l'apprentissage automatique est utile pour les systèmes physiques avec des propriétés émergentes. Nous pouvons utiliser l'apprentissage automatique pour prédire les propriétés des matériaux pour les batteries, les catalyseurs ou les semi-conducteurs. Un exemple est la supraconductivité à l'angle magique dans le graphène. Nous ne pouvons pas bien prédire ces propriétés avec les simulations actuelles, mais l'entraînement de systèmes d'apprentissage profond pour prédire les propriétés de systèmes physiques complexes nous permettra de concevoir de meilleurs matériaux et médicaments. C'est très prometteur.
Il y a des questions sur Z dans JEPA. "Pouvez-vous expliquer l'intuition sur Z dans JEPA ? Par exemple, quelle est la signification de Z dans BYOL et pour BERT ?"
BYOL n'a aucune variable latente. Les deux représentations dans BYOL doivent être égales. Dans l'expérience VICReg que j'ai présentée, il n'y a pas non plus de variable latente.
"Pour les modèles de type BERT, Z pourrait être la position du jeton masqué."
No, dans les modèles BERT, le Z est trivial. Le seul endroit où il y a une variable latente est la sélection des mots. Quand BERT produit une prédiction, il produit une distribution sur les mots. L'échantillonnage à partir de cette distribution instancie une variable latente. Le problème est que ce n'est pas une variable latente abstraite. Vous voulez une variable latente abstraite qui vous permettrait de changer le style du texte tout en disant la même chose, mais BERT n'a pas cela. C'est un modèle génératif.
"Le système JEPA général nécessite-t-il une optimisation à deux niveaux ou à plusieurs niveaux pour gérer la variable latente Z ?"
J'ai déjà partiellement répondu à cela ; cela dépend de votre architecture. Vous pouvez utiliser des astuces comme l'inférence amortie, l'entraînement d'un réseau de neurones pour prédire la valeur optimale de Z. C'est ce que font les auto-encodeurs variationnels. Ils regardent la sortie pour deviner la valeur de la variable latente et la rendent bruyante pour limiter le contenu informationnel.
Il y a une autre question sur JEPA. "Le cadre JEPA peut-il être appliqué pour apprendre un espace d'intégration unifié pour une IA à but général afin de traiter diverses tâches et de s'adapter à de nouvelles tâches ?"
Je pense qu'il devrait être appris, mais je ne sais pas s'il devrait y avoir un seul espace général. L'état du modèle du monde pourrait être stocké dans une mémoire associative. Si je vous raconte une histoire où John est dans la cuisine et Jane va dans la cuisine, vous mettez à jour votre idée de l'état du monde pour savoir qu'il y a deux personnes dans la cuisine. Ce processus de mise à jour d'une mémoire associative devrait être utilisé pour suivre l'état du monde plutôt que de tout stocker dans un seul vecteur.
Conclusion
Il est presque 20h40, nous vous avons donc volé plusieurs minutes. Une dernière question ?
Juste une de plus. Je dois donner une conférence demain à 9h30, je dois donc dormir un peu.
Qui veut poser la dernière question ? Il y en a une dans le chat : "Vous avez mentionné que l'apprentissage contrastif ne peut pas passer à l'échelle pour les grandes dimensions. Quelle taille est considérée comme grande ? Par exemple, la dimension latente de BERT de 768."
BERT est minuscule. La dimension pertinente est la variable que vous essayez de prédire. Dans BERT, c'est simple parce que la variable est discrète. Vous pouvez représenter une distribution sur les mots en utilisant un softmax. Cependant, vous ne pouvez pas faire un softmax sur toutes les images vidéo possibles car il s'agit d'un espace continu de grande dimension. Vous ne pouvez pas le discrétiser ou le représenter par une distribution commune comme une gaussienne. C'est là que l'apprentissage contrastif échoue. Mais pour des ensembles discrets comme dans BERT, cela fonctionne.
Ceci conclut la conférence et le séminaire de ce soir. Remercions le conférencier, le Dr Yann LeCun. Merci beaucoup.
Merci beaucoup, Ping, de m'avoir invité. C'était amusant. Merci pour l'organisation, et merci à tous ceux qui se sont réveillés tôt ou qui vont se coucher tard.
Merci. Bonne nuit.
Très bien. Portez-vous bien.