Yann LeCun - Yann LeCun : Modèles Mondiaux, AMI et l'Avenir de l'IA

Yann LeCun

Yann LeCun : Modèles Mondiaux, AMI et l'Avenir de l'IA

15 décembre 2025

Intelligence Artificielle

Introduction et Nouvelle Startup AMI

Ravid Shwartz-Ziv

Salut Yann, et bienvenue dans Information Bottleneck. Je dois dire que c'est un peu bizarre pour moi ; je te connais depuis presque cinq ans et nous avons travaillé étroitement ensemble, mais c'est la première fois que je t'interviewe pour un podcast. Habituellement, nos conversations ressemblent plus à : Yann, ça ne marche pas, que dois-je faire ? Même si je suis sûr que tout notre public vous connaît, je dirai que Yann LeCun est lauréat du prix Turing, l'un des parrains de l'apprentissage profond, l'inventeur des réseaux de neurones convolutionnels, fondateur du laboratoire de recherche en IA fondamentale de Meta, et toujours leur scientifique en chef de l'IA et professeur à NYU. Alors, bienvenue.

Yann LeCun

Plaisir d'être ici.

Ravid Shwartz-Ziv

Et c'est un plaisir pour moi d'être à vos côtés. Je suis dans cette industrie depuis bien moins longtemps que l'un ou l'autre d'entre vous et je fais de la recherche depuis bien moins longtemps. Donc le fait de pouvoir publier des articles assez régulièrement avec Ravid a été un honneur et pouvoir commencer à animer ce podcast en a été un encore plus grand. C'est un plaisir de m'asseoir avec vous.

Yann LeCun

Génial.

Ravid Shwartz-Ziv

Félicitations pour la nouvelle startup. Vous avez récemment annoncé qu'après 12 ans chez Meta, vous lancez une nouvelle startup, Advanced Machine Intelligence, qui se concentrera sur les modèles mondiaux. Quel effet cela fait-il d'être de l'autre côté, de passer d'une grande entreprise à la création de quelque chose à partir de zéro ?

Yann LeCun

Eh bien, j'ai déjà cofondé des entreprises auparavant. J'y étais impliqué de manière plus périphérique que pour celle-ci, mais je sais comment cela fonctionne. Ce qui est unique avec celle-ci, c'est un nouveau phénomène où les investisseurs espèrent suffisamment que l'IA aura un impact majeur pour être prêts à investir beaucoup d'argent, ce qui signifie que vous pouvez maintenant créer une startup dont les deux premières années sont consacrées à la recherche. Ce n'était pas possible auparavant. Le seul endroit pour faire de la recherche dans l'industrie était une grande entreprise qui ne luttait pas pour sa survie, occupait une position dominante sur son marché et avait une vision à assez long terme pour être prête à financer des projets de longue durée. Historiquement, les grands laboratoires dont nous nous souvenons, comme les Bell Labs, appartenaient à AT&T, qui avait un monopole sur les télécommunications aux États-Unis. IBM avait un monopole sur les gros ordinateurs et possédait un bon laboratoire de recherche. Xerox avait un monopole sur les photocopieurs, ce qui lui a permis de financer le PARC. Cela ne leur a pas permis de profiter des recherches menées là-bas, mais ce profit est allé à Apple. Plus récemment, il y a eu Microsoft Research, Google Research et FAIR chez Meta. L'industrie change à nouveau. FAIR a eu une grande influence sur l'écosystème de la recherche en IA en étant très ouvert, en publiant tout et en mettant tout en libre accès avec des outils comme PyTorch et des prototypes de recherche utilisés dans l'industrie. Nous avons poussé d'autres laboratoires comme Google à devenir plus ouverts et à publier plus systématiquement. Mais ces deux dernières années, beaucoup de ces laboratoires se sont refermés et sont devenus plus secrets. C'était le cas d'OpenAI il y a plusieurs années et maintenant Google devient plus fermé, et peut-être même Meta. Il était temps que le type de travaux qui m'intéressent soit réalisé en dehors de Meta.

Ravid Shwartz-Ziv

Pour être clair, est-ce que AMI, Advanced Machine Intelligence, prévoit de mener ses recherches de manière ouverte ?

Yann LeCun

Oui, la recherche en amont. On ne peut pas vraiment appeler cela de la recherche si on ne publie pas ce que l'on fait, car sinon on peut facilement se tromper soi-même. On invente quelque chose et on pense que c'est la meilleure chose au monde ; si on ne le soumet pas au reste de la communauté, on pourrait être dans l'illusion. J'ai vu ce phénomène souvent dans les laboratoires de recherche industriels où il y a un battage interne sur des projets sans réaliser que d'autres font des choses meilleures. Si vous dites aux scientifiques de publier leurs travaux, c'est une incitation à faire un meilleur travail où la méthodologie est plus rigoureuse et les résultats plus fiables. C'est bon pour eux car souvent, quand on travaille sur un projet de recherche, l'impact sur un produit peut survenir des mois, des années ou des décennies plus tard. Vous ne pouvez pas dire aux gens de travailler pour vous, de rester silencieux sur leurs travaux, et d'avoir peut-être un impact sur un produit dans cinq ans ; ils ne seront pas motivés. Si vous leur dites cela, ils ont tendance à travailler sur des choses ayant un impact à plus court terme. Pour des percées, il faut laisser les gens publier. On ne peut pas faire autrement. C'est quelque chose que beaucoup dans l'industrie oublient actuellement.

Modèles Mondiaux et Architecture JEPA

Ravid Shwartz-Ziv

Quels produits, le cas échéant, AMI prévoit-elle de produire ou de fabriquer ? Est-ce de la recherche ou plus que cela ?

Yann LeCun

C'est plus que cela ; ce sont des produits réels. Des choses liées aux modèles mondiaux et à la planification. Nous avons l'ambition de devenir l'un des principaux fournisseurs de systèmes d'intelligence. Nous pensons que les architectures actuelles, les LLM ou les systèmes agentiques basés sur les LLM, fonctionnent correctement pour le langage, mais même les systèmes agentiques ne fonctionnent pas très bien. Ils nécessitent beaucoup de données pour cloner le comportement humain et ne sont pas si fiables. Nous pensons que la bonne façon de gérer cela est d'avoir des modèles mondiaux capables de prédire les conséquences d'une action ou d'une séquence d'actions qu'un système d'IA pourrait entreprendre. Le système arrive ensuite à une séquence d'actions ou à un résultat par optimisation, en déterminant quelle séquence d'actions accomplira la tâche de manière optimale. C'est de la planification. Une partie essentielle de l'intelligence est d'être capable de prédire les conséquences de ses actions et de les utiliser pour la planification. C'est ce sur quoi je travaille depuis de nombreuses années. Nous avons fait des progrès rapides avec une combinaison de projets ici à NYU et chez Meta. Maintenant, il est temps de rendre cela concret.

Ravid Shwartz-Ziv

Et selon vous, quels sont les éléments manquants, et pourquoi pensez-vous que cela prend autant de temps ? Vous en parlez depuis de nombreuses années, mais ce n'est toujours pas meilleur que les LLM.

Yann LeCun

Ce n'est pas la même chose que les LLM. C'est conçu pour gérer des modalités à haute dimension, continues et bruitées. Les LLM sont totalement nuls là-dedans. Si vous essayez d'entraîner un LLM pour apprendre de bonnes représentations d'images ou de vidéos, ce n'est pas fameux. Généralement, les capacités de vision des systèmes d'IA sont entraînées séparément. Si vous voulez gérer des données à haute dimension, continues et bruitées, vous ne pouvez pas utiliser de modèles génératifs. Vous ne pouvez pas utiliser de modèles génératifs qui tokenisent vos données en symboles discrets. C'est impossible. Nous avons des preuves empiriques que cela ne fonctionne tout simplement pas très bien. Ce qui fonctionne, c'est d'apprendre un espace de représentation abstrait qui élimine les détails de l'entrée, spécifiquement tous les détails qui ne sont pas prédictibles, ce qui inclut le bruit, et de faire des prédictions dans cet espace de représentation. C'est l'idée de JEPA, Joint-Embedding Predictive Architectures (Architectures prédictives à intégration conjointe), que vous connaissez.

Ravid Shwartz-Ziv

Oui, Randall Balestriero était également dans le podcast et en a probablement parlé longuement.

Yann LeCun

Il y a beaucoup d'idées autour de cela et laissez-moi vous raconter mon parcours. Je suis convaincu depuis probablement plus de 20 ans que la bonne façon de construire des systèmes intelligents passe par une forme d'apprentissage non supervisé. J'ai commencé à travailler sur l'apprentissage non supervisé au début et au milieu des années 2000. Avant cela, je n'étais pas aussi convaincu. C'était l'idée d'entraîner des auto-encodeurs pour apprendre des représentations. On passe une entrée par un encodeur pour trouver une représentation, puis on décode pour garantir que la représentation contient toutes les informations sur l'entrée. Il s'avère que cette intuition est fausse ; insister pour que la représentation contienne toutes les informations sur l'entrée est une mauvaise idée. Je ne le savais pas à l'époque. J'ai travaillé sur plusieurs façons de faire cela. Geoff Hinton travaillait sur les machines de Boltzmann restreintes, Yoshua Bengio sur les auto-encodeurs débruiteurs, qui ont connu un certain succès dans différents contextes comme le NLP, et je travaillais sur les auto-encodeurs parcimonieux. Si vous entraînez un auto-encodeur, vous devez régulariser la représentation pour que l'auto-encodeur n'apprenne pas trivialement une fonction d'identité. Il s'agit de goulots d'étranglement de l'information (information bottlenecks) ; vous devez en créer un pour limiter le contenu informationnel de la représentation. Je pensais que des représentations parcimonieuses à haute dimension étaient une bonne voie. Plusieurs de mes étudiants ont fait leur doctorat là-dessus, comme Koray Kavukcuoglu, qui est maintenant Chief AI Architect chez Alphabet et CTO chez DeepMind. Marc'Aurelio Ranzato et Y-Lan Boureau ont également travaillé dessus. La raison pour laquelle nous avons travaillé là-dessus était que nous voulions pré-entraîner des réseaux de neurones très profonds en tant qu'auto-encodeurs. Ce qui s'est passé, c'est que nous avons commencé à expérimenter avec des choses comme la normalisation et la rectification, comme les ReLU, qui nous ont permis d'entraîner des réseaux profonds de manière totalement supervisée. À mesure que les ensembles de données s'agrandissaient, l'apprentissage supervisé fonctionnait bien, et l'apprentissage auto-supervisé ou non supervisé a été mis de côté. Puis ResNet a en quelque sorte résolu le problème de l'entraînement d'architectures profondes en 2015. Mais en 2015, j'ai recommencé à réfléchir à la manière de pousser vers une IA de niveau humain, ce qui était l'objectif original de FAIR et la mission de ma vie. J'ai réalisé que l'apprentissage par renforcement ne passait pas à l'échelle ; il est incroyablement inefficace en termes d'échantillons. Donc l'idée de modèles mondiaux, un système capable de prédire les conséquences de son action et de planifier, j'ai commencé à jouer sérieusement avec vers 2015. Mon discours d'ouverture à NIPS en 2016 portait sur les modèles mondiaux. Je soutenais que c'est ce sur quoi nous devrions travailler, des modèles mondiaux conditionnés par l'action. Quelques-uns de mes étudiants ont commencé à travailler sur la prédiction vidéo. J'ai fait la même erreur que tout le monde, à savoir entraîner un système de prédiction vidéo pour prédire au niveau du pixel. C'est vraiment impossible. Je le savais car comme la prédiction n'était pas déterministe, nous devions avoir un modèle avec des variables latentes pour représenter tout ce qu'on ignore sur la variable censée être prédite. Aujourd'hui, les gens utilisent des modèles de diffusion ou des modèles basés sur l'énergie pour entraîner des fonctions non déterministes. Mais au final, j'ai découvert que le moyen de contourner le fait qu'on ne peut pas prédire au niveau du pixel est de ne tout simplement pas prédire au niveau du pixel. C'est d'apprendre une représentation et de prédire au niveau de la représentation, en éliminant tous les détails qu'on ne peut pas prédire. C'est l'idée de JEPA.

Yann LeCun

Je ne pensais pas vraiment à ces méthodes au début car je pensais qu'il y avait un énorme problème pour empêcher l'effondrement. Quand vous entraînez, disons que vous avez une variable observée X et que vous essayez de prédire une variable Y, mais que vous ne voulez pas prédire tous les détails. Vous passez X et Y par des encodeurs pour obtenir des représentations SX et SY. Vous pouvez entraîner un prédicteur pour prédire la représentation de Y à partir de celle de X. Mais si vous voulez entraîner cela de bout en bout simultanément, il existe une solution triviale où le système ignore l'entrée et produit des représentations constantes. Si votre seul critère est de minimiser l'erreur de prédiction, il va s'effondrer. Je connaissais ce problème depuis très longtemps car j'ai travaillé sur architectures à intégration conjointe, nous les appelions réseaux siamois, dans les années 90.

Yann LeCun

Le concept est toujours d'actualité. Vous avez un X et un Y, et considérez X comme une sorte de version dégradée ou transformée de Y. Vous passez les deux par des encodeurs et dites au système que X et Y sont deux vues de la même chose, donc la représentation devrait être la même. Si vous entraînez simplement deux réseaux de neurones avec des poids partagés pour produire la même représentation, cela s'effondre. Vous devez trouver un moyen de vous assurer que le système extrait autant d'informations que possible de l'entrée. L'idée originale que nous avions dans un article NIPS de 1993 était d'avoir un terme contrastif. Vous avez d'autres paires d'échantillons dont vous savez qu'ils sont différents, et vous entraînez le système à produire des représentations différentes. Vous avez une fonction de coût qui attire les deux représentations quand les exemples sont identiques et les repousse quand ils sont différents. Nous avons inventé cela parce que quelqu'un a demandé si nous pouvions encoder des signatures sur moins de 80 octets pour la vérification de cartes de crédit. J'ai eu l'idée d'entraîner un réseau de neurones pour produire 80 variables quantifiées sur un octet chacune.

Ravid Shwartz-Ziv

Et l'ont-ils utilisé ?

Yann LeCun

Cela a très bien fonctionné, mais les gens du business ont décidé de simplement demander aux gens de taper des codes PIN.

Ravid Shwartz-Ziv

Il y a une leçon ici sur l'intégration technologique.

Yann LeCun

Je savais que c'était louche car les pays en Europe utilisaient des cartes à puce, ce qui était une bien meilleure solution, mais ils ne voulaient pas les utiliser. Au milieu des années 2000, j'ai travaillé avec des étudiants pour relancer cette idée et nous avons inventé de nouvelles fonctions objectives. Ce sont des cas particuliers de méthodes contrastives où vous avez des exemples positifs et négatifs. Cela a suscité de l'intérêt et a relancé les travaux sur ces idées, mais cela ne fonctionnait toujours pas très bien. Les méthodes contrastives produisaient des représentations de dimension relativement basse. Il y a environ cinq ans, l'un de mes postdoctorants, Stéphane Deny chez Meta, a testé une idée pour maximiser la quantité d'informations sortant de l'encodeur. Je ne pensais pas que ça marcherait car j'avais vu des expériences dans les années 80 qui avaient échoué à maximiser l'information car nous n'avons que des bornes supérieures pour le contenu informatif. Mais Stéphane a inventé une technique appelée Barlow Twins et ça a marché. Ensuite, nous avons inventé une autre méthode appelée VICReg : Variance-Invariance-Covariance Regularization. Elle s'est avérée encore meilleure. Plus récemment, Randall Balestriero a poussé une idée appelée SigReg, et le système complet s'appelle L-JEPA. Il y aura plus de progrès au cours de l'année ou des deux prochaines années alors que nous entraînons des modèles qui apprennent des représentations abstraites.

Données, Vidéo et Limites du Texte

Ravid Shwartz-Ziv

Et selon vous, quels sont les éléments manquants ? Pensez-vous que plus de calcul aidera, avons-nous besoin de meilleurs algorithmes, ou croyez-vous à la leçon amère ?

Ravid Shwartz-Ziv

Que pensez-vous des problèmes de qualité des données avec Internet après 2022 ? Les gens comparent cela maintenant à l'acier à faible rayonnement de fond pour désigner toutes ces données avant l'arrivée des LLM.

Yann LeCun

Je pense échapper à ce problème. Entraîner un LLM avec des performances décentes nécessite l'entraînement sur pratiquement tout le texte disponible sur Internet plus des données synthétiques et des données sous licence. Un LLM typique comme Llama 3 est entraîné sur 30 billions de tokens, soit 10^14 octets pour le pré-entraînement. Pour que les LLM exploitent cela, ils ont besoin de beaucoup de stockage mémoire car ce sont des faits isolés. Il faut de très grands réseaux pour les stocker et les régurgiter. Comparez cela avec la vidéo. 10^14 octets représentent 15 000 heures de vidéo. Ce n'est absolument rien ; c'est 30 minutes de mises en ligne sur YouTube. C'est la quantité d'informations visuelles qu'un enfant de quatre ans a vue dans toute sa vie. Nous avons des modèles vidéo comme V-JEPA 2 qui ont été entraînés sur l'équivalent d'un siècle de données vidéo. Même s'il y a plus d'octets, c'est plus redondant. Quand vous utilisez l'apprentissage auto-supervisé, vous avez besoin de redondance. La redondance est ce que vous pouvez apprendre. Il y a une structure beaucoup plus riche dans les données du monde réel comme la vidéo que dans le texte, ce qui m'a conduit à affirmer que nous n'atteindrons jamais une IA de niveau humain en nous entraînant uniquement sur du texte. C'est un débat sur le fait de savoir si l'IA doit être ancrée dans la réalité ou dans la manipulation symbolique.

Simulateurs vs Modèles Mondiaux Abstraits

Ravid Shwartz-Ziv

Quand nous parlons de modèles mondiaux et d'ancrage, je pense que certaines personnes ne comprennent pas ce qu'est le modèle mondial idéalisé. En pensant au holodeck de Star Trek, je pensais que c'était un modèle mondial idéalisé qui simule des choses comme l'odeur et le toucher physique. Pensez-vous que c'est le modèle mondial idéalisé ?

Yann LeCun

Cela va au cœur de ce que je pense que nous devrions faire. Les gens pensent qu'un modèle mondial est quelque chose qui reproduit tous les détails de ce que fait le monde, comme un simulateur. Parce que l'apprentissage profond est à la mode, les gens utilisent l'apprentissage profond comme simulateur. Les gens se concentrent sur la génération vidéo, mais rien ne garantit qu'un système de génération vidéo possède un modèle précis de la dynamique sous-jacente. L'idée qu'un modèle doive reproduire chaque détail de la réalité est fausse et nuisible. Un bon exemple est la mécanique des fluides numérique. On simule l'écoulement de l'air autour d'un avion en découpant l'espace en cubes et en résolvant les équations de Navier-Stokes. C'est déjà une représentation abstraite ; le phénomène sous-jacent est celui des molécules d'air s'entrechoquant. Personne ne descend à ce niveau pour faire la simulation car ce serait insensé. Au fond, c'est de la théorie quantique des champs. Tout ce qui se passe entre nous peut être décrit par la théorie quantique des champs, mais la quantité de calcul serait gigantesque. Nous inventons donc des abstractions : particules, atomes, molécules, cellules, organes et sociétés. Chaque niveau de cette hiérarchie ignore les détails du niveau inférieur pour faire des prédictions fiables à plus long terme. Nous construisons des modèles phénoménologiques en ignorant des détails que les physiciens appellent l'entropie. C'est ainsi que nous comprenons le monde. Nous ne mémorisons pas chaque détail de ce que nous percevons.

Ravid Shwartz-Ziv

Donc les modèles mondiaux n'ont pas du tout besoin d'être des simulateurs.

Yann LeCun

Ce sont des simulateurs, mais dans un espace de représentation abstrait qui ne simule que la partie pertinente de la réalité. Si je vous demande où sera Jupiter dans 100 ans, vous n'avez besoin que de six chiffres : trois positions et trois vitesses. Le reste n'importe pas.

Ravid Shwartz-Ziv

Donc vous ne croyez pas aux ensembles de données synthétiques ?

Yann LeCun

Si, ils sont utiles. Il y a des choses qu'on apprend des données synthétiques des jeux. Les enfants apprennent énormément en jouant, ce qui est une simulation du monde où ils ne peuvent pas se tuer.

Ravid Shwartz-Ziv

Je m'inquiète pour les jeux vidéo que les animations soient conçues pour paraître bien pour un jeu d'action mais ne correspondent pas à la réalité. Je crains qu'un système physique entraîné avec ces modèles ne prenne des habitudes bizarres similaires.

Yann LeCun

Cela dépend à quel niveau vous les entraînez. Si vous utilisez un simulateur robotique très précis, il simulera la dynamique d'un bras avec précision. Simuler la friction quand on saisit un objet est plus dur. Ces simulateurs ne sont pas particulièrement précis pour la manipulation, mais ils sont assez bons pour le passage du virtuel au réel (sim-to-real) avec un peu d'adaptation. Il y a des choses basiques sur le monde que nous apprenons à un niveau abstrait qui ne sont pas liées au langage. Par exemple, si je pousse la table, l'objet dessus bouge avec elle. Ce n'est pas quelque chose d'inné. La plupart des objets tombent quand on les lâche à cause de la gravité. Les bébés apprennent cela vers l'âge de neuf mois. Les LLM ne comprennent pas ce genre de choses. On peut les entraîner à donner la bonne réponse, mais c'est plus de la régurgitation qu'une réelle compréhension de la dynamique sous-jacente.

L'Illusion de l'AGI et les Délais

Ravid Shwartz-Ziv

Si on regarde Sora, ils ont une physique du monde décente. Peut-on aller plus loin, ou est-ce une seule façon d'apprendre la physique ?

Yann LeCun

On ne peut pas rendre les robots assez intelligents pour faire tout ce qu'un chat, une souris ou un chien peut faire. Tous ces gens qui divaguent sur l'AGI dans un an ou deux sont dans l'illusion. Le monde réel est bien plus compliqué. On n'arrivera à rien en tokenisant le monde et en utilisant des LLM. Ça n'arrivera tout simplement pas.

Host

Alors quels sont vos délais ? Quand verrons-nous l'AGI, quoi que cela signifie ?

Host

Où vous situez-vous sur l'échelle optimiste-pessimiste ? Il y a un certain catastrophisme (doomerism) chez Gary Marcus et Yoshua Bengio.

Yann LeCun

Non, Gary Marcus n'est pas un catastrophiste.

Host

Il critique. Le catastrophiste serait Yoshua. Où vous situez-vous là-dedans ?

Yann LeCun

Tout d'abord, l'intelligence générale n'existe pas. Ce concept est vraiment conçu pour désigner l'intelligence de niveau humain, mais l'intelligence humaine est hyper spécialisée. Nous gérons bien le monde réel, mais aux échecs nous sommes nuls. Beaucoup d'autres animaux sont meilleurs que nous sur certains tests. Nous nous pensons généraux, mais c'est une illusion. Nous pouvons parler d'intelligence de niveau humain ; aurons-nous des machines aussi bonnes que les humains dans tous les domaines ? La réponse est absolument oui. Mais ce ne sera pas un événement ; ce sera très progressif. Nous allons faire des avancées conceptuelles ces prochaines années. Si nous avons de la chance, cela mènera vers l'IA de niveau humain, mais il nous manque peut-être encore des concepts de base. La vision la plus optimiste est que nous aurons quelque chose de proche de l'intelligence d'un chien d'ici 5 à 10 ans. Il est très probable qu'il y ait un obstacle que nous ne voyons pas et qui nécessitera de nouvelles choses conceptuelles, auquel cas cela pourrait prendre 20 ans ou plus. Mais il ne fait aucun doute que cela arrivera.

Host

Pensez-vous qu'il sera plus facile de passer du niveau actuel à l'intelligence d'un chien par rapport au passage du chien à l'humain ?

Yann LeCun

Je pense que le plus dur est d'atteindre le niveau du chien. Une fois qu'on y est, on a la plupart des ingrédients. Ce qui manque entre les primates et les humains, c'est le langage, qui est géré par de minuscules parties du cerveau comme les aires de Wernicke et de Broca. Celles-ci ont évolué récemment et ne peuvent pas être si compliquées. Nous avons déjà des LLM qui font un bon travail pour encoder le langage en représentations abstraites. Peut-être utiliserons-nous des LLM pour cela. Ce sur quoi nous travaillons maintenant, c'est le cortex préfrontal, là où réside notre modèle mondial.

Sécurité et Risques de l'IA

Host

Cela m'amène aux questions de sécurité. Si nous atteignons l'intelligence d'un chien, alors l'IA de demain sera devenue meilleure que n'importe quel humain en odorat. Je veux dire, on a Sam Altman qui parle de super-persuasion, et on a eu des psychoses liées à l'IA où des gens font des choses horribles après avoir cru une IA sycophante.

Yann LeCun

C'est arrivé jusqu'à moi, d'ailleurs.

Host

Vous devez nous raconter ça.

Yann LeCun

Il y a quelques mois à NYU, un type venu du Midwest entouré de policiers m'a reconnu. Il était perturbé émotionnellement et portait un sac avec une énorme clé à molette, du gaz poivré et un couteau. La police l'a emmené. J'ai aussi eu des lycéens qui m'envoyaient des e-mails disant qu'ils étaient déprimés parce que des catastrophistes disent que l'IA va conquérir le monde et tous nous tuer. Je leur dis de ne pas croire ça ; l'humanité restera aux commandes. Toute technologie puissante a des conséquences positives et des effets secondaires négatifs. Les voitures s'écrasent parfois, et au début elles n'étaient pas si fiables. Finalement, l'industrie a mis des ceintures de sécurité et des systèmes de freinage d'urgence automatique. Les statistiques montrent que cela réduit les collisions frontales de 40 %. C'est l'IA qui ne tue pas les gens, mais sauve des vies. Beaucoup de vies sont sauvées par l'IA en ce moment.

Host

Vous, Jeff Hinton et Yoshua Bengio avez remporté le prix Turing ensemble. Jeff exprime des regrets et Yoshua travaille sur la sécurité. Pensez-vous que nous atteindrons un niveau d'intelligence où vous direz que c'est trop dangereux ?

Yann LeCun

Il faut bien faire les choses. Regardez les moteurs à réaction ; vous pouvez voler à l'autre bout du monde en toute sécurité sur un avion bimoteur. Quand on regarde un turboréacteur, il ne devrait pas fonctionner car aucun métal ne supporte ces températures. Pourtant, ces engins sont incroyablement fiables. On ne construit pas un turboréacteur sûr du premier coup. À mesure qu'on progresse en ingénierie, on atteint la fiabilité actuelle. Ce sera pareil pour l'IA. Nous allons construire des systèmes avec de l'autonomie et des modèles mondiaux, mais ils auront la puissance d'un cerveau de chat, et nous y mettrons des garde-fous. Stuart Russell utilise l'exemple d'un robot domestique allant chercher du café qui pourrait bousculer une personne sur son chemin. C'est très facile à corriger avec des garde-fous. On met des conditions de bas niveau comme rester à distance des gens ou ne pas agiter les bras avec un couteau. Certains disent qu'on peut jailbreaker les LLM, et je suis d'accord. C'est pour cela qu'on ne devrait pas utiliser de LLM ; nous devrions utiliser des architectures d'IA pilotées par objectifs où un système a un modèle mondial et est soumis à des contraintes garantissant la sécurité. Par construction, le système est intrinsèquement sûr car il produit un résultat en minimisant l'objectif de la tâche tout en satisfaisant les garde-fous. Il ne peut pas y échapper.

Host

Il existe une technique pour les LLM afin de contraindre l'espace de sortie. Pensez-vous que de telles tactiques améliorent significativement l'utilité de ces modèles ?

Yann LeCun

Oui, mais elles sont ridiculement coûteuses. Le système doit générer de nombreuses propositions puis les filtrer ou les classer. À mesure d'avoir une fonction de valeur pilotée par objectifs qui pousse le système vers des sorties à haut score, ce sera coûteux.

Paysage Industriel et Compétition Mondiale

Host

La personne qui semble essayer de vous succéder chez Meta est Alex Wang. Avez-vous un avis sur la façon dont cela va se passer pour Meta ?

Yann LeCun

Il n'est pas du tout à ma place ; il est responsable de toute la R&D et des produits liés à l'IA chez Meta. Ce n'est pas un chercheur. Au sein du Meta Super Intelligence Lab, il y a quatre divisions : FAIR pour la recherche à long terme, TBD Lab pour les modèles de pointe comme les LLM, l'infrastructure IA et les produits. Il supervise toute l'opération. Je suis le scientifique IA de FAIR et j'ai une vision à long terme. FAIR est dirigé par Rob Fergus. Il est poussé vers des projets à plus court terme avec moins d'insistance sur la publication et plus sur l'aide au TBD Lab. Cela signifie que Meta devient un peu plus fermé. Il y a de la recherche appliquée dans la division produit, comme le groupe qui travaille sur Segment Anything.

Host

Avez-vous des opinions sur d'autres entreprises se lançant dans les modèles mondiaux comme Physical Intelligence ou Thinking Machines ?

Yann LeCun

Ce que fait Thinking Machines n'est pas clair du tout.

Host

Désolé, je les confonds. Je voulais dire Physical Intelligence.

Host

L'entreprise de Fei-Fei Li. Je les confonds aussi avec SSI.

Yann LeCun

Personne ne sait ce que fait SSI, y compris leurs propres investisseurs. Physical Intelligence se concentre sur la production de vidéos géométriquement correctes. C'est génératif, ce contre quoi j'ai argumenté. D'autres entreprises ont des modèles mondiaux, comme Wayve pour la conduite autonome. J'y suis conseiller. Ils entraînent un espace de représentation via un VAE et font de la prédiction temporelle dans cet espace. Ils ont la moitié de juste et la moitié de faux ; ils ne devraient pas entraîner leur espace de représentation par reconstruction. SandboxAQ parle de grands modèles quantitatifs par opposition aux grands modèles de langage. Google travaille aussi sur des modèles mondiaux, surtout avec des approches génératives. Il y a eu un effort intéressant de Danijar Hafner appelé Dreamer, mais il a quitté Google pour créer sa propre startup.

Host

Vous avez critiqué la Silicon Valley pour son obsession sur les LLM. Votre nouvelle entreprise démarre à Paris. Est-ce spécifique à l'Europe ?

Yann LeCun

L'entreprise que je lance est mondiale, avec des bureaux à Paris et New York. Dans l'industrie, tout le monde fait la même chose à cause de la concurrence. Cela crée un effet de troupeau et une monoculture dans la Silicon Valley où tout le monde travaille sur le même sujet. Parfois, un autre groupe comme DeepSeek en Chine arrive avec une nouvelle façon de faire qui surprend. Vous risquez d'être surpris par quelque chose sortant de nulle part. Ce qui m'intéresse est orthogonal car l'idée JEPA sert vraiment à gérer des données que les LLM gèrent mal. Nous envisageons des applications dans des domaines où les données sont continues et à haute dimension, là où les LLM ont totalement échoué. Dans la Silicon Valley, ils sont accros aux LLM et pensent atteindre la superintelligence en les mettant à l'échelle. Je pense que c'est n'importe quoi. Il faut échapper à cette culture. Il y a des gens dans ces entreprises qui sont d'accord, et je les embauche.

Host

Que pensez-vous de la compétition entre les États-Unis, la Chine et l'Europe ? Certains endroits sont-ils plus attractifs que d'autres ?

Yann LeCun

Les entreprises américaines, sauf Meta, sont devenues secrètes. En revanche, les entreprises chinoises sont devenues totalement ouvertes. Les meilleurs systèmes open source actuellement sont chinois. Les gens les utilisent car ils veulent un système ouvert, même s'ils sont ajustés pour la politique. Beaucoup aux États-Unis sont mécontents et veulent un modèle open source sérieux non chinois. Peut-être que Meta corrigera cela avec ses nouveaux efforts, ou peut-être deviendront-ils fermés eux aussi.

Yann LeCun

Mistral vient de sortir Codestral pour la génération de code. Ils ont maintenu l'ouverture, c'est intéressant.

Mission Personnelle et Philosophie

Host

Vous avez 65 ans et avez remporté le prix Turing. Vous pourriez prendre votre retraite.

Yann LeCun

Je pourrais. C'est ce que ma femme voudrait que je fasse.

Host

Pourquoi lancer une nouvelle entreprise maintenant ?

Yann LeCun

Parce que j'ai une mission. J'ai toujours pensé qu'augmenter la quantité d'intelligence dans le monde était une chose intrinsèquement bonne. L'intelligence est la denrée la plus demandée. Nous sommes limités par l'offre restreinte d'intelligence, c'est pourquoi nous dépensons des ressources pour éduquer les gens. Bien sûr, il y a des dangers contre lesquels il faut se protéger, mais c'est un problème d'ingénierie. Si je peux y contribuer, je le ferai. Mes activités professionnelles visaient à rendre les gens plus intelligents par l'éducation et par l'intelligence artificielle assistant les humains. C'est la même technologie. Ce n'est pas parce qu'un système est intelligent qu'il veut dominer. Ce n'est même pas vrai pour les humains ; ce ne sont pas les plus intelligents qui veulent dominer les autres. Beaucoup parmi les plus intelligents ne veulent rien avoir à faire avec le reste de l'humanité.

Host

C'est ce dont parle Hannah Arendt : la vita contemplativa contre la vie active.

Yann LeCun

On peut être simultanément un rêveur et avoir un grand impact sur le monde via la production scientifique. Pensez à Einstein ou Newton. Newton ne voulait voir personne.

Yann LeCun

Augmenter la quantité d'intelligence au service de l'humanité est une chose intrinsèquement bonne. Malgré ce que disent les catastrophistes, c'est un problème d'ingénierie. Tous les projets de recherche que j'ai menés visaient soit à rendre les gens plus intelligents, soit à travailler sur l'intelligence artificielle.

Yann LeCun

Je communique publiquement sur l'IA et la science car je pense que les gens doivent savoir. Les machines assisteront les humains et les rendront plus intelligents. Ce n'est pas parce qu'un système est intelligent qu'il veut dominer ou prendre le contrôle.

Yann LeCun

Ce ne sont pas les plus intelligents d'entre nous qui veulent être le chef. Beaucoup des personnes les plus brillantes que j'ai rencontrées ne veulent rien avoir à faire avec le reste de l'humanité.

Host

C'est la vita contemplativa contre la vie active.

Yann LeCun

On peut simultanément être un rêveur et avoir un grand impact sur le monde par la production scientifique.

Yann LeCun

Newton, célèbrement, ne voulait voir personne. Paul Dirac était pratiquement autiste.

Regrets et Genèse des Idées

Host

Y a-t-il un article ou une idée que vous n'avez pas écrit et que vous aimeriez réaliser ? Un regret ?

Yann LeCun

Beaucoup. Toute ma carrière a été une succession de moments où je n'ai pas consacré assez de temps à exprimer mes idées et où je me suis fait devancer.

Yann LeCun

Je ne veux plus subir cela.

Yann LeCun

La rétropropagation est un bon exemple. J'ai publié une version précoce d'un algorithme qu'on appellerait aujourd'hui target prop. J'avais compris le truc de la rétropropagation mais je ne l'ai pas écrit avant Rumelhart et Hinton. Ils ont été assez gentils pour citer mon article précédent. Il y en a eu quelques-uns comme ça. Mais je n'ai pas de regrets ; c'est la vie.

Yann LeCun

La façon dont les idées surgissent est complexe. Il est rare que quelqu'un trouve une idée en isolation complète. La plupart du temps, elles apparaissent simultanément. Il y a l'écriture de l'idée de façon convaincante, la faire fonctionner sur des problèmes simples, faire la théorie, la faire fonctionner sur des applications réelles et en faire un produit. Certains pensent que la toute première personne ayant eu l'idée devrait recevoir tout le crédit, mais je pense que c'est faux. Il y a des étapes difficiles pour amener une idée à un état où elle fonctionne. L'idée de modèles mondiaux remonte aux années 60. Les gens en contrôle optimal utilisent des modèles mondiaux pour la planification pour la NASA depuis longtemps. Le fait qu'on puisse faire de l'entraînement ou de l'adaptation s'appelle l'identification de système en contrôle optimal. Le fait qu'on puisse apprendre un modèle à partir de données — les gens travaillent là-dessus avec des réseaux de neurones depuis les années 80.

Yann LeCun

Les gens ont réalisé qu'ils pouvaient utiliser les réseaux de neurones comme approximateur universel de fonctions pour les modèles mondiaux. Dans les années 80 et 90, ça marchait un peu mais pas au point de conquérir l'industrie. Ça a commencé à vraiment bien marcher à la fin des années 2000 et au début des années 2010 pour la vision et le NLP. Pour la robotique, ça commence.

Yann LeCun

C'est une combinaison du bon état d'esprit, des architectures et des techniques d'apprentissage comme les connexions résiduelles et ReLU, avec des ordinateurs puissants et l'accès aux données. C'est là qu'on obtient une percée. Les réseaux convolutionnels des années 70 ou 60 utilisaient des connexions locales pour extraire des caractéristiques. Le fait qu'on puisse apprendre des filtres adaptatifs remonte au perceptron au début des années 60. Mais l'idée qu'on puisse entraîner un système non linéaire par descente de gradient — le concept de base remonte à l'algorithme de Kelley-Bryson de 1962. Ça n'est arrivé qu'après l'article de Rumelhart-Hinton-Williams en 1985, même si des gens ont proposé des algorithmes similaires avant, comme Paul Werbos. Les accusations de plagiat sont juste une mécompréhension de la genèse des idées.

Passe-temps et Vie Personnelle

Host

Que faites-vous quand vous ne pensez pas à l'IA ?

Yann LeCun

J'ai des passe-temps pour lesquels j'ai peu de temps. J'aime faire de la voile l'été, surtout sur des multicoques. J'aime construire des engins volants.

Yann LeCun

Beaucoup ne ressemblent pas du tout à des avions, mais ils volent. J'aime l'acte créatif. Mon père était ingénieur mécanicien et construisait des avions par loisir. Il nous a transmis cela, à mon frère et moi. Mon frère travaille chez Google Research à Paris et c'est devenu une activité familiale. Durant les années COVID, je me suis mis à l'astrophotographie. Je construis aussi de l'électronique. Je m'intéressais à la musique de la Renaissance et du Baroque, surtout les instruments à vent. Mon cousin était musicien électronique, donc je modifiais des synthétiseurs analogiques pour lui. Maintenant j'ai des synthés et je construis des instruments à vent qui produisent des signaux de contrôle pour eux.

Yann LeCun

La voile, c'est comme l'histoire du modèle mondial. Pour bien contrôler un voilier, il faut anticiper le mouvement des vagues et comment elles affectent le bateau. Il faut faire de la mécanique des fluides numérique dans sa tête pour comprendre la dynamique des fluides autour des voiles. Régler les voiles demande un bon modèle intuitif. J'aime le modèle prédictif mental qu'il faut construire.

Yann LeCun

On l'apprend en quelques années de pratique.

Yann LeCun

Je me sens à la fois Français et Américain. Je suis aux États-Unis depuis 37 ans et mes enfants ont grandi ici. J'ai une vision de la science et de la société qui découle de mon éducation en France. Je me sens Français quand je suis en France.

Yann LeCun

Ma sœur est aussi professeure. Mon frère était professeur avant de rejoindre Google. Il ne travaille pas sur l'IA ; il travaille sur la recherche opérationnelle et l'optimisation, qui sont envahies par l'apprentissage automatique.

Conseils pour la Prochaine Génération

Yann LeCun

Domination mondiale totale. C'est une blague. J'ai dit ça parce que c'est ce que Linus Torvalds disait à propos de Linux. Ça a fini par réussir ; chaque ordinateur au monde tourne sous Linux. Mon but est de pousser vers une recette pour construire des systèmes intelligents et bâtir des systèmes d'IA qui amplifient l'intelligence humaine. Nous serons leur patron. Les choses intelligentes ne veulent pas forcément dominer. Nous sommes programmés par l'évolution pour cela car nous sommes une espèce sociale, mais il n'y a aucune raison d'intégrer ces pulsions dans nos systèmes. Donc je suis optimiste.

Host

Si vous commenciez votre carrière en IA aujourd'hui, sur quelles compétences vous concentreriez-vous ? Il faut apprendre des choses qui durent longtemps et aident à apprendre à apprendre. Il faut apprendre les bases en sciences, technologie, ingénierie et mathématiques — et il faut apprendre la philosophie. Les compétences durables ont tendance à ne pas être l'informatique pure.

Yann LeCun

J'ai étudié le génie électrique en licence. Il faut apprendre les bases en mathématiques et la modélisation connectée à la réalité. Les disciplines d'ingénierie donnent une bonne base avec l'analyse. Apprendre la théorie des probabilités, l'algèbre linéaire et la théorie du contrôle est utile pour l'IA. La physique consiste à créer des modèles prédictifs de la réalité, ce qui est le cœur de l'intelligence. Il faut apprendre assez d'informatique pour programmer.

Yann LeCun

Le code généré par l'IA est cool. Cela va amener une situation où le code est écrit et utilisé une seule fois car il est très peu cher. L'idée qu'on n'aura plus besoin de programmeurs est fausse. Le coût de génération de logiciels baisse depuis des décennies, et c'est juste l'étape suivante. Les ordinateurs vont être plus utiles.

Yann LeCun

Il y a une inspiration venant des neurosciences. Les travaux de Hubel et Wiesel sur le cortex visuel ont mené aux réseaux convolutionnels. Le cognitron et le néocognitron de Fukushima en avaient les ingrédients mais pas le bon algorithme d'apprentissage. Il essayait de reproduire des particularités biologiques, comme les synapses négatives sortant des neurones inhibiteurs. Il utilisait une normalisation divisive, qui correspond aux modèles théoriques du cortex visuel. Les neurosciences sont une source d'inspiration pour la macro-architecture du cerveau, comme l'hippocampe pour la mémoire factuelle. Nous allons inventer de nouvelles architectures d'IA et découvrir que ces caractéristiques existent dans le cerveau. Les meilleurs modèles de la perception humaine aujourd'hui sont les réseaux convolutionnels.

Yann LeCun

N'écoutez pas les scientifiques de l'IA parler d'économie. Quand quelqu'un vous dit que l'IA va mettre tout le monde au chômage, parlez à un économiste ; aucun d'eux ne prédit un chômage massif. Déployer des applications pratiques d'IA est difficile et coûteux. Dans les années 80, les systèmes experts étaient à la mode, et on pensait que les ingénieurs de la connaissance étaient l'avenir. Ça n'est marché que pour quelques domaines. L'illusion que la mode actuelle de l'IA va nous mener à l'intelligence humaine est arrivée plusieurs fois. Des articles du New York Times disaient qu'on aurait des machines superintelligentes dans les 10 ans suivant le perceptron. Marvin Minsky a dit que le meilleur joueur d'échecs serait un ordinateur dans 10 ans. En 1956, Newell et Simon ont produit le General Problem Solver, mais ils ignoraient la théorie de la complexité. La dernière idée censée mener à l'AGI est un piège dangereux dans lequel des gens brillants sont tombés.

Yann LeCun

Pensez-vous que le domaine résoudra un jour l'apprentissage incrémental ? Ce n'est pas un problème technique.

Yann LeCun

Nous le faisons déjà avec l'apprentissage auto-supervisé. On entraîne un modèle de base, puis on entraîne une petite tête par-dessus pour une tâche particulière qui peut être apprise en continu. Votre modèle mondial peut être entraîné en continu. En 2005, nous avions construit un système de navigation pour robots mobiles où les couches supérieures s'adaptaient à la volée à l'environnement. Je ne vois pas cela comme un défi majeur.

Yann LeCun

Ce fut un réel plaisir. Merci.

Retour aux entretiens de Yann LeCun