Yann LeCun on the Future of AI: From LLMs to World Models
7 mars 2025
Artificial Intelligence
Introduction and Background
Actuellement, les systèmes d'IA sont à bien des égards très stupides.
Nous sommes dupés en pensant qu'ils sont intelligents parce qu'ils peuvent très bien manipuler le langage.
Le professeur Yann LeCun est vice-président chez Meta, où il supervise le développement de l'un des systèmes d'IA les plus puissants au monde.
L'une des choses sur lesquelles mes collègues et moi avons travaillé est la conception d'un nouveau type de système d'IA qui serait capable de comprendre le monde physique, d'avoir une mémoire persistante et d'être capable de raisonner et de planifier.
Ces systèmes auront des émotions, comme la peur, l'excitation ou l'exultation.
Il a reçu le prix Turing, la plus haute distinction en informatique, et le prix Queen Elizabeth II pour l'ingénierie.
Musk a déclaré que Tesla atteindrait l'autonomie de niveau cinq au cours des cinq prochaines années.
Il le dit depuis huit ans. Il dit que cela va arriver l'année prochaine depuis huit ans, et évidemment cela n'est pas arrivé.
De toute évidence, nous devons commencer à moins le croire sur ce point parce qu'il s'est systématiquement trompé. Il pensait avoir raison et il s'est avéré qu'il avait tort, ou bien il mentait tout simplement.
Ses travaux ont fait l'objet de près de 400 000 citations et son article de 2015 sur l'apprentissage profond avec le colauréat du prix Nobel Geoffrey Hinton figure parmi les plus fréquemment cités de l'histoire scientifique.
Êtes-vous surpris lorsque vous regardez le développement de l'IA aujourd'hui, les progrès jour après jour, nuit après nuit ?
Pas vraiment.
L'hôte de l'entretien est le Dr Matt Kawecki, vulgarisateur scientifique et ancien ambassadeur numérique de l'Union européenne.
The Impact of Deep Learning Research
Professeur, c'est un grand honneur de vous recevoir. Ma première question concerne vos recherches. Vous avez été cité un demi-million de fois sur Google Scholar. Qu'est-ce qui a fait de vos travaux sur l'apprentissage profond avec Geoffrey Hinton un tel tournant ?
Vous faites probablement référence à un article que Jeff Hinton, Yoshua Bengio et moi avons publié dans Nature en 2015. Il ne s'agissait pas de nouveaux travaux ; c'était essentiellement un manifeste ou un article de synthèse pour dire à la communauté scientifique qu'il existe ce nouvel ensemble de techniques qui fonctionnent très bien. Cela a marqué la popularisation de l'apprentissage profond. Mais il n'y avait aucun résultat nouveau dans cet article ; les résultats et la plupart des autres citations remontent aux travaux que j'ai réalisés dans les années 1980 et 1990.
Vous souvenez-vous du moment où cette popularité a commencé, du moment de l'histoire où vous avez vu qu'il s'agissait de l'un des travaux de recherche les plus populaires de l'histoire ?
Il y a eu deux vagues. La première remonte à la fin des années 80, lorsque nous avons commencé à obtenir de bons résultats en utilisant des réseaux de neurones multicouches, ce que nous appelons aujourd'hui l'apprentissage profond, pour des tâches telles que la reconnaissance d'images. À l'époque, nous ne pouvions pas reconnaître d'images complexes — il s'agissait plutôt d'images simples comme des caractères manuscrits. Cela fonctionnait très bien, et j'étais enthousiaste car je pensais que cela pourrait changer la façon dont nous faisons de la reconnaissance de formes et l'IA en général. Il y a eu une vague d'enthousiasme entre la fin des années 80 et le milieu des années 90, mais l'intérêt a disparu parce que les techniques nécessitaient beaucoup de données, ce qui était rare avant Internet, et des ordinateurs coûteux. L'intérêt est reparti à la hausse à la fin des années 2000 et a explosé vers 2013, année clé où le monde de la recherche a réalisé que l'apprentissage profond fonctionnait bien. Depuis, il s'est développé rapidement.
Human-like Intelligence and Emotions in AI
Nous poussons l'IA à égaler les capacités humaines aujourd'hui. Allons-nous intégrer des défauts humains comme la colère ou l'envie ? Croyez-vous que cela arrivera ?
Non. Actuellement, les systèmes d'IA sont à bien des égards très stupides. Nous sommes dupés en pensant qu'ils sont intelligents parce qu'ils manipulent bien le langage, mais ils ne comprennent pas le monde physique, n'ont pas de mémoire persistante, ne raisonnent pas et ne planifient pas. Ce sont des caractéristiques essentielles d'un comportement intelligent. L'une des choses sur lesquelles mes collègues et moi avons travaillé chez FAIR et NYU est la conception d'un nouveau type de système d'IA capable de ces choses. À mon avis, once que nous aurons réussi à construire ces systèmes, ils auront des émotions comme la peur, l'excitation ou l'exultation, car ce sont des anticipations de résultats. Ces systèmes fonctionneront en atteignant les objectifs que nous fixons. S'ils prédisent qu'un objectif sera atteint, cela les rendra heureux. Mais nous ne câblerons pas de colère ou de jalousie en eux.
The Mystery of Consciousness
Ou la conscience ?
Eh bien, la conscience est autre chose. Nous ne savons pas vraiment ce que c'est ; il n'y a pas de définition réelle ou de chose mesurable qui puisse nous dire si quelque chose est conscient. Nous serions probablement tous d'accord pour dire que les grands singes, les singes et peut-être les éléphants sont conscients.
C'est ce que Roger Penrose a dit dans notre entretien. Vous êtes probablement tout à fait d'accord avec lui.
Oui, mais un chien est-il conscient ? Un rat ou une souris sont-ils conscients ? Où est la barrière ? Parce que nous n'en avons pas de bonne définition, we ne pouvons vraiment pas le dire.
Paradigms of Machine Learning
À propos de l'année où vous avez dit que l'apprentissage automatique est nul. Quelque chose a-t-il changé ?
C'est ce sur quoi nous travaillons.
Quand on regarde le développement de l'IA aujourd'hui.
Nous travaillons sur de nouvelles façons de construire des systèmes d'apprentissage automatique afin qu'ils puissent apprendre aussi efficacement que les humains et les animaux, ce qui n'est pas le cas actuellement. Il existe trois paradigmes d'apprentissage automatique. L'un est l'apprentissage supervisé, où l'on montre à un système l'image d'une table et on lui dit que c'est une table. Il ajuste ses paramètres pour que la sortie se rapproche de celle souhaitée jusqu'à ce qu'il se généralise à des images qu'il n'a jamais vues. Un autre paradigme est l'apprentissage par renforcement, où l'on indique seulement au système si la réponse était bonne ou mauvaise. C'est extrêmement inefficace et cela fonctionne pour des jeux comme le Go mais pas dans le monde réel — on ne peut pas entraîner une voiture autonome avec cela car elle s'écraserait des milliers de fois. La troisième forme est l'apprentissage auto-supervisé, qui a permis les chatbots. Vous entraînez le système à capturer la structure de son entrée, comme prédire les mots manquants dans un texte. Chaque chatbot est formé de cette façon. Cela fonctionne incroyablement bien pour le langage, mais ce modèle ne fonctionne pas si vous voulez qu'un système comprenne le monde physique.
Understanding the Physical World
Quelque chose manque.
Oui. Le monde physique est beaucoup plus difficile à comprendre que le langage. Nous considérons le langage comme le summum de l'intelligence, mais il est simple parce qu'il est discret. On peut entraîner un système à produire une probabilité pour chaque mot d'un dictionnaire, gérant ainsi l'incertitude. Mais on ne peut pas entraîner un système à prédire ce qui va se passer dans une vidéo. Des gens essaient depuis 20 ans. L'idée est que si l'on pouvait entraîner un système à prédire les issues d'une vidéo, il comprendrait implicitement la structure sous-jacente du monde et la physique intuitive.
Toutes les lois physiques.
Oui, l'intuition physique. Si je lâche un objet, il va tomber. Les bébés humains apprennent la gravité vers l'âge de neuf mois. Il faut environ neuf mois pour apprendre.
The Paradox of Moravec and Sensory Input
Peut-être que la limitation naturelle du développement de l'IA aujourd'hui est notre connaissance de la réalité. Nous ne pouvons pas remplacer plus que ce que nous savons. Nous n'avons aucune idée de la façon dont la gravité est née ou de la façon dont le monde quantique se transforme en monde classique.
Mais c'est un problème simple. Un chien peut apprendre la gravité en quelques mois. Les chats sont très doués pour cela ; ils peuvent planifier des actions complexes et grimper sur des objets. De toute évidence, ils ont une très bonne compréhension de la physique intuitive. Nous ne savons pas encore comment reproduire cela avec des ordinateurs. C'est un autre exemple du paradoxe de Moravec : les ordinateurs peuvent résoudre des énigmes mathématiques mais ne peuvent pas manipuler des objets comme les animaux. La quantité d'informations qui nous parvient par la vision ou le toucher est énorme par rapport au langage. Cela explique pourquoi nous avons des chatbots qui réussissent l'examen du barreau mais aucun robot domestique ou voiture autonome de niveau cinq capable de s'entraîner en 20 heures comme un adolescent. De toute évidence, il nous manque la façon d'entraîner un système à comprendre des entrées sensorielles complexes comme la vision.
Et c'est nécessaire si nous voulons former des machines de manière aussi professionnelle que les humains et les animaux.
Si nous voulons des machines dotées d'une intelligence similaire à celle des animaux et des humains, nous devons résoudre ce problème. Un grand modèle de langage typique est entraîné avec 20 billions de jetons, ce qui prendrait plusieurs centaines de milliers d'années à un humain pour les lire. C'est une quantité énorme d'informations. Mais au cours des quatre premières années de sa vie, un enfant reçoit la même quantité d'informations par le biais du système visuel. Ce que cela nous dit, c'est que nous n'arriverons jamais à une IA de niveau humain en nous contentant d'un entraînement sur du texte. Nous allons devoir faire en sorte que les systèmes comprennent le monde réel.
Information, Entropy, and Reality
Sur votre LinkedIn et Facebook, vous liez l'IA et l'entropie. Quel est le lien ? Il est très difficile de comprendre ce que vous avez écrit, ce serait donc formidable si vous l'expliquiez simplement.
En utilisant des mots simples.
C'est une obsession pour moi. La question de savoir comment quantifier l'information est à la racine de nombreux problèmes en informatique et en physique. J'ai soutenu que la quantité d'informations dans un message n'est pas une quantité absolue car elle dépend de la personne qui l'interprète. Toute mesure de l'information est relative à une manière particulière de l'interpréter. Cela a des conséquences profondes pour la physique, où des notions comme l'entropie mesurent notre ignorance de l'état d'un système physique. J'ai essayé de trouver de bonnes façons de définir l'entropie et la complexité par rapport à l'interprète.
Ne pensez-vous pas que notre base de données mondiale pour entraîner les modèles d'IA est épuisée ? Nous avons numérisé 100 % de nos données.
Nous n'en sommes même pas proches. Il existe une énorme quantité de connaissances textuelles qui n'ont pas été numérisées. Dans le monde développé, une grande partie n'est pas publique, comme les données médicales. Il existe également de nombreuses données culturelles et historiques qui ne sont accessibles que sous forme de documents numérisés, et non de texte. Il y a encore beaucoup de données disponibles.
Et cela interroge la nature de la réalité parce que nous n'avons aucune idée de la façon dont le cerveau transforme l'information en conscience.
Je ne pense pas que nous devrions être obsédés par la question de la conscience.
Mais le monde est obsédé.
Certaines parties du monde le sont. Franchement, c'est un épiphénomène, et nous ne trouvons pas de définition parce que nous ne posons pas la bonne question. Au XVIIe siècle, les gens étaient intrigués par le fait que les images se forment à l'envers sur la rétine, alors que nous voyons le monde à l'endroit. Aujourd'hui, nous réalisons que cette question n'a aucun sens car l'orientation sur la rétine n'a aucune importance pour la façon dont le cerveau interprète les images. La conscience est similaire ; nous pensons qu'elle existe mais nous ne pouvons pas mettre le doigt dessus.
Et ce qui fait de nous des individus.
C'est différent. Nous avons tous des expériences différentes et nos cerveaux sont câblés légèrement différemment. L'évolution garantit la diversité des humains parce que nous sommes des animaux sociaux ; il y a un avantage à ce que les différents membres d'une tribu aient des expertises différentes. Nous sommes plus forts parce que nous sommes divers.
Reasoning and Planning in AI
Qu'en est-il du raisonnement libre et des modèles de pensée abstractionnelle tels que O1 ? Pouvons-nous attendre quelque chose de ce genre de la part de votre laboratoire ?
L'apprentissage de représentations abstraites est la clé de l'apprentissage profond. L'acte de raisonner ou de planifier consiste à chercher une solution à un problème. Par exemple, un GPS cherche parmi tous les chemins possibles le plus court. Les LLM actuels comme O1 ou R1 le font de manière très primitive dans l'espace des jetons. Ils génèrent de nombreuses séquences de manière aléatoire et un autre réseau de neurones sélectionne la meilleure. C'est extrêmement coûteux et ce n'est pas ainsi que les humains pensent. Nous raisonnons dans un espace mental abstrait. Nous avons des modèles mentaux qui nous permettent de prédire les conséquences de nos actions, ce qui nous permet de planifier une séquence pour atteindre un objectif.
Voulez-vous dire qu'il s'agit d'une illusion de raisonnement libre ?
Ce que vous faites, c'est raisonner dans votre état mental, et non dans l'espace d'action de sortie.
Dans le monde physique.
Chaque fois que nous accomplissons une tâche consciemment, nous planifions de manière hiérarchique. Si vous décidez d'aller à Varsovie depuis New York, vous définissez des sous-objectifs : aller à l'aéroport, prendre un taxi, quitter le bâtiment. À un certain point, vous atteignez un objectif qui vous est si familier que vous n'avez pas besoin de planifier, comme vous lever de votre chaise. La planification hiérarchique est cruciale, mais nous n'avons aucune idée de la manière de le faire avec des machines aujourd'hui.
Robotics and Autonomous Vehicles
C'est pourquoi vous avez passé tant de temps à Davos à parler de robotique. Vous avez parlé d'une décennie de la robotique à venir. Pourquoi cette fois est-elle différente ?
Les robots sont utilisables pour des tâches relativement simples et automatisables, comme dans l'industrie manufacturière. Mais pour des tâches comme la conduite, nous n'avons toujours pas de voitures autonomes aussi fiables que les humains. Waymo existe, mais ils utilisent des capteurs bien plus sophistiqués que la perception humaine.
Mais Musk a déclaré que Tesla atteindrait l'autonomie de niveau cinq au cours des cinq prochaines années.
Il le dit depuis huit ans, et cela n'est pas arrivé. De toute évidence, nous devons commencer à moins le croire parce qu'il s'est systématiquement trompé. Je pense que c'est une façon pour lui d'inspirer son équipe pour atteindre un objectif inatteignable.
Avec les progrès année après année.
Il est difficile pour un ingénieur de s'entendre dire par son PDG que le problème auquel il a consacré sa carrière sera résolu l'année prochaine.
Vous pensez donc que le plus grand défi est d'intégrer l'IA, la robotique et les capteurs numérisés ?
Si nous construisons des systèmes d'IA qui comprennent le monde physique, peuvent raisonner et planifier, nous aurons la base de robots bien plus flexibles que les robots actuels. Les démonstrations de robots humanoïdes sont impressionnantes, mais ces robots sont stupides — ils ne sont pas assez intelligents pour faire face au monde réel. De nombreuses entreprises parient que l'IA fera suffisamment de progrès au cours de la prochaine décennie pour rendre ces robots viables.
Open Source and Global Competition
Êtes-vous surpris quand vous regardez les progrès de l'IA aujourd'hui ?
Pas vraiment. Ce qui m'a surpris, c'est que les progrès n'ont pas été continus. Il y a eu beaucoup de progrès dans les années 80, puis rien, puis d'autres progrès dans les années 2000 en toute discrétion. Une fois que c'est devenu visible vers 2013, le domaine a explosé. Maintenant, cela s'accélère grâce à davantage d'investissements et de personnes intelligentes.
Aujourd'hui, le monde parle du nouveau modèle chinois, DeepSeek. Il est open source et moins cher que les modèles américains. Qu'en pensez-vous ?
Il y a quelque chose qui doit être expliqué clairement : si la recherche est publiée et que le code est open source, le monde entier en profite. C'est la magie de l'open source. Meta et moi en avons été de fervents partisans. Ce n'est pas une compétition, c'est de la coopération. Llama, par exemple, a été produit dans nos laboratoires à Paris. Aucune entité n'a le monopole des bonnes idées, c'est pourquoi la collaboration ouverte fait progresser le domaine plus rapidement. Certaines entreprises, comme OpenAI et Anthropic, se sont refermées. Je trouve cela triste car elles se placent en dehors de la communauté mondiale de la recherche.
Et vous y croyez vraiment ?
Absolument ; c'est un fact. Presque toute l'industrie de l'IA utilise PyTorch, qui a été produit par mes collègues chez Meta et est maintenant open source sous la Fondation Linux. Tout le monde l'utilise — OpenAI, Microsoft, NVIDIA. Les progrès de l'IA se construisent sur les travaux des uns et des autres.
Stargate and Infrastructure
Si ce n'est pas DeepSeek, peut-être que le projet américain Stargate changera tout.
No.
N'êtes-vous pas d'accord pour dire que c'est le plus grand projet de l'histoire de l'humanité ?
DeepSeek est un bon travail, mais ce n'est pas la première fois que des travaux innovants sortent de Chine. Les idées de DeepSeek seront bientôt reproduites et intégrées dans les futures versions ailleurs ; c'est la beauté de la recherche ouverte. Concernant Stargate, chaque entreprise d'IA voit un avenir où des milliards de personnes utilisent quotidiennement des assistants d'IA, par exemple via des lunettes intelligentes. Pour servir des milliards d'utilisateurs, il faut une infrastructure massive. Meta et Microsoft investissent déjà 60 à 80 milliards par an. Les 500 milliards de Stargate s'étalent sur dix ans, c'est donc le même ordre de grandeur. La majeure partie de cet investissement concerne l'inférence, pas l'entraînement, qui est relativement bon marché.
Retour à la normale.
L'entraînement deviendra plus efficace, mais nous entraînerons simplement des modèles plus grands. La majeure partie de l'investissement sert à faire fonctionner les modèles, pas à les entraîner.
JEPA and World Models
En quoi le modèle du monde JEPA diffère-t-il des transformeurs et pourquoi pensez-vous que les modèles du monde sont l'avenir ?
JEPA signifie Joint Embedding Predictive Architecture. Ce n'est pas une alternative aux transformeurs ; on peut avoir des transformeurs à l'intérieur des JEPA. JEPA est une alternative aux architectures autorégressives comme GPT. Les GPT sont entraînés à prédire le mot suivant, ce qui ne fonctionne pas pour le monde réel. On ne peut pas entraîner un système à prédire ce qui se passe dans une vidéo car le monde est trop imprévisible. JEPA entraîne le système à apprendre une représentation abstraite et fait des prédictions dans cet espace au lieu de l'espace d'entrée. Si l'on entraîne un système à prédire chaque détail imprévisible d'une vidéo, il échoue.
Legacy and Europe's Role
La plus grande réussite du laboratoire de Yann LeCun est...
Il n'y a pas de laboratoire Yann LeCun. Je suis connu pour le réseau de neurones convolutifs, qui s'inspire du cortex visuel et est désormais utilisé partout, de l'aide à la conduite à la reconnaissance d'images.
C'est votre laboratoire.
Il utilise des réseaux convolutifs ; c'était mon invention de 1988. Depuis 2010, l'ensemble des applications s'est développé rapidement. Quand vous parlez à votre téléphone ou que vous utilisez une application pour identifier une plante, c'est un réseau convolutif.
Quelle est la place de l'Europe dans la course à l'IA ?
L'Europe a un rôle très important à jouer parce qu'elle a du talent.
La mise en œuvre de réglementations.
Il y a des problèmes de réglementation. Par exemple, les lunettes intelligentes que je porte ont des fonctionnalités qui ne sont pas disponibles en Europe en raison de l'incertitude réglementaire. Mais l'Europe a de grands avantages, principalement le talent en mathématiques et en informatique. De nombreux scientifiques de haut niveau en IA viennent d'Europe.
Vous êtes européen ; vivez-vous toujours à Paris ?
Je vis à New York, mais je passe beaucoup de temps à Paris.
Reflections and Medical AI
Si vous pouviez remonter le temps, y a-t-il quelque chose que vous regrettez dans vos recherches sur l'IA ?
Pendant longtemps, je ne me suis pas intéressé à l'apprentissage auto-supervisé parce que je pensais que le problème était mal formulé. Je n'ai changé d'avis qu'au milieu des années 2000, soit 10 ans trop tard. J'aurais aussi été plus énergique pour maintenir l'intérêt de la communauté pour les réseaux de neurones à la fin des années 90 afin d'éviter l'hiver de l'apprentissage profond. Jeff Hinton aurait pu répondre qu'il regrettait d'avoir pensé que la rétropropagation n'était pas utilisée par le cerveau, pour se rendre compte plus tard qu'elle fonctionne mieux que tout ce que fait le cerveau.
Pourquoi soutenez-vous Ataraxis, la start-up concernant les prédictions du cancer du sein ?
Les applications médicales de l'apprentissage profond sont extrêmement prometteuses. Un jeune collègue, Krzysztof Geras, qui est un brillant professeur, a cofondé la start-up et m'a demandé d'être conseiller. Leur travail est très prometteur, en particulier pour passer directement des mesures au traitement.
Professeur, merci beaucoup pour votre temps. C'était un grand honneur.
Merci beaucoup, un plaisir.