Conférence de Yann Le Cun à l'École des Ponts ParisTech
27 octobre 2025
Intelligence Artificielle
Introduction et présentation de l'invité
Jérôme, à toi la parole.
Merci Anthony. Aujourd'hui, nous avons le plaisir d'accueillir Yann Le Cun, qui est Chief AI Scientist chez Meta et qui est professeur à NYU. Yann, merci beaucoup d'être là. Yann est aussi membre de notre conseil scientifique et un certain nombre de chercheurs travaillent avec Meta sur des sujets d'IA et on va signer d'ailleurs un partenariat tout à l'heure de 5 ans avec Meta sur un certain nombre de sujets de thèse. Yann a fait ses études à l'ESIEE, et ensuite il a fait une thèse de doctorat à l'université à Paris, et puis il est parti pour les États-Unis où il a travaillé pour les laboratoires AT&T Bell Labs. C'est là qu'on s'est croisé il y a quelques années. Il a beaucoup travaillé au moment où le mot intelligence artificielle n'était pas très populaire à cette époque-là. C'étaient les réseaux de neurones, qui avaient été en vogue dans les années 70-80 et puis étaient retombés de mode. Yann était très persévérant avec un certain nombre de ses collègues comme Yoshua Bengio et Geoffrey Hinton. Ils ont continué de travailler et ont trouvé des nouvelles méthodes d'apprentissage. Il vous en parlera, en particulier le deep learning, qui a complètement revivifié le domaine à partir des années 2010. Il a rejoint Facebook en 2013 et il a fondé le FAIR, Facebook AI Research Lab, qu'il a dirigé pendant plusieurs années. Il a reçu en 2018, avec ses deux collègues, le prix Turing, qui est l'équivalent du prix Nobel pour l'informatique. Ce qui est intéressant d'écouter chez Yann, c'est la partie technique mais aussi la réflexion sur le développement de l'IA, les problèmes de transparence, de collaboration et la compréhension des limites actuelles. Il est convaincu que c'est un outil qui doit être mis au service du bien commun. Il le dit dans un certain nombre de publications. Il y a deux livres que je peux citer avant de lui laisser la parole : en 2018, 'La plus belle histoire de l'intelligence : des origines aux neurones artificiels, vers une nouvelle étape de l'évolution', avec Stanislas Dehaene, et le deuxième, 'Quand la machine apprend : la révolution des neurones artificiels et de l'apprentissage profond'. C'est un sujet de société. Yann, on te laisse la parole pour nous en parler. Merci.
Vision de l'IA et limites des approches actuelles
Merci Jérôme. Oui, on se connaît depuis très longtemps. On ne va pas avouer depuis combien de temps.
J'ai un beau speech tout préparé, mais je crois que je ne vais pas vous donner ce speech-là parce que c'est une audience un petit peu spéciale. Je vais vous faire des petits dessins au tableau pour vous expliquer comment fonctionne l'IA pour ceux d'entre vous qui ne se sont pas déjà plongés dans le sujet, et poser les questions sur les limites des approches actuelles. Je suis sûr que la plupart d'entre vous ont joué avec des systèmes d'IA ou les ont utilisés peut-être sans s'en rendre compte parce que l'IA est utilisée un peu partout. Mais il y a de grosses limitations aux approches actuelles et il y a un futur. Il y a une révolution qui va se passer dans l'IA dans les années qui viennent. Comme vous commencez vos études, vous allez faire partie de ça. On a l'impression que l'IA actuelle va nous amener à des systèmes intelligents, peut-être au niveau de l'intelligence humaine, voire super intelligents. Quelle va être notre relation avec eux ? Je vais essayer de parler pendant pas trop longtemps pour qu'on puisse ensuite avoir une session de questions-réponses.
L'IA comme amplificateur de l'intelligence humaine
On ne s'en rend pas encore compte, mais on va avoir besoin de systèmes intelligents qui atteignent l'intelligence humaine ou qui même la surpassent. L'histoire de l'informatique, c'est qu'on a fait des systèmes dont les capacités surpassent les capacités humaines. C'est le principe d'utiliser des outils pour augmenter la puissance humaine, qu'ils soient mécaniques ou informatiques. L'IA doit être vue comme un moyen d'amplifier l'intelligence humaine et ça ne peut avoir que de bons effets au total. Bien sûr, il faut faire ça correctement. Il y a des risques, mais il ne faut pas non plus les magnifier ou en être prisonnier. Le but est d'amplifier l'intelligence humaine.
Parallèle historique avec l'imprimerie
Si on se replace quelques siècles en arrière, l'événement qui a eu un effet similaire d'amplifier l'intelligence humaine est probablement l'invention de l'imprimerie au XVe siècle. Cela a permis de disséminer le savoir beaucoup plus largement, de motiver les gens à apprendre à lire et de partager la connaissance. Le premier savoir qui a été disséminé par l'imprimerie est la Bible. Cela a permis aux gens de lire la Bible eux-mêmes au lieu d'avoir le message religieux à travers les prêtres, ce qui a créé le mouvement protestant et causé 200 ans de conflits religieux en Europe. Personne aujourd'hui ne dirait que l'invention de l'imprimerie a été mauvaise pour l'humanité, mais ça a quand même créé des effets délétères dont il faut se méfier. Il y a toujours des effets difficiles à prédire.
On peut comparer cela avec l'effet de l'imprimerie sur le monde arabe à l'époque, qui dominait la science au Moyen Âge. La raison pour laquelle les étoiles ont des noms arabes est que les astronomes arabes leur en ont donné, alors qu'en Occident on était sous le coup de l'obscurantisme. L'imprimerie a tout changé : l'Occident s'est éveillé avec le siècle des Lumières alors que le monde musulman s'est refermé, a interdit l'imprimerie pour l'arabe, et cela a contribué à son deéclin progressif.
Il y a des leçons à apprendre. Disséminer le savoir est toujours bien au total, mais il y a des dangers qu'il faut prévenir. On s'en aperçoit aujourd'hui avec des excès des réseaux sociaux. Mais il faut faire attention à ne pas refuser les progrès technologiques, surtout quand ils permettent la dissémination du savoir et de la science, car c'est le moteur du progrès humain.
Collaboration avec les systèmes intelligents
L'IA, si elle est bien utilisée, permettra une amplification de l'intelligence humaine. Cela permettra à chacun de prendre des décisions plus rationnelles et cela va accélérer le progrès de la science. L'IA appliquée à la science, comme la science des matériaux, va faire des progrès rapides. Nous allons assister à quelques décennies très différentes des précédentes. Il ne faut pas en avoir peur et vous en serez partie prenante. Moi, je suis trop vieux.
Quelle relation allons-nous avoir avec les systèmes intelligents s'ils sont plus intelligents que nous ? Il ne faut pas en avoir peur non plus : nous serons leurs patrons. Vous aurez des assistants d'IA avec vous qui deviendront de plus en plus intelligents au fil des années. Il ne faut pas avoir peur de travailler avec des entités plus intelligentes que vous. C'est la meilleure chose qui peut vous arriver. C'est l'histoire de ma carrière : j'ai toujours collaboré with des gens plus intelligents que moi. Notre relation avec l'IA du futur sera comme une équipe virtuelle qui nous accompagnera et nous aidera au quotidien.
J'ai un assistant d'IA dans mes lunettes. Je peux prendre des photos — souriez — ou lui poser n'importe quelle question. C'est comme un LLM classique qui s'appelle Meta AI. Je vais aussi prendre un selfie. Souriez encore.
Les bases techniques : Machine Learning et Descente de Gradient
C'est quoi l'IA ? C'est quoi le machine learning ? Devenons un petit peu plus techniques. Et pourquoi ça s'appelle apprentissage profond ?
Si on veut faire faire quelque chose à une machine, on peut écrire un programme. Mais pour beaucoup de tâches, on ne sait pas écrire le programme correspondant. Par exemple, interpréter une image pour détecter un piéton ou une voiture pour un système d'assistance à la conduite. On ne sait pas écrire un programme qui va interpréter tous les cas de figure car la variabilité est trop énorme.
Par contre, on sait entraîner la machine à le faire. Entraîner une machine, c'est écrire un programme qui prend une entrée X, comme les pixels d'une image, et effectue des calculs numériques avec des coefficients qui vont être appris. Prenons un cas simple où l'on représente ces pixels comme un vecteur pour reconnaître une lettre.
On peut calculer une combinaison linéaire de ces valeurs avec des coefficients W. Si cette somme pondérée est supérieure à un seuil, on dit que c'est la catégorie C. On peut en mettre plusieurs pour reconnaître toutes les lettres de l'alphabet.
La question est : quelle valeur donner à ces coefficients pour que le système reconnaisse correctement la lettre ? C'est la base de l'apprentissage machine. Pour entraîner un tel système, on peut faire une régression linéaire. Si je montre un C, je veux que la somme soit +1, sinon -1.
Si j'ai une série d'exemples, je calcule l'erreur que fait le système en comparant la sortie voulue et la sortie produite. C'est un problème de moindres carrés, ou régression linéaire. On appelle cela une fonction de coût, qui dépend des paramètres W.
Nous avons une machine dont la fonction est déterminée par des paramètres, et nous minimisons l'erreur par une méthode de gradient. C'est un problème de mathématiques appliquées.
On calcule le gradient de cette fonction par rapport au vecteur de paramètres sur notre ensemble d'apprentissage. Le gradient d'une fonction nous indique comment modifier W.
La méthode de descente de gradient consiste à modifier le paramètre de poids par un coefficient fois le terme d'erreur multiplié par le vecteur d'entrée. C'est l'algorithme d'apprentissage le plus simple, proposé dans les années 50 et 60 par des statisticiens et des gens intéressés par la cybernétique.
La révolution du Deep Learning et la rétropropagation
C'est l'apprentissage élémentaire. Mais pour reconnaître des images ou prédire des mots, il faut du deep learning. C'est une modification où, au lieu d'une machine simple, on empile plusieurs couches avec des matrices de poids et des fonctions non linéaires. Pourquoi s'appelle-t-il 'deep learning' ? Parce qu'il y a plusieurs étages.
C'est la révolution du deep learning. Cela fait appel à la règle de dérivation des fonctions composées. On a l'idée d'utiliser cela pour l'apprentissage machine dans les années 80. La communauté s'en est désintéressée dans les années 90, mais ces méthodes sont revenues en force au début des années 2010. C'est l'origine de la révolution actuelle.
Si on veut calculer le gradient d'une fonction composée, c'est le produit des dérivées. On calcule une matrice jacobienne qui contient toutes les dérivées partielles des sorties par rapport aux entrées.
Si la fonction est linéaire, la dérivée est simplement la matrice transposée. Par un algorithme appelé la rétropropagation du gradient, on peut calculer le gradient de la fonction de coût par rapport à tous les paramètres internes et les mettre à jour. C'est ça le deep learning.
Vous pouvez écrire cela en quelques lignes de Python avec PyTorch. Dans les systèmes modernes, vous n'avez pas besoin d'écrire comment rétropropager les gradients. Vous écrivez la fonction de sortie et PyTorch s'occupe de la différenciation automatique. C'est extrêmement puissant.
Architectures : Réseaux convolutifs et Transformeurs
Comment marchent les systèmes d'IA actuels ? Ceux qui servent à piloter nos voitures sont basés sur les réseaux convolutifs, une de mes inventions. C'est une manière de structurer les matrices, inspirée de l'architecture du cortex visuel.
Pratiquement tous les systèmes de vision en temps réel, de l'imagerie médicale à la reconnaissance de visage aux frontières, sont basés là-dessus. C'est utilisé pour tout, du bien comme du mal, comme dans les drones autonomes en Ukraine car ils ne peuvent pas être pilotés à distance à cause du brouillage radio.
Un autre type d'architecture s'appelle les transformeurs. Les réseaux convolutifs sont équivariants par translation : si on bouge un objet dans l'image, la détection bouge aussi.
Les transformeurs sont équivariants par permutation. Ce qui est important, ce n'est pas la position des objets, mais leur relation. Ils sont utilisés principalement pour le traitement de la langue dans les LLM et les chatbots.
Fonctionnement et limites des LLM (Large Language Models)
C'est un réseau de deep learning entraîné par descente de gradient. Le GPT de ChatGPT signifie 'Generative Pre-trained Transformer'. 'Pre-trained' veut dire qu'on l'entraîne par apprentissage auto-supervisé à prédire le mot qui suit une séquence de mots.
Chaque mot est encodé comme un vecteur, appelé token. On passe une séquence dans un transformeur qui produit une sortie, et on compare avec le mot qui suit. Ces systèmes peuvent stocker une quantité d'information gigantesque et accumuler la totalité de la connaissance humaine.
On entraîne le réseau à apprendre la fonction identité, mais il ne peut regarder qu'une fenêtre de mots particulière pour calculer la sortie suivante. Il est obligé de prédire.
Cela marche pour deux raisons : on peut mettre énormément de paramètres et entraîner sur une quantité massive de données. On utilise environ 30 trillions de tokens, ce qui correspond à la totalité du texte public sur Internet. Il nous faudrait 400 000 ans pour tout lire. Le système en apprend une version compressée.
Il y a un problème essentiel : il n'y a pas de capacité de raisonnement, seulement de la prédiction. Comparons avec un enfant de 4 ans : il a été éveillé 16 000 heures. Notre cerveau reçoit environ 2 mégaoctets par seconde via le nerf optique. Un enfant de 4 ans a vu autant de données que le plus gros des LLM actuels.
Le futur de l'IA : Modèles du monde et architecture JEPA
On ne parviendra pas à une intelligence humaine simplement en entraînant sur du texte. La prochaine révolution de l'IA, sur laquelle je travaille, concerne les modèles du monde.
Un modèle du monde permet de prédire la conséquence d'une action sur l'état du monde. Si je déplace ce téléphone, l'état du monde change. Il nous faut un réseau qui prédit l'état T+1 en fonction de l'action imaginée en T.
L'état du monde n'est pas une représentation totale, ce serait impossible. Les humains et les animaux utilisent des représentations abstraites pour faire des prédictions. On invente des abstractions comme les atomes, les cellules ou les sociétés, en éliminant les détails inutiles. Chaque niveau correspond à un champ de la science.
Il faut inventer une architecture permettant de construire ces abstractions. On entraîne un encodeur à produire cette représentation et un prédicteur à anticiper l'état suivant. Cette architecture s'appelle JEPA (Joint Embedding Predictive Architecture). C'est le futur de l'IA.
La prochaine révolution passera par les world models et les JEPA. Ces systèmes pourront planifier une séquence d'actions pour atteindre un objectif particulier, ce dont les LLM sont incapables. J'ai beaucoup d'espoir dans ces recherches.
Q&A : Apprentissage continu et Système 1 / Système 2
Si l'on suit l'analogie humaine, les modèles du monde changent et s'adaptent. Ne pensez-vous pas que l'entraînement devrait être continu pour mettre à jour les poids du modèle comme un humain ?
Absolument. L'apprentissage devrait être continu. En tant qu'humains, si notre prédiction est fausse, nous corrigeons notre modèle immédiatement. On ajuste constamment notre intuition. On devrait faire ça avec nos systèmes, ce n'est pas un problème conceptuel insurmontable.
Est-ce que vous pensez que l'IA pourra s'améliorer elle-même bientôt ?
Oui. Daniel Kahneman a proposé les concepts de Système 1 et Système 2. Le Système 1 est instinctif, sans réflexion. Le Système 2 nécessite d'utiliser notre modèle du monde pour planifier une séquence d'actions. On peut voir les LLM comme un Système 1 réactif. Les architectures JEPA sont plus proches du Système 2. En cherchant des solutions à des problèmes nouveaux, le système s'entraîne lui-même. À terme, les systèmes s'amélioreront en utilisant ces principes.
Q&A : Intelligence Artificielle Générale (AGI)
Pensez-vous que l'intelligence artificielle générale soit atteignable et si oui, est-ce souhaitable ?
Cela dépend de ce qu'on appelle AGI. L'intelligence humaine n'est pas générale, nous sommes très spécialisés. Un gadget peut nous battre aux échecs ou calculer une intégrale plus vite que nous. Nous ne sommes pas généraux avec un haut niveau d'efficacité partout.
Le nombre de fonctions booléennes possibles pour un million de bits est astronomique : 2 à la puissance 2 à la puissance 1 million. Notre cerveau, avec ses 10^14 synapses, n'est capable d'en réaliser qu'une fraction infinitésimale. Dire qu'on a l'intelligence générale est un contresens.
Dans un futur plus ou moins proche, nous aurons des machines plus intelligentes que les humains dans tous les domaines où nous excellons. Les optimistes disent 5 à 10 ans, d'autres 20 ans. Je pense qu'on aura des idées s'en rapprochant d'ici 3 à 5 ans avec les JEPA. Mais ces systèmes n'auront pas une intelligence 'générale' pour autant.
Q&A : Formation et carrière pour les ingénieurs
Comment les ingénieurs des Ponts peuvent-ils être pertinents dans l'IA ? Faut-il faire un doctorat ou être brillant en maths pour rester compétitif face à l'ENS ou l'X pour entrer chez Meta ?
Vous n'avez pas de complexe à avoir, j'ai fait l'ESIEE. Si vous voulez faire de la recherche, vous devez faire un doctorat. Aujourd'hui, pour avoir une carrière qui innove, la thèse est devenue indispensable et très valorisée en France, rejoignant le modèle américain ou allemand.
La technologie évolue vite, il faut donc apprendre à apprendre. Avoir des bases solides en maths et en physique est un avantage. Si vous avez le choix entre apprendre une technologie passagère ou la mécanique quantique, choisissez la mécanique quantique. Les méthodes de la physique statistique du XXe siècle sont utilisées partout en IA aujourd'hui.
Q&A : Climat, Énergie et Robustesse
Quel est le parallèle entre l'IA et la crise climatique ? Peut-elle aider à la résoudre malgré sa consommation énergétique ? Et que pensez-vous du concept de robustesse par rapport à la performance ?
La consommation des data centers est de l'ordre de 2 ou 3 % de l'énergie mondiale. Cela va croître, mais beaucoup d'entreprises investissent massivement dans le nucléaire bas carbone pour alimenter ces infrastructures. C'est peut-être le futur de l'énergie.
L'IA peut aider à découvrir des matériaux pour stocker l'énergie sous forme d'hydrogène. Le projet Open Catalyst de Meta utilise l'IA pour prédire les propriétés de nouveaux catalyseurs. C'est un domaine très prometteur pour les étudiants ici.
Et sur la robustesse versus la performance ?
Les réseaux de neurones sont robustes par construction. Si on enlève des paramètres, ils se dégradent progressivement. On ne profite pas encore pleinement de cette propriété car nous utilisons des ordinateurs classiques, mais ces systèmes sont fondamentalement résilients.
Q&A : Souveraineté européenne et Conclusion
Peut-être une dernière question.
Que pensez-vous de la dépendance de l'Europe vis-à-vis de la technologie américaine ? L'Europe a-t-elle une carte à jouer pour l'avenir ?
Les récents prix Nobel de chimie chez Google sont européens basés à Londres. Llama de Meta a été créé par une douzaine de personnes à Paris, presque tous Français. Deux d'entre eux ont cofondé Mistral. Nous avons les talents en Europe.
À Meta Paris, nous avons 140 personnes dont 40 doctorants. Il faut donner à ces talents les moyens de s'épanouir. L'accès au capital est plus difficile qu'aux États-Unis mais ça change. L'Europe a un rôle majeur à jouer dans la prochaine révolution de l'IA qui arrivera d'ici 3 à 5 ans.
Merci Yann. Je propose qu'on applaudisse.