Demis Hassabis, Ilya Sutskever, Yann LeCun

The Future of AGI: Scaling, Research, and World Models

7 janvier 2026

Artificial Intelligence
Illustration de Demis Hassabis, Ilya Sutskever, Yann LeCun

Mise à l'échelle et Innovation

Interviewer (Google DeepMind)

Ce qui est étrange, c'est que l'année dernière à la même époque, on parlait beaucoup du fait que la mise à l'échelle finirait par se heurter à un mur et que nous manquerions de données, et pourtant nous enregistrons maintenant. Gemini 3 vient de sortir et il est en tête sur toute une série de références différentes. Comment cela a-t-il été possible ? N'était-il pas censé y avoir un problème de plafonnement de la mise à l'échelle ?

Demis Hassabis

Beaucoup de gens le pensaient, d'autant plus que d'autres entreprises ont progressé plus lentement. Mais nous n'avons jamais vraiment vu de mur. Je dirais qu'il y a des rendements décroissants. Quand je dis cela, les gens pensent que c'est du tout ou rien ; c'est soit exponentiel, soit rien. En fait, il y a beaucoup d'espace entre ces deux régimes, et nous sommes entre les deux. Ce n'est pas comme si vous alliez doubler les performances sur tous les benchmarks à chaque nouvelle itération. C'était peut-être le cas au début, il y a trois ou quatre ans. Mais vous obtenez des améliorations significatives, comme nous l'avons vu avec Gemini 3, qui valent largement l'investissement. Nous n'avons constaté aucun ralentissement. Il y a des problèmes comme l'épuisement des données disponibles, mais il existe des moyens de contourner cela, comme les données synthétiques. Ces systèmes sont assez performants pour commencer à générer leurs propres données, en particulier dans des domaines comme le codage et les mathématiques où vous pouvez vérifier la réponse. Vous pourriez produire des données illimitées. Toutes ces choses sont des questions de recherche. Je pense que l'avantage que nous avons toujours eu est d'avoir toujours privilégié la recherche. Nous disposons du vivier de recherche le plus large et le plus profond. Si vous regardez les avancées de la dernière décennie, qu'il s'agisse des Transformers, d'AlphaGo ou d'AlphaZero, elles proviennent toutes de Google ou de DeepMind. Si de nouvelles innovations sont nécessaires, je parie sur nous pour les réaliser. J'aime quand le terrain devient plus difficile, car alors il ne faut pas seulement une ingénierie de classe mondiale, mais il faut allier cela à une recherche et une science de classe mondiale, ce qui est notre spécialité. De plus, nous bénéficions de l'avantage d'une infrastructure de classe mondiale avec nos TPU. Cette combinaison nous permet d'être à la frontière de l'innovation et de la mise à l'échelle. En fait, 50 % de nos efforts sont consacrés à la mise à l'échelle et 50 % à l'innovation. Il faudra les deux pour parvenir à l'AGI.

Hallucinations et Confiance des Modèles

Interviewer (Google DeepMind)

Une chose que nous voyons encore, même dans Gemini 3, qui est un modèle exceptionnel, c'est cette idée d'hallucinations. Une métrique indiquait qu'il peut encore donner une réponse alors qu'il devrait refuser. Pourriez-vous construire un système où Gemini donne un score de confiance de la même manière qu'AlphaFold ?

Demis Hassabis

Je le pense, et nous en avons besoin. C'est l'une des pièces manquantes. Nous nous en rapprochons. Plus les modèles s'améliorent, plus ils savent ce qu'ils savent. Je pense que l'on pourrait compter sur eux pour faire de l'introspection et réaliser par eux-mêmes qu'ils sont incertains d'une réponse. Nous devons trouver comment les entraîner à produire cela comme une réponse raisonnable. Nous nous améliorons, mais parfois ils s'obligent encore à répondre alors qu'ils ne devraient probablement pas, ce qui conduit à une hallucination. Beaucoup d'hallucinations sont de ce type actuellement. Il y a une pièce manquante à résoudre. Nous l'avons résolue avec AlphaFold, mais de manière beaucoup plus limitée.

Interviewer (Google DeepMind)

Parce que, vraisemblablement, en coulisses, il existe une sorte de mesure de probabilité de ce que pourrait être le prochain jeton.

Demis Hassabis

Oui, il y en a une pour le prochain jeton. Mais cela ne vous dit pas l'élément global : quel est votre degré de confiance par rapport à l'ensemble de ce fait ou de cette déclaration ? Je pense que nous devrons utiliser des étapes de réflexion et de planification pour passer en revue ce qui a été produit. Pour l'instant, les systèmes sont comme une personne qui vous dit la première chose qui lui vient à l'esprit. La plupart du temps, c'est acceptable, mais pour une chose difficile, vous voudriez faire une pause et revoir ce que vous étiez sur le point de dire. Ces modèles doivent mieux faire cela.

Mondes Simulés et Agents

Interviewer (Google DeepMind)

Je veux aussi vraiment vous parler des mondes simulés et du fait d'y placer des agents. Dites-moi pourquoi vous vous intéressez à la simulation. Que peut faire un modèle du monde qu'un modèle de langage ne peut pas faire ?

Demis Hassabis

Les modèles du monde et les simulations sont une passion de longue date pour moi. Les modèles de langage sont capables de comprendre beaucoup de choses sur le monde — plus que ce à quoi je m'attendais — car le langage contient plus de choses sur le monde que nous ne l'imaginions. Mais il reste encore beaucoup de dynamiques spatiales et de contexte physique qui sont difficiles à décrire avec des mots. Une grande partie de cela est liée à l'apprentissage par l'expérience en ligne. Il y a des choses que l'on ne peut pas décrire ; il faut les vivre. Les capteurs comme les angles des moteurs et l'odorat sont très difficiles à décrire par le langage. Si nous voulons que la robotique fonctionne ou un assistant universel qui vous aide dans votre vie quotidienne, vous allez avoir besoin de ce genre de compréhension du monde. Les modèles du monde comprennent les effets causaux de la mécanique — la physique intuitive, comment les choses bougent et se comportent. Nous en voyons beaucoup dans nos modèles vidéo. Une façon de tester cette compréhension est de générer des mondes réalistes. Si vous pouvez le générer, c'est que le système a encapsulé la mécanique du monde. Des modèles comme Genie et Veo sont des étapes importantes vers des modèles du monde généralisés. Espérons que nous pourrons appliquer cela à la robotique et aux assistants universels. L'une de mes activités préférées sera de le réappliquer aux simulations de jeux pour créer les jeux ultimes, ce qui a toujours été mon plan subconscient.

Interviewer (Google DeepMind)

Comment garantissez-vous que ces mondes sont réellement réalistes ? Comment vous assurez-vous de ne pas finir avec une physique qui semble plausible mais qui est en fait erronée ?

Demis Hassabis

C'est une excellente question. Les hallucinations peuvent être un problème, même si certaines sont bonnes si vous essayez de créer quelque chose de nouveau. Mais vous voulez que ce soit intentionnel. Lors de l'entraînement d'un agent, vous ne voulez pas d'une physique erronée. Nous créons un benchmark physique où nous utilisons des moteurs de jeu pour créer des scénarios simples, comme faire rouler des balles sur des pistes, pour voir si des modèles comme Veo ou Genie ont encapsulé les lois du mouvement avec précision. Pour l'instant, ce sont des approximations qui semblent réalistes mais ne sont pas assez précises pour la robotique. L'étape suivante consiste à réduire les hallucinations et à les rendre plus ancrées. Cela impliquera de générer des vidéos de vérité terrain de physique simple. Ce qui est étonnant, c'est la façon dont les modèles vidéo traitent les reflets et les liquides ; c'est incroyablement précis à l'œil nu. L'étape suivante consiste à aller au-delà de ce qu'un amateur humain peut percevoir et à résister à de véritables expériences de niveau physique.

La Route vers l'AGI et le "Coup 37"

Lex Fridman

Vous avez estimé que nous aurons l'AGI d'ici 2030. Comment saurons-nous concrètement que nous y sommes parvenus ? Quel pourrait être le « coup 37 » de l'AGI ?

Demis Hassabis

Mon estimation est une probabilité de 50 % d'ici 2030. Cela dépend en partie de la définition de l'AGI. La mienne place la barre haut : pouvons-nous égaler les fonctions cognitives du cerveau ? Pour savoir si nous avons une véritable AGI, nous devrions nous assurer qu'elle possède toutes ces capacités. Elle ne devrait pas être une intelligence irrégulière, performante dans certains domaines mais défaillante dans d'autres. On veut une cohérence globale. Nous avons également besoin de véritables capacités d'invention et de créativité. Pour tester cela, on pourrait utiliser un test de force brute sur des dizaines de milliers de tâches cognitives ou mettre le système à disposition des meilleurs experts mondiaux pendant un mois ou deux. S'ils ne trouvent pas de faille évidente, je pense qu'on peut être convaincu d'avoir un système totalement général.

Lex Fridman

Les humains sont incroyables pour considérer l'intelligence comme acquise une fois qu'elle s'améliore. Même les experts pourraient se concentrer rapidement sur des défauts mineurs. Même les humains ont des limites évidentes dans certains domaines. Je me demande s'il faudra un moment comme le « coup 37 », où au lieu d'une rafale de tâches, il y aurait un ou deux moments où on se dirait : « la vache, c'est spécial ».

Demis Hassabis

Je pense qu'il y a des moments phares comme le coup 37. L'un d'eux serait d'inventer une nouvelle conjecture ou hypothèse sur la physique, comme Einstein l'a fait. On pourrait même effectuer un test rétrospectif avec une limite de connaissances fixée à 1900 et voir s'il pourrait inventer la relativité. Un autre serait d'inventer un jeu aussi profond et beau que le Go. Un système capable de faire plusieurs de ces choses dans différents domaines serait pour moi le signe que nous avons atteint le niveau de l'AGI. Ensuite, on vérifierait la cohérence pour s'assurer qu'il n'y a pas de trous dans le système.

Lex Fridman

Une nouvelle conjecture ou une découverte scientifique serait une sensation géniale.

Demis Hassabis

Ce serait incroyable — pas seulement nous aider, mais inventer quelque chose de totalement nouveau.

Lex Fridman

Et vous seriez dans la pièce pour cela, deux ou trois mois avant de l'annoncer, en essayant juste de ne pas tweeter.

Demis Hassabis

Exactement. Nous le vérifierions avec des experts mondiaux et validerions son fonctionnement. Ce serait un moment extraordinaire.

Lex Fridman

Craignez-vous que nous, les humains, puissions passer à côté ?

Demis Hassabis

C'est peut-être compliqué, mais je ne pense pas que ce sera totalement mystérieux. Par exemple, si Garry Kasparov ou Magnus Carlsen font un coup brillant, je ne serais peut-être pas capable de l'inventer, mais ils pourraient expliquer pourquoi c'était logique. Être capable d'expliquer sa pensée simplement fait partie de l'intelligence. Je me demande s'il y a des coups de Magnus ou Garry que les experts rejettent d'abord comme de mauvais coups.

Demis Hassabis

Après coup, ils comprendront avec leur intuition pourquoi cela fonctionne. Empiriquement, les jeux sont un test scientifique : gagnez-vous ou non ? Cela vous dit que la stratégie était bonne, et ensuite vous pouvez l'analyser. C'est peut-être pour cela que mon cerveau fonctionne ainsi ; je fais cela depuis l'âge de quatre ans.

Apprentissage Humain vs Apprentissage Machine

Ilya Sutskever

J'ai une analogie humaine. Supposons que vous ayez deux étudiants en programmation compétitive. L'un pratique 10 000 heures, résout tous les problèmes et mémorise chaque technique. L'étudiant numéro deux ne pratique que 100 heures et réussit aussi très bien. Selon vous, lequel réussira le mieux sa carrière plus tard ?

Dwarkesh Patel

Le second.

Ilya Sutskever

Exactement. Les modèles ressemblent beaucoup plus au premier étudiant. Nous récupérons tous les problèmes possibles et utilisons l'augmentation de données pour les entraîner. Vous obtenez alors ce super programmeur compétitif qui a tous les algorithmes à portée de main. Il est intuitif qu'avec ce niveau de préparation, cela ne se généraliserait pas nécessairement à d'autres choses.

Dwarkesh Patel

Quelle est l'analogie pour ce que fait le deuxième étudiant avant de faire les 100 heures de réglage fin ?

Ilya Sutskever

Je pense qu'ils ont le facteur « X ». Quand j'étais étudiant de premier cycle, je me souviens d'un étudiant comme ça, donc je sais que ça existe.

Dwarkesh Patel

Il est intéressant de le distinguer du pré-entraînement. Une façon de comprendre le pré-entraînement est de dire que c'est comme obtenir 10 000 heures de pratique gratuitement parce que c'est déjà dans la distribution. Mais peut-être suggérez-vous qu'il n'y a pas tant de généralisation dans le pré-entraînement, juste une énorme quantité de données. Ce n'est pas nécessairement une meilleure généralisation que le RL.

Ilya Sutskever

La force principale du pré-entraînement est qu'il y en a énormément et qu'il n'y a pas besoin de réfléchir longuement aux données à intégrer. Ce sont des données naturelles qui incluent les pensées des gens. Le pré-entraînement tente de capturer cela en utilisant d'énormes quantités de données. Il est très difficile de raisonner à ce sujet car il est complexe de comprendre la manière dont le modèle s'appuie sur les données. Je ne pense pas qu'il existe d'analogue humain au pré-entraînement.

L'Ère de la Recherche et la Nouvelle Recette

Dwarkesh Patel

Les gens parlent de la mise à l'échelle des données, des paramètres et du calcul. Existe-t-il une façon plus générale de penser à la mise à l'échelle ? Quels sont les autres axes de mise à l'échelle ?

Ilya Sutskever

Dans le passé, le ML fonctionnait simplement en augmentant les ressources. Puis l'idée de la mise à l'échelle est arrivée avec GPT-3, et tout le monde a réalisé qu'il fallait passer à l'échelle. « Mise à l'échelle » est un mot puissant car il indique aux gens quoi faire. Le pré-entraînement était une recette de mise à l'échelle particulière. Les entreprises adorent cela car c'est un moyen peu risqué d'investir des ressources. Il est beaucoup plus difficile d'investir dans la recherche où il faut inventer quelque chose de nouveau. Gemini semble avoir trouvé un moyen de tirer davantage parti du pré-entraînement. À un moment donné, cependant, le pré-entraînement épuisera les données finies. Et après ? Soit on fait du pré-entraînement amélioré, soit du RL. Mais maintenant que la puissance de calcul est si grande, nous sommes de retour à l'ère de la recherche. De 2020 à 2025, c'était l'ère de la mise à l'échelle. Mais maintenant que l'échelle est si grande, croit-on que 100 fois plus transformerait tout ? Je ne pense pas que ce soit vrai. C'est le retour à l'ère de la recherche, mais avec de gros ordinateurs.

Dwarkesh Patel

C'est une façon intéressante de le dire. Que mettons-nous à l'échelle et à quoi ressemblerait une nouvelle recette ? Je n'ai pas connaissance d'une relation claire pour la nouvelle ère comme la loi de puissance dans le pré-entraînement. Comment devrions-nous envisager cette nouvelle recette ?

Ilya Sutskever

Nous avons assisté à une transition de la mise à l'échelle du pré-entraînement vers celle du RL. On consacre désormais plus de calcul au RL qu'au pré-entraînement car les déploiements de RL peuvent consommer pas mal de ressources. Je n'appellerais même pas cela de la mise à l'échelle ; je demanderais si ce que vous faites est l'utilisation la plus productive de votre calcul. Une fois que les gens maîtriseront les fonctions de valeur, ils utiliseront les ressources de manière plus productive. Si vous trouvez une tout autre façon d'entraîner des modèles, il devient ambigu de savoir s'il s'agit de mise à l'échelle ou simplement de recherche. Je pense qu'il y aura un retour à des essais divers pour voir ce qui fonctionne.

Dwarkesh Patel

Si nous sommes dans l'ère de la recherche, à quelle partie de la recette devons-nous réfléchir le plus ? Quand vous parlez de fonctions de valeur, on dirait que vous avez en tête quelque chose de plus fondamental que d'utiliser simplement un LLM comme juge. Devons-nous repenser entièrement le pré-entraînement ?

Ilya Sutskever

Les fonctions de valeur rendront le RL plus efficace, ce qui fait une différence. Mais je pense que le point le plus fondamental est que ces modèles généralisent bien moins bien que les humains. C'est super évident et très fondamental.

Généralisation et Efficacité de l'Échantillonnage

Dwarkesh Patel

La généralisation est le point crucial. Pourquoi faut-il tellement plus de données aux modèles pour apprendre qu'aux humains ? Et pourquoi est-il si difficile d'enseigner à un modèle par rapport à un humain ? Vous guidez des chercheurs en leur montrant votre code et votre réflexion ; ils l'assimilent sans récompense vérifiable ni programme sur mesure. Ces problèmes pourraient être liés à l'apprentissage continu et à l'efficacité de l'échantillonnage.

Ilya Sutskever

Une explication possible de l'efficacité de l'échantillonnage humain est l'évolution. L'évolution nous a donné des informations utiles pour la vision, l'audition et la locomotion. Les robots peuvent devenir adroits avec d'énormes quantités d'entraînement, mais entraîner un robot dans le monde réel pour qu'il acquière rapidement une compétence comme une personne semble hors de portée. La locomotion et la vision bénéficient probablement d'un a priori incroyable de nos ancêtres. Les enfants apprennent à conduire après très peu d'heures de pratique, mais notre vision est déjà excellente à ce moment-là. À cinq ans, ma reconnaissance des voitures était déjà adéquate pour l'autoconduite malgré une faible diversité de données. On pourrait dire que c'est l'évolution, mais pour le langage, les mathématiques et le codage, probablement pas.

Dwarkesh Patel

Cela semble tout de même meilleur que les modèles. Les modèles sont meilleurs que l'humain moyen pour les tâches elles-mêmes, mais sont-ils meilleurs que l'humain moyen pour apprendre ?

Ilya Sutskever

Le langage, les mathématiques et le codage suggèrent que ce qui rend les humains bons pour apprendre n'est pas seulement un a priori complexe, mais quelque chose de fondamental.

Dwarkesh Patel

Pourquoi serait-ce le cas ?

Ilya Sutskever

Si une compétence a été utile pendant des millions d'années, on peut soutenir que les humains y sont bons grâce à un a priori évolutif. Mais si les gens font preuve d'une capacité d'apprentissage dans un domaine qui n'existait pas jusqu'à récemment, cela indique que les gens ont peut-être simplement un meilleur apprentissage automatique, tout court.

Dwarkesh Patel

Quelle est l'analogie ML pour expliquer pourquoi cela nécessite moins d'échantillons et est plus non supervisé ? Un adolescent qui apprend à conduire n'a pas de récompense intégrée ; cela vient de l'interaction. C'est plus robuste.

Ilya Sutskever

La robustesse des gens est vraiment stupéfiante.

Dwarkesh Patel

Avez-vous une façon unifiée de penser à la raison pour laquelle toutes ces choses se produisent en même temps ? Quelle analogie ML pourrait réaliser cela ?

Ilya Sutskever

Un adolescent peut s'autocorriger car il possède sa propre fonction de valeur, qui est extrêmement robuste chez l'humain. Un adolescent qui apprend à conduire a déjà immédiatement le sens de la manière dont il se débrouille. Sa vitesse d'apprentissage est si rapide qu'après 10 heures, il est prêt.

Dwarkesh Patel

Comment devons-nous reconceptualiser la façon dont nous entraînons les modèles pour rendre cela possible ?

Ilya Sutskever

J'ai beaucoup d'opinions à ce sujet, mais nous vivons dans un monde où toutes les idées de ML ne sont pas discutées librement. Je pense que c'est faisable, et l'existence humaine en est la preuve. Il y a peut-être un blocage si les neurones humains effectuent plus de calculs que nous ne le pensons, mais je crois qu'il existe un principe d'apprentissage automatique qui rend cela possible, bien que je ne puisse pas en discuter en détail.

Dwarkesh Patel

Personne n'écoute ce podcast, Ilya.

Limites des LLM et Infrastructure

Yann LeCun

Nous n'allons pas parvenir à une IA de niveau humain simplement en mettant à l'échelle les LLM. Cela n'arrivera pas au cours des deux prochaines années. L'idée que nous allons avoir un pays de génies dans le centre de données est une absurdité totale. Nous aurons des systèmes entraînés sur suffisamment de données pour pouvoir répondre à n'importe quelle question, donnant l'impression d'un doctorant assis à côté de vous, mais c'est un système doté d'une mémoire et d'une recherche gigantesques, pas un système capable d'inventer des solutions à de nouveaux problèmes.

Alex Kantrowitz

Ceci est en fait lié à...

Yann LeCun

C'est lié à un message de Thomas Wolf disant qu'inventer de nouvelles choses nécessite des compétences que l'on n'obtiendra pas des LLM. L'investissement actuel concerne les prochaines années, principalement dans l'infrastructure pour l'inférence. Meta prévoit d'avoir 1 milliard d'utilisateurs de Meta IA via des lunettes et des applications. Les servir nécessite beaucoup de calcul et d'infrastructure. Existe-t-il un marché pour 1 milliard de personnes utilisant ces choses régulièrement même sans changement de paradigme ? Probablement oui. Même si le nouveau paradigme n'arrive pas bientôt, cette infrastructure sera utilisée. Vous ne pouvez pas vous permettre de ne pas le faire car le risque serait trop élevé si vous avez les fonds.

Données Vidéo et Apprentissage Auto-supervisé

Interviewer (The Information Bottleneck)

Quelles sont les pièces manquantes ? Avons-nous besoin de plus de calcul ou de meilleurs algorithmes ? Croyez-vous aux leçons amères ? De plus, que pensez-vous des problèmes de qualité des données sur Internet après 2022 ? Les gens appellent les données pré-LLM « jetons à faible bruit de fond ».

Yann LeCun

Je pense que j'échappe totalement à ce problème. L'entraînement d'un LLM avec des performances décentes nécessite pratiquement tout le texte disponible sur Internet. Llama 3 a été entraîné sur 15 billions de jetons. Un jeton fait généralement 3 octets, soit 10^14 octets pour le pré-entraînement. Les LLM ont besoin de beaucoup de mémoire car ils stockent des faits isolés avec peu de redondance. Maintenant, comparez cela avec la vidéo. 10^14 octets représentent 15 000 heures de vidéo. Ce n'est rien ; c'est 30 minutes de téléchargements sur YouTube ou l'information visuelle qu'un enfant de 4 ans a vue dans sa vie. Nous avons des modèles vidéo comme V-JEPA 2 qui ont été entraînés sur un siècle de données vidéo. C'est plus d'octets mais plus redondant. Dans l'apprentissage auto-supervisé, on a besoin de redondance pour apprendre. Il y a une structure beaucoup plus riche dans les données du monde réel comme la vidéo que dans le texte. Nous ne parviendrons jamais à une IA de niveau humain en nous entraînant uniquement sur du texte.

Modèles du Monde et Abstraction

Yann LeCun

C'est donc un grand débat en philosophie de savoir si l'IA doit être ancrée dans la réalité ou se contenter d'une manipulation symbolique.

Interviewer (Inconnu)

Concernant les modèles du monde et l'ancrage, je pense que beaucoup de gens ne comprennent pas ce qu'est le modèle du monde idéalisé. Je suis influencé par les holodecks de Star Trek comme un modèle du monde idéalisé qui simule l'odorat et le toucher. Pensez-vous que ce soit le modèle du monde idéalisé ?

Demis Hassabis

Cette question va au cœur de ce que je pense que nous devrions faire et à quel point je pense que tous les autres se trompent. Les gens pensent qu'un modèle du monde est un simulateur qui reproduit tous les détails. Beaucoup se concentrent sur la génération de vidéos, mais rien ne garantit qu'un système de génération de vidéos possède un modèle précis de la dynamique sous-jacente ou des connaissances abstraites. L'idée qu'un modèle doive reproduire chaque détail est erronée et nuisible. Un bon exemple est la dynamique des fluides numérique utilisée pour simuler l'air autour d'un avion. Vous découpez l'espace en cubes et résolvez des équations, mais vous ne simulez pas chaque molécule d'air ; ce serait insensé. Nous inventons des abstractions comme les particules, les atomes, les cellules et les organismes. Chaque niveau de cette hiérarchie ignore les détails du niveau inférieur, ce qui permet des prédictions à plus long terme. La science se définit par le niveau d'abstraction utilisé pour faire des prédictions. Dans une boîte de gaz, on utilise PV = nRT plutôt que de simuler les molécules. Nous construisons des modèles phénoménologiques en ignorant les détails appelés entropie. Les modèles du monde n'ont pas besoin d'être des simulateurs de chaque détail.

Interviewer (Inconnu)

Donc les modèles du monde n'ont pas besoin d'être des simulateurs du tout.

Yann LeCun

Ce sont des simulateurs, mais dans un espace de représentation abstrait qui ne simule que les parties pertinentes. Pour prédire où sera Jupiter dans 100 ans, vous avez besoin de six nombres, pas de chaque détail. Le reste n'a pas d'importance.

Interviewer (Inconnu)

Donc vous ne croyez pas aux ensembles de données synthétiques ?

Yann LeCun

Si, ils sont utiles. Les enfants apprennent en jouant, ce qui constitue des simulations où ils ne peuvent pas se tuer.

Interviewer (Inconnu)

Je crains pour les jeux vidéo que les animations soient conçues pour être esthétiques plutôt que pour correspondre à la réalité. Je crains qu'un système physique entraîné avec ces modèles n'acquière des particularités similaires. Est-ce que cela vous inquiète ?

Yann LeCun

No, cela dépend du niveau auquel vous les entraînez. Un simulateur robotique simulera avec précision la dynamique d'un bras. Simuler la friction est difficile et les simulateurs ne sont pas parfaitement précis pour la manipulation, mais ils sont assez bons pour entraîner un système puis utiliser l'adaptation Sim-to-Real. Le point important est qu'il y a des choses fondamentales sur le monde que nous tenons pour acquises et qui ne sont pas liées au langage. Nous apprenons que lorsqu'on pousse une table, l'objet qui se trouve dessus bouge avec elle. Nous apprenons que les objets tombent à cause de la gravité vers l'âge de neuf mois. Les LLM ne comprennent pas cela, bien qu'on puisse les entraîner à donner la bonne réponse via le réglage fin. C'est de la régurgitation plutôt que de la compréhension des dynamiques.

Interviewer (Inconnu)

Sora possède une certaine physique du monde. Pensez-vous que nous puissions pousser cela plus loin, ou est-ce une voie à sens unique pour apprendre la physique ?

Yann LeCun

Ces modèles font des prédictions dans l'espace de représentation en utilisant des transformeurs de diffusion. Un second modèle de diffusion transforme ces représentations en une jolie vidéo, mais nous ne connaissons pas la correspondance avec la réalité. Un autre concept évident que nous apprenons est la permanence de l'objet — qu'une personne ne peut pas être à deux endroits à la fois. Nous apprenons cela en regardant des objets passer derrière des écrans. Lorsque des bébés de quatre mois voient des scénarios où cela n'est pas respecté, ils sont surpris. Les bébés de six mois ne prêtent pas attention aux voitures flottantes car ils n'ont pas encore appris la gravité. Ce genre d'apprentissage est important. On peut apprendre à partir de simulations abstraites, comme un jeu d'aventure en vue de dessus. Lorsque vous ramassez une clé, vous la possédez et pouvez l'utiliser pour ouvrir une porte. On apprend beaucoup de choses fondamentales dans des environnements abstraits.