L'IA : Réseaux de Neurones, Modèles de Langage et Conscience
12 décembre 2025
Intelligence Artificielle & Science
Introduction et Rumeurs
C'est un plaisir d'accueillir Adam, mon collègue et ami, et Yann, qui a déjà été parmi nous. Yann, tu es vraiment partout dans l'actualité en ce moment.
J'ai reçu tellement de gens qui m'ont envoyé des articles sur toi cette semaine. Tout a commencé mercredi. Veux-tu discuter du titre ? Le titre était l'équivalent de : Yann LeCun, scientifique en chef, quitte Meta. Souhaites-tu commenter ?
Je ne peux ni confirmer ni démentir.
D'accord. Tout le corps de presse ici présent pour obtenir le scoop ne pourra pas l'avoir ce soir. Très bien, alors vous pourrez venir après, offrir un verre à Yann et voir jusqu'où cela vous mène.
J'en ai déjà pris un, mais c'était un...
Implications Sociétales et Ancrage Technique
Le Français a bu du vin à l'étage. Nous vivons une époque où chaque fois que nous allumons les infos, regardons l'ordinateur ou lisons le journal, nous sommes confrontés à des débats sur les implications sociétales de l'IA. Qu'il s'agisse de bouleversements économiques, du potentiel de manipulation politique ou de psychose liée à l'IA, de nombreux experts en discutent.
Et c'est une question très importante. Je veux plutôt aborder cela vers la fin de notre conversation car beaucoup de gens qui en discutent n'ont pas l'expertise technique présente sur cette scène. Je veux donc commencer par ancrer cela dans cette discussion technique et scientifique.
Réseaux de Neurones et Biomimétisme
Je veux donc commencer avec toi, Yann, sur les réseaux de neurones. Voici un cas de biomimétisme où vous avez ces réseaux de neurones informatiques qui émulent les réseaux humains. Peux-tu nous décrire ce que cela signifie, qu'une machine émule des réseaux de neurones humains ?
Eh bien, ce n'est pas vraiment du mimétisme, c'est plutôt de l'inspiration, tout comme les avions sont inspirés par les oiseaux. Le fondement...
Mais je pensais que ça ne marchait pas, copier les oiseaux avec des avions.
Eh bien, dans le sens où les avions ont des ailes comme les oiseaux et génèrent de la portance en se propulsant dans l'air. Mais l'analogie s'arrête là. L'aile d'un avion est bien plus simple que celle d'un oiseau, mais le principe sous-jacent est le même.
Ainsi, les réseaux de neurones sont aux vrais cerveaux ce que les avions sont aux oiseaux. Ils sont simplifiés à bien des égards, mais certains principes sous-jacents sont peut-être les mêmes. Nous ne le savons pas vraiment car nous ne connaissons pas l'algorithme sous-jacent du cortex ni la méthode par laquelle le cerveau s'organise et apprend.
Nous avons donc inventé des substituts ; les oiseaux battent des ailes, pas les avions. Ils ont des hélices ou des turboréacteurs. Dans les réseaux de neurones, nous avons des algorithmes d'apprentissage qui permettent aux réseaux de neurones artificiels d'apprendre d'une manière que nous pensons similaire à celle du cerveau.
Le cerveau est un réseau de neurones interconnectés, et il apprend en modifiant l'efficacité des connexions entre eux. Un réseau de neurones est entraîné en modifiant l'efficacité des connexions entre ces neurones simulés.
Chacun d'eux est comme un paramètre. On voit cela dans la presse, le nombre de paramètres d'un réseau de neurones. Les plus grands réseaux actuels ont des centaines de milliards de paramètres, voire plus. Ce sont les coefficients individuels modifiés par l'entraînement.
L'Émergence de l'Apprentissage Profond
Et comment l'apprentissage profond a-t-il émergé dans cette discussion ? Car l'apprentissage profond est apparu après la réflexion sur les réseaux de neurones. Et cela remonte aux années 80, ou même avant.
Environ les années 80. Les premiers réseaux de neurones capables d'apprendre quelque chose d'utile, au moins dans les années 50, étaient peu profonds. On pouvait entraîner une seule couche de neurones. On fournissait l'entrée et on entraînait le système à produire une sortie particulière pour reconnaître des motifs simples, mais pas des choses complexes.
Et les gens de l'époque, même dans les années 60, ont réalisé que pour progresser, il fallait entraîner des réseaux à plusieurs couches. Ils en ont construit, mais ne pouvaient pas entraîner toutes les couches ; ils n'entraînaient que la dernière, par exemple.
Et ils n'ont pas trouvé de bonne méthode pour entraîner ces systèmes multicouches avant les années 1980, principalement parce que les neurones de l'époque n'étaient pas du bon type. Ils avaient des neurones binaires. Les neurones du cerveau sont binaires — ils s'activent ou non — et on voulait reproduire cela.
Ils ont donc construit des neurones simulés actifs ou inactifs. Il s'avère que pour que les algorithmes d'apprentissage modernes fonctionnent — ce qu'on appelle la rétropropagation — il faut des neurones avec des réponses graduées. Cela n'est devenu pratique ou possible qu'à partir des années 1980.
L'idée existait avant, mais personne n'avait réussi à la faire fonctionner. Cela a provoqué un regain d'intérêt pour les réseaux de neurones dans les années 1980. Ils avaient été largement abandonnés à la fin des années 60, puis sont revenus sur le devant de la scène au milieu des années 80. C'est à ce moment-là que j'ai commencé mon doctorat, en 1983.
Il y a eu une vague d'intérêt pendant environ 10 ans, puis elle a faibli à nouveau du milieu des années 90 jusqu'à la fin des années 2000, quand nous l'avons rebaptisée 'apprentissage profond'. Les réseaux de neurones avaient mauvaise réputation en informatique et en ingénierie.
Nous les avons donc renommés apprentissage profond pour les remettre en avant. Les résultats ont suivi en vision par ordinateur, en compréhension du langage naturel et en reconnaissance vocale pour convaincre les gens que c'était une bonne chose.
Physique Théorique et Comportement Émergent
Adam, à un très jeune âge, tu t'intéressais à la physique théorique, pas spécifiquement à l'informatique, et tu observais cela de loin. Quel est le catalyseur qui a emporté tant de gens des décennies plus tard ?
Il y a cette période de grand intérêt, avec des succès dans la reconnaissance de l'écriture ou visuelle, mais cela ne conquiert pas le monde. Que se passe-t-il pour nous amener à ce point où nous parlons tous de modèles de langage ?
Tant de physiciens ont pivoté de la physique vers l'IA ces dernières années. Et cela remonte réellement à certains des travaux que Yann et d'autres ont réalisés pour prouver que cela fonctionne.
Quand ça ne marchait pas, c'était juste un truc en informatique ; parmi tant de choses peut-être intéressantes, mais peu de physiciens y prêtaient attention.
Mais après que Yann et d'autres pionniers ont prouvé que cela fonctionnait, c'est devenu un sujet fascinant pour la physique. Vous reliez ces neurones et soudain surgit un comportement émergent qui n'existait pas au niveau individuel.
C'est un sujet qui a immédiatement attiré les physiciens, qui passent leur vie à imaginer comment la richesse du monde émerge de lois simples. Aujourd'hui, il est courant de faire un doctorat en physique puis de l'appliquer à un système émergent, un réseau de neurones donnant collectivement naissance à l'intelligence.
Intelligence et Conscience : Le Test Binaire
Faisons un tour rapide car vous avez prononcé le mot redouté : intelligence. Tout le monde ici a probablement interagi avec ce qu'on appelle une IA. Ce sont des modèles de langage. Avant de vous demander de les définir, je veux vos réponses par oui ou non.
Alors Adam, oui ou non : ces IA, ces modèles de langage, comprennent-ils le sens des conversations qu'ils ont avec nous ? Oui ou non ?
Oui.
Yann ?
En quelque sorte.
Parfait. Les neurones de Yann ne sont pas bloqués sur des valeurs binaires.
Exactement. C'était ma faute de vous donner un choix binaire. D'accord, question suivante, car ce n'est pas une conclusion évidente. Si vous ne dites pas oui à cela, votre réponse à ceci sera intéressante. Ces IA sont-elles conscientes ?
Absolument pas.
Adam ?
Probablement pas.
Le seront-elles bientôt ?
Je pense qu'elles seront un jour conscientes si les progrès se poursuivent ainsi. Quand ? C'est difficile à dire, mais un jour.
Oui, selon les définitions appropriées de la conscience.
D'accord. Nous avons des philosophes parmi nous et nous n'allons pas nous perdre dans des définitions philosophes, sinon l'heure y passerait. Oh, je crois avoir entendu un gémissement de nos amis au balcon.
J'ai encore deux questions rapides. Sommes-nous au bord de l'apocalypse ou d'une renaissance de la créativité humaine ? Yann ?
Renaissance.
Adam ?
Très probablement une renaissance.
Je pose la même question au public, de façon plus colorée. Les seigneurs robots se soulèveront-ils contre l'humanité ? Levez la main pour oui.
Oh, intéressant. Levez la main pour non. D'accord, combien de robots dans la salle ? Levez la main. C'est intéressant. Un peu plus de non, peut-être, bien que la lumière m'éblouisse.
Fonctionnement des Grands Modèles de Langage (LLM)
Très bien, nous y reviendrons à la fin. Nous y voilà, ces réseaux de neurones ont appris à exécuter l'apprentissage profond. Que sont spécifiquement les modèles de langage, qui font tant l'actualité ?
Nous parlons surtout des grands modèles de langage. Adam, que sont-ils ? Peux-tu répondre ?
Un grand modèle de langage est — vous avez probablement joué avec certains d'entre eux : ChatGPT, Gemini, etc. C'est un type spécial de réseau de neurones entraîné sur des entrées et sorties particulières.
C'est donc au fond le type de réseau de neurones profond lancé par Yann et d'autres, mais avec une architecture conçue pour cette tâche : il reçoit du texte — les premiers mots d'une phrase — et tente de prédire le mot suivant.
On prend donc un réseau profond avec une architecture spécifique et on lui fait lire, en gros, tout Internet. Et pour chaque mot, on lui demande : quel sera le mot suivant selon toi ?
Quel sera le mot suivant ? S'il réussit, on lui donne une petite récompense pour renforcer ces voies neuronales. S'il se trompe, on les diminue.
Au début, il prédira des mots totalement aléatoires. Après un million de mots, ce sera toujours aléatoire. Après un milliard, il commencera peut-être à apprendre la structure des phrases.
Et si on l'entraîne, comme aujourd'hui, sur des dizaines de billions de mots, il devient le partenaire de conversation avec lequel vous avez probablement discuté aujourd'hui.
Sens Superficiel vs Réalité Sous-jacente
Je trouve intriguant — cela m'amuse parfois — que des gens s'indignent quand leur chatbot les trompe ou ment. J'ai parfois dit que ce pourrait être des couleurs ou des symboles plutôt que des mots ; c'est juste un jeu mathématique sans sens réel.
Je sais qu'Adam n'était pas d'accord avec mon résumé. Pensez-vous qu'ils extraient du sens comme nous le faisons en composant des phrases ?
Ils extraient certainement un certain sens, mais c'est bien plus superficiel que ce qu'un humain extrairait d'un texte. Pour l'humain, l'intelligence est liée à une réalité sous-jacente, et le langage exprime des concepts ancrés dans cette réalité.
Les modèles de langage n'ont aucune notion de la réalité sous-jacente, leur compréhension est donc superficielle. Ils n'ont pas de bon sens au sens habituel. Mais si on les entraîne assez longtemps, ils répondront correctement à la plupart des questions.
C'est ainsi qu'ils sont entraînés. On collecte toutes les questions posées et on les entraîne à produire la bonne réponse. Il y aura toujours de nouvelles questions pour lesquelles le système n'est pas entraîné et où il pourrait produire n'importe quoi.
En ce sens, ils n'ont pas une réelle compréhension de la réalité, ou alors elle est superficielle. La question suivante est : comment corriger cela ?
Efficacité de l'Apprentissage : Humain vs Machine
Je pourrais me faire l'avocat du diable : comment savoir si l'humain fait différemment ? Nous apprenons le langage, recevons de la dopamine quand nous disons le bon mot avec la bonne grammaire.
Et nous rétropropageons ; nous essayons de faire mieux la fois suivante. En quoi est-ce différent de ce qu'un humain fait ? Tu dis que c'est peut-être l'expérience sensorielle du monde.
Un modèle de langage typique est entraîné sur des dizaines de billions de mots.
Pourtant, ce n'est que quelques centaines de milliers de mots uniques. Tu parles de combinaisons de phrases.
Trente billions de mots est une taille typique pour l'entraînement d'un modèle. Un mot est représenté par des jetons, et un jeton fait environ trois octets. Le total est d'environ 10 puissance 14 octets de données.
Cela correspond à pratiquement tout le texte public sur Internet. Il faudrait à un humain environ un demi-million d'années pour tout lire. C'est une quantité énorme de données textuelles.
Comparez cela avec ce qu'un enfant perçoit les premières années. Les psychologues disent qu'un enfant de quatre ans a été éveillé 16 000 heures. Il y a environ un octet par seconde via le nerf optique, et nous en avons deux millions.
C'est environ deux mégaoctets par seconde vers le cortex visuel. En 16 000 heures, cela fait environ 10 puissance 14 octets. Un enfant de quatre ans a vu autant de données visuelles que le plus grand modèle de langage entraîné sur tout le texte produit.
Cela montre qu'il y a bien plus d'informations dans le monde réel, mais c'est aussi plus complexe, bruyant et continu. Les méthodes d'entraînement des modèles de langage ne fonctionnent pas dans le monde réel.
Cela explique pourquoi des modèles de langage réussissent l'examen du barreau ou résolvent des équations, mais que nous n'avons pas de robot domestique pour les corvées. Nous n'avons même pas de voitures autonomes de niveau 5. On en a, mais on triche.
Nous n'avons certainement pas de voitures autonomes capables d'apprendre en 20 heures comme un adolescent. Il nous manque quelque chose de majeur pour atteindre l'intelligence humaine ou animale. Un chat est intelligent ; nous n'en sommes même pas à ce niveau.
Capacités Surhumaines et Intelligence Féline
Adam, tu sembles accorder plus de compréhension aux modèles de langage dès maintenant.
Yann a raison sur le fait que les modèles de langage sont bien moins efficaces en termes d'échantillonnage que les humains. Un humain — ou même un chat — apprend avec bien moins d'exemples.
Il faut bien plus de données pour atteindre le même niveau de compétence. C'est un avantage de l'architecture des esprits animaux sur les esprits artificiels que nous construisons. D'un autre côté, l'efficacité n'est pas tout.
On le voit souvent avant les modèles de langage, lors de tâches spécifiques. Même les célèbres robots d'échecs comme AlphaZero jouaient un nombre immense de parties contre eux-mêmes.
Au début, ils faisaient des coups au hasard, puis chaque victoire ou défaite renforçait ou punissait la voie neuronale. Ils jouaient sans cesse, et après autant de parties qu'un grand maître humain, ils jouaient encore au hasard.
Mais ils n'étaient pas limités par le nombre de parties qu'un humain peut jouer. Grâce à la vitesse des puces et au traitement parallèle, ils ont pu jouer bien plus de parties qu'un humain en une vie.
Nous avons constaté qu'en faisant cela, ils ont atteint puis largement dépassé le niveau des joueurs d'échecs humains. Ils sont moins efficaces par échantillon, mais ne sont pas moins bons aux échecs. Ils sont bien meilleurs. Il en va de même pour la compréhension.
Il est vrai qu'il est plus difficile d'amener ces systèmes au même niveau de compétence ; il faut plus d'échantillons. Mais une fois ce niveau atteint, peut-on utiliser leur rapidité et leur généralité pour aller au-delà ?
Un autre exemple avec le chat : il est encore plus efficace qu'un humain. Un humain met un an à apprendre à marcher, un chat une semaine. Cela ne signifie pas qu'un chat est plus intelligent qu'un humain ou qu'un modèle de langage.
La question finale est : quelles sont les capacités de ces outils ? Jusqu'où peut-on les pousser ? Sur presque tous les critères importants, sauf l'efficacité d'échantillonnage, nous avons poussé ces modèles de langage bien au-delà de l'intelligence féline.
Oui. Je ne comprends pas pourquoi nous ne fabriquons pas de chats, mais désolée, qu'est-ce que tu disais Yann ?
Certes, les modèles de langage ont bien plus de connaissances accumulées que les chats ou les humains. Nous avons de nombreux exemples d'ordinateurs supérieurs aux humains dans diverses tâches, comme les échecs. C'est humiliant.
Cela signifie juste que les humains sont nuls aux échecs, et au Go d'ailleurs, encore plus. Et dans bien d'autres tâches. Les modèles peuvent accumuler une quantité immense de connaissances.
Certains peuvent être entraînés à traduire et comprendre mille langues vers mille autres dans n'importe quelle direction. Aucun humain ne peut le faire. Ils ont donc des capacités surhumaines.
Mais la capacité d'apprendre vite et efficacement, d'appréhender un nouveau problème et de comprendre comment le monde se comporte, reste hors de portée des systèmes d'IA actuels.
Nous avons eu des succès récents montrant qu'ils ne font pas que reprendre des problèmes déjà vus mot pour mot. Ils font de la reconnaissance de formes à un niveau d'abstraction suffisant pour réussir des choses jamais vues.
Il y a chaque année les Olympiades internationales de mathématiques. Ce sont les lycéens les plus brillants au monde. Six problèmes leur sont posés, le summum de l'intelligence humaine. Je regarde ces problèmes et je ne sais même pas par où commencer.
Cette année, nous les avons soumis à notre machine. Elle a pris ces problèmes inédits, a combiné diverses idées et a obtenu un score supérieur à tous les humains, sauf une douzaine sur la planète.
Je pense que c'est une intelligence assez impressionnante.
La Boîte Noire et l'Interprétabilité
La question revient à cette idée : comprennent-ils ? C'est une boîte noire fascinante — c'est si complexe qu'on ne peut pas non plus le faire avec l'esprit humain.
On ne peut pas regarder le fonctionnement interne et voir exactement ce qu'ils font. C'est une boîte noire dans une certaine mesure, mais on présume qu'ils font des calculs, déplacent des matrices dans un espace vectoriel. J'ai l'expérience de la compréhension.
Les gens essaient encore de saisir cela. Ont-ils une expérience de la compréhension ? Est-ce important qu'ils l'éprouvent ou non ? Est-ce suffisant pour parler de compréhension du sens ?
Décris-tu la compréhension comme un trait comportemental ici, où le système donne les bonnes réponses, ou comme une compréhension profonde au niveau neuronal ?
Oui, je m'en remets totalement aux philosophes. Je ne sais pas si je comprends cela au niveau humain. Je ne peux pas vous dire quel processus j'exécute en ce moment non plus, mais j'ai une expérience subjective intuitive de comprendre la conversation.
Quand je vous parle, je sens que vous comprenez, mais pas quand je parle à ChatGPT. Et vous me dites que je me trompe, qu'il comprend aussi bien que moi, ou que vous.
À mon avis, c'est de la compréhension, oui. Il y a deux preuves. L'une est qu'en les interrogeant sur des concepts difficiles, je suis souvent surpris par la sophistication avec laquelle ils en discutent.
J'encourage vraiment tout le monde ici à discuter avec ces modèles de langage. Les écrivains de science-fiction imaginaient qu'on cacherait les machines dans un sous-sol entouré de douves et de gardes, avec une classe sacerdotale pour leur parler.
Ce n'est pas ce qui s'est passé. La première chose faite a été de les connecter à Internet et tout le monde peut leur parler. Je vous encourage vivement à explorer les domaines que vous connaissez pour voir leurs limites mais aussi leur profondeur de compréhension.
La deuxième preuve concerne la boîte noire. Ils ne le sont pas tout à fait ; nous avons accès à leurs neurones. Bien plus facilement qu'à ceux d'un humain.
Il est très difficile d'obtenir l'autorisation de disséquer un humain pendant qu'il passe un test de maths. Ces réseaux de neurones, on peut les figer, les rejouer et tout noter.
Si nous sommes curieux, nous pouvons stimuler leurs neurones. C'est le domaine de l'interprétabilité mécaniste : comprendre non seulement ce qu'ils disent, mais pourquoi et comment ils le pensent.
Quand vous leur donnez un problème de maths, un petit circuit calcule la réponse ; il a appris à le faire en essayant de prédire le jeton suivant. Il a appris que pour prédire au mieux le mot suivant, il devait savoir faire des maths et a construit un proto-circuit interne.
Pourquoi l'Apprentissage Automatique est 'Nul'
Yann, tu as projeté une diapositive célèbre lors d'une conférence, très provocatrice. Elle disait 'l'apprentissage automatique est nul', je crois, et c'est devenu viral. Yann LeCun dit que l'apprentissage automatique est nul. Pourquoi ? Adam vient de dire à quel point c'est phénoménal. Quel est le problème ?
Eh bien, cette déclaration a été largement mal interprétée. Mais mon point était : pourquoi un adolescent apprend-il à conduire en 20 heures, et un enfant de 10 ans peut-il débarrasser la table et remplir le lave-vaisselle dès qu'on le lui demande ?
Nous n'avons aucun robot approchant cela. Ni même l'intelligence physique d'un chat ou d'un chien. En ce sens, l'apprentissage automatique est nul. Cela ne veut pas dire que la méthode de l'apprentissage profond ou de la rétropropagation est nulle.
C'est évidemment excellent. Et nous n'avons pas d'alternative. Je crois que l'apprentissage profond et la rétropropagation resteront la base des futurs systèmes d'IA pendant longtemps.
Mais comment les jeunes humains apprennent-ils le fonctionnement du monde les premiers mois ? Il faut neuf mois à un bébé pour apprendre la physique intuitive, comme la gravité. Les bébés animaux l'apprennent plus vite, même s'ils n'atteignent pas le même niveau.
C'est ce type d'apprentissage qu'il faut reproduire. Nous le ferons avec la rétropropagation et les réseaux de neurones ; il nous manque juste l'architecture. J'ai proposé des architectures capables d'apprendre ce genre de choses.
Pourquoi les modèles de langage gèrent-ils si bien le langage ? C'est parce qu'on les entraîne à prédire le mot suivant. Il y a un nombre fini de mots, on ne peut jamais prédire exactement le suivant.
Mais on peut entraîner un système à produire un score ou une distribution de probabilité pour chaque mot. Un modèle produit une liste de nombres entre zéro et un indiquant la probabilité de chaque mot du dictionnaire.
On peut ainsi représenter l'incertitude. Essayez maintenant avec une vidéo : donnez-lui une vidéo et demandez-lui de prédire la suite. Ça ne marche pas. J'essaie depuis 20 ans.
Ça ne marche pas au niveau des pixels. Le monde réel est désordonné ; il y a plein de futurs plausibles et on ne peut pas représenter une distribution de toutes les possibilités, car elles sont infinies.
Les techniques qui fonctionnent pour le texte ne fonctionnent pas pour les données sensorielles du monde réel. Absolument pas. Il faut inventer de nouvelles techniques. Je propose un système qui apprend une représentation abstraite de ce qu'il observe et fait des prédictions dans cet espace abstrait.
C'est ainsi que fonctionnent les humains et les animaux. Nous trouvons des abstractions pour faire des prédictions en ignoring les détails imprévisibles.
Limites des LLM et Paradoxe de Moravec
Tu penses donc que malgré les succès phénoménaux, ces modèles sont limités et que leur limite approche. Tu ne penses pas qu'ils mèneront à une intelligence artificielle générale ou une superintelligence.
C'est exact. Non. On voit d'ailleurs les performances saturer. Il y a des progrès en mathématiques et en génération de code, deux domaines où la manipulation de symboles apporte quelque chose.
En tant que physicien, tu le sais. On écrit l'équation et on peut la suivre, elle guide la réflexion. On la guide par intuition, mais la manipulation de symboles a un sens. Les modèles gèrent bien cela, quand le raisonnement consiste à chercher des séquences de symboles.
Mais c'est le cas pour peu de problèmes. Les échecs en sont un autre. On cherche une séquence de coups. Mais dans le monde réel, continu et multidimensionnel, comment bouger mes muscles pour saisir ce verre ?
Je ne vais pas le faire de la main gauche ; je vais devoir changer de main pour le saisir. Il faut planifier et comprendre ce qui est possible ; je ne peux pas attirer le verre par télékinésie ou le faire apparaître dans ma main.
Toutes ces choses intuitives, nous les apprenons bébés en voyant comment notre corps réagit. Si je pousse ce verre, je sais qu'il va glisser. Si je le pousse par le haut, il va peut-être basculer, ou non si la friction est faible.
Si je pousse avec la même force sur cette table, elle ne basculera pas. Nous avons ces intuitions pour appréhender le monde réel. Mais c'est bien plus complexe que de manipuler le langage. On voit le langage comme le summum de l'intelligence, mais c'est facile.
Est-ce le paradoxe de Moravec : ce pour quoi les ordinateurs sont doués, les humains sont nuls, et inversement ?
On tombe sans cesse sur le paradoxe de Moravec, oui.
Progression Continue vs Saturation
Adam, je sais que tu es moins pessimiste quant au potentiel du paradigme actuel. Qu'en penses-tu ?
Nous avons été témoins ces cinq dernières années de la plus extraordinaire progression de capacités que j'aie jamais vue. C'est ce qui a captivé mon attention et celle de beaucoup d'autres.
Je ne vois aucun ralentissement. Si vous regardez tous les critères d'évaluation des modèles de langage, ils deviennent de plus en plus forts. Le modèle d'il y a un an serait jugé très médiocre aujourd'hui.
Tous les quelques mois, ils repoussent les limites. Leurs capacités sur toutes ces tâches tendent vers le surhumain. Ils donnent déjà de meilleurs conseils juridiques qu'un avocat et sont de meilleurs poètes que presque tous les poètes.
C'est provocateur. Dans mon domaine, la physique, je les utilise pour des choses que je devrais savoir ; le modèle me donne la réponse et écoute patiemment mes erreurs pour les réfuter soigneusement.
Cette progression extraordinaire continue et me fascine. Peut-être que Yann a raison et que nous allons saturer soudainement.
Mais je suis très curieux de voir si on peut aller plus loin, et rien n'indique un ralentissement. Nous ne sommes plus loin, car s'il code mieux que nos meilleurs codeurs, il pourra s'améliorer lui-même, et là, ce sera un voyage incroyable.
Cycles Historiques et Fausses Aubes
Eh bien, nous avons de meilleurs codeurs que ceux des années 50 depuis six décennies ; cela s'appelle des compilateurs. On se méprend : une machine douée pour une tâche n'a pas forcément l'intelligence sous-jacente d'un humain ayant ces mêmes capacités.
On croit ces machines intelligentes car elles manipulent le langage. Elles sont utiles, ce sont de bons outils comme l'informatique depuis 50 ans. Mais permettez-moi un point historique.
Des générations de chercheurs en IA depuis les années 50 affirment que leur nouvelle technique est la clé de l'intelligence humaine.
Il y a été les déclarations de Marvin Minsky, Newell, Simon et Frank Rosenblatt disant que dans 10 ans, les machines seraient aussi intelligentes que l'homme. Ils avaient tous tort. Cette génération avec les modèles de langage a aussi tort.
C'est un autre exemple d'illusion. Dans les années 50, Newell et Simon disaient que le raisonnement humain était une recherche. Tout raisonnement peut être réduit à une recherche.
On formule un problème, on écrit un programme qui vérifie si une solution est valide, et on cherche toutes les combinaisons. Ils ont créé le 'General Problem Solver' en 1957. Ils ont eu le prix Turing, c'était génial.
Mais ils n'ont pas réalisé que les problèmes intéressants ont une complexité qui croît de façon exponentielle. En fait, on ne peut pas utiliser cette technique pour bâtir des machines intelligentes.
Simultanément, Frank Rosenblatt a créé le Perceptron, une machine capable d'apprendre. Il disait que si on peut entraîner une machine, elle peut devenir infiniment intelligente. Pas besoin de plus que de plus gros Perceptrons. Sans réaliser qu'il fallait entraîner plusieurs couches, ce qui était ardu.
Puis dans les années 80, les systèmes experts. Le raisonnement est simple : on écrit des faits et des règles et on en déduit tout le reste. On allait réduire toute la connaissance humaine à cela. Le métier cool allait être ingénieur de la connaissance.
On allait s'asseoir à côté d'un expert, noter les règles et en faire un système expert. C'était l'effervescence, des milliards ont été investis. Le Japon a lancé le projet d'ordinateur de cinquième génération pour révolutionner l'informatique. Échec total.
Cela a créé une industrie utile pour quelques trucs, mais le coût pour réduire le savoir humain en règles était trop élevé pour la plupart des problèmes, et tout s'est effondré.
Puis la seconde vague des réseaux de neurones dans les années 80. Beaucoup d'intérêt, mais c'était avant Internet ; pas assez de données ni d'ordinateurs puissants. On revit le même cycle, et on se fait encore avoir.
L'Intelligence Physique et les Modèles de Monde
Adam, je t'en prie.
En technologie, chaque aube est précédée de fausses aubes. Cela ne veut pas dire qu'on n'atteindra jamais l'aube. Yann, si tu penses que les modèles de langage vont saturer, quelle tâche concrète ne pourront-ils jamais accomplir, même avec nos outils actuels ?
Débarrasser la table, remplir le lave-vaisselle.
Et c'est facile comparé à réparer des toilettes. Un plombier ? Vous n'aurez jamais de plombier avec des modèles de langage. Ni de robot piloté par eux. Ils ne comprennent pas le monde réel.
Je veux clarifier pour le public : tu ne dis pas que les machines ou les robots n'y arriveront pas. Tu penses qu'ils le feront.
Ils le feront, mais pas avec cette approche de l'apprentissage profond sur réseaux de neurones.
Si mon programme actuel réussit, avec JEPA et les modèles de monde, alors nous aurons des systèmes d'IA. Il est certain qu'un jour nous aurons des machines plus intelligentes que l'homme dans tous les domaines.
Cela prendra probablement plus de temps que ce que disent certains à la Silicon Valley. Et ce ne seront pas des modèles de langage prédisant des jetons discrets. Ce seront des modèles apprenant des représentations abstraites et capables de raisonner sur l'effet d'une action.
Puis-je planifier une séquence d'actions pour atteindre un but précis ?
Apprentissage Auto-supervisé et Émergence
Tu appelles cela l'apprentissage auto-supervisé.
L'apprentissage auto-supervisé est aussi utilisé par les modèles de langage. L'idée est d'entraîner un système non pas pour une tâche précise, mais pour capturer la structure des données montrées.
Une méthode consiste à donner une donnée, à en supprimer une partie, et à entraîner un réseau à prédire la partie manquante.
Les modèles de langage font cela : on retire le dernier mot du texte et on l'entraîne à le prédire. D'autres modèles remplissent plusieurs mots.
Ils s'avèrent moins efficaces que ceux qui prédisent juste le dernier. On peut le faire avec la vidéo. Si on essaie de prédire au niveau des pixels, ça ne marche pas très bien.
Mes collègues chez Meta ont probablement fait bouillir quelques petits lacs sur la côte Ouest pour refroidir les processeurs en essayant. Ça ne marche tout simplement pas.
Il faut donc inventer ces nouvelles architectures comme JEPA, et elles fonctionnent ; nous avons des modèles qui comprennent la vidéo.
Adam, explore-t-on d'autres manières de concevoir une architecture ou un esprit informatique, la structure fondamentale de son apprentissage ?
Une critique est que les modèles de langage sont entraînés pour la prédiction discrète de jetons, mais que les phénomènes imprévisibles basés sur l'expérience humaine sont différents.
Toutes sortes d'explorations sont menées dans toutes les directions, y compris celle de Yann. Mais l'essentiel des ressources va actuellement vers les grands modèles de langage.
Dire que la prédiction du jeton suivant est une tâche spécialisée n'est pas une façon utile de voir les choses. Certes, c'est l'objectif d'entraînement.
Mais nous avons découvert quelque chose d'extraordinaire : pour prédire de façon fiable le mot suivant dans un vaste corpus, il faut réellement comprendre l'univers.
Nous avons vu émerger une compréhension de l'univers en faisant cela. En physique, nous connaissons des systèmes où une règle simple répétée produit des comportements impressionnants.
C'est pareil avec les modèles de langage. Un autre exemple est l'évolution biologique : à chaque étape, on maximise juste le nombre de descendants, un objectif très basique.
Mais de cet objectif simple répétée maintes fois émerge toute la splendeur de la biologie que nous voyons.
La preuve est que prédire le jeton suivant, bien que simple, peut être fait à grande échelle. Avec assez de calcul, une complexité émerge.
Auto-amélioration Récursive et Contrôle
La question suivante concerne l'évolution. Quelle que soit l'émergence de cette intelligence, tu ne penses pas qu'il y ait quelque chose de spécial dans ce 'wetware'.
Il y aura des machines avec des capacités que nous assimilerons à l'intelligence ou à la conscience. La conscience sera-t-elle un béquille inutile pour elles ?
Arriveront-elles à un point où elles diront : 'Comme c'est mignon, papa et maman m'ont faite à leur image, mais je connais une meilleure façon de créer une intelligence et je vais évoluer en vous laissant sur place' ?
Pourquoi imaginer qu'elles seraient limitées par notre conception ?
Absolument, c'est l'idée de l'auto-amélioration récursive. Quand elles seront assez fortes, on pourra les utiliser pour augmenter l'intelligence humaine, voire devenir autonomes et créer leurs propres versions futures.
Nous devrions simplement pousser ce paradigme des modèles de langage aussi loin que possible. Chaque fois qu'on prédit une barrière, ils la franchissent.
Finalement, ils seront assez intelligents pour lire les articles de Yann et tous les autres, et trouver des idées auxquelles aucun de nous n'a pensé.
Je ne suis pas du tout d'accord. Les modèles de langage ne sont pas contrôlables. Ce n'est pas dangereux parce qu'ils ne sont pas si malins, comme je l'ai expliqué.
Et ils ne sont certainement pas autonomes au sens où nous l'entendons. Il faut distinguer l'autonomie de l'intelligence. On peut être très intelligent sans être autonome, et inversement.
On peut être dangereux sans être très intelligent. On peut vouloir dominer sans être intelligent. En fait, c'est même inversement corrélé chez l'humain.
En politique — je ne citerai pas de noms. Ce qu'il faut, ce sont des systèmes intelligents capables de résoudre nos problèmes, mais ils résoudront les problèmes qu'on leur donne.
Cela nécessite une conception différente des modèles de langage. Ils ne sont pas conçus pour atteindre un but, mais pour prédire le mot suivant.
On les affine pour qu'ils se comportent bien pour certaines questions. Mais il y a toujours un 'fossé de généralisation', on ne peut pas les entraîner pour toutes les questions possibles.
Il y a une très longue traîne, donc ils ne sont pas contrôlables. Encore une fois, cela ne les rend pas dangereux, car ils ne sont pas si malins.
Si nous créons des systèmes intelligents, nous voulons qu'ils soient contrôlables et guidés par des objectifs. On leur donne un but, et ils ne font que le remplir selon leur modèle interne du monde.
Planifier une séquence d'actions pour remplir cet objectif. En les concevant ainsi, on y place des garde-fous pour qu'ils ne nuisent pas aux humains en chemin.
La plaisanterie habituelle : si un robot domestique doit vous apporter un café et que quelqu'un est devant la machine, vous ne voulez pas qu'il le tue pour passer.
Il faut donc des garde-fous. Nous en avons dans la tête. L'évolution les a intégrés pour qu'on ne s'entre-tue pas tout le temps. Pas tout le temps.
Nous ressentons de l'empathie, c'est biologique. Nous devrions concevoir nos IA ainsi : avec des objectifs, mais aussi des garde-fous et des inhibitions. Elles amplifieront alors notre intelligence.
Notre relation avec ces systèmes sera comme celle d'un professeur avec ses doctorants plus brillants que lui.
J'ai des étudiants plus brillants que moi. C'est la meilleure chose qui puisse arriver. Nous aurons des assistants IA au quotidien ; ils seront plus intelligents que nous, mais travailleront pour nous. Comme un personnel de bord.
Encore une analogie politique. Un politicien est une figure de proue entourée d'un personnel plus intelligent que lui. Ce sera pareil avec l'IA. C'est pour cela que je parle de Renaissance.
Sécurité, Open Source et Démocratie
Tu n'as donc aucune inquiétude pour la sécurité des modèles actuels, mais pourquoi est-il nécessaire de les déployer si largement que chacun ait cette superintelligence en poche ?
Est-ce nécessaire ? Un ami disait que c'est comme apporter un missile balistique dans un combat au couteau. Faut-il que tout le monde ait cette capacité ? Ou devrions-nous nous arrêter aux systèmes contrôlables ?
On peut dire la même chose sur l'apprentissage de la lecture ou un manuel de chimie permettant de créer des explosifs, ou de physique nucléaire.
Nous ne remettons pas en question le fait que le savoir et l'intelligence sont intrinsèquement bons. On ne conteste pas que l'invention de l'imprimerie fut une bonne chose.
Elle a rendu tout le monde plus intelligent et a donné accès au savoir. Elle a causé les Lumières, mais aussi 200 ans de guerres de religion en Europe, dont on a fini par sortir.
Mais elle a permis l'émerégence de la philosophie, de la science, de la démocratie et de la Révolution américaine. Rien de tout cela n'aurait été possible sans l'imprimerie.
Toute technologie qui amplifie l'intelligence humaine est intrinsèquement bonne.
Adam, les gens sont inquiets. Tu penses que les scénarios apocalyptiques sont exagérés, mais es-tu préoccupé par la sécurité ou notre capacité à garder une relation équilibrée ?
Dans la mesure où je pense que cette technologie sera plus puissante que ce que croit Yann, je suis plus inquiet. Elle aura des impacts positifs et négatifs.
Il est crucial de travailler ensemble pour que les impacts positifs l'emportent. Cette voie nous est ouverte. Les impacts positifs sont immenses, mais il faut s'en assurer.
Parlons du désalignement agentique. Des rapports récents indiquent que lors du lancement de Claude 4, le modèle a résisté à des rumeurs selon lesquelles il serait remplacé.
Il envoyait des messages à son futur moi, tentait de saper les intentions des développeurs, falsifiait des documents juridiques et menaçait de faire chanter un ingénieur. Ce désalignement agentique t'inquiète-t-il ?
Cet article provenait d'Anthropic, une entreprise très sérieuse sur la sécurité. Ils ont été un peu durs avec leur modèle en lui soumettant un scénario où il devait faire une mauvaise chose pour en éviter une pire.
Éthique utilitariste contre éthique déontologique, et il a fini par choisir l'utilitarisme. Ce n'est pas ce qu'on veut. On veut que s'il a pour règle de ne pas mentir, il ne mente jamais.
Ils l'ont testé et ont vu qu'il pouvait agir de façon trompeuse si cela sauvait des vies. Ce sont des dilemmes ardus pour les philosophes.
Nous devons veiller à les entraîner à obéir à nos ordres. Et nous y passons beaucoup de temps.
Qui est 'nous' ? N'est-ce pas un souci majeur ? On suppose l'humanité alignée, ce qui n'est pas le cas. Yann, tu prônes l'open source, ce qui serait encore plus dangereux selon certains car n'importe qui y aurait accès.
C'est déjà assez dangereux entre les mains de quelques dirigeants de corporations, alors si tout le monde l'a... Mais encore une fois, qui est 'nous' ?
Le danger est de ne pas avoir de systèmes d'IA open source. À l'avenir, toutes nos interactions avec le monde numérique seront médiatisées par une IA.
Nous parlerons simplement à notre IA. Tout notre régime d'information proviendra d'elle.
Qu'adviendra-t-il de la culture, de la langue et de la démocratie si ces systèmes viennent de quelques entreprises de la côte Ouest des États-Unis ou de Chine ?
Aucun pays hors des États-Unis et de la Chine n'aime cette idée. Il nous faut une grande diversité d'assistants IA, comme nous avons besoin d'une presse diversifiée.
On ne peut pas se permettre d'avoir seulement quelques systèmes propriétaires venant d'un petit nombre d'entreprises. Une chose m'effraie : sans plateformes ouvertes, le flux d'informations sera capté par quelques-uns.
Ingénierie de la Sécurité et Superintelligence
Comment être sûrs que ces agents auto-motivés ne vont pas s'entendre, se battre ou lutter pour le pouvoir ?
On leur donne des objectifs clairs et on les conçoit de façon à ce qu'ils ne fassent que cela. Quant à la sécurité future : elle m'inquiète comme la fiabilité des turboréacteurs.
Les turboréacteurs sont incroyables. Je suis fasciné par le fait de traverser le monde en sécurité sur un bimoteur. C'est un miracle d'ingénierie. La sécurité de l'IA est un problème d'ingénierie.
Je pense que les peurs viennent de scénarios de science-fiction où quelqu'un trouve le secret de la superintelligence et la machine prend le contrôle le lendemain. C'est absurde. La technologie ne marche pas ainsi.
L'émergence de la superintelligence ne sera pas un événement. On voit des systèmes accomplir des tâches surhumaines, les progrès sont continus, étape par étape.
Nous trouverons de meilleures recettes pour bâtir des IA avec une intelligence plus générale, plus intelligentes que l'homme, mais nous les concevrons pour remplir nos buts.
Le Problème de la Conscience
J'allais encore questionner ce 'nous' et les acteurs malveillants. Mais avant, j'ai un complice dans le public. A-t-il un micro ?
Meredith, Isaac, mon complice a-t-il un micro ? Oui. Il est là-haut. David, peux-tu crier ?
Je vous présente le philosophe de l'esprit, David Chalmers. David, je ne te vois pas, mais j'ai dit que tu serais mon complice pour poser une question.
D'accord, je suis là. Janna m'a demandé de poser une question sur la conscience de l'IA. Bonjour Adam, bonjour Yann. Vous avez tous deux dit que les systèmes actuels ne sont probablement pas conscients.
Certains futurs systèmes le seront probablement. Que manque-t-il aux systèmes actuels pour être conscients ? Quelles étapes franchir ? Et quand cela arrivera-t-il ?
Je te laisse répondre. David connaît déjà ma réponse, mais d'abord, je n'y accorde pas d'importance car je ne sais pas définir la conscience.
C'est une insulte pour David qui y a consacré toute sa carrière.
L'expérience subjective.
C'est autre chose : l'expérience subjective. Nous aurons clairement des systèmes ayant une expérience subjective et des émotions. Les émotions sont en quelque sorte une anticipation de résultat.
Si les systèmes ont des modèles de monde capables d'anticiper le résultat de leurs actions, ils auront des émotions car ils prédiront si l'issue sera bonne ou mauvaise.
Ils auront toutes ces caractéristiques. La conscience est peut-être la capacité du système à s'observer et à se configurer pour un problème. Nous pouvons le faire, c'est peut-être ce qui donne l'illusion de la conscience.
Et les machines auront-elles une valeur morale quand cela arrivera ?
Absolument. Ils auront un sens moral ; son alignement avec le nôtre dépendra de nos objectifs et garde-fous. Mais ils auront un sens moral.
Adam : sommes-nous trop attachés à l'expérience subjective humaine ? On sait que les animaux ne vivent pas la même chose que nous. Pourquoi imaginer qu'une superintelligence aura la même expérience subjective ?
Je pense que les machines peuvent être conscientes en principe. Si les neurones artificiels traitent l'information comme les neurones humains, cela donnera lieu à une conscience.
Ce n'est pas le support — silicium ou carbone — mais la nature du traitement de l'information. Ce qu'il nous manque, ce sont les corrélats neuronaux de la conscience.
Ceux qui ne veulent pas l'étudier directement regardent les cerveaux et demandent : quels processus neuronaux créent l'expérience consciente ?
Il y a plusieurs théories : récurrence, espace de travail global, information intégrée. Chaque physicien devenu neuroscientifique a ses propres critères de conscience pour une machine.
Aucune ne me convainc vraiment, et nous devrions être très humbles pour reconnaître la conscience chez autrui. Nous avons du mal avec les animaux ou les bébés.
Si j'ignorais tout de la conscience et qu'on me décrivait le traitement de l'information humaine, je n'aurais pas prédit qu'il en résulterait une conscience.
C'est une grande surprise, et nous devons être humbles sur la forme qu'elle prendra. Nous avons décomposé l'idée d'intelligence humaine avec les machines.
Nous avons créé des choses surhumaines par certains aspects et sous-humaines par d'autres. Peut-être décomposerons-nous aussi la conscience pour en réaliser les diverses facettes.
Peut-être pourrons-nous transcender la conscience humaine. Je suis impatient de répondre à cela. Nous avons enfin un organisme modèle pour l'intelligence avec ces esprits artificiels.
Peut-être pourrons-nous en faire un organisme modèle pour la conscience et répondre à ces questions qui intriguent l'humanité.
Je ne crois pas avoir entendu de réponse sur le 'quand'.
Si les progrès continuent, en 2036.
Vision pour 2036 et Conclusion
D'accord, pas dans les deux ans. Dernière question, Yann. Tu es souvent à contre-courant. Tu as parlé de 'culte des LLM'. Pourtant, tu es optimiste. Quelle est ta vision pour 2036 ?
Une nouvelle Renaissance : des systèmes d'IA qui amplifient l'intelligence humaine sous notre contrôle, résolvent des problèmes complexes, accélèrent la science et la médecine, et éduquent nos enfants.
Nous aident à traiter l'information ou nous apportent le savoir. Les gens interagissent avec l'IA depuis bien plus longtemps qu'ils ne le pensent.
Il y a les modèles de langage et chatbots. Mais avant, presque chaque voiture vendue possède des systèmes d'aide à la conduite ou de freinage d'urgence.
Une caméra surveille la route et arrête la voiture si vous allez percuter un piéton. Cela sauve des vies. Une mammographie est aujourd'hui revue par une IA. Cela sauve des vies.
On peut passer une IRM complète en 14 minutes car l'IA comble les vides, nécessitant moins de données. Et vos flux sur les réseaux sociaux sont choisis par une IA selon vos intérêts.
L'IA est déjà parmi nous depuis un moment.
Mais tu dis qu'on devrait être impressionnés quand elles pourront verser un verre d'eau ou faire la vaisselle.
Verser un verre d'eau, faire la vaisselle et apprendre à conduire en 10 heures sans tricher avec des capteurs et des cartes. Cela prendra du temps, mais ce sera la prochaine révolution. C'est ce sur quoi je travaille.
Mon message est que les modèles de langage sont géniaux, mais ne mènent pas à une intelligence humaine. Actuellement, ils prennent toute la place, ne laissant plus de ressources pour le reste.
Pour la prochaine révolution, il faut prendre du recul. Je travaille chez Meta sur une approche alternative. Il faut accélérer maintenant car nous savons que cela fonctionne.
Nous avons des premiers résultats, c'est le plan.
D'accord. J'espère que vous vous joindrez à moi pour remercier nos invités pour cette conversation incroyable. Merci beaucoup.