Pourquoi les LLM ne suffiront pas pour atteindre l'intelligence de niveau humain
30 mai 2025
Intelligence Artificielle
Débat sur l'échelle des LLM et l'avenir de l'AGI
Nous n'allons pas parvenir à une IA de niveau humain en augmentant simplement l'échelle des LLM. Cela n'arrivera tout simplement pas.
C'est votre point de vue.
Il n'y a aucune chance. Absolument aucune chance. Et quoi que vous puissiez entendre de la part de certains de mes collègues plus aventureux, cela n'arrivera pas au cours des deux prochaines années. Il n'y a absolument aucune chance, si vous me passez l'expression. L'idée que nous allons avoir un pays de génies dans le centre de données, c'est n'importe quoi. Il n'y a absolument aucune chance. Ce que nous allons avoir, peut-être, ce sont des systèmes entraînés sur des quantités de données suffisamment importantes pour que n'importe quelle question posée par une personne raisonnable trouve une réponse grâce à ces systèmes. Et vous aurez l'impression d'avoir un thésard à côté de vous, mais ce n'est pas un thésard que vous avez à côté de vous. C'est un système doté d'une mémoire et d'une capacité de récupération gigantesques, et non un système capable d'inventer des solutions à de nouveaux problèmes. Ce qui est en réalité ce qu'est un doctorat. C'est en fait lié à ce message de Thomas Wolf selon lequel inventer de nouvelles choses requiert un type de compétences et de capacités que l'on n'obtiendra pas des LLM. Il y a une grande question : l'investissement réalisé actuellement n'est pas fait pour demain ; il est fait pour les prochaines années. Et la majeure partie de l'investissement, du moins du côté de Meta, est un investissement dans l'infrastructure pour l'inférence. Imaginons que d'ici la fin de l'année, ce qui est vraiment le plan chez Meta, nous ayons 1 milliard d'utilisateurs de Meta AI via des lunettes intelligentes, une application autonome, et tout le reste. Il faut servir ces personnes et cela représente énormément de calcul. C'est pourquoi vous avez besoin de beaucoup d'investissements dans l'infrastructure pour pouvoir passer à l'échelle et construire cela sur des mois ou des années. C'est là que va la majeure partie de l'argent, du moins du côté d'entreprises comme Meta, Microsoft, Google et potentiellement Amazon. Ensuite, il y a les opérations, essentiellement. Maintenant, y aura-t-il un marché pour 1 milliard de personnes utilisant ces outils régulièrement, même s'il n'y a pas de changement de paradigme ? Et la réponse est probablement oui. Même si la révolution, un nouveau paradigme, n'arrive pas d'ici trois ans, cette infrastructure sera utilisée. Cela ne fait aucun doute. C'est un bon investissement et il faut tellement de temps pour mettre en place des centres de données et tout le reste qu'il faut commencer maintenant et prévoir une progression continue pour que l'investissement soit finalement justifié. Mais on ne peut pas se permettre de ne pas le faire car le risque à prendre serait trop grand si l'on a les liquidités.
Mais revenons à ce que vous disiez. Les outils d'aujourd'hui sont encore profondément imparfaits et on s'est demandé s'ils allaient être utilisés. Maintenant, Meta fait ce pari sur le grand public. Les consommateurs veulent utiliser l'IA. C'est logique. OpenAI a 100 millions d'utilisateurs de ChatGPT. Meta en a trois ou quatre milliards. Si vous avez un téléphone sur terre...
Nous avons 3 virgule quelque chose milliards d'utilisateurs, 600 millions d'utilisateurs de Meta AI.
D'accord. Donc plus que ChatGPT.
Oui, mais ce n'est pas autant utilisé que ChatGPT. Les utilisateurs ne sont donc pas aussi assidus, si vous voulez.
Aussi actifs. Mais l'idée que Meta puisse atteindre un milliard d'utilisateurs grand public semble raisonnable. Mais le fait est qu'une grande partie de cet investissement a été faite avec l'idée que cela sera utile aux entreprises, et pas seulement une application grand public. Et il y a un problème car, comme nous en avons discuté, ce n'est pas encore assez performant. Regardez la recherche approfondie. C'est un point soulevé par Benedict Evans. La recherche approfondie est plutôt bonne, mais elle ne vous mène peut-être qu'à 95 % du chemin et peut-être que 5 % sont des hallucinations. Si vous avez un rapport de recherche de 100 pages et que 5 % sont faux et que vous ne savez pas quels 5 %, c'est un problème. Et de même dans les entreprises aujourd'hui, chaque entreprise essaie de comprendre comment rendre l'IA utile pour elle, l'IA générative et d'autres types d'IA. Mais seulement 10 % ou 20 % peut-être des preuves de concept sortent en production parce qu'elles sont soit trop chères, soit faillibles. Alors, si nous arrivons au sommet ici, qu'anticipez-vous pour tout ce qui a été poussé dans l'espoir que cela devienne encore meilleur à partir de maintenant ?
Eh bien, encore une fois, c'est une question de calendrier. Quand ces systèmes deviendront-ils suffisamment fiables et intelligents pour que le déploiement soit facilité ? La situation que vous décrivez, à savoir qu'au-delà des démos impressionnantes, le déploiement réel de systèmes fiables est le point où les choses ont tendance à flancher dans l'utilisation des ordinateurs et des technologies, et particulièrement de l'IA. Ce n'est pas nouveau. Pourquoi avions-nous des démos de conduite autonome super impressionnantes il y a 10 ans, alors que nous n'avons toujours pas de voitures autonomes de niveau 5 ? C'est le dernier kilomètre qui est vraiment difficile pour les voitures. Les derniers pourcents de fiabilité qui rendent un système pratique, et comment vous l'intégrez aux systèmes existants et comment il rend ses utilisateurs plus efficaces ou plus fiables. C'est là que c'est difficile. C'est pourquoi, si l'on remonte plusieurs années en arrière et que l'on regarde ce qui s'est passé avec IBM Watson. Watson devait être le produit qu'IBM allait pousser et générer des tonnes de revenus en apprenant la médecine, puis en étant déployé dans chaque hôpital. Ce fut fondamentalement un échec complet et il a été revendu par pièces et a coûté très cher à IBM, y compris au PDG. Ce qui arrive, c'est que le déploiement effectif de ces systèmes dans des situations où ils sont fiables et aident réellement les gens sans heurter le conservatisme naturel de la main-d'œuvre, c'est là que les choses se compliquent. Nous voyons le même processus actuellement avec la difficulté de déployer des systèmes d'IA ; cela s'est produit absolument à toutes les époques. C'est aussi pourquoi, certains de vos auditeurs sont peut-être trop jeunes pour s'en souvenir, mais il y a eu une grande vague d'intérêt pour l'IA au début des années 1980 autour des systèmes experts. Le métier le plus en vogue dans les années 1980 allait être ingénieur de la connaissance et votre travail allait consister à vous asseoir à côté d'un expert, puis à transformer les connaissances de l'expert en règles et en faits qui seraient ensuite injectés dans un moteur d'inférence capable de déduire de nouveaux faits et de répondre à des questions. Grande vague d'intérêt, le gouvernement japonais a lancé un grand programme appelé Informatique de Cinquième Génération. Le matériel allait être conçu pour s'en charger. Ce fut principalement un échec. La vague d'intérêt s'est éteinte au milieu des années 90. Quelques entreprises ont réussi, mais essentiellement pour un ensemble restreint d'applications pour lesquelles on pouvait réellement réduire la connaissance humaine à un ensemble de règles et pour lesquelles c'était économiquement réalisable. Mais l'impact de grande envergure sur l'ensemble de la société et de l'industrie n'était tout simplement pas là. C'est le danger de l'IA à chaque fois. Les signaux sont clairs : les LLM avec toutes leurs options jouent toujours un rôle important, ne serait-ce que pour la recherche d'informations. La plupart des entreprises veulent avoir une sorte d'experts internes qui connaissent tous les documents internes afin que n'importe quel employé puisse poser n'importe quelle question. Nous en avons un chez Meta, il s'appelle MetaMate. C'est vraiment cool. C'est très utile.
Oui, et je ne suggère pas que l'IA générative moderne n'est pas utile. Je pose la question simplement parce qu'énormément d'argent a été investi dans l'espoir que ce matériel atteigne effectivement des capacités de niveau divin. Et nous parlons tous les deux du fait qu'il y a potentiellement des rendements décroissants ici. Et qu'arrive-t-il s'il y a ce décalage de calendrier comme vous l'avez mentionné ? C'est la dernière question que je poserai à ce sujet car j'ai l'impression que nous avons tellement d'autres choses à couvrir. Mais j'ai l'impression que les décalages de calendrier sont peut-être personnels pour vous. Nous nous sommes parlé pour la première fois il y a neuf ans, ce qui est fou maintenant. Sur le fait qu'au début, vous aviez une idée de la manière dont l'IA devrait être structurée et que vous ne pouviez même pas obtenir une place dans les conférences. Et puis finalement, avec la bonne quantité de calcul, ces idées ont commencé à fonctionner et tout le domaine de l'IA a décollé sur la base de votre idée sur laquelle vous avez travaillé avec Bengio et Hinton. Mais...
Et un tas d'autres.
Et beaucoup d'autres. Par souci d'efficacité, nous dirons d'aller chercher. Mais en parlant simplement de ces calendriers décalés, lorsqu'il y a eu des moments de battage médiatique excessif dans le domaine de l'IA, peut-être avec les systèmes experts dont vous parliez et qu'ils n'aboutissent pas comme les gens l'espèrent, le domaine de l'IA entre dans ce qu'on appelle un hiver de l'IA.
Eh bien, il y a un retour de bâton, oui.
C'est exact. Et donc, si nous approchons potentiellement de ce moment de calendriers décalés, craignez-vous qu'il puisse y avoir un autre hiver maintenant, compte tenu du montant de l'investissement, du fait qu'il y aura potentiellement des rendements décroissants avec la méthode principale d'entraînement de ces outils, et peut-être ajouterons-nous le fait que la bourse semble traverser une période de ralentissement en ce moment ? C'est une variable, probablement la troisième variable la plus importante de ce dont nous parlons, mais elle doit être prise en compte.
Je pense qu'il y a certainement une question de timing là. Mais si nous essayons de creuser un peu plus, comme je l'ai déjà dit, si vous pensez que nous allons arriver à une IA de niveau humain simplement en nous entraînant sur plus de données et en augmentant l'échelle des LLM, vous faites une erreur. Si vous êtes un investisseur et que vous avez investi dans une entreprise qui vous a dit que nous allions arriver à une IA de niveau humain et de niveau doctorat simplement en nous entraînant sur plus de données et avec quelques astuces, je ne sais pas si vous allez y laisser votre chemise, mais ce n'était probablement pas une bonne idée. Cependant, il existe des idées sur la manière d'aller de l'avant et d'avoir des systèmes capables de faire ce que tout animal et humain intelligent est capable de faire et que les systèmes d'IA actuels ne sont pas capables de faire. Je parle de comprendre le monde physique, d'avoir une mémoire persistante et d'être capable de raisonner et de planifier. Ce sont les quatre caractéristiques qui doivent être présentes. Cela nécessite des systèmes capables d'acquérir du bon sens, capables d'apprendre à partir de capteurs naturels comme la vidéo par opposition au simple texte, de simples données produites par l'homme. C'est un grand défi. J'en parle depuis de nombreuses années maintenant et je dis que c'est là que se situe le défi, c'est ce que nous devons résoudre. Mon groupe et moi, ou les personnes qui travaillent avec moi et d'autres qui m'ont écouté, progressons dans cette voie de systèmes qui peuvent être entraînés pour comprendre comment le monde fonctionne à partir de la vidéo, par exemple, des systèmes qui peuvent utiliser des modèles mentaux de la façon dont le monde physique fonctionne pour planifier des séquences d'actions afin d'arriver à un but particulier. Nous avons des premiers résultats sur ce genre de systèmes. Il y a des gens chez DeepMind qui travaillent sur des choses similaires et il y a des gens dans diverses universités qui travaillent là-dessus. La question est : quand cela passera-t-il de documents de recherche intéressants démontrant une nouvelle capacité avec une nouvelle architecture à des architectures à grande échelle pratiques pour de nombreuses applications et capables de trouver des solutions à de nouveaux problèmes sans être entraînées pour le faire ? Cela n'arrivera pas d'ici trois ans, mais cela pourrait arriver d'ici trois à cinq ans, quelque chose comme ça. Cela correspond au type de montée en puissance que nous voyons dans l'investissement. C'est la première chose. La deuxième chose importante est qu'il n'y aura pas de solution miracle secrète qu'une entreprise ou un groupe de personnes va inventer et qui va simplement résoudre le problème. Ce sera un ensemble de nombreuses idées différentes, beaucoup d'efforts, certains principes sur lesquels baser cela auxquels certaines personnes pourraient ne pas adhérer et iront dans une direction qui s'avérera être une impasse. Il n'y aura pas un jour avant lequel il n'y a pas d'AGI et après lequel nous avons l'AGI. Ce ne sera pas un événement. Ce seront des idées conceptuelles continues qui, au fil du temps, seront agrandies et mises à l'échelle et fonctionneront mieux. Cela ne viendra pas d'une seule entité ; cela viendra de l'ensemble de la communauté de recherche à travers le monde. Et les personnes qui partagent leurs recherches vont avancer plus vite que celles qui ne le font pas. Si vous pensez qu'il y a une startup quelque part avec cinq personnes qui a découvert le secret de l'AGI et que vous devriez investir cinq milliards en elle, vous faites une énorme erreur.