L'évolution et le futur de l'IA avec Yann LeCun
27 novembre 2024
Intelligence Artificielle
Introduction et parcours personnel
Je pensais que nous pourrions profiter d'aujourd'hui pour comprendre, premièrement, qu'est-ce que l'IA ? Comment en sommes-nous arrivés là ? Quelle est la suite probable ?
En tant qu'Indien de 20 ans qui souhaite créer une entreprise dans l'IA, faire carrière dans l'IA, que faisons-nous ?
Aujourd'hui ? Genre, tout de suite ?
Bonjour Yann, bonjour.
Bonjour Nikhil.
Merci de faire ceci.
Un plaisir.
La première chose que nous aimons faire est d'apprendre à vous connaître un peu plus et comment vous êtes devenu ce que vous êtes aujourd'hui. Pourriez-vous nous en dire un peu plus sur l'endroit où vous êtes né et où vous avez grandi jusqu'à aujourd'hui ?
J'ai grandi près de Paris, en banlieue. Mon père était ingénieur, et j'ai presque tout appris de lui. J'ai toujours été intéressé par la science et la technologie depuis que je suis tout petit et je me suis toujours vu devenir peut-être ingénieur. Je n'avais aucune idée de comment on devenait scientifique, mais je m'y suis intéressé par la suite.
Science vs Ingénierie et l'obsession de l'intelligence
Quelle est la différence entre un ingénieur et un scientifique ?
C'est très difficile à définir, et très souvent il faut être un peu des deux. Un scientifique essaie de comprendre le monde ; un ingénieur essaie de créer de nouvelles choses. Souvent, si vous voulez comprendre le monde, vous devez créer de nouvelles choses. Le progrès de la science est très lié au progrès de la technologie qui nous permet de collecter des données. L'invention du télescope a permis la découverte des planètes et le fait qu'elles tournent autour du soleil. Le microscope a ouvert la porte à toutes sortes de choses. La technologie permet la science, et pour le problème qui est mon obsession depuis longtemps — percer les mystères de l'intelligence — en tant qu'ingénieur, je pense que la seule façon d'y parvenir est de construire une machine intelligente. Il y a à la fois un aspect scientifique de compréhension de l'intelligence à un niveau théorique et un côté plus pratique. Les conséquences de la construction de machines intelligentes pourraient être vraiment importantes pour l'humanité.
Études et débuts dans la recherche
Et l'école à Paris, vous y avez étudié quoi ?
J'ai étudié le génie électrique, mais au fur et à mesure de mes études, je me suis davantage intéressé aux questions fondamentales en mathématiques, en physique et en IA. Je n'ai pas étudié l'informatique, bien qu'il y ait toujours eu des ordinateurs impliqués quand j'ai commencé à la fin des années 70. J'ai pu réaliser quelques projets indépendants avec des professeurs de mathématiques sur les questions d'IA et j'ai vraiment accroché à la recherche. Mon activité préférée est de construire, d'inventer et de comprendre de nouvelles choses d'une manière nouvelle.
Le terme 'Parrain de l'IA' et la collaboration scientifique
Quand quelqu'un dit 'Parrain de l'IA', qu'est-ce que cela vous fait ressentir ? Qu'en pensez-vous ?
Je n'aime pas particulièrement ce terme. Je vis dans le New Jersey, et 'Parrain' dans le New Jersey signifie que vous appartenez à la mafia. La science n'est jamais une quête individuelle. On progresse par la collision des idées de plusieurs personnes ; on émet des hypothèses et on essaie ensuite de montrer qu'elles sont correctes en démontrant que le modèle mental fonctionne ou en faisant de la théorie. Ce n'est pas une activité isolée. Il y a toujours beaucoup de gens qui ont contribué au progrès, mais à cause du fonctionnement du monde, nous ne nous souvenons que de quelques-uns. Je pense qu'une grande partie du mérite devrait revenir à plus de gens, c'est juste que nous n'avons pas une bonne mémoire pour attribuer le mérite à beaucoup de personnes.
L'enseignement à NYU et la célébrité scientifique
Qu'est-ce que ça fait d'être enseignant aujourd'hui, Yann ? Quand vous êtes à NYU, êtes-vous la célébrité ?
Au cours des dernières années, des étudiants sont venus me voir à la fin des cours pour prendre des selfies, donc il y a un peu de cela. Si vous êtes dans la même pièce que quelqu'un, il est important de rendre la session interactive ; sinon, ils peuvent simplement regarder une vidéo. C'est ce que j'essaie de faire, vraiment engager le dialogue avec les étudiants.
Pensez-vous qu'être un héros dans le milieu universitaire ou la recherche ressemble beaucoup à être un héros dans le sport ou l'entrepreneuriat, ou pensez-vous que c'est plus difficile ?
Je suis heureux du fait qu'il puisse y avoir des héros dans la science et le milieu universitaire.
On peut argumenter qu'il y avait Newton et Einstein et tous ces gens.
Newton n'était pas vraiment une figure publique, mais Einstein l'était certainement. Dans une certaine mesure, d'autres scientifiques étaient des célébrités mineures. Une partie de cela vient de la production scientifique, mais franchement, il y a beaucoup de gens qui ont apporté des contributions totalement inconnues, ce que je trouve triste. Les gens qui deviennent éminents dans les sciences et les technologies le font souvent non seulement à cause de la science qu'ils ont produite, mais aussi à cause de leurs prises de position publiques. Une chose qui me différencie des autres scientifiques, c'est que je suis présent sur les réseaux sociaux, je donne des conférences publiques et j'ai des opinions tranchées sur les questions techniques et politiques. Cela amplifie ma popularité ou mon impopularité. Dans certains cercles, je suis considéré comme un parfait idiot.
Les grands problèmes du monde et le rôle de l'IA
J'ai regardé beaucoup de vos interviews au cours du mois dernier. Si vous deviez énoncer trois problèmes du monde du point de vue de Yann, quels seraient-ils ?
En tant qu'officier de la science, vous essayez d'établir des modèles causaux. Il y a des effets que nous voyons, et la question est : quelle en est la cause ? Pour presque chaque problème que nous rencontrons, la cause est réellement un manque de connaissances ou d'intelligence de la part des humains. Nous faisons des erreurs parce que nous ne sommes pas assez intelligents pour comprendre que nous avons un problème, pour trouver des solutions ou pour nous organiser afin de trouver des solutions. Le changement climatique est un problème énorme, et bien qu'il y ait des problèmes politiques liés à l'organisation des gouvernements, il existe également des solutions technologiques potentielles. J'aimerais que nous soyons plus intelligents afin de pouvoir trouver des solutions plus rapidement.
Alors vous dites que les humains ne savent pas pourquoi nous faisons ce que nous faisons et que c'est là le problème ?
Je pense que les erreurs que nous commettons sont dues au fait que si nous étions plus intelligents et avions un meilleur modèle mental du fonctionnement du monde, nous pourrions mieux résoudre nos problèmes. Nous prendrions des décisions plus rationnelles. Le gros problème que je vois aujourd'hui, ce sont les gens qui ne sont pas intéressés par la recherche des faits ou par leur propre éducation, ou qui n'ont pas accès à l'information et à la connaissance. La meilleure chose que nous puissions faire est de rendre les gens plus intelligents. C'est la meilleure raison de travailler sur l'IA, car elle va amplifier l'intelligence humaine. C'est la clé pour résoudre nos problèmes.
Histoire de l'IA : Raisonnement et Optimisation
Pour introduire cette conversation, je ne connais pas assez la technologie mais j'ai beaucoup de curiosité. Beaucoup de gens qui nous regardent sont des entrepreneurs en herbe d'Inde qui ont entendu des conjectures autour de l'IA. Je pensais que nous pourrions profiter d'aujourd'hui pour comprendre : qu'est-ce que l'IA ? Comment en sommes-nous arrivés là ? Et quelle est la suite probable ? Devrions-nous commencer par : qu'est-ce que l'IA ?
Qu'est-ce que l'intelligence, au fond ? Dans l'histoire de l'IA, le problème de savoir ce qu'est l'IA ressemble à l'histoire des aveugles avec l'éléphant. Il y a différents aspects de l'intelligence, et les gens ont abordé une vision tout en ignorant les autres. Un premier aspect abordé dans les années 1950 était le raisonnement. Comment raisonnons-nous logiquement ou cherchons-nous des solutions ? Dans les années 50, les gens ont compris que chaque problème de raisonnement peut être formulé en termes de recherche d'une solution. Par exemple, le problème du voyageur de commerce. Tout problème de raisonnement peut être réduit à ce type. En mathématiques, nous appelons cela l'optimisation : vous cherchez une solution qui minimise un nombre.
Alors, trouver des solutions est-il lié à l'intelligence ? Si vous me demandiez ce qu'est l'intelligence, je serais sans voix.
L'analogie de l'éléphant et les branches de l'IA
Cela nous ramène à l'analogie de l'éléphant.
Pouvez-vous expliquer l'analogie de l'éléphant ?
Les aveugles touchent différentes parties de l'éléphant et personne n'a une vision complète. L'intelligence en tant que recherche n'est qu'un petit morceau de l'éléphant. Dans les années 50, une branche de l'IA ne s'occupait que de cela, et elle a été dominante jusqu'aux années 1990. Cela inclut la planification, comme l'organisation de l'empilement d'objets ou la planification de la trajectoire d'un bras robotisé. Cette partie de l'IA ignorait totalement la perception, comme la façon dont nous comprenons le monde ou reconnaissons les objets. Il y avait une autre branche de l'IA commencée dans les années 50 qui tentait de reproduire les mécanismes de l'intelligence observés en biologie. L'idée est que l'intelligence est un phénomène émergent de réseaux d'éléments simples connectés les uns aux autres. L'apprentissage vient de la modification de la force des connexions entre les neurones.
Apprentissage, Perception et Heuristiques
Donc vous dites que l'intelligence était en grande partie la capacité à résoudre un certain problème.
C'est la première vision. La seconde est la capacité d'apprendre. La branche de l'apprentissage a connu du succès au début des années 60 mais s'est éteinte à la fin des années 60 parce que les procédures d'apprentissage étaient extrêmement limitées. Mais cela a eu des conséquences dans des domaines de l'ingénierie comme la reconnaissance de formes.
Donc vous dites maintenant que l'intelligence est aussi la capacité d'un système à apprendre ?
Apprendre pour des choses comme la perception, l'interprétation d'images et de sons. Les ordinateurs utilisaient la programmation heuristique parce qu'on ne peut jamais chercher de manière exhaustive toutes les solutions. Aux échecs, on ne peut pas explorer tous les coups possibles jusqu'à la fin de la partie, on utilise donc des heuristiques pour ne pas parcourir tout l'arbre des possibilités.
Donc dans l'IA heuristique, vous auriez une entrée utilisateur, un ensemble de règles et une recherche arborescente qui exécuterait des fonctions du type 'si ceci alors cela' pour arriver à un état final.
Systèmes experts vs Approche biologique
Le programme serait écrit par une personne, et la qualité dépendrait de l'intelligence du système à chercher une bonne solution. Une approche différente est basée sur la logique utilisant des règles et des faits pour déduire de nouveaux faits. Cela a conduit aux systèmes experts ou aux systèmes à base de règles dans les années 1980. En parallèle, il y a l'approche ascendante qui s'inspire de l'intelligence biologique.
Et comment feriez-vous cela ?
C'est basé sur l'idée que l'apprentissage procède par la modification de la force des connexions entre les neurones. D'abord, il y a eu l'idée que les neurones étaient des éléments de calcul simples, avec des propositions dans les années 1940 par des mathématiciens comme McCulloch et Pitts. Dans les années 50 et 60, des gens ont proposé des algorithmes simples pour changer la force des connexions. La première machine fut le perceptron en 1957. Pour reconnaître des formes, une image est un tableau de nombres. Un pixel noir et blanc est 0 ou 1. On entraîne le système à distinguer des formes comme le C du D. La sortie est une somme pondérée des valeurs des pixels. Si la somme pondérée est supérieure à un seuil, c'est un C ; si elle est inférieure, c'est un D.
Le Perceptron et les débuts des réseaux de neurones
C'était quelle époque ? Quelle année ?
1957. L'entraînement consiste à changer la valeur de ces poids. On montre un C et le système calcule la somme. Si le système fait une erreur, on lui dit que la sortie devrait être plus grande. Le système augmente alors les poids qui correspondent à une valeur de pixel de 1. Si vous continuez ainsi, le système finira par reconnaître le C.
Et à quoi cela nous servait-il dans les années 50 et 60 ?
Rien de pratique à part reconnaître des formes simples. On répète l'affichage d'un C et d'un D, en augmentant ou diminuant la somme, jusqu'à ce que le système se stabilise sur des poids qui différencient les deux.
Nous avions donc l'IA heuristique, l'IA experte et l'IA d'inspiration biologique, le tout dans les années 50 et 60 ?
Oui. Deux branches différentes étaient en compétition. Marvin Minsky, professeur au MIT, était une figure éminente.
Le débat avec Marvin Minsky
Je me souviens avoir lu quelque chose sur une clause ou un débat concernant Marvin.
Il avait des opinions tranchées. Il a commencé son doctorat dans les années 50 en construisant des réseaux de neurones, mais il a changé d'avis et est devenu un fervent défenseur de l'approche basée sur la logique. Au milieu des années 60, il a co-écrit un livre intitulé 'Perceptrons' pour montrer que leurs capacités étaient limitées. Les gens qui travaillaient sur les réseaux de neurones ont continué d'y travailler mais ont changé le nom en reconnaissance de formes statistique ou théorie des filtres adaptatifs. Celles-ci ont eu d'énormes applications.
Applications financières et Apprentissage supervisé
Dans mon monde de la finance, les gestionnaires de fonds ont toujours tenté d'injecter des données dans un réseau de neurones pour reconnaître des schémas. Est-ce la même chose, une évolution des années 50 ?
Absolument. Le processus de modification des coefficients pour obtenir une sortie souhaitée est très similaire à la régression linéaire.
Mais j'ai réalisé qu'il est facile d'ajuster les données rétrospectivement pour donner l'impression que quelque chose a du sens, mais l'activité financière est si aléatoire que je ne sais pas si l'on peut construire un modèle basé là-dessus.
Quand on entraîne un système de cette façon, le principe générique est l'apprentissage supervisé. On donne une entrée, il produit une sortie, et si ce n'est pas celle qu'on veut, on ajuste les coefficients. Si on fait cela sur des milliards d'exemples, le système finira par comprendre. Le problème du perceptron était que les fonctions entrée-sortie auxquelles il avait accès étaient très limitées. Il n'était pas assez puissant pour dire s'il y avait un chien ou un chat sur une photo. C'est ce que les réseaux de neurones et le deep learning ont changé dans les années 1980.
Hiérarchie de l'IA : Machine Learning et Deep Learning
Avant d'en venir aux réseaux de neurones, diriez-vous qu'il y a l'intelligence artificielle au sommet, puis le machine learning, et que les réseaux de neurones font partie du machine learning ?
L'IA est plus un problème qu'une solution. Il y a la 'bonne vieille IA' (GOFAI) utilisant la logique et la recherche. Ensuite, il y a le machine learning, où l'on entraîne une machine à partir de données. À l'intérieur de celui-ci se trouve le deep learning, qui est le nouveau nom pour les réseaux de neurones. En dessous se trouvent les domaines d'application comme la vision par ordinateur, la reconnaissance vocale et la compréhension du langage naturel.
Pouvez-vous définir la GOFAI en une seule ligne simple ?
La GOFAI est le descendant de la recherche de solutions, basée sur l'idée que le raisonnement est avant tout une affaire de recherche.
Vous voulez dire des systèmes à base de règles avec des entrées et des sorties basées sur la règle qui s'applique ?
Oui, tout système à base de règles ou tout ce qui utilise l'inférence logique est de la bonne vieille intelligence artificielle.
Types d'apprentissage : Supervisé, Renforcement et Auto-supervisé
Et sous le machine learning, quels sont les différents types ?
Il y a le machine learning traditionnel dérivé de l'estimation statistique, comme la régression linéaire, le boosting et les machines à vecteurs de support. Ces méthodes ont des paramètres ajustables, et on entraîne le système à partir de données par ajustement itératif.
Le machine learning est donc supervisé ?
C'est l'apprentissage supervisé. Une autre forme est l'apprentissage par renforcement, où l'on ne donne pas au système la bonne réponse, on lui dit simplement si la réponse qu'il a produite était bonne ou mauvaise.
Et que se passe-t-il ensuite ? Que fais-je de cette information ?
Si votre réponse était mauvaise, vous devez déterminer quelle réponse parmi toutes les possibles serait meilleure. Vous essayez une autre réponse, et si elle est meilleure, vous mettez l'accent sur celle-là en ajustant les paramètres.
Alors, qu'est-ce que l'apprentissage auto-supervisé ?
L'apprentissage auto-supervisé est devenu très important ces dernières années et constitue la principale contribution au succès des chatbots et des systèmes de compréhension du langage naturel.
Ils ne relèvent pas de l'apprentissage par renforcement ?
Non, c'est plus similaire à l'apprentissage supervisé. La différence est qu'au lieu d'une entrée et d'une sortie claires, vous avez des choses qui peuvent être les deux. Vous prenez un morceau de texte et supprimez certains mots, puis vous entraînez la machine à prédire les mots qui manquent.
Et c'est un exemple d'apprentissage supervisé ?
C'est de l'auto-supervisé parce qu'il n'y a pas de différenciation entre l'entrée et la sortie. Si l'entrée est une image, on transforme l'image et on entraîne le système à récupérer l'originale. On n'a pas besoin d'un humain pour étiqueter des millions d'images. Il comprend la structure interne de l'entrée en remplissant les blancs.
Fonctionnement des LLM et Transformers
Si j'ai 10 lignes de texte et que j'en retire une partie, je dis ensuite au modèle de la compléter. Est-ce que je donne aussi la réponse au modèle ?
Oui.
Voulez-vous dire que je dis au modèle : 'Arrive à la réponse que j'ai retirée, et je te dis que c'était cela la réponse' ?
Oui, vous lui dites pendant l'entraînement afin que le système puisse ajuster ses paramètres. La différence réside dans la structure et la façon dont les données sont utilisées. Les grands modèles de langage (LLM) sont un cas particulier où l'on entraîne un système à prédire un mot en ne regardant que les mots précédents. En dessous se trouvent des neurones simulés qui calculent des fonctions mathématiques simples. Dans les architectures transformer, ils consistent à comparer les entrées les unes aux autres et à produire des poids.
Qu'est-ce qu'un transformer, Yann ?
Architectures : Réseaux convolutifs et Transformers
Il existe plusieurs composants architecturaux pour construire un réseau de neurones. Un réseau à une seule couche peut distinguer des formes simples, mais il ne fonctionnera pas pour l'écriture manuscrite car il y a trop de variabilité. La percée des années 1980 a consisté à empiler plusieurs couches de neurones. Chaque neurone calcule une somme pondérée et la fait passer par une fonction de seuil non linéaire. Le système apprend par rétropropagation, en ajustant les paramètres pour que la sortie se rapproche de celle que vous souhaitez. Cette vague d'intérêt a duré jusqu'à ce que les gens réalisent qu'ils avaient besoin de plus de données et d'ordinateurs plus rapides. Une chose sur laquelle j'ai travaillé consistait à connecter les neurones en couches biaisées vers la recherche de bonnes solutions pour la reconnaissance d'images. C'est ce qu'on appelle un réseau de neurones convolutif ou ConvNet.
Dans le machine learning, la voie populaire en ce moment est l'auto-supervisée, comme ChatGPT. Que se passe-t-il dans l'apprentissage par renforcement ?
Plus tant que ça. Il y a eu un intérêt il y a une douzaine d'années, et des entreprises comme DeepMind pensaient que l'apprentissage par renforcement était la clé pour construire des machines intelligentes.
Pouvez-vous définir l'apprentissage par renforcement encore une fois ?
L'apprentissage par renforcement consiste à simplement dire au système si la réponse qu'il a produite était bonne ou mauvaise. C'est inefficace parce que le système doit essayer beaucoup de choses. Cela fonctionne bien pour des jeux comme les échecs ou le Go, car le système peut jouer des millions de parties contre lui-même et renforcer les politiques gagnantes.
Et qu'avez-vous dit qu'était un transformer ?
Les ConvNets sont bons pour les données naturelles comme les images où les valeurs proches sont similaires. Chaque neurone regarde une petite zone et ils font tous la même chose. Un transformer est une façon différente d'agencer les neurones où les entrées sont appelées des jetons (tokens). Si vous permutez les entrées, la sortie sera permutée de manière similaire mais restera inchangée par ailleurs. Il voit les entrées comme un ensemble où l'ordre n'a pas d'importance.
Quand vous dites 'inchangée par ailleurs', vous voulez dire ?
Je veux dire que si vous donnez un groupe de jetons, vous obtenez un groupe de jetons de sortie. Si vous inversez les jetons d'entrée, le résultat est le même mais inversé exactement de la même manière. Lorsque vous construisez un réseau de neurones, vous combinez des composants comme des convolutions et des blocs transformer pour obtenir les propriétés que vous souhaitez.
Qu'est-ce qu'une convolution, Yann ?
Dans un réseau de neurones convolutif, vous avez des neurones qui regardent différentes parties de l'entrée mais calculent la même fonction. Si vous décalez l'entrée, la sortie est la même mais décalée. C'est ce qui vous donne l'équivariance de décalage.
Définition d'un neurone artificiel
Quand vous dites 'neurone', pouvez-vous expliquer ce terme ?
C'est un abus de langage parce que ce ne sont pas vraiment des neurones biologiques. Ils sont aux vrais neurones ce qu'une aile d'avion est à une aile d'oiseau. Un neurone dans un réseau de neurones calcule une somme pondérée de ses entrées et active la sortie si elle est au-dessus d'un seuil. C'est une combinaison d'une opération linéaire avec des coefficients ajustables et d'une fonction non linéaire.
Modèles de langage et Théorie de l'information
Nous n'avons pas pu trouver de bonne définition pour un 'modèle de langage à réseau de neurones' et son fonctionnement en termes simples.
L'idée remonte à Claude Shannon dans les années 1940. Il a inventé la théorie de l'information et a découvert une structure dans les données. Il a conçu un système où l'on prédit la lettre suivante. En anglais, si la dernière lettre est un Q, la suivante est très probablement un U. On peut construire un tableau de la probabilité pour chaque lettre suivante possible.
Est-ce de là que vient le mot 'génératif' ?
Oui, car vous pouvez l'utiliser pour générer du texte. Vous commencez par une lettre et choisissez la suivante la plus probable. Si vous prenez un contexte de trois lettres, cela devient plus lisible. Mais la taille du tableau dont vous avez besoin augmente de façon exponentielle. C'est ce qu'on appelle un modèle N-gramme. Cela devient impraticable au niveau des mots parce que le tableau est gigantesque.
À cause de la puissance de calcul requise ?
L'émergence des LLM autorégressifs
C'est aussi la mémoire et le fait que la plupart des combinaisons de mots n'apparaissent pas. À la fin des années 90, Yoshua Bengio a eu l'idée d'utiliser un réseau de neurones pour cette prédiction. Il a démontré que cela pouvait fonctionner. Plus récemment, l'utilisation d'architectures transformer entraînées sur tous les textes disponibles publiquement a montré des propriétés émergentes. Ces systèmes peuvent répondre à des questions et stocker des connaissances. C'est principalement de la récupération avec un tout petit peu de raisonnement, mais c'est surprenant de voir à quel point ils manipulent bien le langage, capturant la grammaire dans plusieurs langues.
Donc pour récapituler : l'IA est au sommet, le machine learning est en dessous, et sous celui-ci se trouvent les réseaux de neurones comme l'apprentissage par renforcement ou les modèles auto-supervisés comme ChatGPT.
LLM autorégressif est le nom qu'ils devraient porter.
LLM autorégressif.
L'IA est au sommet. Le machine learning est une approche de l'IA. En dessous se trouve le deep learning, qui est le fondement de toute l'IA aujourd'hui. Sous celui-ci se trouvent des familles d'architectures comme les ConvNets et les transformers. Les LLM autorégressifs sont une sous-catégorie de transformers entraînés à prédire le mot suivant. On lui fait produire un mot, puis on réinjecte ce mot dans l'entrée pour générer le suivant. C'est la prédiction autorégressive.
Et ceux-ci fonctionnent mieux pour le texte mais pas pour les images ou les vidéos ?
Les limites des LLM et le défi de la vidéo
C'est exact. Le texte est discret ; il y a un nombre fini de mots dans le dictionnaire. Si vous pouvez discrétiser votre signal, vous pouvez utiliser ces systèmes de prédiction. Mais si vous voulez prédire une image vidéo avec un million de pixels, le nombre de possibilités est essentiellement infini. Nous ne savons pas comment représenter une distribution de probabilité là-dessus.
Mais c'est ce qui excite tout le monde.
C'est le prochain défi : construire des systèmes capables d'apprendre comment le monde fonctionne en regardant des vidéos.
Où se situe l'apprentissage à partir de vidéos et d'images dans cette équation ?
C'est complètement différent des LLM, c'est pourquoi j'ai dit que les LLM ne sont pas la voie vers l'intelligence de niveau humain. Les LLM fonctionnent pour des mondes discrets, pas continus. Ils ne comprennent pas le monde physique. Ils peuvent faire des erreurs stupides parce qu'ils ne comprennent pas la réalité sous-jacente. Les LLM les plus intelligents ne sont pas aussi intelligents qu'un chat domestique. Le défi est de construire des systèmes qui comprennent le monde physique et possèdent une mémoire persistante.
Mémoire persistante et Intelligence de niveau humain
Mémoire persistante.
Ils peuvent se souvenir de choses et les récupérer en cas de besoin.
Les LLM ne peuvent-ils pas se souvenir de choses maintenant ?
Un LLM a deux types de mémoire. Le premier réside dans les paramètres ajustables, où il apprend les statistiques des mots mais ne peut pas régurgiter des romans entiers. Le second est le prompt de contexte, qui est très limité. Ce que l'on veut, c'est une mémoire similaire à l'hippocampe chez les mammifères, qui permet de se souvenir de choses pendant plus de 90 secondes.
Comment parvient-on à une intelligence de type humain ?
Le chemin consiste à découvrir de nouvelles architectures applicables à la vidéo afin que l'apprentissage auto-supervisé puisse être utilisé. Si un système peut prédire ce qui se passe dans une vidéo, il a compris la structure sous-jacente du monde.
L'architecture JEPA et le Système 2
À quoi pourrait ressembler cette architecture ?
Prédire chaque pixel d'une vidéo est impraticable. Ce que nous voulons, c'est un système capable de prédire ce qui va se passer afin de pouvoir planifier. Si j'ai un modèle du monde, je peux imaginer une séquence d'actions et prédire le résultat. C'est le raisonnement et la planification du Système 2. Daniel Kahneman a fait la distinction entre le Système 1, qui est subconscient et réactif, et le Système 2, qui est délibéré.
La mémoire sera-t-elle finalement la réponse ?
Nous avons plusieurs types de mémoire. L'hippocampe stocke la mémoire épisodique à long terme et à court terme. Le cortex effectue le calcul et lit dans cette mémoire, comme un processeur et de la RAM. Les LLM actuels n'ont pas de mémoire séparée. Pour apprendre du monde réel, nous avons besoin d'architectures qui ne se contentent pas de générer des pixels. Il y a cinq ans, nous avons conçu JEPA : Joint-Embedding Predictive Architecture.
J'ai regardé votre interview sur JEPA et je ne comprends toujours pas.
Au lieu de prédire des pixels, vous faites passer la vidéo par un encodeur pour produire une représentation abstraite. Vous entraînez ensuite un système à effectuer la prédiction dans cet espace de représentations, où les détails imprévisibles ont été éliminés.
Est-ce comme prédire demain ?
Oui, mais à un niveau abstrait. Vous pouvez prédire que vous reprendrez l'avion pour Bangalore, mais pas les détails exacts de la circulation. Plus vous prédisez loin dans le futur, plus la représentation est abstraite. Dans cinq à dix ans, nous aurons peut-être des systèmes capables de comprendre le monde à partir de vidéos et de planifier des séquences d'actions complexes. Nous pourrions atteindre l'intelligence de niveau humain d'ici une décennie, si tout se passe bien.
Vous pensez que l'intelligence de niveau humain est loin ?
L'avenir de l'IA et l'infrastructure en Inde
Je ne pense pas que ce soit si loin, peut-être d'ici une décennie. Mais nous ne pouvons pas simplement passer les LLM à l'échelle supérieure. Nous avons besoin de ces nouvelles architectures JEPA capables de planifier de manière hiérarchique et de réfléchir avant d'agir. Le Système 2 au lieu du Système 1.
Pour terminer la boucle des LLM : vous définissez un problème, trouvez un ensemble de données, nettoyez les données, entraînez le modèle, puis exécutez. Qu'est-ce qui va changer ici ?
Il y aura toujours un besoin de collecte et de filtrage des données pour conserver des données de haute qualité. C'est en fait une partie assez coûteuse de l'ensemble du processus. Mais je pense que ce qui va devoir se passer, c'est que les LLM sont actuellement entraînés avec une combinaison de textes accessibles publiquement sur Internet.
Les données accessibles publiquement sont biaisées. Une grande partie est en anglais. Nous avons besoin d'ensembles de données qui englobent toutes les langues et tous les systèmes de valeurs. Aucune entité unique ne peut faire cela ; il devra s'agir d'un projet collaboratif avec un entraînement distribué.
J'examinais une entreprise de centres de données. Est-ce que construire des centres de données en Inde est une bonne piste ?
Avoir une infrastructure informatique locale est très important. Cela permet d'avoir la capacité locale d'entraîner des modèles et offre un accès à bas coût à l'inférence. Le coût de l'inférence pour les LLM a été divisé par 100 en deux ans. L'inférence doit être très bon marché si vous voulez déployer largement des assistants IA en Inde.
Conseils pour les jeunes entrepreneurs et l'Open Source
En tant qu'Indien de 20 ans qui veut une carrière dans l'IA, que faisons-nous ?
J'espère que lorsque je serai diplômé, il y aura de bons programmes de doctorat en Inde.
En dehors du milieu universitaire ?
Les études supérieures vous forment à inventer de nouvelles choses et à utiliser une méthodologie qui vous empêche de vous tromper vous-même. Même si vous êtes entrepreneur, un master ou un doctorat est utile. Cela vous donne de la légitimité pour embaucher des gens talentueux et facilite la levée de fonds si vous avez publié de nouvelles techniques.
Que devrais-je construire qui ait une base capitaliste ?
Le modèle économique le plus probable est de prendre un modèle de base open-source comme Llama, puis de l'affiner pour une application verticale particulière et de devenir un expert dans ce secteur vertical.
Quel secteur vertical ? Bill Gates a dit de se concentrer sur le droit.
N'importe quel secteur.
Donnez-m'en trois.
En B2B : juridique, comptabilité, fintech et finance. Les systèmes d'information pour les données d'entreprises privées sont également excellents. Il y a beaucoup de travail pour les entreprises qui affinent des modèles pour des secteurs verticaux. Sur les marchés grand public : des assistants pour l'éducation ou la santé. Dans les zones rurales, des assistants IA parlant les langues locales ouvrent des applications dans l'agriculture.
De quoi bénéficierait un investisseur en investissant ?
Imaginez ce que sera le futur dans cinq ans.
Pouvez-vous décrire un futur dans cinq ans ?
Le monde sera dominé par les plateformes open-source, tout comme Linux aujourd'hui. L'open-source est plus portable, flexible et sécurisé.
Tout ce que nous faisons est en open-source.
Nous aurons des plateformes d'IA open-source qui ne seront pas contrôlées par une seule entreprise. Les moteurs propriétaires ne seront plus aussi importants parce que l'open-source rattrape son retard. Un moteur open-source affiné fonctionne mieux qu'un modèle générique non affiné.
Si tout est en open-source, quelle est la différenciation ?
Cela permet l'écosystème. Une startup a tout intérêt à affiner un moteur open-source plutôt qu'à utiliser une API. À terme, nous utiliserons des lunettes intelligentes comme interface principale.
Le format va-t-il bientôt passer du smartphone à d'autres appareils ?
Les lunettes intelligentes, presque aucun doute là-dessus.
L'impact sur l'emploi et la créativité humaine
Je les trouve utiles pour prendre des photos ou écouter de la musique, mais aussi pour la traduction. Que devient l'intelligence humaine quand l'IA effectue nos tâches actuelles ?
L'intelligence des gens se déplacera vers un ensemble différent de tâches. Nous nous concentrerons sur la décision de quoi faire plutôt que sur la manière de le faire. Nous allons tous être comme des gestionnaires de haut niveau, disant à nos systèmes d'IA ce qu'ils doivent accomplir.
Mais nous aurons besoin de moins de personnes pour dire à quelque chose d'efficace quoi faire. Qu'arrive-t-il à tous les autres ?
Tout le monde pourra déléguer des tâches. Nous nous concentrerons sur des tâches plus abstraites et créatives. Tout comme nous utilisons des calculatrices pour l'arithmétique, les machines s'occuperont d'autres compétences. Nous continuerons à aller à l'école et à nous instruire, mais la compétition entre humains se déplacera vers des domaines plus créatifs. Nous ne manquerons pas d'emplois car nous ne manquerons pas de problèmes.
Définition de l'intelligence et Conclusion
Pouvons-nous terminer en définissant ce qu'est réellement l'intelligence ?
L'intelligence est une combinaison de trois choses : posséder un ensemble de compétences issues de l'expérience, la capacité d'apprendre rapidement de nouvelles tâches, et la capacité 'zéro-shot' de résoudre de nouveaux problèmes à partir de rien en utilisant votre modèle mental.
Merci, Yann. J'adorerais assister à vos cours.
Mon cours sur le deep learning est entièrement disponible gratuitement sur YouTube.
J'ai l'impression qu'être devant vous et apprendre en personne a de la valeur. Merci beaucoup d'avoir fait cela.
Un vrai plaisir.
C'était amusant.
C'était amusant, oui.
Vous ne vous êtes pas ennuyé ?
Non. Vous avez demandé à un professeur de parler, c'est le métier. J'essaie de simplifier les concepts.
Beaucoup d'Indiens parlent d'IA, mais si peu d'entre nous comprennent réellement ce qui a conduit là où nous en sommes aujourd'hui.
C'est vrai dans le monde entier. En Inde, beaucoup de jeunes s'instruisent.
Nous voulions montrer aux gens comment nous en sommes arrivés là où nous en sommes aujourd'hui.
Cela aide à convaincre les gens qu'ils peuvent le faire. Je n'ai pas fréquenté d'école de l'Ivy League ou de programme de doctorat célèbre. J'étais en France à écrire des articles que personne ne lisait, mais j'ai réussi à faire quelque chose. Les gens me disent que cela les a aidés à se convaincre qu'ils pouvaient faire quelque chose d'impactant sans aller à Harvard ou au MIT.
Merci beaucoup.