Yann LeCun

L'évolution et le futur de l'IA avec Yann LeCun

27 novembre 2024

Intelligence Artificielle
Illustration de Yann LeCun

Introduction et parcours personnel

Nikhil Kamath

Je pensais que nous pourrions profiter d'aujourd'hui pour comprendre, premièrement, qu'est-ce que l'IA ? Comment en sommes-nous arrivés là ? Quelle est la suite probable ?

Nikhil Kamath

En tant qu'Indien de 20 ans qui souhaite créer une entreprise dans l'IA, faire carrière dans l'IA, que faisons-nous ?

Yann LeCun

Aujourd'hui ? Genre, tout de suite ?

Nikhil Kamath

Bonjour Yann, bonjour.

Yann LeCun

Bonjour Nikhil.

Nikhil Kamath

Merci de faire ceci.

Yann LeCun

Un plaisir.

Nikhil Kamath

La première chose que nous aimons faire est d'apprendre à vous connaître un peu plus et comment vous êtes devenu ce que vous êtes aujourd'hui. Pourriez-vous nous en dire un peu plus sur l'endroit où vous êtes né et où vous avez grandi jusqu'à aujourd'hui ?

Yann LeCun

J'ai grandi près de Paris, en banlieue. Mon père était ingénieur, et j'ai presque tout appris de lui. J'ai toujours été intéressé par la science et la technologie depuis que je suis tout petit et je me suis toujours vu devenir peut-être ingénieur. Je n'avais aucune idée de comment on devenait scientifique, mais je m'y suis intéressé par la suite.

Science vs Ingénierie et l'obsession de l'intelligence

Nikhil Kamath

Quelle est la différence entre un ingénieur et un scientifique ?

Yann LeCun

C'est très difficile à définir, et très souvent il faut être un peu des deux. Un scientifique essaie de comprendre le monde ; un ingénieur essaie de créer de nouvelles choses. Souvent, si vous voulez comprendre le monde, vous devez créer de nouvelles choses. Le progrès de la science est très lié au progrès de la technologie qui nous permet de collecter des données. L'invention du télescope a permis la découverte des planètes et le fait qu'elles tournent autour du soleil. Le microscope a ouvert la porte à toutes sortes de choses. La technologie permet la science, et pour le problème qui est mon obsession depuis longtemps — percer les mystères de l'intelligence — en tant qu'ingénieur, je pense que la seule façon d'y parvenir est de construire une machine intelligente. Il y a à la fois un aspect scientifique de compréhension de l'intelligence à un niveau théorique et un côté plus pratique. Les conséquences de la construction de machines intelligentes pourraient être vraiment importantes pour l'humanité.

Études et débuts dans la recherche

Nikhil Kamath

Et l'école à Paris, vous y avez étudié quoi ?

Yann LeCun

J'ai étudié le génie électrique, mais au fur et à mesure de mes études, je me suis davantage intéressé aux questions fondamentales en mathématiques, en physique et en IA. Je n'ai pas étudié l'informatique, bien qu'il y ait toujours eu des ordinateurs impliqués quand j'ai commencé à la fin des années 70. J'ai pu réaliser quelques projets indépendants avec des professeurs de mathématiques sur les questions d'IA et j'ai vraiment accroché à la recherche. Mon activité préférée est de construire, d'inventer et de comprendre de nouvelles choses d'une manière nouvelle.

Le terme 'Parrain de l'IA' et la collaboration scientifique

Nikhil Kamath

Quand quelqu'un dit 'Parrain de l'IA', qu'est-ce que cela vous fait ressentir ? Qu'en pensez-vous ?

Yann LeCun

Je n'aime pas particulièrement ce terme. Je vis dans le New Jersey, et 'Parrain' dans le New Jersey signifie que vous appartenez à la mafia. La science n'est jamais une quête individuelle. On progresse par la collision des idées de plusieurs personnes ; on émet des hypothèses et on essaie ensuite de montrer qu'elles sont correctes en démontrant que le modèle mental fonctionne ou en faisant de la théorie. Ce n'est pas une activité isolée. Il y a toujours beaucoup de gens qui ont contribué au progrès, mais à cause du fonctionnement du monde, nous ne nous souvenons que de quelques-uns. Je pense qu'une grande partie du mérite devrait revenir à plus de gens, c'est juste que nous n'avons pas une bonne mémoire pour attribuer le mérite à beaucoup de personnes.

L'enseignement à NYU et la célébrité scientifique

Nikhil Kamath

Qu'est-ce que ça fait d'être enseignant aujourd'hui, Yann ? Quand vous êtes à NYU, êtes-vous la célébrité ?

Yann LeCun

Au cours des dernières années, des étudiants sont venus me voir à la fin des cours pour prendre des selfies, donc il y a un peu de cela. Si vous êtes dans la même pièce que quelqu'un, il est important de rendre la session interactive ; sinon, ils peuvent simplement regarder une vidéo. C'est ce que j'essaie de faire, vraiment engager le dialogue avec les étudiants.

Nikhil Kamath

Pensez-vous qu'être un héros dans le milieu universitaire ou la recherche ressemble beaucoup à être un héros dans le sport ou l'entrepreneuriat, ou pensez-vous que c'est plus difficile ?

Yann LeCun

Je suis heureux du fait qu'il puisse y avoir des héros dans la science et le milieu universitaire.

Nikhil Kamath

On peut argumenter qu'il y avait Newton et Einstein et tous ces gens.

Yann LeCun

Newton n'était pas vraiment une figure publique, mais Einstein l'était certainement. Dans une certaine mesure, d'autres scientifiques étaient des célébrités mineures. Une partie de cela vient de la production scientifique, mais franchement, il y a beaucoup de gens qui ont apporté des contributions totalement inconnues, ce que je trouve triste. Les gens qui deviennent éminents dans les sciences et les technologies le font souvent non seulement à cause de la science qu'ils ont produite, mais aussi à cause de leurs prises de position publiques. Une chose qui me différencie des autres scientifiques, c'est que je suis présent sur les réseaux sociaux, je donne des conférences publiques et j'ai des opinions tranchées sur les questions techniques et politiques. Cela amplifie ma popularité ou mon impopularité. Dans certains cercles, je suis considéré comme un parfait idiot.

Les grands problèmes du monde et le rôle de l'IA

Nikhil Kamath

J'ai regardé beaucoup de vos interviews au cours du mois dernier. Si vous deviez énoncer trois problèmes du monde du point de vue de Yann, quels seraient-ils ?

Yann LeCun

En tant qu'officier de la science, vous essayez d'établir des modèles causaux. Il y a des effets que nous voyons, et la question est : quelle en est la cause ? Pour presque chaque problème que nous rencontrons, la cause est réellement un manque de connaissances ou d'intelligence de la part des humains. Nous faisons des erreurs parce que nous ne sommes pas assez intelligents pour comprendre que nous avons un problème, pour trouver des solutions ou pour nous organiser afin de trouver des solutions. Le changement climatique est un problème énorme, et bien qu'il y ait des problèmes politiques liés à l'organisation des gouvernements, il existe également des solutions technologiques potentielles. J'aimerais que nous soyons plus intelligents afin de pouvoir trouver des solutions plus rapidement.

Nikhil Kamath

Alors vous dites que les humains ne savent pas pourquoi nous faisons ce que nous faisons et que c'est là le problème ?

Yann LeCun

Je pense que les erreurs que nous commettons sont dues au fait que si nous étions plus intelligents et avions un meilleur modèle mental du fonctionnement du monde, nous pourrions mieux résoudre nos problèmes. Nous prendrions des décisions plus rationnelles. Le gros problème que je vois aujourd'hui, ce sont les gens qui ne sont pas intéressés par la recherche des faits ou par leur propre éducation, ou qui n'ont pas accès à l'information et à la connaissance. La meilleure chose que nous puissions faire est de rendre les gens plus intelligents. C'est la meilleure raison de travailler sur l'IA, car elle va amplifier l'intelligence humaine. C'est la clé pour résoudre nos problèmes.

Histoire de l'IA : Raisonnement et Optimisation

Nikhil Kamath

Pour introduire cette conversation, je ne connais pas assez la technologie mais j'ai beaucoup de curiosité. Beaucoup de gens qui nous regardent sont des entrepreneurs en herbe d'Inde qui ont entendu des conjectures autour de l'IA. Je pensais que nous pourrions profiter d'aujourd'hui pour comprendre : qu'est-ce que l'IA ? Comment en sommes-nous arrivés là ? Et quelle est la suite probable ? Devrions-nous commencer par : qu'est-ce que l'IA ?

Yann LeCun

Qu'est-ce que l'intelligence, au fond ? Dans l'histoire de l'IA, le problème de savoir ce qu'est l'IA ressemble à l'histoire des aveugles avec l'éléphant. Il y a différents aspects de l'intelligence, et les gens ont abordé une vision tout en ignorant les autres. Un premier aspect abordé dans les années 1950 était le raisonnement. Comment raisonnons-nous logiquement ou cherchons-nous des solutions ? Dans les années 50, les gens ont compris que chaque problème de raisonnement peut être formulé en termes de recherche d'une solution. Par exemple, le problème du voyageur de commerce. Tout problème de raisonnement peut être réduit à ce type. En mathématiques, nous appelons cela l'optimisation : vous cherchez une solution qui minimise un nombre.

Nikhil Kamath

Alors, trouver des solutions est-il lié à l'intelligence ? Si vous me demandiez ce qu'est l'intelligence, je serais sans voix.

L'analogie de l'éléphant et les branches de l'IA

Yann LeCun

Cela nous ramène à l'analogie de l'éléphant.

Nikhil Kamath

Pouvez-vous expliquer l'analogie de l'éléphant ?

Yann LeCun

Les aveugles touchent différentes parties de l'éléphant et personne n'a une vision complète. L'intelligence en tant que recherche n'est qu'un petit morceau de l'éléphant. Dans les années 50, une branche de l'IA ne s'occupait que de cela, et elle a été dominante jusqu'aux années 1990. Cela inclut la planification, comme l'organisation de l'empilement d'objets ou la planification de la trajectoire d'un bras robotisé. Cette partie de l'IA ignorait totalement la perception, comme la façon dont nous comprenons le monde ou reconnaissons les objets. Il y avait une autre branche de l'IA commencée dans les années 50 qui tentait de reproduire les mécanismes de l'intelligence observés en biologie. L'idée est que l'intelligence est un phénomène émergent de réseaux d'éléments simples connectés les uns aux autres. L'apprentissage vient de la modification de la force des connexions entre les neurones.

Apprentissage, Perception et Heuristiques

Nikhil Kamath

Donc vous dites que l'intelligence était en grande partie la capacité à résoudre un certain problème.

Yann LeCun

C'est la première vision. La seconde est la capacité d'apprendre. La branche de l'apprentissage a connu du succès au début des années 60 mais s'est éteinte à la fin des années 60 parce que les procédures d'apprentissage étaient extrêmement limitées. Mais cela a eu des conséquences dans des domaines de l'ingénierie comme la reconnaissance de formes.

Nikhil Kamath

Donc vous dites maintenant que l'intelligence est aussi la capacité d'un système à apprendre ?

Yann LeCun

Apprendre pour des choses comme la perception, l'interprétation d'images et de sons. Les ordinateurs utilisaient la programmation heuristique parce qu'on ne peut jamais chercher de manière exhaustive toutes les solutions. Aux échecs, on ne peut pas explorer tous les coups possibles jusqu'à la fin de la partie, on utilise donc des heuristiques pour ne pas parcourir tout l'arbre des possibilités.

Nikhil Kamath

Donc dans l'IA heuristique, vous auriez une entrée utilisateur, un ensemble de règles et une recherche arborescente qui exécuterait des fonctions du type 'si ceci alors cela' pour arriver à un état final.

Systèmes experts vs Approche biologique

Yann LeCun

Le programme serait écrit par une personne, et la qualité dépendrait de l'intelligence du système à chercher une bonne solution. Une approche différente est basée sur la logique utilisant des règles et des faits pour déduire de nouveaux faits. Cela a conduit aux systèmes experts ou aux systèmes à base de règles dans les années 1980. En parallèle, il y a l'approche ascendante qui s'inspire de l'intelligence biologique.

Nikhil Kamath

Et comment feriez-vous cela ?

Yann LeCun

C'est basé sur l'idée que l'apprentissage procède par la modification de la force des connexions entre les neurones. D'abord, il y a eu l'idée que les neurones étaient des éléments de calcul simples, avec des propositions dans les années 1940 par des mathématiciens comme McCulloch et Pitts. Dans les années 50 et 60, des gens ont proposé des algorithmes simples pour changer la force des connexions. La première machine fut le perceptron en 1957. Pour reconnaître des formes, une image est un tableau de nombres. Un pixel noir et blanc est 0 ou 1. On entraîne le système à distinguer des formes comme le C du D. La sortie est une somme pondérée des valeurs des pixels. Si la somme pondérée est supérieure à un seuil, c'est un C ; si elle est inférieure, c'est un D.

Le Perceptron et les débuts des réseaux de neurones

Nikhil Kamath

C'était quelle époque ? Quelle année ?

Yann LeCun

1957. L'entraînement consiste à changer la valeur de ces poids. On montre un C et le système calcule la somme. Si le système fait une erreur, on lui dit que la sortie devrait être plus grande. Le système augmente alors les poids qui correspondent à une valeur de pixel de 1. Si vous continuez ainsi, le système finira par reconnaître le C.

Nikhil Kamath

Et à quoi cela nous servait-il dans les années 50 et 60 ?

Yann LeCun

Rien de pratique à part reconnaître des formes simples. On répète l'affichage d'un C et d'un D, en augmentant ou diminuant la somme, jusqu'à ce que le système se stabilise sur des poids qui différencient les deux.

Nikhil Kamath

Nous avions donc l'IA heuristique, l'IA experte et l'IA d'inspiration biologique, le tout dans les années 50 et 60 ?

Yann LeCun

Oui. Deux branches différentes étaient en compétition. Marvin Minsky, professeur au MIT, était une figure éminente.

Le débat avec Marvin Minsky

Nikhil Kamath

Je me souviens avoir lu quelque chose sur une clause ou un débat concernant Marvin.

Yann LeCun

Il avait des opinions tranchées. Il a commencé son doctorat dans les années 50 en construisant des réseaux de neurones, mais il a changé d'avis et est devenu un fervent défenseur de l'approche basée sur la logique. Au milieu des années 60, il a co-écrit un livre intitulé 'Perceptrons' pour montrer que leurs capacités étaient limitées. Les gens qui travaillaient sur les réseaux de neurones ont continué d'y travailler mais ont changé le nom en reconnaissance de formes statistique ou théorie des filtres adaptatifs. Celles-ci ont eu d'énormes applications.

Applications financières et Apprentissage supervisé

Nikhil Kamath

Dans mon monde de la finance, les gestionnaires de fonds ont toujours tenté d'injecter des données dans un réseau de neurones pour reconnaître des schémas. Est-ce la même chose, une évolution des années 50 ?

Yann LeCun

Absolument. Le processus de modification des coefficients pour obtenir une sortie souhaitée est très similaire à la régression linéaire.

Nikhil Kamath

Mais j'ai réalisé qu'il est facile d'ajuster les données rétrospectivement pour donner l'impression que quelque chose a du sens, mais l'activité financière est si aléatoire que je ne sais pas si l'on peut construire un modèle basé là-dessus.

Yann LeCun

Quand on entraîne un système de cette façon, le principe générique est l'apprentissage supervisé. On donne une entrée, il produit une sortie, et si ce n'est pas celle qu'on veut, on ajuste les coefficients. Si on fait cela sur des milliards d'exemples, le système finira par comprendre. Le problème du perceptron était que les fonctions entrée-sortie auxquelles il avait accès étaient très limitées. Il n'était pas assez puissant pour dire s'il y avait un chien ou un chat sur une photo. C'est ce que les réseaux de neurones et le deep learning ont changé dans les années 1980.

Hiérarchie de l'IA : Machine Learning et Deep Learning

Nikhil Kamath

Avant d'en venir aux réseaux de neurones, diriez-vous qu'il y a l'intelligence artificielle au sommet, puis le machine learning, et que les réseaux de neurones font partie du machine learning ?

Yann LeCun

L'IA est plus un problème qu'une solution. Il y a la 'bonne vieille IA' (GOFAI) utilisant la logique et la recherche. Ensuite, il y a le machine learning, où l'on entraîne une machine à partir de données. À l'intérieur de celui-ci se trouve le deep learning, qui est le nouveau nom pour les réseaux de neurones. En dessous se trouvent les domaines d'application comme la vision par ordinateur, la reconnaissance vocale et la compréhension du langage naturel.

Nikhil Kamath

Pouvez-vous définir la GOFAI en une seule ligne simple ?

Yann LeCun

La GOFAI est le descendant de la recherche de solutions, basée sur l'idée que le raisonnement est avant tout une affaire de recherche.

Nikhil Kamath

Vous voulez dire des systèmes à base de règles avec des entrées et des sorties basées sur la règle qui s'applique ?

Yann LeCun

Oui, tout système à base de règles ou tout ce qui utilise l'inférence logique est de la bonne vieille intelligence artificielle.

Types d'apprentissage : Supervisé, Renforcement et Auto-supervisé

Nikhil Kamath

Et sous le machine learning, quels sont les différents types ?

Yann LeCun

Il y a le machine learning traditionnel dérivé de l'estimation statistique, comme la régression linéaire, le boosting et les machines à vecteurs de support. Ces méthodes ont des paramètres ajustables, et on entraîne le système à partir de données par ajustement itératif.

Nikhil Kamath

Le machine learning est donc supervisé ?

Yann LeCun

C'est l'apprentissage supervisé. Une autre forme est l'apprentissage par renforcement, où l'on ne donne pas au système la bonne réponse, on lui dit simplement si la réponse qu'il a produite était bonne ou mauvaise.

Nikhil Kamath

Et que se passe-t-il ensuite ? Que fais-je de cette information ?

Yann LeCun

Si votre réponse était mauvaise, vous devez déterminer quelle réponse parmi toutes les possibles serait meilleure. Vous essayez une autre réponse, et si elle est meilleure, vous mettez l'accent sur celle-là en ajustant les paramètres.

Nikhil Kamath

Alors, qu'est-ce que l'apprentissage auto-supervisé ?

Yann LeCun

L'apprentissage auto-supervisé est devenu très important ces dernières années et constitue la principale contribution au succès des chatbots et des systèmes de compréhension du langage naturel.

Nikhil Kamath

Ils ne relèvent pas de l'apprentissage par renforcement ?

Yann LeCun

Non, c'est plus similaire à l'apprentissage supervisé. La différence est qu'au lieu d'une entrée et d'une sortie claires, vous avez des choses qui peuvent être les deux. Vous prenez un morceau de texte et supprimez certains mots, puis vous entraînez la machine à prédire les mots qui manquent.

Nikhil Kamath

Et c'est un exemple d'apprentissage supervisé ?

Yann LeCun

C'est de l'auto-supervisé parce qu'il n'y a pas de différenciation entre l'entrée et la sortie. Si l'entrée est une image, on transforme l'image et on entraîne le système à récupérer l'originale. On n'a pas besoin d'un humain pour étiqueter des millions d'images. Il comprend la structure interne de l'entrée en remplissant les blancs.

Fonctionnement des LLM et Transformers

Nikhil Kamath

Si j'ai 10 lignes de texte et que j'en retire une partie, je dis ensuite au modèle de la compléter. Est-ce que je donne aussi la réponse au modèle ?

Yann LeCun

Oui.

Nikhil Kamath

Voulez-vous dire que je dis au modèle : 'Arrive à la réponse que j'ai retirée, et je te dis que c'était cela la réponse' ?

Yann LeCun

Oui, vous lui dites pendant l'entraînement afin que le système puisse ajuster ses paramètres. La différence réside dans la structure et la façon dont les données sont utilisées. Les grands modèles de langage (LLM) sont un cas particulier où l'on entraîne un système à prédire un mot en ne regardant que les mots précédents. En dessous se trouvent des neurones simulés qui calculent des fonctions mathématiques simples. Dans les architectures transformer, ils consistent à comparer les entrées les unes aux autres et à produire des poids.

Nikhil Kamath

Qu'est-ce qu'un transformer, Yann ?

Architectures : Réseaux convolutifs et Transformers

Yann LeCun

Il existe plusieurs composants architecturaux pour construire un réseau de neurones. Un réseau à une seule couche peut distinguer des formes simples, mais il ne fonctionnera pas pour l'écriture manuscrite car il y a trop de variabilité. La percée des années 1980 a consisté à empiler plusieurs couches de neurones. Chaque neurone calcule une somme pondérée et la fait passer par une fonction de seuil non linéaire. Le système apprend par rétropropagation, en ajustant les paramètres pour que la sortie se rapproche de celle que vous souhaitez. Cette vague d'intérêt a duré jusqu'à ce que les gens réalisent qu'ils avaient besoin de plus de données et d'ordinateurs plus rapides. Une chose sur laquelle j'ai travaillé consistait à connecter les neurones en couches biaisées vers la recherche de bonnes solutions pour la reconnaissance d'images. C'est ce qu'on appelle un réseau de neurones convolutif ou ConvNet.

Nikhil Kamath

Dans le machine learning, la voie populaire en ce moment est l'auto-supervisée, comme ChatGPT. Que se passe-t-il dans l'apprentissage par renforcement ?

Yann LeCun

Plus tant que ça. Il y a eu un intérêt il y a une douzaine d'années, et des entreprises comme DeepMind pensaient que l'apprentissage par renforcement était la clé pour construire des machines intelligentes.

Nikhil Kamath

Pouvez-vous définir l'apprentissage par renforcement encore une fois ?

Yann LeCun

L'apprentissage par renforcement consiste à simplement dire au système si la réponse qu'il a produite était bonne ou mauvaise. C'est inefficace parce que le système doit essayer beaucoup de choses. Cela fonctionne bien pour des jeux comme les échecs ou le Go, car le système peut jouer des millions de parties contre lui-même et renforcer les politiques gagnantes.

Nikhil Kamath

Et qu'avez-vous dit qu'était un transformer ?

Yann LeCun

Les ConvNets sont bons pour les données naturelles comme les images où les valeurs proches sont similaires. Chaque neurone regarde une petite zone et ils font tous la même chose. Un transformer est une façon différente d'agencer les neurones où les entrées sont appelées des jetons (tokens). Si vous permutez les entrées, la sortie sera permutée de manière similaire mais restera inchangée par ailleurs. Il voit les entrées comme un ensemble où l'ordre n'a pas d'importance.

Nikhil Kamath

Quand vous dites 'inchangée par ailleurs', vous voulez dire ?

Yann LeCun

Je veux dire que si vous donnez un groupe de jetons, vous obtenez un groupe de jetons de sortie. Si vous inversez les jetons d'entrée, le résultat est le même mais inversé exactement de la même manière. Lorsque vous construisez un réseau de neurones, vous combinez des composants comme des convolutions et des blocs transformer pour obtenir les propriétés que vous souhaitez.

Nikhil Kamath

Qu'est-ce qu'une convolution, Yann ?

Yann LeCun

Dans un réseau de neurones convolutif, vous avez des neurones qui regardent différentes parties de l'entrée mais calculent la même fonction. Si vous décalez l'entrée, la sortie est la même mais décalée. C'est ce qui vous donne l'équivariance de décalage.

Définition d'un neurone artificiel

Nikhil Kamath

Quand vous dites 'neurone', pouvez-vous expliquer ce terme ?

Yann LeCun

C'est un abus de langage parce que ce ne sont pas vraiment des neurones biologiques. Ils sont aux vrais neurones ce qu'une aile d'avion est à une aile d'oiseau. Un neurone dans un réseau de neurones calcule une somme pondérée de ses entrées et active la sortie si elle est au-dessus d'un seuil. C'est une combinaison d'une opération linéaire avec des coefficients ajustables et d'une fonction non linéaire.

Modèles de langage et Théorie de l'information

Nikhil Kamath

Nous n'avons pas pu trouver de bonne définition pour un 'modèle de langage à réseau de neurones' et son fonctionnement en termes simples.

Yann LeCun

L'idée remonte à Claude Shannon dans les années 1940. Il a inventé la théorie de l'information et a découvert une structure dans les données. Il a conçu un système où l'on prédit la lettre suivante. En anglais, si la dernière lettre est un Q, la suivante est très probablement un U. On peut construire un tableau de la probabilité pour chaque lettre suivante possible.

Nikhil Kamath

Est-ce de là que vient le mot 'génératif' ?

Yann LeCun

Oui, car vous pouvez l'utiliser pour générer du texte. Vous commencez par une lettre et choisissez la suivante la plus probable. Si vous prenez un contexte de trois lettres, cela devient plus lisible. Mais la taille du tableau dont vous avez besoin augmente de façon exponentielle. C'est ce qu'on appelle un modèle N-gramme. Cela devient impraticable au niveau des mots parce que le tableau est gigantesque.

Nikhil Kamath

À cause de la puissance de calcul requise ?

L'émergence des LLM autorégressifs

Yann LeCun

C'est aussi la mémoire et le fait que la plupart des combinaisons de mots n'apparaissent pas. À la fin des années 90, Yoshua Bengio a eu l'idée d'utiliser un réseau de neurones pour cette prédiction. Il a démontré que cela pouvait fonctionner. Plus récemment, l'utilisation d'architectures transformer entraînées sur tous les textes disponibles publiquement a montré des propriétés émergentes. Ces systèmes peuvent répondre à des questions et stocker des connaissances. C'est principalement de la récupération avec un tout petit peu de raisonnement, mais c'est surprenant de voir à quel point ils manipulent bien le langage, capturant la grammaire dans plusieurs langues.

Nikhil Kamath

Donc pour récapituler : l'IA est au sommet, le machine learning est en dessous, et sous celui-ci se trouvent les réseaux de neurones comme l'apprentissage par renforcement ou les modèles auto-supervisés comme ChatGPT.

Yann LeCun

LLM autorégressif est le nom qu'ils devraient porter.

Nikhil Kamath

LLM autorégressif.

Yann LeCun

L'IA est au sommet. Le machine learning est une approche de l'IA. En dessous se trouve le deep learning, qui est le fondement de toute l'IA aujourd'hui. Sous celui-ci se trouvent des familles d'architectures comme les ConvNets et les transformers. Les LLM autorégressifs sont une sous-catégorie de transformers entraînés à prédire le mot suivant. On lui fait produire un mot, puis on réinjecte ce mot dans l'entrée pour générer le suivant. C'est la prédiction autorégressive.

Nikhil Kamath

Et ceux-ci fonctionnent mieux pour le texte mais pas pour les images ou les vidéos ?

Les limites des LLM et le défi de la vidéo

Yann LeCun

C'est exact. Le texte est discret ; il y a un nombre fini de mots dans le dictionnaire. Si vous pouvez discrétiser votre signal, vous pouvez utiliser ces systèmes de prédiction. Mais si vous voulez prédire une image vidéo avec un million de pixels, le nombre de possibilités est essentiellement infini. Nous ne savons pas comment représenter une distribution de probabilité là-dessus.

Nikhil Kamath

Mais c'est ce qui excite tout le monde.

Yann LeCun

C'est le prochain défi : construire des systèmes capables d'apprendre comment le monde fonctionne en regardant des vidéos.

Nikhil Kamath

Où se situe l'apprentissage à partir de vidéos et d'images dans cette équation ?

Yann LeCun

C'est complètement différent des LLM, c'est pourquoi j'ai dit que les LLM ne sont pas la voie vers l'intelligence de niveau humain. Les LLM fonctionnent pour des mondes discrets, pas continus. Ils ne comprennent pas le monde physique. Ils peuvent faire des erreurs stupides parce qu'ils ne comprennent pas la réalité sous-jacente. Les LLM les plus intelligents ne sont pas aussi intelligents qu'un chat domestique. Le défi est de construire des systèmes qui comprennent le monde physique et possèdent une mémoire persistante.

Mémoire persistante et Intelligence de niveau humain

Nikhil Kamath

Mémoire persistante.

Yann LeCun

Ils peuvent se souvenir de choses et les récupérer en cas de besoin.

Nikhil Kamath

Les LLM ne peuvent-ils pas se souvenir de choses maintenant ?

Yann LeCun

Un LLM a deux types de mémoire. Le premier réside dans les paramètres ajustables, où il apprend les statistiques des mots mais ne peut pas régurgiter des romans entiers. Le second est le prompt de contexte, qui est très limité. Ce que l'on veut, c'est une mémoire similaire à l'hippocampe chez les mammifères, qui permet de se souvenir de choses pendant plus de 90 secondes.

Nikhil Kamath

Comment parvient-on à une intelligence de type humain ?

Yann LeCun

Le chemin consiste à découvrir de nouvelles architectures applicables à la vidéo afin que l'apprentissage auto-supervisé puisse être utilisé. Si un système peut prédire ce qui se passe dans une vidéo, il a compris la structure sous-jacente du monde.

L'architecture JEPA et le Système 2

Nikhil Kamath

À quoi pourrait ressembler cette architecture ?

Yann LeCun

Prédire chaque pixel d'une vidéo est impraticable. Ce que nous voulons, c'est un système capable de prédire ce qui va se passer afin de pouvoir planifier. Si j'ai un modèle du monde, je peux imaginer une séquence d'actions et prédire le résultat. C'est le raisonnement et la planification du Système 2. Daniel Kahneman a fait la distinction entre le Système 1, qui est subconscient et réactif, et le Système 2, qui est délibéré.

Nikhil Kamath

La mémoire sera-t-elle finalement la réponse ?

Yann LeCun

Nous avons plusieurs types de mémoire. L'hippocampe stocke la mémoire épisodique à long terme et à court terme. Le cortex effectue le calcul et lit dans cette mémoire, comme un processeur et de la RAM. Les LLM actuels n'ont pas de mémoire séparée. Pour apprendre du monde réel, nous avons besoin d'architectures qui ne se contentent pas de générer des pixels. Il y a cinq ans, nous avons conçu JEPA : Joint-Embedding Predictive Architecture.

Nikhil Kamath

J'ai regardé votre interview sur JEPA et je ne comprends toujours pas.

Yann LeCun

Au lieu de prédire des pixels, vous faites passer la vidéo par un encodeur pour produire une représentation abstraite. Vous entraînez ensuite un système à effectuer la prédiction dans cet espace de représentations, où les détails imprévisibles ont été éliminés.

Nikhil Kamath

Est-ce comme prédire demain ?

Yann LeCun

Oui, mais à un niveau abstrait. Vous pouvez prédire que vous reprendrez l'avion pour Bangalore, mais pas les détails exacts de la circulation. Plus vous prédisez loin dans le futur, plus la représentation est abstraite. Dans cinq à dix ans, nous aurons peut-être des systèmes capables de comprendre le monde à partir de vidéos et de planifier des séquences d'actions complexes. Nous pourrions atteindre l'intelligence de niveau humain d'ici une décennie, si tout se passe bien.

Nikhil Kamath

Vous pensez que l'intelligence de niveau humain est loin ?

L'avenir de l'IA et l'infrastructure en Inde

Yann LeCun

Je ne pense pas que ce soit si loin, peut-être d'ici une décennie. Mais nous ne pouvons pas simplement passer les LLM à l'échelle supérieure. Nous avons besoin de ces nouvelles architectures JEPA capables de planifier de manière hiérarchique et de réfléchir avant d'agir. Le Système 2 au lieu du Système 1.

Nikhil Kamath

Pour terminer la boucle des LLM : vous définissez un problème, trouvez un ensemble de données, nettoyez les données, entraînez le modèle, puis exécutez. Qu'est-ce qui va changer ici ?

Yann LeCun

Il y aura toujours un besoin de collecte et de filtrage des données pour conserver des données de haute qualité. C'est en fait une partie assez coûteuse de l'ensemble du processus. Mais je pense que ce qui va devoir se passer, c'est que les LLM sont actuellement entraînés avec une combinaison de textes accessibles publiquement sur Internet.

Yann LeCun

Les données accessibles publiquement sont biaisées. Une grande partie est en anglais. Nous avons besoin d'ensembles de données qui englobent toutes les langues et tous les systèmes de valeurs. Aucune entité unique ne peut faire cela ; il devra s'agir d'un projet collaboratif avec un entraînement distribué.

Nikhil Kamath

J'examinais une entreprise de centres de données. Est-ce que construire des centres de données en Inde est une bonne piste ?

Yann LeCun

Avoir une infrastructure informatique locale est très important. Cela permet d'avoir la capacité locale d'entraîner des modèles et offre un accès à bas coût à l'inférence. Le coût de l'inférence pour les LLM a été divisé par 100 en deux ans. L'inférence doit être très bon marché si vous voulez déployer largement des assistants IA en Inde.

Conseils pour les jeunes entrepreneurs et l'Open Source

Nikhil Kamath

En tant qu'Indien de 20 ans qui veut une carrière dans l'IA, que faisons-nous ?

Yann LeCun

J'espère que lorsque je serai diplômé, il y aura de bons programmes de doctorat en Inde.

Nikhil Kamath

En dehors du milieu universitaire ?

Yann LeCun

Les études supérieures vous forment à inventer de nouvelles choses et à utiliser une méthodologie qui vous empêche de vous tromper vous-même. Même si vous êtes entrepreneur, un master ou un doctorat est utile. Cela vous donne de la légitimité pour embaucher des gens talentueux et facilite la levée de fonds si vous avez publié de nouvelles techniques.

Nikhil Kamath

Que devrais-je construire qui ait une base capitaliste ?

Yann LeCun

Le modèle économique le plus probable est de prendre un modèle de base open-source comme Llama, puis de l'affiner pour une application verticale particulière et de devenir un expert dans ce secteur vertical.

Nikhil Kamath

Quel secteur vertical ? Bill Gates a dit de se concentrer sur le droit.

Yann LeCun

N'importe quel secteur.

Nikhil Kamath

Donnez-m'en trois.

Yann LeCun

En B2B : juridique, comptabilité, fintech et finance. Les systèmes d'information pour les données d'entreprises privées sont également excellents. Il y a beaucoup de travail pour les entreprises qui affinent des modèles pour des secteurs verticaux. Sur les marchés grand public : des assistants pour l'éducation ou la santé. Dans les zones rurales, des assistants IA parlant les langues locales ouvrent des applications dans l'agriculture.

Nikhil Kamath

De quoi bénéficierait un investisseur en investissant ?

Yann LeCun

Imaginez ce que sera le futur dans cinq ans.

Nikhil Kamath

Pouvez-vous décrire un futur dans cinq ans ?

Yann LeCun

Le monde sera dominé par les plateformes open-source, tout comme Linux aujourd'hui. L'open-source est plus portable, flexible et sécurisé.

Nikhil Kamath

Tout ce que nous faisons est en open-source.

Yann LeCun

Nous aurons des plateformes d'IA open-source qui ne seront pas contrôlées par une seule entreprise. Les moteurs propriétaires ne seront plus aussi importants parce que l'open-source rattrape son retard. Un moteur open-source affiné fonctionne mieux qu'un modèle générique non affiné.

Nikhil Kamath

Si tout est en open-source, quelle est la différenciation ?

Yann LeCun

Cela permet l'écosystème. Une startup a tout intérêt à affiner un moteur open-source plutôt qu'à utiliser une API. À terme, nous utiliserons des lunettes intelligentes comme interface principale.

Nikhil Kamath

Le format va-t-il bientôt passer du smartphone à d'autres appareils ?

Yann LeCun

Les lunettes intelligentes, presque aucun doute là-dessus.

L'impact sur l'emploi et la créativité humaine

Yann LeCun

Je les trouve utiles pour prendre des photos ou écouter de la musique, mais aussi pour la traduction. Que devient l'intelligence humaine quand l'IA effectue nos tâches actuelles ?

Yann LeCun

L'intelligence des gens se déplacera vers un ensemble différent de tâches. Nous nous concentrerons sur la décision de quoi faire plutôt que sur la manière de le faire. Nous allons tous être comme des gestionnaires de haut niveau, disant à nos systèmes d'IA ce qu'ils doivent accomplir.

Nikhil Kamath

Mais nous aurons besoin de moins de personnes pour dire à quelque chose d'efficace quoi faire. Qu'arrive-t-il à tous les autres ?

Yann LeCun

Tout le monde pourra déléguer des tâches. Nous nous concentrerons sur des tâches plus abstraites et créatives. Tout comme nous utilisons des calculatrices pour l'arithmétique, les machines s'occuperont d'autres compétences. Nous continuerons à aller à l'école et à nous instruire, mais la compétition entre humains se déplacera vers des domaines plus créatifs. Nous ne manquerons pas d'emplois car nous ne manquerons pas de problèmes.

Définition de l'intelligence et Conclusion

Nikhil Kamath

Pouvons-nous terminer en définissant ce qu'est réellement l'intelligence ?

Yann LeCun

L'intelligence est une combinaison de trois choses : posséder un ensemble de compétences issues de l'expérience, la capacité d'apprendre rapidement de nouvelles tâches, et la capacité 'zéro-shot' de résoudre de nouveaux problèmes à partir de rien en utilisant votre modèle mental.

Nikhil Kamath

Merci, Yann. J'adorerais assister à vos cours.

Yann LeCun

Mon cours sur le deep learning est entièrement disponible gratuitement sur YouTube.

Nikhil Kamath

J'ai l'impression qu'être devant vous et apprendre en personne a de la valeur. Merci beaucoup d'avoir fait cela.

Yann LeCun

Un vrai plaisir.

Nikhil Kamath

C'était amusant.

Yann LeCun

C'était amusant, oui.

Nikhil Kamath

Vous ne vous êtes pas ennuyé ?

Yann LeCun

Non. Vous avez demandé à un professeur de parler, c'est le métier. J'essaie de simplifier les concepts.

Nikhil Kamath

Beaucoup d'Indiens parlent d'IA, mais si peu d'entre nous comprennent réellement ce qui a conduit là où nous en sommes aujourd'hui.

Yann LeCun

C'est vrai dans le monde entier. En Inde, beaucoup de jeunes s'instruisent.

Nikhil Kamath

Nous voulions montrer aux gens comment nous en sommes arrivés là où nous en sommes aujourd'hui.

Yann LeCun

Cela aide à convaincre les gens qu'ils peuvent le faire. Je n'ai pas fréquenté d'école de l'Ivy League ou de programme de doctorat célèbre. J'étais en France à écrire des articles que personne ne lisait, mais j'ai réussi à faire quelque chose. Les gens me disent que cela les a aidés à se convaincre qu'ils pouvaient faire quelque chose d'impactant sans aller à Harvard ou au MIT.

Nikhil Kamath

Merci beaucoup.