Entretien avec Geoffrey Hinton : L'évolution de l'IA et le fonctionnement du cerveau
20 mai 2024
Intelligence Artificielle
Introduction et atmosphère à Carnegie Mellon
Avez-vous beaucoup réfléchi à la manière de sélectionner les talents, ou cela a-t-il été principalement intuitif pour vous ? Ilya arrive et vous vous dites : « C'est un gars brillant. Travaillons ensemble. » Ou y avez-vous beaucoup réfléchi ?
Est-ce que nous enregistrons ?
On lance l'enregistrement ?
Ouais, lançons-le.
D'accord.
Je me souviens quand je suis arrivé pour la première fois à Carnegie Mellon en provenance d'Angleterre. En Angleterre, dans une unité de recherche, à 18h00, tout le monde allait boire un verre au pub. À Carnegie Mellon, je me souviens qu'après y avoir passé quelques semaines, c'était un samedi soir. Je n'avais pas encore d'amis et je ne savais pas quoi faire. J'ai donc décidé d'aller au labo et de faire de la programmation, parce que j'avais une machine Lisp et qu'on ne pouvait pas la programmer de chez soi. Je suis donc allé au labo vers 21h00 un samedi soir, et c'était en pleine effervescence ! Tous les étudiants étaient là. Et ils étaient tous là parce que ce sur quoi ils travaillaient, c'était l'avenir. Ils croyaient tous que ce qu'ils allaient faire ensuite changerait le cours de l'informatique. C'était tout simplement si différent de l'Angleterre. C'était donc très rafraîchissant.
Déceptions académiques et passage à l'IA
Ramenez-moi au tout début. Geoff à Cambridge, essayant de comprendre le cerveau. C'était comment ?
C'était très décevant. J'ai fait de la physiologie, et au trimestre d'été, ils allaient nous enseigner comment le cerveau fonctionnait. Tout ce qu'ils nous ont appris, c'est comment les neurones conduisent les potentiels d'action, ce qui est très intéressant, mais cela ne vous dit pas comment le cerveau fonctionne. C'était donc extrêmement décevant. Je suis passé à la philosophie à ce moment-là. Je pensais que peut-être ils nous diraient comment l'esprit fonctionnait. C'était très décevant. J'ai fini par aller à Édimbourg pour faire de l'IA, et c'était plus intéressant. Au moins, on pouvait simuler des choses, donc on pouvait tester des théories.
L'influence de Hebb et von Neumann
Et vous souvenez-vous de ce qui vous a intrigué dans l'IA ? Était-ce un article ? Une personne en particulier qui vous a exposé à ces idées ?
Je suppose que c'est un livre de Donald Hebb que j'ai lu qui m'a beaucoup influencé. Il s'intéressait beaucoup à la manière dont on apprend la force des connexions dans les réseaux de neurones. J'ai aussi lu un livre de John von Neumann très tôt, qui s'intéressait beaucoup à la manière dont le cerveau calcule et à sa différence avec les ordinateurs normaux.
L'intuition d'un cerveau apprenant
Et aviez-vous acquis la conviction que ces idées fonctionneraient à ce moment-là, ou quelle était votre intuition à l'époque d'Édimbourg ?
Il me semblait qu'il devait y avoir un moyen pour que le cerveau apprenne, et ce n'est manifestement pas en y programmant toutes sortes de choses et en utilisant des règles logiques d'inférence. Cela m'a semblé fou dès le départ. Nous devions donc comprendre comment le cerveau apprenait à modifier les connexions dans un réseau de neurones afin de pouvoir faire des choses compliquées. Et von Neumann y croyait, Turing y croyait. Donc von Neumann et Turing étaient tous deux assez doués en logique, mais ils ne croyaient pas en cette approche logique.
Inspiration des neurosciences
Et quelle était votre répartition entre l'étude des idées issues des neurosciences et le simple fait de concevoir ce qui semblait être de bons algorithmes pour l'IA ? Quelle part d'inspiration avez-vous puisée au début ?
Je n'ai jamais fait énormément d'études en neurosciences. J'ai toujours été inspiré par ce que j'avais appris sur le fonctionnement du cerveau : il y a un ensemble de neurones, ils effectuent des opérations relativement simples, ils sont non linéaires, mais ils collectent des entrées, ils les pondèrent, puis ils donnent une sortie qui dépend de cette entrée pondérée. Et la question est : comment changer ces poids pour que l'ensemble fasse quelque chose de bien ? Cela semble être une question assez simple.
Collaborations et origine des 'couches cachées'
De quelles collaborations vous souvenez-vous de cette époque ?
La principale collaboration que j'ai eue à Carnegie Mellon était avec quelqu'un qui n'était pas à Carnegie Mellon. J'interagissais beaucoup avec Terry Sejnowski, qui était à Baltimore, à Johns Hopkins. Environ une fois par mois, soit il conduisait jusqu'à Pittsburgh, soit je conduisais jusqu'à Baltimore — c'est à 400 kilomètres — et nous passions un week-end ensemble à travailler sur les machines de Boltzmann. C'était une collaboration merveilleuse. Nous étions tous deux convaincus que c'était ainsi que le cerveau fonctionnait. C'est la recherche la plus passionnante que j'aie jamais faite. Beaucoup de résultats techniques très intéressants en sont sortis, mais je pense que ce n'est pas ainsi que le cerveau fonctionne. J'ai aussi eu une très bonne collaboration avec Peter Brown, qui était un très bon statisticien et travaillait sur la reconnaissance vocale chez IBM. Il est ensuite venu à Carnegie Mellon en tant qu'étudiant plus mûr juste pour obtenir un doctorat, mais il en savait déjà beaucoup. Il m'a beaucoup appris sur la parole et, en fait, m'a enseigné les modèles de Markov cachés. Je pense que j'ai plus appris de lui qu'il n'a appris de moi. C'est le genre d'étudiant que l'on veut. Et quand il m'a parlé des modèles de Markov cachés, je faisais de la rétropropagation avec des couches cachées, sauf qu'elles ne s'appelaient pas encore des couches cachées. Et j'ai décidé : « Ce nom qu'ils utilisent dans les modèles de Markov cachés est un excellent nom pour des variables dont on ne sait pas ce qu'elles fabriquent. » C'est de là que vient le nom « caché » dans les réseaux de neurones. Peter et moi avons décidé que c'était un excellent nom pour les couches cachées des réseaux de neurones. Mais j'ai beaucoup appris de Peter sur la parole.
La rencontre avec Ilya Sutskever
Ramenez-nous au moment où Ilya s'est présenté à votre bureau.
J'étais dans mon bureau, probablement un dimanche, et je programmais, je pense. Et on a frappé à la porte. Pas n'importe quel coup, c'était [frappe sur la table]. Un coup urgent. Je suis donc allé ouvrir, et il y avait ce jeune étudiant. Il a dit qu'il faisait frire des frites pendant l'été, mais qu'il préférait travailler dans mon labo. Alors j'ai dit : « Eh bien, pourquoi ne prendriez-vous pas rendez-vous et nous discuterons ? » Et Ilya a dit : « Pourquoi pas maintenant ? » C'était le caractère d'Ilya. Nous avons donc discuté un moment, et je lui ai donné un article à lire, qui était l'article de Nature sur la rétropropagation. Et nous avons fixé un autre rendez-vous pour une semaine plus tard. Il est revenu et a dit : « Je n'ai pas compris. » Et j'ai été très déçu. Je me suis dit : « Il avait l'air d'un gars brillant, mais ce n'est que la règle de dérivation. Ce n'est pas si difficile à comprendre. » Et il a dit : « Oh, non, non, j'ai compris ça. Je ne comprends tout simplement pas pourquoi vous ne donnez pas le gradient à un optimiseur de fonction sensé. » Ce qui nous a pris pas mal d'années à réfléchir. C'était toujours comme ça avec Ilya. Ses intuitions brutes sur les choses étaient toujours très bonnes.
Le génie d'Ilya Sutskever
Qu'est-ce qui, selon vous, avait permis ces intuitions chez Ilya ?
Je ne sais pas. Je pense qu'il a toujours pensé par lui-même. Il s'est toujours intéressé à l'IA dès son plus jeune âge. Il est manifestement bon en maths. Mais c'est très difficile à savoir.
Et à quoi ressemblait cette collaboration entre vous deux ? Quel rôle jouiez-vous et quel rôle jouait Ilya ?
C'était très amusant. Je me souviens d'une occasion où nous essayions de faire une chose compliquée en produisant des cartes de données, où j'avais une sorte de modèle de mélange, de sorte que l'on pouvait prendre le même groupe de similitudes et faire deux cartes, de sorte que dans une carte, le mot « bank » puisse être proche de « cupidité » et dans une autre carte, « bank » puisse être proche de « rivière ». Parce que dans une seule carte, on ne peut pas l'avoir proche des deux, n'est-ce pas ? Parce que « rivière » et « cupidité » sont très éloignées. Nous aurions donc un mélange de cartes. Et nous faisions cela dans MATLAB, et cela impliquait beaucoup de réorganisation du code pour faire les bonnes multiplications de matrices. Et Ilya en a eu assez. Un jour, he est venu et a dit : « Je vais écrire une interface pour MATLAB, donc je programme dans ce langage différent, puis j'ai quelque chose qui le convertit simplement en MATLAB. » Et j'ai dit : « Non, Ilya, cela te prendra un mois. Nous devons avancer sur ce projet. Ne te laisse pas distraire par ça. » Et Ilya a dit : « C'est bon, je l'ai fait ce matin. »
L'importance de l'échelle et les GPU
C'est assez incroyable. Et tout au long de ces années, le plus grand changement n'a pas nécessairement été seulement les algorithmes, mais aussi l'échelle. Comment avez-vous perçu cette échelle au fil des ans ?
Ilya a eu cette intuition très tôt. Ilya prêchait toujours qu'il suffisait de faire plus grand pour que cela fonctionne mieux. Et j'ai toujours pensé que c'était un peu une solution de facilité, qu'il faudrait aussi de nouvelles idées. Il s'avère qu'Ilya avait fondamentalement raison. Les nouvelles idées aident, des choses comme les transformeurs ont beaucoup aidé, mais c'était vraiment l'échelle des données et l'échelle du calcul. À l'époque, nous n'avions aucune idée que les ordinateurs deviendraient un milliard de fois plus rapides. Nous pensions qu'ils deviendraient peut-être cent fois plus rapides. Nous essayions de faire des choses en trouvant des idées ingénieuses qui se seraient résolues d'elles-mêmes si nous avions eu une plus grande échelle de données et de calcul. Vers 2011, Ilya, un autre étudiant diplômé nommé James Martens et moi avons publié un article utilisant la prédiction au niveau des caractères. Nous avons donc pris Wikipédia et nous avons essayé de prédire le caractère HTML suivant. Et cela a remarquablement bien fonctionné. Nous étions toujours étonnés de voir à quel point cela fonctionnait bien. Et c'était en utilisant un optimiseur sophistiqué sur des GPU. Et nous ne pouvions jamais tout à fait croire qu'il comprenait quoi que ce soit, mais on aurait dit qu'il comprenait. Et cela semblait tout simplement incroyable.
La prédiction du mot suivant et la compréhension
Pouvez-vous nous expliquer comment ces modèles sont entraînés pour prédire le mot suivant, et pourquoi est-ce une mauvaise façon de les concevoir ?
D'accord, je ne crois pas en fait que ce soit la mauvaise façon. En fait, je pense avoir créé le premier modèle de langage par réseau de neurones utilisant des embeddings et la rétropropagation. C'étaient des données très simples, juste des triplets, et il s'agissait de transformer chaque symbole en un embedding, puis de faire interagir les embeddings pour prédire l'embedding du symbole suivant, et à partir de là, prédire le symbole suivant. Ensuite, on rétropropageait à travers tout ce processus pour apprendre ces triplets, et j'ai montré qu'il pouvait généraliser. Environ 10 ans plus tard, Yoshua Bengio a utilisé un réseau très similaire et a montré qu'il fonctionnait avec du texte réel. Puis, environ 10 ans après cela, les linguistes ont commencé à croire aux embeddings. Ce fut un processus lent. La raison pour laquelle je pense que ce n'est pas seulement prédire le symbole suivant, c'est que si vous demandez : « Eh bien, que faut-il pour prédire le symbole suivant ? » Particulièrement si vous me posez une question et que le premier mot de la réponse est le symbole suivant, vous devez comprendre la question. Je pense donc qu'en prédisant le symbole suivant, c'est très différent de l'ancienne saisie semi-automatique. L'ancienne saisie semi-automatique, on stockait des triplets de mots, et si on voyait une paire de mots, on regardait à quelle fréquence différents mots arrivaient en troisième position, et de cette façon on pouvait prédire le symbole suivant. C'est ce que la plupart des gens pensent de l'auto-complétion. Ce n'est plus du tout comme ça. Pour prédire le symbole suivant, il faut comprendre ce qui est dit. Je pense donc que vous le forcez à comprendre en lui faisant prédire le symbole suivant, et je pense qu'il comprend à peu près de la même manière que nous. Beaucoup de gens vous diront que ces choses ne sont pas comme nous, qu'elles prédisent simplement le symbole suivant, qu'elles ne raisonnent pas comme nous. Mais en réalité, afin de prédire le symbole suivant, il va falloir faire un certain raisonnement. Et nous avons vu maintenant que si vous en faites de gros, sans y mettre d'éléments spéciaux pour faire du raisonnement, ils peuvent déjà faire un certain raisonnement. Et je pense qu'à mesure que vous les rendrez plus grands, ils seront capables de faire de plus en plus de raisonnements.
Pensez-vous que je fais autre chose que de prédire le prochain symbole en ce moment ?
Je pense que c'est ainsi que vous apprenez. Je pense que vous prédisez la prochaine image vidéo, vous prédisez le prochain son, mais je pense que c'est une théorie assez plausible de la façon dont le cerveau apprend.
Analogies et créativité dans GPT-4
Qu'est-ce qui permet à ces modèles d'apprendre une telle variété de domaines ?
Ce que font ces grands modèles de langage, c'est qu'ils cherchent une structure commune, et en trouvant une structure commune, ils peuvent coder les choses en utilisant cette structure commune, et c'est plus efficace. Permettez-moi de vous donner un exemple. Si vous demandez à GPT-4 : « Pourquoi un tas de compost est-il comme une bombe atomique ? » La plupart des gens ne peuvent pas répondre à cela. La plupart des gens n'y ont pas pensé, ils pensent que les bombes atomiques et les tas de compost sont des choses très différentes. Mais GPT-4 vous dira : « Eh bien, les échelles d'énergie sont très différentes et les échelles de temps sont très différentes, mais ce qui est identique, c'est que lorsque le tas de compost devient plus chaud, il génère de la chaleur plus rapidement. Et quand la bombe atomique produit plus de neutrons, elle produit plus de neutrons plus rapidement. » Et il saisit donc l'idée d'une réaction en chaîne. Et je crois qu'il a compris qu'il s'agit dans les deux cas de formes de réaction en chaîne, et il utilise cette compréhension pour compresser toute cette information dans ses poids. Et s'il fait cela, alors il va le faire pour des centaines de choses où nous n'avons pas encore vu les analogies, mais lui si. Et c'est de là que vient la créativité, en voyant ces analogies entre des choses apparemment très différentes. Et donc je pense que GPT-4 finira par être, lorsqu'il sera plus grand, très créatif. Je pense que cette idée qu'il ne fait que régurgiter ce qu'il a appris, qu'il fait juste un pastiche de textes qu'il a déjà appris, c'est complètement faux. Il va être encore plus créatif que les humains, je pense.
Vous soutenez qu'il ne se contentera pas de répéter les connaissances humaines que nous avons développées jusqu'à présent, mais qu'il pourrait également progresser au-delà de cela. Je pense que c'est quelque chose que nous n'avons pas encore tout à fait vu. Nous avons commencé à en voir quelques exemples, mais dans une large mesure, nous en sommes encore au niveau actuel de la science. Qu'est-ce qui, selon vous, lui permettra d'aller au-delà ?
Eh bien, nous avons vu cela dans des contextes plus limités. Par exemple, si vous prenez AlphaGo, dans cette célèbre compétition avec Lee Sedol, il y a eu le coup 37, où AlphaGo a fait un coup que tous les experts ont qualifié d'erreur. Mais en réalité, ils ont réalisé plus tard que c'était un coup brillant. C'était donc de la créativité dans ce domaine limité. Je pense que nous en verrons beaucoup plus à mesure que ces choses grandiront.
Apprentissage à partir de données imparfaites
La différence avec AlphaGo également était qu'il utilisait l'apprentissage par renforcement, ce qui lui a ensuite permis d'aller au-delà de l'état actuel. Il a donc commencé par l'apprentissage par imitation, en observant comment les humains jouent au jeu, puis il s'est développé bien au-delà grâce à l'auto-apprentissage. Pensez-vous que c'est le composant manquant des LLM actuels ?
Je pense que cela pourrait bien être un composant manquant, oui, que l'auto-apprentissage dans AlphaGo et AlphaZero est une grande partie de la raison pour laquelle il a pu faire ces coups créatifs. Mais je ne pense pas que ce soit tout à fait nécessaire. Il y a une petite expérience que j'ai faite il y a longtemps, où vous entraînez un réseau de neurones à reconnaître des chiffres écrits à la main. J'adore cet exemple, l'exemple MNIST. Et vous lui donnez des données d'entraînement où la moitié des réponses sont fausses. Et la question est : dans quelle mesure va-t-il apprendre ? Et vous faites en sorte que la moitié des réponses soient fausses une fois et qu'elles restent ainsi, de sorte qu'il ne puisse pas moyenner l'erreur en voyant simplement le même exemple avec parfois la bonne réponse et parfois la mauvaise. Quand he voit cet exemple, la réponse est toujours fausse. Les données d'entraînement ont donc un taux d'erreur de 50 %. Mais si vous entraînez la rétropropagation, on descend à 5 % d'erreur ou moins. En d'autres termes, à partir de données mal étiquetées, il peut obtenir de bien meilleurs résultats. Il peut voir que les données d'entraînement sont fausses. Et c'est ainsi que des étudiants brillants peuvent être plus intelligents que leur directeur de thèse. Leur directeur leur dit tout ça, et pour la moitié de ce que leur directeur leur dit, ils pensent : « Nan, c'est n'importe quoi. » Et ils écoutent l'autre moitié, et ils finissent par être plus intelligents que le directeur. Ces grands réseaux de neurones peuvent donc en fait faire beaucoup mieux que leurs données d'entraînement, et la plupart des gens ne s'en rendent pas compte.
L'évolution du raisonnement dans les modèles
Alors, comment vous attendez-vous à ce que ces modèles intègrent le raisonnement ? Une approche consiste à ajouter des heuristiques par-dessus, ce que beaucoup de recherches font actuellement, où vous avez la chaîne de pensée, vous réinjectez simplement son raisonnement en lui-même. Une autre façon serait dans le modèle lui-même, à mesure que vous le passez à l'échelle. Quelle est votre intuition à ce sujet ?
Mon intuition est qu'à mesure que nous passerons ces modèles à l'échelle, ils s'amélioreront en raisonnement. Et si vous demandez comment les gens fonctionnent, grosso modo, nous avons ces intuitions et nous pouvons raisonner, et nous utilisons le raisonnement pour corriger nos intuitions. Bien sûr, nous utilisons les intuitions pendant le raisonnement pour effectuer le raisonnement, mais si la conclusion du raisonnement est en conflit avec nos intuitions, nous réalisons que les intuitions doivent être modifiées. C'est un peu comme dans AlphaGo ou AlphaZero, où vous avez une fonction d'évaluation qui regarde simplement un plateau et dit : « Dans quelle mesure est-ce bon pour moi ? » Mais ensuite vous faites le déploiement de Monte Carlo, et vous obtenez maintenant une idée plus précise, et vous pouvez réviser votre fonction d'évaluation. Vous pouvez donc l'entraîner en l'amenant à être d'accord avec les résultats du raisonnement. Et je pense que ces grands modèles de langage doivent commencer à faire cela. Ils doivent commencer à entraîner leurs intuitions brutes sur ce qui devrait venir ensuite en raisonnant et en réalisant que ce n'est pas correct. De cette façon, ils peuvent obtenir plus de données d'entraînement qu'en imitant simplement ce que font les gens. Et c'est exactement pourquoi AlphaGo a pu faire ce coup créatif 37. Il avait beaucoup plus de données d'entraînement parce qu'il utilisait le raisonnement pour vérifier quel aurait dû être le bon coup suivant.
Multimodalité et compréhension spatiale
Et que pensez-vous de la multimodalité ? Nous avons parlé de ces analogies, et souvent les analogies dépassent de loin ce que nous pourrions voir. Il découvre des analogies qui sont bien au-delà des humains et peut-être à des niveaux d'abstraction que nous ne pourrons jamais comprendre. Maintenant, quand nous introduisons des images à cela, de la vidéo et du son, comment pensez-vous que cela changera les modèles, et comment pensez-vous que cela changera les analogies qu'il sera capable de faire ?
Je pense que cela va beaucoup changer les choses. Je pense que cela le rendra bien meilleur pour comprendre les choses spatiales, par exemple. À partir du langage seul, il est assez difficile de comprendre certaines choses spatiales, bien que, remarquablement, GPT-4 puisse le faire même avant d'être multimodal. Mais quand vous le rendez multimodal, si vous lui faites à la fois faire de la vision et tendre la main pour saisir des objets, il comprendra bien mieux les objets s'il peut les ramasser, les retourner et ainsi de suite. Bien que l'on puisse apprendre énormément de choses à partir du langage, il est plus facile d'apprendre si l'on est multimodal. Et en fait, on a alors besoin de moins de langage. Et il y a énormément de vidéos YouTube pour prédire l'image suivante. Je pense donc que ces modèles multimodaux vont clairement prendre le dessus. On peut obtenir plus de données de cette façon, ils ont besoin de moins de langage. C'est vraiment un point philosophique : on pourrait apprendre un très bon modèle à partir du langage seul, mais il est beaucoup plus facile de l'apprendre à partir d'un système multimodal.
Et comment pensez-vous que cela impactera le raisonnement du modèle ?
Je pense que cela le rendra bien meilleur pour raisonner sur l'espace, par exemple. Raisonner sur ce qui se passe si on ramasse des objets. Si on essaie réellement de ramasser des objets, on va obtenir toutes sortes de données d'entraînement qui vont aider.
Trois visions du langage et de la cognition
Pensez-vous que le cerveau humain a évolué pour bien fonctionner avec le langage, ou pensez-vous que le langage a évolué pour bien fonctionner avec le cerveau humain ?
Je pense que la question de savoir si le langage a évolué pour fonctionner avec le cerveau ou si le cerveau a évolué pour fonctionner avec le langage est une très bonne question. Je pense que les deux se sont produits. J'avais l'habitude de penser que nous ferions beaucoup de cognition sans avoir besoin du langage du tout. Maintenant, j'ai un peu changé d'avis. Permettez-moi de vous donner trois visions différentes du langage et de la façon dont il se rapporte à la cognition. Il y a la vision symbolique à l'ancienne, selon laquelle la cognition consiste à avoir des chaînes de symboles dans une sorte de langage logique épuré où il n'y a pas d'ambiguïté, et à appliquer des règles d'inférence. Et c'est ce qu'est la cognition, ce ne sont que ces manipulations symboliques sur des choses qui ressemblent à des chaînes de symboles de langage. C'est donc une vision extrême. Une vision extrême opposée est : « Non, non, une fois qu'on est à l'intérieur de la tête, ce ne sont que des vecteurs. » Les symboles entrent, vous convertissez ces symboles en grands vecteurs, et tout ce qui se passe à l'intérieur se fait avec de grands vecteurs, puis si vous voulez produire une sortie, vous produisez à nouveau des symboles. Il y a eu un moment dans la traduction automatique vers 2014, quand les gens utilisaient des réseaux de neurones récurrents, et les mots arrivaient les uns après les autres, et ils avaient un état caché, et ils accumulaient continuellement des informations dans cet état caché. Ainsi, lorsqu'ils arrivaient à la fin d'une phrase, ils avaient un grand vecteur caché qui capturait le sens de cette phrase, qui pouvait ensuite être utilisé pour produire la phrase dans une autre langue. C'est ce qu'on appelait un vecteur de pensée. Et c'est le genre de deuxième vision du langage. On convertit le langage en un grand vecteur qui n'a rien à voir avec le langage, et c'est tout ce qu'est la cognition. Mais il y a ensuite une troisième vision, qui est celle en laquelle je crois maintenant, à savoir que vous prenez ces symboles et vous les convertissez en embeddings, et vous utilisez plusieurs couches pour cela, de sorte que vous obtenez ces embeddings très riches. Mais les embeddings sont toujours liés aux symboles, dans le sens où vous avez un grand vecteur pour ce symbole et un grand vecteur pour cet autre symbole, et ces vecteurs interagissent pour produire le vecteur du symbole du mot suivant. Et c'est cela la compréhension. Comprendre, c'est savoir comment convertir les symboles en ces vecteurs, et savoir comment les éléments du vecteur doivent interagir pour prédire le vecteur du symbole suivant. C'est ce qu'est la compréhension, à la fois dans ces grands modèles de langage et dans nos cerveaux. Et c'est un exemple qui se situe entre les deux. On reste avec les symboles, mais on les interprète comme ces grands vecteurs, et c'est là que se fait tout le travail, et toute la connaissance réside dans les vecteurs que l'on utilise et dans la façon dont les éléments de ces vecteurs interagissent, et non dans des règles symboliques. Mais cela ne dit pas qu'on s'éloigne complètement des symboles. Cela dit qu'on transforme les symboles en grands vecteurs, mais qu'on reste avec cette structure de surface des symboles. Et c'est ainsi que fonctionnent ces modèles, et cela me semble maintenant être aussi un modèle plus plausible de la pensée humaine.
L'histoire des GPU et de NVIDIA
Vous avez été l'un des premiers à avoir l'idée d'utiliser des GPU. Et je sais que Jensen vous adore pour cela. En 2009, vous avez mentionné avoir dit à Jensen que cela pourrait être une assez bonne idée pour l'entraînement des réseaux de neurones. Ramenez-nous à cette intuition précoce d'utiliser des GPU pour entraîner des réseaux de neurones.
En fait, je pense qu'en 2006 environ, j'ai eu un ancien étudiant diplômé nommé Rick Zelinsky, qui est un très bon spécialiste de la vision par ordinateur. Je lui ai parlé lors d'une réunion, et il a dit : « Vous savez, vous devriez penser à utiliser des cartes de traitement graphique, car elles sont très douées pour les multiplications de matrices. Et ce que vous faites, c'est essentiellement uniquement des multiplications de matrices. » J'y ai réfléchi un moment, puis nous avons découvert ces systèmes Tesla qui contenaient quatre GPU. Au départ, nous avons juste pris des GPU de jeu et nous avons découvert qu'ils accéléraient les choses par 30. Puis nous avons acheté l'un de ces systèmes Tesla avec quatre GPU, et nous avons fait de la parole là-dessus, et cela a très bien fonctionné. Puis en 2009, j'ai donné une conférence à NIPS, et j'ai dit à un millier de chercheurs en apprentissage automatique : « Vous devriez tous aller acheter des GPU NVIDIA. C'est l'avenir. Vous en avez besoin pour faire de l'apprentissage automatique. » Et j'ai ensuite envoyé un mail à NVIDIA en disant : « J'ai dit à un millier de chercheurs en apprentissage automatique d'acheter vos cartes. Pourriez-vous m'en donner une gratuitement ? » Et ils n'ont pas répondu. Mais quand j'ai raconté cette histoire à Jensen plus tard, il m'en a donné une gratuitement.
Calcul analogique vs numérique et immortalité
C'est très, très bien. Je pense que ce qui est intéressant aussi, c'est la façon dont les GPU ont évolué parallèlement au domaine. Alors, selon vous, où devrions-nous aller ensuite en matière de calcul ?
Au cours de mes deux dernières années chez Google, je réfléchissais à des moyens d'essayer de faire du calcul analogique, de sorte qu'au lieu d'utiliser un mégawatt, nous puissions utiliser 30 watts comme le cerveau, et que nous puissions faire fonctionner ces grands modèles de langage sur du matériel analogique. Je n'ai jamais réussi à le faire fonctionner, mais j'ai commencé à vraiment apprécier le calcul numérique. Si vous utilisez du calcul analogique à faible puissance, chaque pièce de matériel sera un peu différente. Et l'idée est que l'apprentissage va utiliser les propriétés spécifiques de ce matériel. Et c'est ce qui se passe avec les humains. Tous nos cerveaux sont différents. Nous ne pouvons donc pas prendre les poids de votre cerveau et les mettre dans mon cerveau. Le matériel est différent, les propriétés précises des neurones individuels sont différentes. L'apprentissage a appris à utiliser tout cela. Nous sommes donc mortels dans le sens où les poids de mon cerveau ne sont d'aucune utilité pour un autre cerveau. Quand je mourrai, ces poids seront inutiles. Nous pouvons transférer des informations de l'un à l'autre de manière assez inefficace par la production de phrases, et vous essayez de comprendre comment changer vos poids pour que vous ayez dit la même chose. C'est ce qu'on appelle la distillation. Mais c'est une façon très inefficace de communiquer des connaissances. Avec les systèmes numériques, ils sont immortels parce qu'une fois que vous avez des poids, vous pouvez jeter l'ordinateur, simplement stocker les poids sur une bande quelque part, puis construire un autre ordinateur, y mettre ces mêmes poids, et si c'est numérique, il peut calculer exactement la même chose que l'autre système. Les systèmes numériques peuvent donc partager des poids. Et c'est incroyablement plus efficace. Si vous avez tout un groupe de systèmes numériques et qu'ils font chacun un petit peu d'apprentissage, et qu'ils commencent avec les mêmes poids, ils font un petit peu d'apprentissage puis ils partagent à nouveau leurs poids, ils savent tous ce que tous les autres ont appris. Nous ne pouvons pas faire cela. Ils nous sont donc bien supérieurs pour ce qui est de partager les connaissances.
Échelles de temps et poids rapides
Beaucoup d'idées qui ont été déployées dans le domaine sont des idées très anciennes. Ce sont des idées qui existent en neurosciences depuis toujours. Que reste-t-il, selon vous, à appliquer aux systèmes que nous développons ?
Une chose importante sur laquelle nous devons encore rattraper les neurosciences, ce sont les échelles de temps pour les changements. Dans presque tous les réseaux de neurones, il y a une échelle de temps rapide pour changer les activités — une entrée arrive, les activités, les vecteurs d'embedding changent tous. Et puis il y a une échelle de temps lente, qui est le changement des poids. Et c'est l'apprentissage à long terme. On n'a que ces deux échelles de temps. Dans le cerveau, il y a de nombreuses échelles de temps auxquelles les poids changent. Par exemple, si je dis un mot inattendu comme « concombre ». Et que cinq minutes plus tard, vous mettez un casque, qu'il y a beaucoup de bruit et des mots très faibles, vous serez bien meilleur pour reconnaître le mot « concombre » parce que je l'ai dit il y a cinq minutes. Alors, où se trouve cette connaissance dans le cerveau ? Cette connaissance se trouve manifestement dans des changements temporaires des synapses. Ce ne sont pas des neurones qui font « concombre, concombre, concombre ». Vous n'avez pas assez de neurones pour cela. C'est dans les changements temporaires des poids. Et on peut faire beaucoup de choses avec des changements de poids temporaires, rapides, ce que j'appelle des poids rapides. Nous ne faisons pas cela dans ces modèles neuronaux, et la raison pour laquelle nous ne le faisons pas, c'est parce que si vous avez des changements temporaires des poids qui dépendent des données d'entrée, alors vous ne pouvez pas traiter tout un tas de cas différents en même temps. Actuellement, nous prenons tout un tas de chaînes différentes, nous les empilons et nous les traitons toutes en parallèle, car nous pouvons alors faire des multiplications matrice-matrice, ce qui est beaucoup plus efficace. Et c'est justement cette efficacité qui nous empêche d'utiliser des poids rapides. Mais le cerveau utilise clairement des poids rapides pour la mémoire temporaire. Et il y a toutes sortes de choses que l'on peut faire de cette façon et que nous ne faisons pas à l'heure actuelle. Je pense que c'est l'une des plus grandes choses que nous ayons à apprendre. J'avais bon espoir que des choses comme Graphcore, s'ils passaient en séquentiel et faisaient simplement de l'apprentissage en ligne, pourraient alors utiliser des poids rapides. Mais cela n'a pas encore abouti. Je pense que cela finira par aboutir quand les gens utiliseront des conductances pour les poids.
Remise en question de l'innéisme de Chomsky
Comment le fait de savoir comment ces modèles fonctionnent et de savoir comment le cerveau fonctionne a-t-il influencé votre façon de penser ?
Je pense qu'il y a eu un impact majeur, à un niveau assez abstrait, c'est que pendant de nombreuses années, les gens étaient très méprisants à l'idée d'avoir un grand réseau de neurones aléatoire et de lui donner simplement beaucoup de données d'entraînement pour qu'il apprenne à faire des choses compliquées. Si vous parlez à des statisticiens, des linguistes ou à la plupart des gens de l'IA, ils diraient : « C'est juste un rêve chimérique. Il n'y a aucun moyen d'apprendre des choses vraiment compliquées sans une sorte de connaissance innée ou sans beaucoup de restrictions architecturales. » Il s'avère que c'est complètement faux. Vous pouvez prendre un grand réseau de neurones aléatoire et apprendre énormément de choses uniquement à partir des données. Donc l'idée que la descente de gradient stochastique pour ajuster les poids de manière répétée à l'aide d'un gradient, que cela apprendra des choses et apprendra des choses complexes de grande envergure, cela a été validé par ces grands modèles. Et c'est une chose très importante à savoir sur le cerveau. Il n'a pas besoin d'avoir toute cette structure innée. Bien sûr, il a beaucoup de structure innée, mais il n'a certainement pas besoin de structure innée pour les choses qui s'apprennent facilement. Ainsi, l'idée venant de Chomsky selon laquelle on n'apprendra rien de compliqué comme le langage à moins que tout ne soit déjà câblé et qu'il ne s'agisse que d'une maturation, cette idée est maintenant manifestement absurde.
Je suis sûr que Chomsky apprécierait que vous traitiez ses idées d'absurdes.
Eh bien, je pense en fait que beaucoup d'idées politiques de Chomsky sont très sensées. Et je suis toujours frappé de voir comment quelqu'un avec des idées aussi sensées sur le Moyen-Orient a pu se tromper à ce point sur la linguistique.
Sentiments et émotions chez les machines
Qu'est-ce qui, selon vous, permettrait à ces modèles de simuler plus efficacement la conscience humaine ? Imaginez que vous ayez l'assistant IA à qui vous avez parlé toute votre vie, et qu'au lieu que ce soit comme ChatGPT aujourd'hui qui efface la mémoire de la conversation et où vous recommencez à zéro à chaque fois, il ait une réflexion sur lui-même. À un moment donné, vous décédez et vous le dites à l'assistant. Pensez-vous qu'il ressentirait quelque chose à ce moment-là ?
Je veux dire, pas moi, quelqu'un d'autre le dit à l'assistant.
Oui. Ce serait difficile pour vous de le dire à l'assistant. Pensez-vous que cet assistant ressentirait quelque chose à ce moment-là ?
Oui, je pense qu'ils peuvent aussi avoir des sentiments. Tout comme nous avons ce modèle de théâtre intérieur pour la perception, nous avons un modèle de théâtre intérieur pour les sentiments. Ce sont des choses que je peux expérimenter mais que d'autres personnes ne peuvent pas. Je pense que ce modèle est tout aussi faux. Supposons que je dise : « J'ai envie de donner un coup de poing sur le nez de Gary », ce que je fais souvent. Essayons d'abstraire cela de l'idée d'un théâtre intérieur. Ce que je suis en train de vous dire, c'est que s'il n'y avait pas l'inhibition venant de mes lobes frontaux, j'effectuerais une action. Quand nous parlons de sentiments, nous parlons en réalité d'actions que nous effectuerions s'il n'y avait pas de contraintes. Et c'est vraiment ce que sont les sentiments. Ce sont des actions que nous ferions s'il n'y avait pas de contraintes. Je pense que l'on peut donner le même genre d'explication pour les sentiments, et il n'y a aucune raison pour que ces choses ne puissent pas avoir de sentiments. En fait, en 1973, j'ai vu un robot avoir une émotion. À Édimbourg, ils avaient un robot avec deux pinces comme ça qui pouvait assembler une voiture miniature si on plaçait les pièces séparément sur un morceau de feutre vert. Mais si on les mettait en tas, sa vision n'était pas assez bonne pour comprendre ce qui se passait. Il a donc joint ses pinces et a fait « paf ! » et il les a frappées pour qu'elles soient éparpillées, et il a alors pu les assembler. Si vous voyiez cela chez une personne, vous diriez qu'elle est contrariée par la situation parce qu'elle ne la comprenait pas, alors elle l'a détruite.
Analogies religieuses et traitement symbolique
C'est profond. Nous avons parlé précédemment, vous avez décrit les humains et les LLM comme des machines à analogies. Quelles ont été, selon vous, les analogies les plus puissantes que vous ayez trouvées tout au long de votre vie ?
Tout au long de ma vie. Je suppose que c'est probablement une sorte d'analogie faible qui m'a beaucoup influencé, c'est l'analogie entre la croyance religieuse et la croyance dans le traitement symbolique. Quand j'étais très jeune, j'ai été confronté, je venais d'une famille athée et j'allais à l'école, et j'ai été confronté à la croyance religieuse, et cela me semblait tout simplement absurde. Cela me semble toujours absurde. Et quand j'ai vu le traitement symbolique comme explication du fonctionnement des gens, j'ai pensé que c'était exactement la même chose. Absurde. Je ne pense pas que ce soit tout à fait aussi absurde maintenant, car je pense qu'en fait nous faisons du traitement symbolique, c'est juste que nous le faisons en donnant ces grands vecteurs d'embedding aux symboles. Mais nous faisons réellement du traitement symbolique, mais pas du tout de la manière dont les gens le pensaient, où l'on fait correspondre des symboles et la seule chose qu'un symbole possède est d'être identique à un autre symbole ou de ne pas l'être. C'est la seule propriété d'un symbole. Nous ne faisons pas cela du tout. Nous utilisons le contexte pour donner des vecteurs d'embedding aux symboles, puis nous utilisons les interactions entre les composants de ces vecteurs d'embedding pour penser. Mais il y a un très bon chercheur chez Google nommé Fernando Pereira, qui a dit : « Oui, nous avons un raisonnement symbolique, et le seul symbolique que nous ayons est le langage naturel. Le langage naturel est un langage symbolique et nous raisonnons avec lui. » Et je le crois maintenant.
Méthode de sélection des problèmes de recherche
Vous avez mené certaines des recherches les plus significatives de l'histoire de l'informatique. Pouvez-vous nous expliquer comment vous sélectionnez les bons problèmes sur lesquels travailler ?
Eh bien, permettez-moi d'abord de vous corriger. Mes étudiants et moi avons fait beaucoup de choses parmi les plus significatives, et cela a principalement été une très bonne collaboration avec des étudiants et ma capacité à sélectionner de très bons étudiants. Et cela est venu du fait qu'il y avait très peu de gens qui faisaient des réseaux de neurones dans les années 70, 80, 90 et 2000, et donc le peu de personnes qui en faisaient ont pu choisir les meilleurs étudiants. C'était donc un coup de chance. Mais ma façon de sélectionner les problèmes consiste essentiellement... eh bien, vous savez, quand les scientifiques parlent de leur façon de travailler, ils ont des théories qui n'ont probablement pas grand-chose à voir avec la vérité. Mais ma théorie est que je cherche quelque chose où tout le monde est d'accord sur un point et où cela me semble faux. Il y a juste une légère intuition que quelque chose cloche. Et puis je travaille là-dessus et je vois si je peux approfondir pourquoi je pense que c'est faux. Et peut-être que je peux faire une petite démonstration avec un petit programme informatique qui montre que cela ne fonctionne pas de la manière dont on pourrait s'y attendre. Prenons un exemple. La plupart des gens pensent que si vous ajoutez du bruit à un réseau de neurones, il fonctionnera moins bien. Si, par exemple, chaque fois que vous passez un exemple d'entraînement, vous rendez la moitié des neurones silencieux, cela fonctionnera moins bien. En fait, nous savons qu'il généralisera mieux si vous faites cela. Et vous pouvez le démontrer dans un exemple simple. C'est ce qui est agréable avec la simulation informatique. Vous pouvez montrer : « Vous savez, cette idée que vous aviez selon laquelle l'ajout de bruit va aggraver les choses et que la suppression de la moitié des neurones va aggraver les choses », ce qui sera le cas à court terme, mais si vous l'entraînez avec des choses comme ça, au final, cela fonctionnera mieux. Vous pouvez démontrer cela avec un petit programme informatique, puis vous pouvez réfléchir sérieusement à la raison de cela et à la façon dont cela empêche les grandes co-adaptations élaborées. C'est, je pense, ma méthode de travail. Trouver quelque chose qui semble suspect, travailler dessus et voir si l'on peut donner une démonstration simple de pourquoi c'est faux.
Qu'est-ce qui vous semble suspect maintenant ?
Eh bien, le fait que nous n'utilisions pas de poids rapides semble suspect. Le fait que nous n'ayons que ces deux échelles de temps. C'est tout simplement faux. Ce n'est pas du tout comme le cerveau. Et à long terme, je pense que nous allons devoir avoir beaucoup plus d'échelles de temps. C'est un exemple actuel.
Le futur de la recherche : Rétropropagation et cerveau
Et si vous aviez votre groupe d'étudiants aujourd'hui et qu'ils venaient vous voir pour vous poser la question de Hamming dont nous avons parlé précédemment : « Quel est le problème le plus important dans votre domaine ? » Que leur suggéreriez-vous d'entreprendre et de travailler ensuite ? Nous avons parlé du raisonnement, des échelles de temps. Quel serait le problème prioritaire que vous leur donneriez ?
Pour moi en ce moment, c'est la même question que celle que je me pose depuis environ 30 ans : le cerveau fait-il de la rétropropagation ? Je crois que le cerveau obtient des gradients. Si vous n'obtenez pas de gradients, votre apprentissage est tout simplement bien pire que si vous en obtenez. Mais comment le cerveau obtient-il des gradients ? Met-il en œuvre d'une manière ou d'une autre une version approximative de la rétropropagation, ou s'agit-il d'une technique complètement différente ? C'est une grande question ouverte. Et si j'avais continué à faire de la recherche, c'est sur cela que je ferais des recherches.
Fierté et regrets : Les machines de Boltzmann
Et quand vous regardez votre carrière maintenant, vous avez eu raison sur tant de choses. Mais sur quoi vous êtes-vous trompé et regrettez-vous d'avoir passé moins de temps à poursuivre une certaine direction ?
D'accord, ce sont deux questions distinctes. La première est : sur quoi vous êtes-vous trompé ? Et la seconde : regrettez-vous d'y avoir passé moins de temps ? Je pense que je me suis trompé sur les machines de Boltzmann, et je suis content d'y avoir passé beaucoup de temps. C'est une théorie bien plus belle que la rétropropagation sur la façon dont on obtient des gradients. La rétropropagation est juste ordinaire, sensée, c'est juste la règle de dérivation. Les machines de Boltzmann, c'est ingénieux, et c'est une façon très intéressante d'obtenir des gradients. Et j'adorerais que ce soit ainsi que le cerveau fonctionne, mais je pense que ce n'est pas le cas.
Impact sociétal et risques de l'IA
Avez-vous passé beaucoup de temps à imaginer ce qui se passerait après le développement de ces systèmes également ? Avez-vous déjà eu l'idée que : « D'accord, si nous pouvions faire en sorte que ces systèmes fonctionnent vraiment bien, nous pourrions démocratiser l'éducation, nous pourrions rendre la connaissance bien plus accessible, nous pourrions résoudre des problèmes difficiles en médecine », ou s'agissait-il pour vous davantage de comprendre le cerveau ?
Oui, j'ai un peu le sentiment que les scientifiques devraient faire des choses qui vont aider la société, mais en réalité, ce n'est pas ainsi que l'on fait ses meilleures recherches. On fait ses meilleures recherches quand on est poussé par la curiosité. Il faut simplement comprendre quelque chose. Bien plus récemment, j'ai réalisé que ces choses pouvaient faire beaucoup de mal tout comme beaucoup de bien, et je suis devenu beaucoup plus préoccupé par les effets qu'elles vont avoir sur la société. Mais ce n'est pas ce qui me motivait. Je voulais juste comprendre comment diable le cerveau peut apprendre à faire des choses. C'est ce que je veux savoir. Et j'ai en quelque sorte échoué. Comme effet secondaire de cet échec, nous avons obtenu une belle ingénierie, mais...
C'était un bel échec pour le monde. Si vous regardez sous l'angle des choses qui pourraient vraiment bien se passer, quelles sont selon vous les applications les plus prometteuses ?
Je pense que la santé est clairement un domaine majeur. Avec la santé, il n'y a presque aucune limite à la quantité de soins que la société peut absorber. Si vous prenez une personne âgée, elle pourrait avoir besoin de cinq médecins à plein temps. Donc, quand l'IA sera meilleure que les humains pour faire des choses, vous aimeriez qu'elle soit meilleure dans des domaines où l'on pourrait avoir besoin de beaucoup plus de cela. Et nous aurions bien besoin de beaucoup plus de médecins. Si tout le monde avait trois médecins à soi, ce serait génial, et nous allons arriver à ce point. C'est donc une raison pour laquelle la santé est un bon domaine. Il y a aussi tout simplement la nouvelle ingénierie, le développement de nouveaux matériaux, par exemple pour de meilleurs panneaux solaires ou pour la supraconductivité ou simplement pour comprendre comment le corps fonctionne. Il va y avoir un impact énorme là-bas. Ce seront toutes de bonnes choses. Ce qui m'inquiète, ce sont les acteurs malveillants qui les utilisent à de mauvaises fins. Nous avons facilité la tâche de personnes comme Poutine, Xi ou Trump pour utiliser l'IA pour des robots tueurs, pour manipuler l'opinion publique ou pour la surveillance de masse. Et ce sont toutes des choses très inquiétantes.
Are you ever concerned that slowing down the field could also slow down the positives?
Absolument. Et je pense qu'il n'y a pas beaucoup de chances que le domaine ralentisse, en partie parce que c'est international. Et si un pays ralentit, les autres pays ne vont pas ralentir. Il y a donc clairement une course entre la Chine et les États-Unis, et aucun des deux ne va ralentir. Donc oui, je ne pense pas... je veux dire, il y a eu cette pétition disant que nous devrions ralentir pendant six mois. Je ne l'ai pas signée simplement parce que je pensais que cela n'arriverait jamais. J'aurais peut-être dû la signer car même si cela n'allait jamais arriver, cela marquait un point politique. Il est souvent bon de demander des choses que l'on sait ne pas pouvoir obtenir juste pour marquer un point. Mais je ne pense pas que nous allons ralentir.
Recherche assistée par l'IA
Et comment pensez-vous que cela impactera le processus de recherche en IA, d'avoir ces assistants ?
Je pense que cela le rendra beaucoup plus efficace. La recherche en IA deviendra beaucoup plus efficace quand vous aurez ces assistants qui vous aideront à programmer, mais qui vous aideront aussi à réfléchir sur des choses et probablement vous aideront beaucoup avec les équations aussi.
Sélection des talents et intuitions
Avez-vous beaucoup réfléchi au processus de sélection des talents ? Cela a-t-il été principalement intuitif pour vous ? Comme quand Ilya se présente à la porte, vous sentez que c'est un gars intelligent, travaillons ensemble.
Pour la sélection des talents, parfois on le sait tout simplement. Après avoir parlé à Ilya pendant peu de temps, il semblait très intelligent, puis en lui parlant un peu plus, il était clairement très intelligent et avait de très bonnes intuitions en plus d'être bon en maths. C'était donc une évidence. Il y a un autre cas où j'étais à une conférence NIPS, nous avions un poster et quelqu'un s'est approché et a commencé à poser des questions sur le poster. Et chaque question qu'il posait était une vision profonde de ce que nous avions fait de mal. Après cinq minutes, je lui ai proposé un poste de post-doctorant. Ce gars était David MacKay, qui était tout simplement brillant et c'est très triste qu'il soit mort, mais il était très évident qu'on le voudrait. D'autres fois, ce n'est pas si évident. Une chose que j'ai apprise, c'est que les gens sont différents. Il n'y a pas qu'un seul type de bon étudiant. Il y a certains étudiants qui ne sont pas si créatifs mais qui sont techniquement extrêmement forts et feront fonctionner n'importe quoi. Il y a d'autres étudiants qui ne sont pas techniquement forts mais qui sont très créatifs. Bien sûr, vous voulez ceux qui sont les deux, mais on ne les obtient pas toujours. Mais je pense qu'en fait, dans un labo, on a besoin d'une variété de différents types d'étudiants diplômés. Mais je me fie toujours à mon intuition profonde : parfois vous parlez à quelqu'un et il comprend tout simplement. Et ce sont ceux-là que vous voulez.
Quelle est, selon vous, la raison pour laquelle certains ont une meilleure intuition ? Ont-ils simplement de meilleures données d'entraînement que d'autres, ou comment peut-on développer son intuition ?
Je pense que c'est en partie parce qu'ils n'acceptent pas d'absurdités. Voici un moyen d'avoir de mauvaises intuitions : croire tout ce qu'on vous dit. C'est fatal. Il faut être capable de... je pense que voici ce que font certaines personnes : elles ont tout un cadre pour comprendre la réalité, et quand quelqu'un leur dit quelque chose, elles essaient de comprendre comment cela s'insère dans leur cadre. Et si ce n'est pas le cas, elles le rejettent simplement. Et c'est une très bonne stratégie. Les gens qui essaient d'incorporer tout ce qu'on leur dit finissent par avoir un cadre très flou et peuvent tout croire, et c'est inutile. Je pense donc qu'en fait, avoir une vision forte du monde et essayer de manipuler les faits entrants pour qu'ils s'insèrent dans votre vision. Évidemment, cela peut vous mener à une croyance religieuse profonde et à des défauts fatals, comme ma croyance dans les machines de Boltzmann, mais je pense que c'est la voie à suivre. Si vous avez de bonnes intuitions, vous devriez leur faire confiance. Si vous avez de mauvaises intuitions, cela n'a pas d'importance ce que vous faites, alors autant leur faire confiance.
L'avenir du domaine et l'algorithme idéal
Très bon point. Quand on regarde les types de recherche qui se font aujourd'hui, pensez-vous que nous mettons tous nos œufs dans le même panier et que nous devrions diversifier un peu plus nos idées dans le domaine, ou pensez-vous que c'est la direction la plus prometteuse, alors allons-y à fond ?
Je pense qu'avoir de grands modèles et les entraîner sur des données multimodales, même si ce n'est que pour prédire le mot suivant, est une approche si prometteuse que nous devrions y aller pratiquement à fond. Évidemment, il y a beaucoup de gens qui le font maintenant, et il y a beaucoup de gens qui font des choses apparemment folles, et c'est bien. Mais je pense qu'il est normal que la plupart des gens suivent cette voie parce que cela fonctionne très bien.
Pensez-vous que les algorithmes d'apprentissage comptent tant que cela, ou est-ce seulement l'échelle ? Existe-t-il essentiellement des millions de façons d'arriver à une intelligence de niveau humain, ou y en a-t-il seulement quelques-unes que nous devons découvrir ?
Oui, donc cette question de savoir si des algorithmes d'apprentissage particuliers sont très importants ou s'il existe une grande variété d'algorithmes d'apprentissage qui feront l'affaire, je n'en connais pas la réponse. Il me semble cependant que la rétropropagation, il y a un sens dans lequel c'est la chose correcte à faire. Obtenir le gradient pour modifier un paramètre afin qu'il fonctionne mieux, cela semble être la bonne chose à faire, et cela a connu un succès incroyable. Il se pourrait bien qu'il existe d'autres algorithmes d'apprentissage qui soient des manières alternatives d'obtenir ce même gradient, ou qui obtiennent le gradient d'autre chose et qui fonctionnent également. Je pense que tout cela est ouvert et constitue une question très intéressante maintenant sur le fait de savoir s'il y a d'autres choses que vous pouvez essayer de maximiser qui donneront de bons systèmes, et peut-être que le cerveau le fait parce que c'est plus facile. Mais la rétropropagation est en un sens la bonne chose à faire, et nous savons que le fait de l'utiliser fonctionne vraiment bien.
Et une dernière question : quand vous regardez vos décennies de recherche, de quoi êtes-vous le plus fier ? Est-ce les étudiants, est-ce la recherche ? De quoi êtes-vous le plus fier quand vous regardez l'œuvre de votre vie ?
L'algorithme d'apprentissage pour les machines de Boltzmann. L'algorithme d'apprentissage pour les machines de Boltzmann est d'une élégance magnifique. Il est peut-être sans espoir en pratique, mais c'est ce que j'ai le plus aimé développer avec Terry, et c'est ce dont je suis le plus fier, même si c'est faux.
Conclusion et Netflix
À quelles questions passez-vous la majeure partie de votre temps à réfléchir maintenant ?
Qu'est-ce que je devrais regarder sur Netflix ?