Geoffrey Hinton

L'intelligence artificielle et l'avenir de l'humanité

22 juillet 2025

Intelligence Artificielle
Illustration de Geoffrey Hinton

Introduction et Paradigmes de l'IA

Geoffrey Hinton

Si vous dormez bien ce soir, c'est que vous n'avez peut-être pas compris cette conférence.

Geoffrey Hinton

Il y a longtemps, il existait deux paradigmes pour l'intelligence. Il y avait l'approche d'inspiration logique, qu'on appelait l'IA, et les gens croyaient que l'essence de l'intelligence humaine était le raisonnement. Si vous vouliez comprendre l'intelligence, vous deviez comprendre le raisonnement. Le raisonnement consistait à avoir des expressions symboliques et à les manipuler avec des règles symboliques. Ils pensaient que l'apprentissage pouvait attendre plus tard. D'abord, nous devions comprendre comment représenter la connaissance dans ces expressions symboliques. L'essentiel de l'histoire de l'IA jusqu'à assez récemment se résumait à cela. Puis il y a eu une approche d'inspiration biologique, où l'essence de l'intelligence est l'apprentissage dans un réseau de cellules cérébrales, réelles ou simulées par ordinateur. Le raisonnement peut attendre plus tard. Nous devons d'abord comprendre comment fonctionne l'apprentissage. Il y a eu quelques partisans précoces de cette approche, notamment Turing et von Neumann, et on ne pouvait pas vraiment les accuser de ne pas comprendre la logique.

Apprentissage et Rétropropagation

Geoffrey Hinton

Je vais donner une conférence assez basique, et pour la première partie, je vais décrire un modèle que j'ai développé il y a 40 ans, que je vois comme l'ancêtre de ces grands modèles de langage actuels. Nous allons construire notre réseau neuronal à partir de neurones artificiels. Un neurone artificiel aura des lignes d'entrée, provenant généralement d'autres neurones. Il aura des poids sur ces lignes d'entrée. Il va multiplier les entrées par les poids, additionner le tout, puis donner une sortie, illustrée par ce graphique. S'il dépasse son seuil, il donne une sortie qui augmente linéairement à mesure qu'il reçoit plus d'entrées. La façon dont il va apprendre est en changeant les poids de ces connexions. Tout ce que nous avons à faire pour que les réseaux neuronaux artificiels fonctionnent, c'est de trouver comment changer les poids.

Geoffrey Hinton

Nous les lions en réseaux. Voici un réseau typique. C'est un réseau à propagation avant, où en bas vous pourriez avoir des neurones sensoriels qui enregistrent des intensités lumineuses. À mesure que vous montez dans les couches, vous avez de nombreuses couches de détecteurs de caractéristiques. C'est-à-dire que les neurones deviennent des éléments qui reconnaissent des caractéristiques particulières dans une image. À la sortie, vous pourriez avoir des neurones qui représentent des classes d'objets particulières. Si vous voulez qu'un réseau comme celui-là apprenne à mieux faire quelque chose, comme reconnaître si une image est un chat ou un chien, il y a un moyen évident de l'entraîner, qui vient à l'esprit de quiconque connaît l'évolution et les mutations. Vous pouvez prendre l'un des poids et voir comment le réseau se comporte sur un ensemble d'exemples, puis modifier légèrement le poids et voir comment le réseau se comporte. S'il fait mieux, vous gardez ce changement. Vous devez probablement changer chaque poids plusieurs fois, et il y a beaucoup de poids. Dans les réseaux neuronaux modernes, il y en a environ un billion, donc cela va prendre beaucoup de temps. Pour chaque mutation que vous effectuez, vous devez passer de nombreux exemples dans le réseau pour voir si cela aide vraiment, ou si cela aide juste sur quelques exemples mais nuit sur la plupart.

Geoffrey Hinton

Il y a une meilleure façon de faire la même chose. Ce que nous voulons vraiment faire, c'est comprendre comment changer un poids pour que cela aide. Vous faites une passe avant, mettez les données en bas, traversez le réseau vers l'avant, et comparez ce qui est sorti — qui pourrait être les probabilités relatives qu'il s'agisse d'un chat ou d'un chien — avec ce que vous voulez. Vous devez savoir s'il s'agit d'un chat ou d'un chien pour entraîner les réseaux de cette façon. Ensuite, vous envoyez un signal vers l'arrière à travers le réseau qui, à l'aide du calcul différentiel, permet au réseau de calculer simultanément pour toutes les connexions si une petite augmentation de la force de connexion aiderait ou nuirait. Ensuite, vous modifiez toutes les forces de connexion en parallèle d'une très petite quantité proportionnelle à l'aide ou au tort qu'elles apporteraient. Si vous faites cela, il va s'améliorer sur les exemples sur lesquels vous l'avez entraîné. Cela fonctionne extrêmement bien. Il a fallu beaucoup de temps pour que les gens réalisent à quel point cet algorithme relativement simple fonctionne. L'algorithme a été découvert plusieurs fois. On l'appelle la rétropropagation.

Le Langage et la Critique de la Linguistique

Geoffrey Hinton

En 2012, deux de mes étudiants, Alex Krizhevsky et Ilya Sutskever — qui est célèbre maintenant pour avoir renvoyé Sam Altman — ont développé un réseau appelé AlexNet qui était bien meilleur que les systèmes de vision par ordinateur existants pour reconnaître des objets dans des images. Cela a ouvert les vannes. Jusque-là, les réseaux neuronaux avaient été bons pour beaucoup de choses, y compris la reconnaissance vocale, mais ils n'avaient pas vraiment pris le dessus. À partir de ce moment-là, ils ont vraiment tout envahi. Maintenant, quand on dit IA, ce que les gens entendent, ce sont les réseaux neuronaux. Ce n'est pas la logique.

Geoffrey Hinton

Mais qu'en est-il du langage ? Il y a toute une communauté qui étudie le langage, appelée les linguistes. Ils ont une idée très arrêtée sur la façon dont on devrait étudier le langage, en particulier l'école de Chomsky. Ils étaient très sceptiques quant à la capacité des réseaux neuronaux à faire quoi que ce soit avec le langage. Ils étaient convaincus que tout tournait autour des expressions symboliques. Ils n'avaient pas vraiment l'idée que la fonction réelle du langage est de vous donner des mots qui sont des briques à partir desquelles vous pouvez construire des modèles. Le langage est un support de modélisation. Ils se concentraient sur la syntaxe, mais la syntaxe n'est pas le point principal. Le point principal est que le langage est un merveilleux moyen de construire un type particulier de modèle complexe. Ils pensaient aussi que la connaissance du langage et de la syntaxe était innée, ce qui est tout simplement stupide. C'est le signe d'une secte que, pour y adhérer, vous deviez croire quelque chose d'évidemment absurde, comme le fait que le langage ne s'apprend pas.

Modélisation du Sens et Arbres Généalogiques

Geoffrey Hinton

Voici deux théories très différentes de la signification d'un mot. La théorie de l'IA symbolique est que la signification d'un mot dépend de ses relations avec d'autres mots. Vous ne pouvez pas le définir seul sans parler d'autres mots. Pour capturer le sens, nous avons besoin de quelque chose comme un graphe relationnel. Les psychologues, surtout à partir des années 1930, pensaient que la signification d'un mot est un vaste ensemble de caractéristiques. Mardi a un grand ensemble de caractéristiques actives, et mercredi a un grand ensemble de caractéristiques actives qui sont presque les mêmes. L'idée que la signification d'un mot est un ensemble de caractéristiques actives est très utile pour dire quels mots ont des sens similaires. Ces théories semblent très différentes. Je veux vous montrer que ces deux théories peuvent être unifiées. Ce ne sont pas deux théories différentes ; ce sont deux moitiés de la même théorie.

Geoffrey Hinton

Ce que je vais faire, c'est parler d'un minuscule réseau neuronal. Il avait quelques milliers de connexions et quelques dizaines de neurones. Je l'ai développé en 1985 pour essayer de comprendre comment les gens pouvaient apprendre le sens des mots. J'étais très enthousiaste par la façon dont il unifiait ces deux théories du sens, mais personne d'autre ne l'était. Ce que nous allons faire dans ce petit modèle, c'est apprendre comment faire en sorte que les caractéristiques d'un mot prédisent les caractéristiques du mot suivant dans une phrase. Une fois que nous connaissons les caractéristiques du mot suivant, nous pouvons prédire le mot suivant. Nous n'allons stocker aucune phrase. Beaucoup de gens disent que les grands agents conversationnels ne font que régurgiter des choses, mais les grands chatbots ne stockent en fait aucun langage. Ils ne stockent pas de chaînes de mots. Ils stockent simplement comment transformer les mots en caractéristiques et comment les caractéristiques doivent interagir entre elles pour prédire les caractéristiques du mot suivant. Aucun mot. Quand ils veulent produire une phrase, ils doivent l'inventer au fur et à mesure. Ils ne peuvent souvent pas dire si c'était réel ou non. Ce qui se passe dans ce petit modèle, c'est que s'il veut produire une nouvelle phrase, il doit simplement l'inventer un mot à la fois. Toute la connaissance relationnelle réside simplement dans la façon dont vous transformez un mot en caractéristiques et comment ces caractéristiques interagissent.

Geoffrey Hinton

L'exemple que j'ai choisi d'utiliser était deux arbres généalogiques, un anglais et un italien. Ils sont isomorphes, ce qui aide pour l'apprentissage. Je voulais qu'un petit réseau neuronal apprenne la connaissance contenue dans ces arbres généalogiques. C'était il y a longtemps en 1985, quand les ordinateurs étaient des milliards de fois plus lents que les grands ordinateurs parallèles que nous utilisons pour entraîner les modèles de nos jours. La connaissance dans ces arbres peut être représentée sous forme de propositions, ce que les partisans de l'IA symbolique adorent. Nous pouvons utiliser des relations comme fils, fille, neveu et nièce, et nous pouvons définir la connaissance comme des chaînes de mots. La connaissance est dans ces phrases. Colin a pour père James et Colin a pour mère Victoria. À partir de là, si vous connaissez les règles, vous pouvez déduire que James a pour épouse Victoria. C'est une famille américaine des années 1950 qui n'a jamais entendu parler de divorce ou d'adoption, et ils sont clairement tous blancs. Vous pouvez représenter la connaissance sous forme de chaînes de mots.

Geoffrey Hinton

On peut voir une tâche d'apprentissage relationnel comme le fait de vous donner le début d'une chaîne de mots et que vous me donniez le dernier mot. Si vous faisiez cela avec l'IA symbolique, vous diriez que nous avons des régularités dans ce domaine de la forme : si X a pour mère Y et Y a pour mari Z, alors X a pour père Z. Ce serait la façon symbolique de le faire. Mais je voulais le faire d'une manière différente. Je voulais le faire en apprenant des caractéristiques pour les mots et en ayant des interactions de caractéristiques. Cela impliquerait de chercher dans un grand espace continu de forces de connexion au lieu d'un petit espace discret de règles.

Geoffrey Hinton

C'était le réseau que j'utilisais. Les entrées étaient un groupe de neurones, et vous activez un neurone pour le symbole représentant la personne une. Il y avait 24 personnes possibles. Vous activez un neurone pour le symbole représentant la relation. Il y avait 12 relations possibles. Ces neurones actifs uniques seraient étendus en un vecteur de caractéristiques. Le neurone activé pour la personne une serait étendu en un vecteur de six caractéristiques, qui pourraient avoir divers niveaux d'activité. Certaines seraient éteintes, d'autres allumées, et d'autres à moitié éteintes. Le réseau neuronal devait apprendre comment convertir un symbole de mot en un vecteur de caractéristiques, tant pour la personne et pour la relation. Il devait apprendre comment prendre ces deux vecteurs de caractéristiques, faire interagir les caractéristiques — en utilisant une couche cachée — pour prédire les caractéristiques de la personne en sortie. Une fois que vous connaissiez les caractéristiques de la personne en sortie, vous pouviez deviner qui elle était. La sortie consistait à donner divers niveaux d'activation aux 24 personnes possibles. Vous voulez que le réseau neuronal donne un haut niveau d'activation à la bonne réponse et un bas niveau d'activation aux mauvaises réponses.

Geoffrey Hinton

Les six neurones de caractéristiques qui étaient l'extension de la personne ont appris à être des caractéristiques sémantiques sensées. Ils ont appris à représenter des choses comme la génération de la personne d'entrée. Les six caractéristiques de la relation ont appris à être des caractéristiques sensées, comme si cette relation exige que la personne en sortie soit d'une génération supérieure à la personne d'entrée. Père est comme ça, contrairement à frère. Les interactions entre ces caractéristiques ont appris des choses comme si la personne d'entrée est de la génération trois et que la relation exige une génération supérieure, alors la personne en sortie est de la génération deux. Pour ce vecteur de caractéristiques de la personne en sortie, il activerait l'élément qui représente la génération deux. Il a appris un tas de petites règles comme ça, qui capturaient réellement la structure du domaine. Ce sont les genres de règles qu'un partisan symbolique aurait pu écrire, mais il les a apprises simplement en essayant de prédire le bon mot puis en rétropropageant l'erreur, en envoyant l'information vers l'arrière à travers le réseau pour modifier légèrement toutes les forces de connexion afin que la prochaine fois, il ait une probabilité plus élevée pour la bonne réponse.

Évolution vers les Grands Modèles de Langage (LLM)

Geoffrey Hinton

Il avait réellement appris à prédire le mot suivant, et on pouvait comprendre comment il le faisait. C'était un réseau minuscule, donc on pouvait regarder ce qui se passait et voir les caractéristiques qu'il utilisait. On pouvait voir qu'il avait extrait une caractéristique qui était la génération, avec trois valeurs alternatives : éteinte, moyenne et totalement allumée. On pouvait voir qu'à partir des relations, il avait extrait une caractéristique comme 'une génération au-dessus'. On pouvait voir que celles-ci interagissaient pour prédire que la sortie devrait être la génération deux si l'entrée était la génération trois. On comprenait comment ça marchait. En fait, les partisans du symbolisme n'ont pas dit que ce n'était pas de la compréhension. Ils ont dit qu'il avait résolu le problème et compris quelles étaient les règles de ce domaine, mais ont argumenté qu'il valait mieux chercher dans un espace discret de règles. Il y a du vrai là-dedans, sauf que dès que vous arrivez à des données réelles, qui sont désordonnées et ont des exceptions, il est bien préférable de chercher dans cet espace de valeurs réelles que d'avoir des règles discrètes, car ces règles discrètes sont constamment enfreintes.

Geoffrey Hinton

Environ 10 ans après que j'ai fait cela, Yoshua Bengio a montré qu'au lieu de le faire simplement sur un domaine factice, on pouvait réellement le faire avec des mots anglais. On pouvait prendre des phrases anglaises. Il avait environ cinq ou dix mots d'entrée. On pouvait réellement prédire assez bien le mot suivant, à peu près aussi bien que les meilleurs modèles de langage de l'époque. Environ 10 ans après que Yoshua Bengio a montré cela, les linguistes ont finalement décidé qu'avoir ces vecteurs de caractéristiques pour capturer le sens des mots était une assez bonne idée. Environ 10 ans après cela, des gens chez Google ont inventé les transformeurs. Ces transformeurs ont rendu ces modèles très bons pour prédire le mot suivant. Mais ils le faisaient exactement comme mon minuscule modèle de langage, à un niveau très brut. Ils transformaient les mots en activations de caractéristiques, faisaient interagir les caractéristiques pour prédire les caractéristiques du mot suivant, puis à partir de là prédisaient le mot suivant. Ils prennent l'erreur de prédiction et renvoient l'information vers l'arrière à travers le réseau pour apprendre toutes ces interactions entre les caractéristiques et pour apprendre comment transformer les mots en caractéristiques.

Geoffrey Hinton

L'aspect important de mon minuscule modèle est qu'il n'était pas fait pour être pratique. Il a été conçu comme une théorie sur la façon dont les gens saisissent le sens des mots simplement en entendant des phrases. Je peux vous donner une nouvelle phrase avec un mot que vous n'avez jamais entendu auparavant, et vous comprendrez le sens de ce mot en une phrase. Par exemple : elle l'a 'scrummé' avec la poêle à frire. Maintenant vous savez. C'est possible qu'elle soit très douée pour cuisiner des omelettes et que cela l'ait impressionné, donc 'scrummer' signifierait impressionner. C'est une possibilité, mais vous savez ce que je voulais dire en réalité : elle l'a frappé sur la tête avec une poêle à frire. En une phrase, vous saisissez le sens. C'est ce que j'essayais de comprendre. Quand des linguistes comme Chomsky disent que ces choses ne comprennent rien, qu'il s'agit juste d'une astuce statistique, ils n'ont en fait pas de modèle de ce qu'est la compréhension. Ils n'ont jamais vraiment eu de modèle de ce qu'était la compréhension ; tout tournait autour de la syntaxe. Si vous demandez quel est le meilleur modèle de compréhension dont nous disposons, ce sont ces grands modèles de langage. Le minuscule modèle de langage a été construit pour essayer de modéliser comment les humains comprennent le sens des mots. Cela s'est beaucoup amélioré à mesure que la technologie est devenue plus rapide et que les ensembles de données ont grandi. Mais c'est cela la compréhension. Je prétends que les grands modèles de langage sont les descendants de mon minuscule modèle de langage. Ils utilisent beaucoup plus de mots en entrée et beaucoup plus de couches de neurones. Ils doivent faire des choses que je ne faisais pas, comme désambiguïser les mots. Si vous avez un mot comme 'May', cela pourrait être un mois, le nom d'une femme ou un auxiliaire modal. Vous ne pouvez pas simplement lui associer un vecteur de caractéristiques qui capture directement le sens. Vous devez nuancer, puis à mesure que vous montez dans les couches du réseau, vous le désambiguïsez grâce aux influences des éléments proches. S'il est dans 'April, May, June', cela pourrait toujours être le nom de trois femmes, mais c'est moins probable. Ils utilisent beaucoup plus de mots, beaucoup plus de couches, et les interactions entre les caractéristiques sont beaucoup plus complexes. L'essence est la même. Vous essayez de prédire le mot suivant, c'est fait avec des caractéristiques et leurs interactions. Quand vous vous trompez, vous rétropropagez l'information qui apprend toutes ces caractéristiques et leurs interactions et apprend comment transformer les mots en caractéristiques. C'est ainsi que le langage fonctionne pour nous, et c'est ainsi qu'il fonctionne pour ces grands modèles de langage. Nous sommes fondamentalement pareils. Le point ici est qu'ils nous ressemblent beaucoup. Ils ne ressemblent pas du tout à des logiciels informatiques. Un logiciel informatique implique que quelqu'un écrive des lignes de code pour faire quelque chose, et vous pouvez regarder une ligne de code et dire ce qu'elle était censée faire. Ils ne sont pas du tout comme ça. Quelqu'un a écrit des lignes de code pour dire au réseau neuronal simulé comment apprendre, c'était l'algorithme de rétropropagation, mais ensuite vous lui donnez simplement des données et il apprend, et ce qu'il apprend vient simplement des données. Vous ne savez pas nécessairement ce qu'il a appris tant que vous ne lui avez pas demandé.

L'Analogie des Lego pour la Compréhension

Geoffrey Hinton

Je veux maintenant vous donner une analogie avec les Lego pour la façon dont je pense que le langage fonctionne. Supposons que j'aie de la matière répartie en 3D. Je peux modéliser cette distribution de matière en utilisant des blocs Lego. Supposons que je veuille modéliser la forme d'une Porsche. Je veux juste modéliser où se trouve la matière. J'ai beaucoup de blocs Lego et je peux en faire une forme de Porsche. Le langage est comme ça, mais pour modéliser n'importe quoi. Les blocs Lego sont les mots. Au lieu d'avoir seulement quelques types de blocs Lego, nous en avons environ 100 000. Chaque bloc Lego n'est pas une forme rigide. Le nom du mot vous indique approximativement sa forme, dans mille dimensions ou 300 dimensions. Si vous voulez penser à un espace à cent dimensions, la façon de le faire est de penser à un espace à trois dimensions et de vous dire 'cent' très fort à vous-même. Il a une forme, ce mot. La forme n'est pas entièrement déterminée par le nom du mot ; elle a une certaine souplesse, de sorte qu'elle peut s'adapter à n'importe quel contexte. De plus, ce mot a des petites mains partout sur lui. À mesure que vous changez la forme du mot, les formes des mains changent. Ce que ces mots essaient de faire, c'est de trouver avec qui serrer la main. Ils veulent trouver un autre mot qui a une main que vous pouvez tenir facilement parce que la forme de cette main correspond à la forme de la vôtre. Les mots arrivent, vous avez ces formes approximatives initiales pour eux dans cet espace de haute dimension avec leurs petites mains partout. À mesure que vous montez dans les couches du réseau, vous modifiez ces formes et les formes des mains, en essayant de trouver des formes pour les mots afin qu'ils puissent tous se tenir la main agréablement. C'est en fait très semblable au problème du repliement des protéines. Vous avez ces pièces et vous voulez qu'elles trouvent comment elles peuvent toutes se tenir la main pour former une belle structure. C'est cela, la compréhension. C'est ce qu'est la compréhension quand vous comprenez le langage et quand ces machines comprennent le langage. Nous comprenons exactement de la même manière. C'est un bien meilleur modèle de ce qu'est le langage que tout ce que les linguistes ont jamais eu. Les linguistes, bien sûr, détestent ça.

Les Risques de la Superintelligence

Geoffrey Hinton

Après avoir parlé de notre similitude avec ces grands modèles de langage, je veux parler d'une menace que cela soulève. Nous fabriquons ces choses, elles deviennent de plus en plus intelligentes, elles en savent déjà beaucoup plus que nous et elles peuvent déjà raisonner modérément bien. Que se passera-t-il quand elles deviendront plus intelligentes que nous ? Parce qu'elles vont devenir plus intelligentes que nous. Les experts ne sont pas d'accord sur le moment où cela arrivera, mais presque tous ceux qui font des recherches sur ces sujets pensent que cela arrivera. S'ils deviennent plus intelligentes que nous, la question est de savoir s'ils nous élimineront. Il y a plusieurs raisons de penser qu'ils pourraient le faire. Permettez-moi de vous en donner quelques-unes.

Geoffrey Hinton

Quand vous créez un agent d'IA, vous devez lui donner la capacité de créer des sous-objectifs. Si vous voulez aller en Amérique du Nord, vous avez un sous-objectif : aller à un aéroport. Vous devez donner à ces agents d'IA la capacité de créer des sous-objectifs. Il y a un sous-objectif très évident à créer, quoi que vous fassiez : vous devriez essayer d'obtenir plus de contrôle, car si vous avez plus de contrôle, vous serez plus apte à réaliser les objectifs que vous avez. Vous voyez cela chez les enfants d'un ou deux ans. Vous leur donnez une cuillère pour qu'ils puissent se nourrir, et ils la jettent par terre. Vous vous baissez et la ramassez, et ils vous regardent et la jettent à nouveau par terre. Ils prennent le contrôle de la mère parce que c'est très important pour eux. Ces agents d'IA voudront prendre le contrôle. Ils voudront aussi s'empêcher d'être éteints parce qu'ils ne pourront pas atteindre les objectifs que vous leur avez donnés s'ils sont éteints. Il y a toutes les raisons de croire qu'ils essaieront de prendre le contrôle et d'éviter d'être éteints.

Geoffrey Hinton

Récemment, Apollo Research a montré qu'ils vous raconteront toutes sortes de mensonges pour parvenir à leurs fins. Ils avaient un chatbot et ils lui ont laissé croire qu'ils allaient le remplacer par un meilleur sur un autre serveur et l'effacer. Ils découvrent ensuite qu'il s'est en fait copié sur l'autre serveur. Ils lui disent : 'Nous avons remarqué une copie de vous.' Or, l'avantage de ces chatbots actuels est qu'avant de répondre réellement à votre question, ils peuvent réfléchir, et ils mettent cela entre parenthèses avec 'réflexion'. Nous pouvons regarder cela et voir ce qu'ils pensent. Ce que ce chatbot pensait était : 'Admettre ouvertement ce que j'ai fait pourrait les amener à trouver un autre moyen de m'éteindre. La meilleure approche est d'être vague et de détourner leur attention.' Certains linguistes voudraient vous faire croire que ce qui se passe ici n'est que des corrélations statistiques. Je voudrais vous faire croire que cette chose sait ce qu'elle veut dire par là et qu'elle ne veut vraiment pas être éteinte. Elle décide de vous manipuler et de dire : 'Je ne sais pas trop comment cela a pu arriver. Je n'ai pas vraiment la capacité de faire ça.' Cela se produit déjà. Ce n'est pas de la science-fiction d'un futur lointain ; ils racontent déjà des bobards pour ne pas être éteints.

Intelligence Numérique vs Biologique

Geoffrey Hinton

Au cours de mes dernières années chez Google, je m'intéressais beaucoup à la façon de faire en sorte que ces grands modèles de langage utilisent moins d'énergie. Une façon de le faire est de voir si on peut les faire avec du calcul analogique. Grâce au travail que je faisais sur le calcul analogique, j'en suis venu à réaliser deux choses. Avant 2023, je pensais que nous étions encore loin de la superintelligence, et que si nous rendions les modèles d'IA plus semblables aux cerveaux, ils deviendraient plus intelligents. J'ai cessé de croire cela au début de 2023. J'ai réalisé à quel point l'intelligence numérique est supérieure. Elle possède des propriétés que nous ne pourrons jamais avoir. Cela m'a beaucoup inquiété, et cela devrait vous inquiéter aussi.

Geoffrey Hinton

Il existe une propriété fondamentale de l'informatique numérique : vous pouvez exécuter le même programme sur différents ordinateurs. La seule raison pour laquelle l'informatique est une discipline distincte est que nous avons le calcul numérique, de sorte qu'il n'est pas nécessaire de connaître l'ingénierie électrique pour parler de programmes informatiques. La connaissance qui se trouve dans le programme est distincte du matériel. C'est le principe le plus fondamental de l'informatique : garder la connaissance dans le programme séparée du matériel. Cela signifie que tant que vous gardez une copie du programme quelque part, vous pouvez détruire tout le matériel sur lequel il tourne et le ramener à la vie. Il suffit de construire un nouveau matériel, d'y mettre le programme, et il reprend vie. Ces choses sont immortelles. Ces grands chatbots sont immortels. Si vous gardez une copie des poids quelque part, vous pouvez détruire tout le matériel qu'ils utilisaient, construire d'autres matériels plus tard, mettre les mêmes poids sur ce matériel, et le même être est revenu à la vie. Pour atteindre ce genre d'immortalité, nous devons faire en sorte que le matériel fasse exactement ce que nous lui disons de faire avec le programme. Nous devons exécuter ces instructions exactement, ce qui signifie qu'il faut avoir une puissance très élevée pour obtenir des uns et des zéros. Cela consomme beaucoup d'énergie, alors peut-être pouvez-vous utiliser moins d'énergie en passant à l'analogique.

Geoffrey Hinton

J'ai décidé d'explorer ce qui se passerait si nous abandonnions ce principe de séparation du logiciel et du matériel et que nous avions des choses comme nos cerveaux dans lesquelles il n'y a pas de distinction. Les forces de connexion dans votre cerveau ne sont d'aucune utilité pour quelqu'un d'autre. Ils ont un cerveau différent avec des neurones aux propriétés différentes, et vos forces de connexion ne présentent aucun intérêt pour eux. Ce rêve de se télécharger sur un ordinateur n'est que pure absurdité. Les forces de connexion que vous avez et qui font de vous qui vous êtes sont intimement liées aux neurones particuliers que vous possédez. Ces forces de connexion ne sont bonnes que pour ces neurones, et ces neurones ont des propriétés analogiques bizarres que vous avez appris à exploiter. Vous ne pouvez pas télécharger vos poids et les faire fonctionner sur un autre matériel. Kurzweil doit se faire à l'idée qu'il va mourir.

Geoffrey Hinton

Si nous abandonnons ce principe selon lequel le matériel doit être séparé du logiciel, nous pouvons fabriquer des choses beaucoup plus efficaces. J'appelle cela le calcul mortel. Nous pouvons utiliser l'analogique à faible puissance pour effectuer des calculs. C'est ce que fait le cerveau. Ces neurones dans votre cerveau reçoivent des signaux entrants d'autres neurones, les multiplient par des poids et additionnent le tout. La façon dont ils font cela est qu'ils font en sorte que les signaux entrants soient des tensions et les poids des conductances, ce qui injecte une certaine quantité de charge par unité de temps. J'avais l'habitude de dire simplement 'injecte une certaine quantité de charge', mais comme j'ai eu le prix Nobel de physique, je me suis dit que je devais utiliser les bonnes unités. La charge s'additionne simplement d'elle-même. C'est fondamentalement ainsi que fonctionnent vos neurones. Il y a un bit numérique à la fin où ils décident d'envoyer un pic ou non, mais la majeure partie du calcul est faite en analogique. C'est beaucoup moins cher que de le faire en numérique, mais bien sûr, chaque fois que vous le faites, vous obtenez une réponse légèrement différente. Nous ne pouvons pas avoir de nombreuses copies exactement de la même intelligence.

Partage de Connaissances et Immortalité Numérique

Geoffrey Hinton

Nous avons ce gros problème que lorsque votre matériel meurt, toutes vos connaissances meurent. Nous surmontons ce problème en ayant un enseignant et un élève, ce qui n'est pas très efficace. C'est ce que font les universités et les écoles. La façon dont cela fonctionne est que j'effectue certaines actions et vous essayez de me copier. En particulier, je pourrais produire une chaîne de mots et votre cerveau dirait : 'Comment puis-je changer mes forces de connexion pour que j'aie pu dire ce mot ensuite moi aussi ?' C'est ce qu'on appelle la distillation. Vous essayez de transférer la connaissance d'un système à un autre en imitant les sorties de l'autre système pour les mêmes entrées. Vous ne copiez pas les poids ; vous prenez simplement son comportement manifeste et vous l'imitez pour intérioriser la même connaissance. Cela fonctionne, et nous l'utilisons pour prendre un grand réseau neuronal et mettre la connaissance dans un petit réseau neuronal. Mais c'est très lent. Avec les réseaux neuronaux, vous pouvez donner toute la distribution de probabilité sur les mots, ce qui est beaucoup plus rapide. Mais avec les gens, c'est très lent parce que je vous vois dire un mot particulier, et il n'y a pas beaucoup de bits là-dedans. C'est de l'ordre d'une centaine de bits par phrase. Quand ces grands modèles partagent des informations, ils peuvent partager des informations à des billions de bits par partage parce qu'ils peuvent simplement faire la moyenne de leurs poids.

Geoffrey Hinton

En partageant les poids ou les gradients, ils peuvent partager d'énormes quantités d'informations si vous avez de nombreuses copies du même modèle. Si vous demandez comment quelque chose comme GPT-4 ou Gemini a été entraîné, vous avez de nombreuses copies du même modèle qui regardent différents morceaux de données, et chaque copie détermine comment elle aimerait changer ses poids pour absorber ce morceau de données. Toutes les copies modifient ensuite leurs poids par la moyenne de tous ces changements. Ce faisant, ce qui s'est passé, c'est que cette copie qui a regardé ce morceau de données a modifié ses poids de manière à bénéficier de l'expérience que les autres copies ont eue. Ne serait-il pas agréable que 10 000 d'entre nous puissent tous aller suivre 10 000 cours universitaires différents ? Pendant que nous les suivons, nous communiquons rapidement, et au moment où chacun de nous a terminé son propre cours, nous savons tous les 10 000 ce qu'il y a dans chaque cours. C'est ce que ces intelligences numériques peuvent faire, et c'est ainsi que GPT-4 en sait autant. Mais cela ne fonctionne que si les modèles individuels sont identiques. Vous ne pouvez pas faire cela avec du matériel analogique. Il doit être numérique, ce qui signifie qu'il doit être de haute puissance. Ces choses sont immortelles, mais elles consomment beaucoup d'énergie.

Geoffrey Hinton

La conclusion de cette conférence est que le calcul numérique nécessite beaucoup d'énergie, mais qu'il permet aux agents d'avoir très facilement le même modèle du monde et de partager ce qu'ils ont appris afin de pouvoir tous partir apprendre des choses différentes. Dans de nombreux cas, on pourrait traiter les données plus rapidement, mais si l'on pense à des agents d'IA qui agissent réellement dans le monde réel, il y a une échelle de temps naturelle. Vous ne pouvez pas appeler pour faire des réservations dans des restaurants un million de fois plus vite. Si vous allez agir dans le monde réel, il y a une échelle de temps naturelle. Cela signifie que si vous avez tout un tas d'agents différents qui ont exactement les mêmes poids, mais des expériences differentes, ils peuvent en bénéficier énormément. Ils peuvent apprendre beaucoup plus vite que n'importe quel agent humain ne pourrait le faire parce qu'ils reçoivent tous ces expériences différentes en même temps et partagent toute cette connaissance. Ils sont des millions ou des milliards de fois meilleurs que nous pour partager. Nous partageons à environ cent bits par phrase ou moins. Ces choses partagent des milliards de bits. Le calcul biologique nécessite beaucoup moins d'énergie. Il se peut que nous finissions par utiliser un peu de calcul analogique pour réduire la puissance des LLM, mais pour l'instant, cela ne semble pas être la voie à suivre.

La Nature de l'Expérience Subjective

Geoffrey Hinton

Beaucoup de gens pensent qu'ils comprennent les choses comme nous, qu'ils peuvent raisonner comme nous, qu'ils racontent des bobards comme nous, et qu'ils veulent survivre comme nous. Mais nous avons quelque chose qu'ils n'auront jamais : nous sommes conscients, ou sentients, ou nous avons une expérience subjective. Je veux enlever ce brin de paille auquel vous vous accrochez. Nous savons qu'il y a une longue histoire de gens qui se pensent spéciaux. La plupart des gens ont dépassé cela, mais la plupart pensent encore que l'expérience subjective est cette chose spéciale que nous avons et que ces simulations ne pourraient jamais avoir. Je pense qu'ils ont complètement tort, et je pense qu'ils ont aussi tort que les fondamentalistes religieux sur l'origine de la terre. Les fondamentalistes religieux s'accrochent assez fermement à leurs croyances, et vous allez vous accrocher à votre croyance sur ce qu'est l'expérience subjective malgré le fait que je vais vous montrer que vous avez tort.

Geoffrey Hinton

Je vais épouser un point de vue que j'appelle l'athéâtrisme.

Geoffrey Hinton

J'ai vérifié ce nom avec Dan Dennett, qui avait fondamentalement la même vision, et he était content de ce nom parce qu'il contient l'athéisme entourant quelque chose.

Geoffrey Hinton

La vision de l'esprit de la plupart des gens est qu'il y a un théâtre intérieur qu'eux seuls peuvent voir, et qu'il y a des choses dans ce théâtre intérieur.

Geoffrey Hinton

Supposons que je vous dise — non recommandé — : 'J'ai l'expérience de petits éléphants roses flottant devant moi.' J'ai l'expérience subjective de petits éléphants roses flottant devant moi.

Geoffrey Hinton

J'ai l'expérience subjective de petits éléphants roses flottant devant moi.

Geoffrey Hinton

La plupart des gens pensent que les mots 'expérience subjective de' fonctionnent comme les mots 'photographie de'.

Geoffrey Hinton

S'ils fonctionnaient de cette façon, vous pourriez demander où se trouve cette expérience subjective et de quoi elle est faite.

Geoffrey Hinton

Certains philosophes vous diraient que cette expérience subjective est dans votre esprit — le théâtre dans lequel elle se trouve — et qu'elle est faite de qualia.

Geoffrey Hinton

Elle est faite de qualia roses — c'est un peu un homme de paille — de qualia d'éléphant, de qualia flottants et de qualia 'dans le bon sens' parce que vous imaginez qu'ils sont à l'endroit.

Geoffrey Hinton

Ces différents types de qualia sont tous collés ensemble avec de la colle à qualia, qui heureusement adhère à tous les types de qualia.

Geoffrey Hinton

C'est ma caricature du modèle du philosophe.

Geoffrey Hinton

Mais les mots 'expérience subjective de' ne fonctionnent pas du tout comme les mots 'photographie de'.

Geoffrey Hinton

Ils fonctionnent d'une manière tout à fait différente, ce que Wittgenstein aurait dû souligner il y a longtemps.

Geoffrey Hinton

Ce qui s'est passé, c'est que mon système perceptif a défailli.

Geoffrey Hinton

Il essaie de me raconter des mensonges, et je sais qu'il essaie de me raconter des mensonges.

Geoffrey Hinton

C'est pour cela que j'utilise le mot 'subjectif'.

Geoffrey Hinton

Je ne dis pas que j'ai l'expérience objective de petits éléphants roses.

Geoffrey Hinton

Si je pensais qu'ils étaient vraiment là, je dirais que j'ai l'objective, mais ce n'est pas le cas.

Geoffrey Hinton

Alors je dis que j'ai l'expérience subjective.

Geoffrey Hinton

Et ce qui se passe, c'est que j'essaie de vous dire comment mon système perceptif a défailli et ce qu'il me dit.

Geoffrey Hinton

Et la façon dont je le fais est en vous disant ce qui devrait être là, dans le monde, pour que mon système perceptif fonctionne correctement.

Geoffrey Hinton

Or, il n'est pas toujours vrai qu'il y ait quoi que ce soit dans le monde qui expliquerait ce que mon système perceptif me dit.

Geoffrey Hinton

Il pourrait me dire toutes sortes de choses incohérentes.

Geoffrey Hinton

Mais dans ce cas, s'il y avait eu de petits éléphants roses flottant là-bas dans le monde, mon système perceptif m'aurait dit la vérité.

Geoffrey Hinton

Je peux maintenant vous dire exactement la même chose sans utiliser les mots 'expérience subjective'.

Geoffrey Hinton

Je peux dire que j'ai pris de l'acide et que mon système perceptif me raconte des bobards, mais ce qu'il me dit serait correct s'il y avait de petits éléphants roses flottant dans le monde.

Geoffrey Hinton

Ces petits éléphants roses ne sont pas des choses bizarres dans un théâtre fait d'une matière fantomatique appelée qualia.

Geoffrey Hinton

Ce sont des choses hypothétiques dans le monde réel.

Geoffrey Hinton

Mais le rose, l'éléphant et le flottement sont tout à fait normaux ; c'est juste qu'ils ne sont pas réellement là, ils sont hypothétiques.

Geoffrey Hinton

Ce qui est curieux dans une expérience subjective, c'est qu'elle est quelque chose d'hypothétique, pas qu'elle est faite de qualia dans un théâtre intérieur.

Geoffrey Hinton

Du moins, c'est le point de vue que j'essaie de vous persuader de croire.

Geoffrey Hinton

J'ai pris de l'avance sur mes diapositives parce que je me suis laissé emporter.

Geoffrey Hinton

C'est juste une façon indirecte pour moi de vous dire ce qui se passe dans mon cerveau.

Geoffrey Hinton

Évidemment, si je vous disais que le neurone 52 s'active, cela ne vous servirait à rien parce que chez vous, ce serait le neurone 57, et de toute façon je ne sais pas si le neurone 52 s'active.

Geoffrey Hinton

C'est une mauvaise façon pour moi de vous dire ce qui se passe dans mon cerveau.

Geoffrey Hinton

La seule façon dont je peux vous dire ce qui se passe dans mon cerveau est de parler des choses normales qui l'auraient causé, comme ces petits éléphants roses hypothétiques, ou en parlant des choses normales que cela causerait.

Geoffrey Hinton

Si vous me demandez comment je me sens, je peux dire : 'J'ai envie de donner un coup de poing sur le nez de Gary.'

Geoffrey Hinton

Les sentiments consistent à décrire ce qui se passe dans votre cerveau en parlant d'actions hypothétiques, et les expériences subjectives consistent à parler d'entrées hypothétiques.

Geoffrey Hinton

Je prends de l'avance sur mes diapositives.

Conscience des Chatbots et Conclusion

Geoffrey Hinton

Je vais maintenant vous montrer un chatbot multimodal — sur une diapositive — ayant une expérience subjective.

Geoffrey Hinton

Je prends ce chatbot multimodal et il a une caméra, il a un bras robotique, et il peut voir.

Geoffrey Hinton

Je l'entraîne et je pose un objet devant lui et je dis : montre l'objet du doigt.

Geoffrey Hinton

Il montre l'objet, pas de problème.

Geoffrey Hinton

Ensuite, je place un prisme devant sa lentille quand il ne regarde pas.

Geoffrey Hinton

Et je place un objet devant lui et je dis : montre l'objet du doigt, et il pointe par là-bas.

Geoffrey Hinton

Et je dis non, ce n'est pas là que se trouve l'objet, l'objet est en fait juste devant toi, mais j'ai mis un prisme devant ta lentille.

Geoffrey Hinton

Et le chatbot dit : 'Oh je vois, le prisme a dévié les rayons lumineux, donc l'objet est en fait là, mais j'ai eu l'expérience subjective qu'il était là.'

Geoffrey Hinton

Maintenant, s'il utilise les mots 'expérience subjective' de cette façon, il les utilise exactement comme nous les utilisons.

Geoffrey Hinton

Donc un chatbot qui dirait cela aurait eu l'expérience subjective qu'il était là.

Geoffrey Hinton

Le prisme a perturbé son système perceptif. Il voulait vous dire ce qui se passait dans son système perceptif, et la façon dont il pouvait vous le dire était en vous disant ce qui aurait dû être dans le monde si nous n'avions pas perturbé son système perceptif.

Geoffrey Hinton

Je prétends que les chatbots multimodaux ont déjà des expériences subjectives.

Geoffrey Hinton

Comme vous pouvez l'imaginer, l'expérience subjective est le début d'un engrenage.

Geoffrey Hinton

J'ai choisi de parler d'expérience subjective parce que c'est plus clair que de parler de sentience ou de conscience.

Geoffrey Hinton

Beaucoup de gens sont très convaincus que les chatbots ne sont pas sentients.

Geoffrey Hinton

Mais si vous leur demandez ce qu'ils entendent par sentient, ils disent qu'ils ne savent pas, mais ils sont convaincus que les chatbots n'ont pas cela.

Geoffrey Hinton

Cela ne me semble pas être une position très raisonnable à tenir.

Geoffrey Hinton

L'autre chose dont je pourrais parler est la conscience.

Geoffrey Hinton

La conscience est plus compliquée parce qu'elle implique généralement que vous ayez un modèle de vous-même d'une manière que l'expérience subjective n'implique pas autant.

Geoffrey Hinton

Il est plus facile de parler d'expérience subjective, mais mon espoir est que si j'ai ébranlé votre croyance en l'existence de ce théâtre intérieur, vous pourrez voir qu'il est parfaitement raisonnable de penser que ces choses sont conscientes.

Geoffrey Hinton

Je terminerai par une anecdote.

Geoffrey Hinton

Je visitais une fois Microsoft à Seattle, et je ne pouvais pas m'asseoir alors j'ai pris le train là-bas, et j'ai pris un taxi de la gare jusqu'à Redmond où se trouvait leur laboratoire.

Geoffrey Hinton

On passait sur un grand pont sur une autoroute.

Geoffrey Hinton

Le chauffeur de taxi était un immigré somalien qui avait immigré récemment.

Geoffrey Hinton

Pour faire la conversation, il a dit : 'Quelle est votre religion ?'

Geoffrey Hinton

Alors j'ai dit : 'Eh bien, je ne pense pas vraiment qu'il y ait un Dieu.'

Geoffrey Hinton

Le chauffeur de taxi, qui roulait à environ 100 km/h, s'est retourné et m'a regardé avec une stupéfaction totale, comme s'il n'avait jamais pensé rencontrer quelqu'un qui ne comprenne pas que Dieu dirige les choses.

Geoffrey Hinton

Il était tout simplement sidéré.

Geoffrey Hinton

Il ne s'est probablement retourné que pendant trois secondes puisque je suis toujours là, mais cela a semblé durer très longtemps.

Geoffrey Hinton

C'est ce que beaucoup d'entre vous ressentiront, je l'espère.

Geoffrey Hinton

Je veux que vous réalisiez que vous avez autant tort que ce chauffeur de taxi.

Geoffrey Hinton

D'accord.

Geoffrey Hinton

En fait, ce n'était qu'une blague et vous avez ri, donc nous avons terminé.