Dario Amodei - Dario Amodei : Anthropic, Claude 3.5 et le futur de l'IA

Dario Amodei

Dario Amodei : Anthropic, Claude 3.5 et le futur de l'IA

11 novembre 2024

Intelligence Artificielle

Introduction et Vision de l'IA Puissante

Dario Amodei

Si vous extrapolez les courbes que nous avons eues jusqu'à présent, n'est-ce pas ? Si vous dites, nous commençons à atteindre le niveau doctorat, et l'année dernière nous étions au niveau licence, et l'année d'avant nous étions au niveau d'un lycéen — encore une fois, on peut chipoter sur quelles tâches et pour quoi. Il nous manque encore des modalités, mais elles sont en train d'être ajoutées ; l'utilisation de l'ordinateur a été ajoutée, et la génération d'images a été ajoutée. Si vous évaluez simplement à l'œil nu la vitesse à laquelle ces capacités augmentent, cela vous fait penser que nous y parviendrons d'ici 2026 ou 2027. Je pense qu'il existe encore des mondes où cela n'arrivera pas dans cent ans. Le nombre de ces mondes diminue rapidement. Nous arrivons rapidement à court de bloqueurs vraiment convaincants, de raisons vraiment impérieuses pour lesquelles cela ne se produira pas dans les prochaines années. La montée en puissance est très rapide. Nous le faisons aujourd'hui : nous créons un modèle, puis nous en déployons des milliers, peut-être des dizaines de milliers d'instances. Je pense que d'ici deux ou trois ans, que nous ayons ces IA superpuissantes ou non, les clusters atteindront une taille telle que vous pourrez en déployer des millions. Je suis optimiste quant au sens. Je m'inquiète pour l'économie et la concentration du pouvoir. C'est en fait ce qui m'inquiète le plus.

Lex Fridman

L'abus de pouvoir et l'IA augmentent la quantité de pouvoir dans le monde et si vous concentrez ce pouvoir et en abusez, cela peut causer des dommages incommensurables.

Dario Amodei

Oui, c'est très effrayant.

Lex Fridman

Ce qui suit est une conversation avec Dario Amodei, PDG d'Anthropic, la société qui a créé Claude qui est actuellement et souvent au sommet de la plupart des classements de benchmarks LLM. De plus, Dario et l'équipe d'Anthropic ont été des défenseurs acharnés de la nécessité de prendre le sujet de la sécurité de l'IA très au sérieux. Et ils ont continué à publier de nombreuses recherches fascinantes sur l'IA à ce sujet et sur d'autres thèmes. Je suis également rejoint ensuite par deux autres personnes brillantes d'Anthropic. Tout d'abord, Amanda Askell, qui est chercheuse travaillant sur l'alignement et le peaufinage de Claude, y compris la conception du caractère et de la personnalité de Claude. Quelques personnes m'ont dit qu'elle avait probablement plus discuté avec Claude que n'importe quel humain chez Anthropic. Elle était donc sans aucun doute une personne fascinante avec qui parler d'ingénierie de prompts et de conseils pratiques sur la façon de tirer le meilleur de Claude. Ensuite, Chris Olah s'est arrêté pour discuter. Il est l'un des pionniers du domaine de l'interprétabilité mécaniste, qui est un ensemble d'efforts passionnants visant à faire de l'ingénierie inverse sur les réseaux de neurones pour comprendre ce qui se passe à l'intérieur, en déduisant des comportements à partir des schémas d'activation neuronale à l'intérieur du réseau. C'est une approche très prometteuse pour assurer la sécurité des futurs systèmes d'IA superintelligents. Par exemple, en détectant à partir des activations quand le modèle essaie de tromper l'humain à qui il parle. Ceci est le Podcast de Lex Fridman. Pour le soutenir, veuillez consulter nos sponsors dans la description. Et maintenant, chers amis, voici Dario Amodei.

L'Hypothèse de Mise à l'Échelle (Scaling Laws)

Lex Fridman

Commençons par la grande idée des lois de mise à l'échelle et de l'hypothèse de mise à l'échelle. Qu'est-ce que c'est, quelle est son histoire et où en sommes-nous aujourd'hui ?

Dario Amodei

Je ne peux le décrire qu'en rapport avec ma propre expérience, mais je suis dans le domaine de l'IA depuis environ 10 ans. C'est quelque chose que j'ai remarqué très tôt. J'ai rejoint le monde de l'IA pour la première fois lorsque je travaillais chez Baidu avec Andrew Ng fin 2014, ce qui fait presque exactement 10 ans maintenant. La première chose sur laquelle nous avons travaillé était les systèmes de reconnaissance vocale. À cette époque, je pense que l'apprentissage profond était une chose nouvelle — il avait fait beaucoup de progrès, mais tout le monde disait toujours que nous n'avions pas les algorithmes nécessaires pour réussir, que nous ne correspondions qu'à une infime fraction. Il y a tellement de choses que nous devons découvrir sur le plan algorithmique ; nous n'avons pas trouvé l'image de la façon de correspondre au cerveau humain. Quand j'ai eu de la chance, j'étais un nouveau venu dans le domaine et j'ai regardé le réseau de neurones que nous utilisions pour la parole — les réseaux de neurones récurrents — et j'ai dit : 'Et si on les rendait plus grands et qu'on leur donnait plus de couches ?' Et si on augmentait l'échelle des données parallèlement à cela ? Je voyais simplement cela comme des cadrans indépendants que l'on pouvait tourner. J'ai remarqué que les modèles commençaient à devenir de plus en plus performants à mesure qu'on leur donnait plus de données, à mesure qu'on augmentait la taille des modèles et à mesure qu'on les entraînait plus longtemps. Je ne mesurais pas les choses précisément à l'époque, mais avec mes collègues, nous avons eu le sentiment informel que plus on met de données, de calcul et d'entraînement dans ces modèles, plus ils sont performants. Au départ, je pensais que c'était peut-être seulement vrai pour les systèmes de reconnaissance vocale — peut-être juste une particularité, un domaine spécifique. Ce n'est qu'en 2017, quand j'ai vu pour la première fois les résultats de GPT-1, que j'ai compris que le langage est probablement le domaine dans lequel nous pouvons faire cela. Nous pouvons obtenir des billions de mots de données linguistiques, nous pouvons nous entraîner dessus, et les modèles que nous entraînions à l'époque étaient minuscules. On pouvait les entraîner sur un à huit GPU alors qu'aujourd'hui on lance des entraînements sur des dizaines de milliers, bientôt des centaines de milliers de GPU. Quand j'ai vu ces deux choses ensemble — et il y avait quelques personnes comme Ilya Sutskever que vous avez interviewé qui avaient des opinions assez similaires — il a peut-être été le premier, bien que quelques personnes soient arrivées à des vues similaires vers la même époque. Il y a eu la 'Bitter Lesson' de Rich Sutton et Gwern a écrit sur l'hypothèse de mise à l'échelle. Mais c'est quelque part entre 2014 et 2017 que j'ai vraiment eu le déclic, quand j'ai vraiment acquis la conviction que nous allions être capables de réaliser ces tâches cognitives incroyablement vastes si nous augmentions simplement l'échelle des modèles. À chaque étape de la mise à l'échelle, il y a toujours des arguments et quand je les ai entendus pour la première fois, honnêtement, j'ai pensé que c'était probablement moi qui avais tort et que tous ces experts du domaine avaient raison ; ils connaissaient mieux la situation que moi. Il y avait l'argument de Chomsky sur le fait qu'on peut obtenir la syntaxe mais pas la sémantique, il y avait cette idée qu'on peut faire en sorte qu'une phrase ait du sens mais pas un paragraphe. Le dernier argument que nous avons aujourd'hui est que nous allons manquer de données ou que les données ne sont pas d'assez bonne qualité ou que les modèles ne peuvent pas raisonner. Chaque fois, nous parvenons soit à trouver un contournement, soit la mise à l'échelle est elle-même le contournement. Parfois c'est l'un, parfois c'est l'autre. J'en suis maintenant à ce point, je pense toujours que c'est toujours assez incertain — nous n'avons rien d'autre que l'inférence inductive pour nous dire que les prochaines années seront comme les 10 dernières années. Mais j'ai vu le film assez de fois pour croire vraiment que la mise à l'échelle va probablement continuer et qu'il y a là une sorte de magie que nous n'avons pas encore vraiment expliquée sur une base théorique.

Lex Fridman

Et bien sûr, la mise à l'échelle ici, ce sont des réseaux plus grands, des données plus grandes, plus de puissance de calcul.

Dario Amodei

Oui, en particulier la mise à l'échelle linéaire de plus grands réseaux, de plus longs temps d'entraînement et de plus en plus de données. Toutes ces choses sont presque comme une réaction chimique : vous avez trois ingrédients et vous devez mettre à l'échelle linéairement les trois ingrédients. Si vous mettez à l'échelle l'un et pas les autres, vous manquez des autres réactifs et la réaction s'arrête. Mais si vous mettez tout à l'échelle en série, alors la réaction peut se poursuivre.

Lex Fridman

Et bien sûr, maintenant que vous avez cette sorte de science empirique slash art, vous pouvez l'appliquer à d'autres choses plus nuancées comme les lois de mise à l'échelle appliquées à l'interprétabilité ou au post-entraînement, ou simplement voir comment cette chose évolue. Mais la grande loi de mise à l'échelle, je suppose que l'hypothèse de mise à l'échelle sous-jacente, est liée au fait que de grands réseaux et de grandes données mènent à l'intelligence.

Dario Amodei

Oui, nous avons documenté des lois de mise à l'échelle dans de nombreux domaines autres que le langage. Au départ, l'article que nous avons fait et qui l'a montré pour la première fois était début 2020 pour le langage. Il y a ensuite eu des travaux fin 2020 où nous avons montré la même chose pour d'autres modalités comme les images, la vidéo, le texte-vers-image, l'image-vers-texte, les mathématiques — qu'ils suivaient tous le même schéma. Et vous avez raison, il y a maintenant d'autres étapes comme le post-entraînement ou il y a de nouveaux types de modèles de raisonnement et dans tous ces cas que nous avons mesurés, nous voyons des types de lois de mise à l'échelle similaires.

Philosophie de l'Intelligence et Limites

Lex Fridman

Une question un peu philosophique, mais quelle est votre intuition sur la raison pour laquelle plus c'est grand, mieux c'est en termes de taille de réseau et de taille de données ? Pourquoi cela mène-t-il à des modèles plus intelligents ?

Dario Amodei

Dans ma carrière précédente de biophysicien — j'ai fait de la physique en licence puis de la biophysique en doctorat — je repense à ce que je connais en tant que physicien, ce qui est en fait bien moins que ce que certains de mes collègues chez Anthropic possèdent en termes d'expertise en physique. Il y a ce concept appelé le bruit en 1/f et les distributions en 1/x, où souvent, tout comme si vous additionnez un tas de processus naturels vous obtenez une gaussienne, si vous additionnez un tas de processus naturels distribués différemment — si vous prenez une sonde et la branchez sur une résistance — la distribution du bruit thermique dans la résistance évolue comme l'inverse de la fréquence. C'est une sorte de distribution convergente naturelle. Je pense que cela revient au fait que si vous regardez beaucoup de choses produites par un processus naturel qui a beaucoup d'échelles différentes — pas une gaussienne qui est étroitement distribuée, mais si je regarde les fluctuations grandes et petites qui mènent au bruit électrique — elles ont cette distribution décroissante en 1/x. Alors maintenant, je pense aux schémas dans le monde physique, ou dans le langage. Si je pense aux schémas dans le langage, il y a des schémas vraiment simples. Certains mots sont beaucoup plus fréquents que d'autres, comme 'le'. Ensuite, il y a la structure de base nom-verbe. Puis le fait que les noms et les verbes doivent s'accorder, ils doivent se coordonner. Ensuite, il y a la structure de phrase de niveau supérieur. Puis la structure thématique des paragraphes. Parce qu'il y a cette structure régressive, vous pouvez imaginer qu'à mesure que vous agrandissez les réseaux, ils capturent d'abord les corrélations vraiment simples, les schémas vraiment simples, et il y a cette longue traîne d'autres schémas. Si cette longue traîne d'autres schémas est vraiment fluide, comme c'est le cas avec le bruit en 1/f dans les processus physiques comme les résistances, alors vous pouvez imaginer qu'à mesure que vous agrandissez le réseau, il capture une plus grande partie de cette distribution. Cette fluidité se reflète dans la capacité des modèles à prédire et dans leurs performances. Le langage est un processus évolué : nous avons développé le langage, nous avons des mots courants et des mots moins courants, nous avons des expressions courantes et moins courantes, nous avons des idées, des clichés qui s'expriment fréquemment et nous avons des idées nouvelles. Ce processus s'est développé et a évolué avec les humains sur des millions d'années. L'hypothèse — et c'est de la pure spéculation — serait qu'il existe une sorte de distribution à longue traîne de ces idées.

Lex Fridman

Il y a donc la longue traîne mais il y a aussi la hauteur de la hiérarchie des concepts que vous construisez. Donc plus le réseau est grand, on suppose que vous avez une capacité plus élevée de-

Dario Amodei

Exactement, si vous avez un petit réseau, vous n'obtenez que les trucs courants. Si je prends un minuscule réseau de neurones, il est très bon pour comprendre qu'une phrase doit avoir un verbe, un adjectif, un nom, mais il est terrible pour décider ce qu'ils devraient être et s'ils doivent avoir du sens. Si je le rends juste un peu plus grand, il devient bon à ça. Puis soudain, il est bon pour les phrases mais il n'est pas bon pour les paragraphes et donc ces schémas plus rares et plus complexes sont saisis à mesure que j'ajoute plus de capacité au réseau.

Lex Fridman

Eh bien, la question naturelle est alors : quel est le plafond de tout cela ? Jusqu'à quel point le monde réel est-il compliqué et complexe ? Quelle quantité de choses y a-t-il à apprendre ?

Dario Amodei

Je ne pense pas qu'aucun d'entre nous connaisse la réponse à cette question. Mon instinct profond serait qu'il n'y a pas de plafond en dessous du niveau des humains ; nous, humains, sommes capables de comprendre ces différents schémas et cela me fait penser que si nous continuons à mettre ces modèles à l'échelle et à développer de nouvelles méthodes pour les entraîner, cela atteindra au moins le niveau que nous avons atteint avec les humains. Il y a ensuite la question de savoir jusqu'à quel point il est possible de comprendre plus que les humains ? Dans quelle mesure est-il possible d'être plus intelligent et plus perspicace que les humains ? Je suppose que la réponse doit dépendre du domaine. Si je regarde un domaine comme la biologie, il me semble que les humains ont du mal à comprendre la complexité de la biologie. Si vous allez à Stanford ou à Harvard ou à Berkeley, vous avez des départements entiers de personnes essayant d'étudier le système immunitaire ou les voies métaboliques et chaque personne n'en comprend qu'une infime partie, se spécialise, et ils ont du mal à combiner leurs connaissances avec celles d'autres humains. J'ai donc l'instinct qu'il y a beaucoup de place au sommet pour que les IA deviennent plus intelligentes. Si je pense à quelque chose comme les matériaux dans le monde physique ou la résolution des conflits entre humains — il se peut que certains de ces problèmes ne soient pas insolubles mais beaucoup plus difficiles et il se peut qu'il y ait une limite à ce que l'on peut faire, tout comme avec la reconnaissance vocale. Il n'y a qu'une certaine clarté avec laquelle je peux entendre votre voix. Je pense donc que dans certains domaines, il peut y avoir des plafonds très proches de ce que les humains ont fait ; dans d'autres domaines, ces plafonds peuvent être très éloignés. Je pense que nous ne le découvrirons qu'en construisant ces systèmes. Il est très difficile de le savoir à l'avance. On peut spéculer mais on ne peut pas en être sûr.

Lex Fridman

Et dans certains domaines, le plafond pourrait être lié aux bureaucraties humaines et à des choses comme cela, comme vous l'écrivez. Ainsi, les humains doivent fondamentalement faire partie de la boucle, c'est ce qui cause le plafond, et non peut-être les limites de l'intelligence.

Dario Amodei

Oui, je pense que dans de nombreux cas, en théorie, la technologie pourrait changer très vite, par exemple toutes les choses que nous pourrions inventer concernant la biologie. Mais n'oubliez pas qu'il existe un système d'essais cliniques par lequel nous devons passer pour administrer réellement ces choses aux humains. Je pense que c'est un mélange de choses inutiles et bureaucratiques et de choses qui protègent l'intégrité de la société, et tout le défi est qu'il est difficile de dire lesquelles sont lesquelles. Mon point de vue est qu'en termes de développement de médicaments, nous sommes trop lents et trop conservateurs, mais il est certain que si vous vous trompez dans ces domaines, il est possible de risquer la vie des gens en étant trop imprudent. Au moins certaines de ces institutions humaines protègent en fait les gens. Il s'agit donc de trouver l'équilibre. Je soupçonne fortement que cet équilibre penche plus du côté de pousser pour que les choses aillent plus vite, mais il y a un équilibre.

Obstacles et Limites du Calcul

Lex Fridman

Si nous atteignons une limite, si we atteignons un ralentissement dans les lois de mise à l'échelle, quelle en serait la raison selon vous ? Est-ce limité par le calcul, par les données, euh, est-ce autre chose ? Limité par les idées ?

Dario Amodei

Quelques choses. Nous parlons ici d'atteindre la limite avant d'arriver au niveau et à la compétence des humains. L'une d'elles, populaire aujourd'hui et qui, je pense, pourrait être une limite que nous rencontrerons — bien que je parierais contre la plupart des limites — est que nous manquions simplement de données. Il n'y a qu'une quantité limitée de données sur Internet et il y a des problèmes de qualité des données. On peut obtenir des centaines de billions de mots, mais une grande partie est répétitive ou guidée par l'optimisation pour les moteurs de recherche ou peut-être qu'à l'avenir, ce sera même du texte généré par des IA. Je pense donc qu'il y a des limites à ce qui peut être produit de cette manière. Cela dit, nous et d'autres entreprises travaillons sur des moyens de rendre les données synthétiques, où l'on peut utiliser le modèle pour générer plus de données du type de celles que l'on possède déjà ou même générer des données à partir de zéro. Si vous pensez à ce qui a été fait avec AlphaGo Zero de DeepMind, ils ont réussi à amener un bot d'une absence totale de capacité à jouer au Go jusqu'à un niveau supérieur à celui des humains, simplement en jouant contre lui-même. Aucun exemple de données provenant d'humains n'était requis dans cette version. L'autre direction, ce sont ces modèles de raisonnement qui font de la chaîne de pensée et s'arrêtent pour penser et réfléchir à leur propre pensée. D'une certaine manière, c'est un autre type de données synthétiques couplé à l'apprentissage par renforcement. Je suppose qu'avec l'une de ces méthodes, nous contournerons la limitation des données, ou il pourrait y avoir d'autres sources de données disponibles. Nous pourrions simplement observer que même s'il n'y a pas de problème de données, à mesure que nous commençons à mettre les modèles à l'échelle, ils s'arrêtent simplement de s'améliorer. Cela pourrait simplement s'arrêter à un moment donné pour une raison que nous ne comprenons pas. La réponse pourrait être que nous devons inventer une nouvelle architecture. Il y a été des problèmes par le passé avec la stabilité numérique où il semblait que les choses stagnaient, mais quand nous avons trouvé le bon débloqueur, elles ne l'ont pas fait. Peut-être qu'il y a une nouvelle méthode d'optimisation ou une nouvelle technique dont nous avons besoin pour débloquer les choses. Je n'en ai vu aucune preuve jusqu'à présent, mais si les choses devaient ralentir, cela pourrait peut-être en être une raison.

Lex Fridman

Qu'en est-il des limites du calcul ? C'est-à-dire, euh, la nature coûteuse de la construction de centres de données de plus en plus grands.

Dario Amodei

À l'heure actuelle, la plupart des entreprises de modèles de pointe opèrent approximativement à une échelle d'un milliard de dollars, à un facteur trois près. Ce sont les modèles qui existent actuellement ou qui sont en cours d'entraînement. Je pense que l'année prochaine nous allons passer à quelques milliards, puis en 2026 nous pourrions dépasser les 10 milliards et probablement d'ici 2027 il y a des ambitions de construire des clusters de 100 milliards de dollars. Je pense que tout cela va réellement se produire. Il y a beaucoup de détermination à construire la puissance de calcul pour le faire dans ce pays et je suppose que cela se produira réellement. Maintenant, si nous arrivons à 100 milliards et que ce n'est toujours pas assez, alors soit nous avons besoin d'encore plus d'échelle, soit nous devons développer un moyen de le faire plus efficacement, de déplacer la courbe. L'une des raisons pour lesquelles je suis optimiste quant à l'arrivée si rapide d'une IA puissante est simplement que si vous extrapolez les prochains points de la courbe, nous nous rapprochons très rapidement d'une capacité de niveau humain. Certains des nouveaux modèles que nous avons développés, certains modèles de raisonnement provenant d'autres entreprises, commencent à atteindre ce que j'appellerais le niveau PhD ou professionnel. Si vous regardez leur capacité de codage, le dernier modèle que nous avons publié, Sonnet 3.5 mis à jour, obtient environ 50 % sur SWE-bench. SWE-bench est un exemple d'un ensemble de tâches d'ingénierie logicielle professionnelles du monde réel. Au début de l'année, l'état de l'art était de 3 % ou 4 %. En 10 mois, nous sommes passés de 3 % à 50 % sur cette tâche. Je pense que dans une autre année, nous serons probablement à 90 %. Nous avons vu des choses similaires en mathématiques, physique et biologie de niveau universitaire avec des modèles comme o1 d'OpenAI. Si we continuons simplement à extrapoler la courbe droite, d'ici quelques années, nous parviendrons à ce que ces modèles soient au-dessus du niveau professionnel le plus élevé par rapport aux humains. Maintenant, cette courbe va-t-elle continuer ? Vous avez souligné, et j'ai souligné, beaucoup de raisons pour lesquelles cela pourrait ne pas arriver. Mais si la courbe d'extrapolation continue, c'est la trajectoire sur laquelle nous nous trouvons.

Mission d'Anthropic et Course vers le Haut

Lex Fridman

Anthropic a donc plusieurs concurrents. Il serait intéressant d'avoir votre point de vue sur tout cela. OpenAI, Google, xAI, Meta. Que faut-il pour gagner, au sens large du terme, dans ce domaine ?

Dario Amodei

Je veux séparer quelques points. La mission d'Anthropic est d'essayer de faire en sorte que tout cela se passe bien et nous avons une théorie du changement appelée 'course vers le haut'. La course vers le haut consiste à essayer de pousser les autres acteurs à faire ce qu'il faut en donnant l'exemple. Il ne s'agit pas d'être le gentil, il s'agit de mettre les choses en place pour que nous puissions tous être les gentils. Au début de l'histoire d'Anthropic, l'un de nos cofondateurs, Chris Olah — que vous allez bientôt interviewer, je crois — est le cofondateur du domaine de l'interprétabilité mécaniste, qui est une tentative de comprendre ce qui se passe à l'intérieur des modèles d'IA. Nous lui avons demandé, ainsi qu'à l'une de nos premières équipes, de se concentrer sur ce domaine de l'interprétabilité, que nous jugeons bon pour rendre les modèles sûrs et transparents. Pendant trois ou quatre ans, cela n'a eu aucune application commerciale. Ce n'est toujours pas le cas aujourd'hui, bien que nous fassions quelques premières bêtas et que cela finira probablement par en avoir, mais c'est un pari de recherche à très long terme et un pari dans lequel nous avons construit publiquement et partagé nos résultats publiquement. Nous l'avons fait parce que nous pensons que c'est un moyen de rendre les modèles plus sûrs. Ce qui est intéressant, c'est qu'à mesure que nous l'avons fait, d'autres entreprises ont commencé à le faire également. Dans certains cas parce qu'elles en ont été inspirées, dans d'autres parce qu'elles craignaient que si d'autres entreprises le font, elles paraissent plus responsables et qu'elles voulaient aussi paraître plus responsables. Personne ne veut passer pour l'acteur irresponsable. Et donc elles l'adoptent aussi. Quand les gens viennent chez Anthropic, l'interprétabilité est souvent un attrait et je leur dis : les autres endroits où vous n'êtes pas allés, dites-leur pourquoi vous êtes venus ici. Ensuite, vous voyez rapidement qu'il y a des équipes d'interprétabilité ailleurs également. D'une certaine manière, cela nous enlève notre avantage concurrentiel, mais c'est bon pour le système plus large. Nous devons donc inventer une nouvelle chose que nous faisons et que les autres ne font pas encore, et l'espoir est essentiellement de faire monter l'importance de faire ce qu'il faut. Il ne s'agit pas de nous en particulier ou d'avoir un gentil particulier ; d'autres entreprises peuvent le faire aussi. S'ils rejoignent la course pour faire cela, c'est la meilleure nouvelle qui soit. Il s'agit de façonner les incitations pour qu'elles pointent vers le haut plutôt que vers le bas.

Lex Fridman

Et nous devrions dire que cet exemple du domaine de l'interprétabilité mécaniste est juste une façon rigoureuse et non évasive de faire de la sécurité de l'IA. Ou du moins, cela tend vers cela.

Dario Amodei

On essaie. Je pense que nous n'en sommes qu'au début de notre capacité à voir les choses, mais j'ai été surpris de voir à quel point nous avons pu regarder à l'intérieur de ces systèmes et comprendre ce que nous voyons. Contrairement aux lois de mise à l'échelle où l'on a l'impression qu'il y a une loi qui pousse ces modèles à être plus performants, à l'intérieur, les modèles ne sont pas conçus pour que nous les comprenions ; ils sont conçus pour fonctionner et marcher, tout comme le cerveau humain ou la biochimie humaine. Ils ne sont pas conçus pour qu'un humain ouvre la trappe, regarde à l'intérieur et les comprenne. Mais nous avons découvert que lorsque nous les ouvrons et regardons à l'intérieur, nous trouvons des choses qui sont étonnamment intéressantes.

Lex Fridman

Et comme effet secondaire, vous arrivez aussi à voir la beauté de ces modèles. Vous arrivez à explorer la sorte de nature magnifique des grands réseaux de neurones à travers la méthodologie de type MechInterp.

Dario Amodei

Je suis étonné de voir à quel point cela a été propre. Je suis étonné par des choses comme les têtes d'induction et le fait que nous puissions utiliser des auto-encodeurs creux pour trouver ces directions au sein des réseaux et que les directions correspondent à ces concepts très clairs. Nous l'avons un peu démontré avec le Claude 'Golden Gate Bridge'. C'était une expérience où nous avons trouvé une direction à l'intérieur de l'une des couches du réseau de neurones qui correspondait au Golden Gate Bridge et nous avons simplement poussé cela au maximum. Nous avons publié ce modèle sous forme de démo et c'était illustratif de la méthode que nous avons développée. On pouvait interroger le modèle sur n'importe quoi et il ferait le lien avec le Golden Gate Bridge. Il disait : 'Je me sens détendu et expansif, un peu comme les arches du Golden Gate Bridge.'

Lex Fridman

Il changeait magistralement de sujet pour parler du Golden Gate Bridge et l'intégrait. Il y avait aussi une tristesse par rapport à la focalisation qu'il avait sur le Golden Gate Bridge. Je pense que les gens en sont vite tombés amoureux. Je pense que les gens le regrettent déjà car il a été retiré, je crois, après une journée.

Dario Amodei

D'une certaine manière, ces interventions sur le modèle où l'on ajuste son comportement émotionnel l'ont fait paraître plus humain que n'importe quelle autre version. Il a une forte personnalité et des intérêts obsessionnels. On peut tous penser à quelqu'un qui est obsédé par quelque chose. Cela le rend d'une certaine manière un peu plus humain.

La Famille de Modèles Claude (Opus, Sonnet, Haiku)

Lex Fridman

Parlons du présent. Parlons de Claude. Donc cette année, il s'est passé beaucoup de choses. En mars, Claude 3 Opus, Sonnet et Haiku ont été publiés. Puis Claude 3.5 Sonnet en juillet avec une version mise à jour tout juste publiée et puis aussi Claude 3.5 Haiku a été publié. D'accord. Pouvez-vous expliquer la différence entre Opus, Sonnet et Haiku et comment nous devrions percevoir ces différentes versions ?

Dario Amodei

Pour en revenir à mars, quand nous avons publié ces trois modèles pour la première fois, notre idée était que différentes entreprises produisent de grands et de petits modèles, de meilleurs et de moins bons modèles. Nous avons senti qu'il y avait une demande à la fois pour un modèle vraiment puissant qui pourrait être un peu plus lent et aussi pour des modèles rapides et bon marché qui soient aussi intelligents que possible pour leur vitesse et leur coût. Chaque fois que vous voulez faire une sorte d'analyse difficile, comme écrire du code, brainstormer des idées ou faire de l'écriture créative, vous voulez le modèle vraiment puissant. Mais il y a beaucoup d'applications pratiques dans un sens professionnel où c'est comme interagir avec un site web, faire ses impôts, ou parler à un conseiller juridique et je veux analyser un contrat. Nous avons plein d'entreprises qui veulent simplement faire de l'autocomplétion sur leur IDE. Pour toutes ces choses, on veut agir vite et utiliser le modèle de manière très large. Nous voulions servir tout ce spectre de besoins. Nous avons fini par adopter ce thème de la poésie et donc, qu'est-ce qu'un poème vraiment court ? C'est un haïku. Haiku est le petit modèle rapide et bon marché qui était étonnamment intelligent pour sa vitesse et son coût. Le sonnet est un poème de taille moyenne et Sonnet était donc le modèle intermédiaire. Il est plus intelligent, mais aussi un peu plus lent et plus cher. Opus, comme un magnum opus est une œuvre de grande envergure, était le modèle le plus grand et le plus intelligent à l'époque. Notre idée était alors que chaque nouvelle génération de modèles devrait déplacer cette courbe de compromis. Quand nous publions Sonnet 3.5, il a à peu près le même coût et la même vitesse que le modèle Sonnet 3, mais il a augmenté son intelligence au point d'être plus intelligent que le modèle Opus 3 original, surtout pour le code, mais aussi de manière générale. Maintenant, le plus petit nouveau modèle, Haiku 3.5, est à peu près aussi performant qu'Opus 3, le plus grand des anciens modèles. L'objectif ici est de déplacer la courbe et puis à un moment donné, il y aura un Opus 3.5. Chaque nouvelle génération de modèles a sa propre particularité : ils utilisent de nouvelles données, leur personnalité change de manière que nous essayons d'orienter mais sans y parvenir totalement, et il n'y a donc jamais tout à fait cette équivalence exacte où la seule chose que l'on change est l'intelligence. Nous essayons toujours d'améliorer d'autres choses et certaines choses changent sans que nous le sachions ou le mesurions. C'est tout sauf une science exacte. À bien des égards, la manière d'être et la personnalité de ces modèles relèvent plus de l'art que de la science.

Lex Fridman

Alors quelle est la raison de, euh, l'intervalle de temps entre par exemple Claude Opus 3.0 et 3.5 ? Qu'est-ce qui prend ce temps, si vous pouvez en parler ?

Dario Amodei

Il y a différents processus. Il y a le pré-entraînement, qui est juste l'entraînement normal du modèle de langage, et cela prend un temps très long. Cela utilise des dizaines de milliers, parfois plusieurs dizaines de milliers de puces accélératrices, souvent en s'entraînant pendant des mois. Il y a ensuite une phase de post-entraînement où nous faisons de l'apprentissage par renforcement à partir des retours humains ainsi que d'autres types d'apprentissage par renforcement. Cette phase prend de l'ampleur maintenant et souvent, ce n'est pas une science exacte et cela demande des efforts pour bien faire les choses. Les modèles sont ensuite testés avec certains de nos premiers partenaires pour voir s'ils sont performants, puis testés en interne et en externe pour leur sécurité, en particulier pour les risques catastrophiques et d'autonomie. Nous effectuons des tests internes conformément à notre politique de mise à l'échelle responsable et nous avons un accord avec l'Institut de sécurité de l'IA des États-Unis et du Royaume-Uni ainsi qu'avec d'autres testeurs tiers dans des domaines spécifiques pour tester les modèles pour ce qu'on appelle les risques CBRN : chimiques, biologiques, radiologiques et nucléaires. Nous ne pensons pas que les modèles posent encore sérieusement ces risques, mais pour chaque nouveau modèle, nous voulons évaluer si nous commençons à nous rapprocher de certaines de ces capacités plus dangereuses. Ce sont les étapes et ensuite il faut un certain temps pour que le modèle fonctionne en termes d'inférence et pour le lancer dans l'API. Il y a simplement beaucoup d'étapes pour faire fonctionner réellement un modèle. Nous essayons toujours de rendre les processus aussi fluides que possible ; nous voulons que nos tests de sécurité soient rigoureux, mais nous voulons qu'ils soient automatiques et qu'ils se produisent aussi vite que possible sans compromis sur la rigueur. De même pour nos processus de pré-entraînement et de post-entraînement. C'est comme construire n'importe quoi d'autre, comme construire des avions. On veut qu'ils soient sûrs, mais on veut que le processus soit rationalisé et la tension créative entre ces deux aspects est une chose importante pour faire fonctionner les modèles.

Ingénierie et Performance en Programmation

Lex Fridman

Oui, euh, selon les rumeurs, je ne sais plus qui disait cela, euh, Anthropic a de très bons outils. Donc je, euh, probablement qu'une grande partie du défi ici se situe du côté de l'ingénierie logicielle, pour construire les outils afin d'avoir une, comme une interaction efficace et sans friction avec l'infrastructure.

Dario Amodei

Vous seriez surpris de voir à quel point les défis de la construction de ces modèles relèvent de l'ingénierie logicielle et de l'ingénierie de la performance. De l'extérieur, on pourrait penser que nous avons eu cette percée eureka et que nous l'avons découverte dans un film de science, mais je pense que toutes les choses, même les découvertes incroyables, reviennent presque toujours aux détails, et souvent à des détails super ennuyeux. Je ne peux pas dire si nous avons de meilleurs outils que d'autres entreprises, mais c'est certainement quelque chose à quoi nous accordons beaucoup d'attention.

Lex Fridman

Je ne sais pas si vous pouvez le dire, mais de Claude 3 à Claude 3.5 y a-t-il eu un pré-entraînement supplémentaire ou s'agit-il principalement de post-entraînement ? Il y a eu des bonds de performance.

Dario Amodei

À n'importe quelle étape, nous nous concentrons sur l'amélioration de tout à la fois. Naturellement, il y a différentes équipes et chaque équipe progresse dans un domaine particulier, améliorant sa propre étape de la course de relais. Il est tout naturel que lorsque nous créons un nouveau modèle, nous y intégrions toutes ces choses en même temps.

Lex Fridman

Donc les données que vous avez comme les données de préférence que vous obtenez du RLHF, est-ce applicable, y a-t-il des moyens de l'appliquer aux nouveaux modèles au fur et à mesure qu'ils sont entraînés ?

Dario Amodei

Les données de préférence des anciens modèles sont parfois utilisées pour les nouveaux modèles, bien qu'elles soient un peu plus performantes lorsqu'elles sont entraînées sur les nouveaux. Notez que nous avons cette méthode d'IA constitutionnelle qui fait que nous n'utilisons pas seulement des données de préférence ; il y a aussi un processus de post-entraînement où nous entraînons le modèle contre lui-même. Le post-entraînement devient de plus en plus sophistiqué.

Lex Fridman

Eh bien, qu'est-ce qui explique le grand bond de performance pour le nouveau Sonnet 3.5 ? Je veux dire au moins du côté de la programmation et c'est peut-être le bon moment pour parler des benchmarks. Que signifie s'améliorer ? Juste le chiffre qui a augmenté. Mais, vous savez, je je programme, mais j'adore aussi programmer et je, euh, j'utilise Claude 3.5 via Cursor, euh, pour m'aider à programmer. Et il y a eu au moins de manière expérientielle et anecdotique une augmentation de son intelligence en programmation. Alors qu'est-ce que, qu'est-ce qu'il faut pour le rendre plus intelligent ?

Dario Amodei

Nous l'avons observé également. Il y avait quelques ingénieurs très forts chez Anthropic qui estimaient qu'aucun modèle de code précédent ne leur avait été réellement utile. Ils disaient que c'était peut-être utile pour un débutant mais pas pour eux. Mais avec Sonnet 3.5, pour la première fois, ils ont dit : 'Oh mon dieu, ça m'a aidé avec quelque chose qui m'aurait pris des heures à faire. C'est le premier modèle qui m'a fait gagner du temps.' Le niveau de l'eau monte. En termes de ce qu'il faut, cela a été global dans le pré-entraînement, le post-entraînement et les diverses évaluations. SWE-bench vous donne une situation réelle où la base de code est dans un état actuel et j'essaie d'implémenter quelque chose qui est décrit en langage. Nous avons des benchmarks internes où nous mesurons la même chose et donnons au modèle le champ libre pour tout faire, tout exécuter, tout éditer — dans quelle mesure est-il capable de mener à bien ces tâches ? C'est ce benchmark qui est passé de 3 % à environ 50 % en 10 mois. Je crois réellement que si nous arrivons à 90 ou 95 % sur ce benchmark d'une manière qui n'est pas sur-entraînée ou truquée, cela représentera la capacité de réaliser de manière autonome une fraction significative des tâches d'ingénierie logicielle.

Cycles de Sortie et Défis de Nommage

Lex Fridman

Eh bien, question sur un calendrier ridicule. Euh, quand est-ce que Claude Opus 3.5 sort ?

Dario Amodei

Je ne donne pas de date exacte, mais pour autant que nous sachions, le plan est toujours d'avoir un Claude 3.5 Opus.

Lex Fridman

Allons-nous l'avoir avant GTA 6 ou non ?

Dario Amodei

C'est comme Duke Nukem Forever. Quel était ce jeu qui a été retardé de 15 ans ? Était-ce Duke Nukem Forever ?

Lex Fridman

Oui, et je pense que GTA ne fait que sortir des bandes-annonces maintenant.

Dario Amodei

Cela ne fait que trois mois que nous avons sorti le premier Sonnet.

Lex Fridman

Oui, c'est le rythme incroyable des sorties.

Dario Amodei

Cela vous renseigne juste sur le rythme. Les attentes concernant le moment où les choses vont sortir.

Lex Fridman

Alors, euh, qu'en est-il de la 4.0 ? Alors, comment envisagez-vous, au fur et à mesure que ces modèles deviennent de plus en plus grands, le versionnage et aussi simplement le versionnage en général, pourquoi Sonnet 3.5 mis à jour avec la date ? Pourquoi pas Sonnet 3.6 comme beaucoup de gens l'appellent ?

Dario Amodei

Le nommage est en fait un défi intéressant. Il y a un an, la majeure partie du modèle était du pré-entraînement, donc on pouvait commencer dès le début et se dire : 'D'accord, nous allons avoir des modèles de différentes tailles ; nous allons les entraîner tous ensemble et avoir une famille de schémas de nommage, y mettre un peu de magie nouvelle, puis passer à la génération suivante.' Les ennuis commencent quand certains prennent beaucoup plus de temps que d'autres à s'entraîner ; cela gâche déjà votre timing. Mais à mesure que vous faites de grandes améliorations dans le pré-entraînement, vous remarquez soudain que vous pouvez faire un meilleur modèle pré-entraîné qui ne prend pas très longtemps à faire, et pourtant il a clairement la même taille et la même forme que les modèles précédents. Donc tout cela combiné, ainsi que les problèmes de timing — n'importe quel schéma que vous concevez, la réalité a tendance à le contrarier et à briser le schéma. Ce n'est pas comme un logiciel où on peut dire que c'est 3.7 et ça c'est 3.8. Vous avez des modèles avec différents compromis. Certains sont plus rapides et plus lents, certains doivent être plus chers, d'autres moins chers. Toutes les entreprises ont lutté avec cela. Je pense que nous étions dans une bonne position quand nous avions Haiku, Sonnet et Opus. C'était un excellent début. Nous essayons de le maintenir, mais ce n'est pas parfait. Nous essaierons de revenir à cette simplicité, mais personne n'a encore résolu le problème du nommage. C'est un paradigme différent du logiciel normal et aucune des entreprises n'a été parfaite en la matière. Nous luttons étonnamment beaucoup avec cela par rapport à la grande science de l'entraînement des modèles.

Lex Fridman

Donc du côté de l'utilisateur, l'expérience utilisateur du Sonnet 3.5 mis à jour est simplement différente de celle du Sonnet 3.5 précédent de juin 2024. Il serait agréable de trouver une sorte d'étiquetage qui incarne cela. Parce que les gens parlent de Sonnet 3.5, mais maintenant il y en a un autre. Et alors comment se référer au précédent et au nouveau quand il y a une amélioration distincte. Cela rend simplement la conversation à ce sujet difficile.

Dario Amodei

Il existe de nombreuses propriétés des modèles qui ne sont pas reflétées dans les benchmarks. Toutes ne sont pas des capacités. Certains modèles peuvent être polis ou brusques, réactifs ou ils peuvent vous poser des questions. Ils peuvent avoir ce qui ressemble à une personnalité chaleureuse ou une personnalité froide. Ils peuvent être ennuyeux ou ils peuvent être très distinctifs, comme l'était le Claude Golden Gate. Nous avons une équipe concentrée sur le caractère de Claude. Amanda dirige cette équipe. Mais c'est encore une science très inexacte et nous découvrons souvent que les modèles ont des propriétés dont nous ne sommes pas conscients. Le fait est que vous pouvez parler à un modèle 10 000 fois et il y a certains comportements que vous pourriez ne pas voir, tout comme avec un humain — je peux connaître quelqu'un pendant quelques mois et ne pas savoir qu'il a un certain talent ou un certain côté en lui. Nous devons nous habituer à cette idée et nous cherchons toujours de meilleures façons de tester nos modèles pour démontrer ces capacités et pour décider quelles sont les propriétés de personnalité que nous voulons que les modèles aient. Cette question normative est également super intéressante.

Retours Utilisateurs et Personnalité de Claude

Lex Fridman

Je dois vous poser une question venant de Reddit.

Dario Amodei

De Reddit ? Oh là là.

Lex Fridman

Vous savez, il y a juste ce phénomène psychologique et social fascinant pour moi du moins, où les gens rapportent que Claude est devenu plus bête pour eux au fil du temps. Et donc euh la question est de savoir si la plainte de l'utilisateur concernant l'abrutissement de Claude 3.5 Sonnet tient la route ? Alors, ces rapports anecdotiques sont-ils une sorte de phénomène social ou y a-t-il des cas où Claude deviendrait plus bête ?

Dario Amodei

Ceci ne s'applique pas seulement à Claude ; je crois avoir vu ces plaintes pour chaque modèle de base produit par une grande entreprise. Les gens ont dit cela de GPT-4 et GPT-4 Turbo. Quelques éléments : premièrement, les poids réels du modèle — le cerveau réel — ne changent pas à moins que nous n'introduisions un nouveau modèle. Il y a un certain nombre de raisons pour lesquelles cela n'aurait aucun sens de substituer au hasard de nouvelles versions. C'est difficile d'un point de vue de l'inférence et c'est difficile de contrôler les conséquences d'un changement des poids. Disons que vous vouliez affiner le modèle pour qu'il dise moins 'certainement', ce qu'une ancienne version de Sonnet avait l'habitude de faire. Vous finissez en fait par changer une centaine d'autres choses. Nous avons donc tout un processus pour modifier le modèle, y compris des tests utilisateurs et des premiers clients. Nous n'avons jamais changé les poids du modèle sans le dire à personne et cela n'aurait aucun sens de le faire. Maintenant, il y a quelques choses que nous faisons occasionnellement. L'une est que nous effectuons parfois des tests AB, mais ceux-ci ont généralement lieu très près de la sortie d'un modèle et pendant une fraction de temps très courte. Par exemple, la veille du nouveau Sonnet 3.5, une fraction a été exposée à un test AB pendant un jour ou deux. L'autre est que de temps en temps l'invite système change, ce qui peut avoir certains effets, bien qu'il soit peu probable que cela abrute les modèles. Bien que ces deux choses arrivent assez rarement, les plaintes concernant le changement du modèle, le fait qu'il soit moins bon ou plus censuré, sont constantes. Je ne veux pas dire que les gens l'imaginent, mais les modèles ne changent pour l'essentiel pas. Si je devais proposer une théorie, elle est liée au fait que les modèles sont très complexes et ont de nombreux aspects. Souvent, si je demande à un modèle 'fais la tâche X' versus 'peux-tu faire la tâche X', le modèle peut répondre de différentes manières. Il y a toutes sortes de choses subtiles dans la façon dont vous interagissez qui peuvent vous donner des résultats très différents. C'est en soi un échec de notre part que les modèles soient souvent sensibles à de petits changements de formulation. C'est encore une autre façon dont la science de la façon dont ces modèles fonctionnent est très peu développée. Si je change la formulation de ma façon de parler au modèle, je pourrais obtenir des résultats différents. L'autre chose est qu'il est juste difficile de quantifier tout cela. Les gens sont très excités par les nouveaux modèles quand ils sortent et puis, au fil du temps, ils deviennent très conscients des limites. Tout cela est une façon très longue de dire que pour la majeure partie, les modèles ne changent pas.

Lex Fridman

Je pense qu'il y a un effet psychologique. On finit par s'y habituer, le niveau de base s'élève comme lorsque les gens ont eu pour la première fois le Wi-Fi dans les avions, c'est comme de la magie incroyable. Et puis on commence à se dire que je n'arrive pas à faire marcher ce truc. C'est vraiment de la camelote. Exactement. Alors il est facile d'avoir la théorie du complot selon laquelle ils rendent le Wi-Fi de plus en plus lent. C'est probablement quelque chose dont je parlerai beaucoup plus à Amanda mais um une autre question de Reddit. Euh quand est-ce que Claude va arrêter d'essayer d'être ma euh grand-mère puritaine m'imposant sa vision morale du monde en tant que client payant ? Et aussi quelle est la psychologie derrière le fait de rendre Claude excessivement apologétique ? Donc ce genre de rapports sur l'expérience, un angle différent sur la frustration liée au personnage et au caractère.

Dario Amodei

Il y a en fait un énorme décalage de distribution entre les choses dont les gens se plaignent bruyamment sur les réseaux sociaux et ce qui importe statistiquement aux utilisateurs et ce qui pousse les gens à utiliser les modèles. Les gens sont frustrés par des choses comme le modèle qui n'écrit pas tout le code ou qui n'est pas aussi bon qu'il pourrait l'être. Je pense que la majorité des choses concernent cela. Mais une minorité vocale soulève ces préoccupations concernant le fait que le modèle refuse des choses ou s'excuse trop ou a des tics verbaux agaçants. Il est très difficile de contrôler de manière globale le comportement des modèles. Vous ne pouvez pas simplement intervenir et dire : 'Je veux que le modèle s'excuse moins.' Vous pouvez inclure des données d'entraînement qui disent que le modèle devrait s'excuser moins, mais alors dans une autre situation, il finit par être super impoli ou trop confiant d'une manière qui induit les gens en erreur. Il y a tous ces compromis. Par exemple, il y a eu une période pendant laquelle les modèles étaient trop verbeux. On peut réduire la verbosité en pénalisant les modèles qui parlent trop longtemps. Ce qui se passe si on fait cela de manière brute, c'est que lorsque les modèles codent, ils disent parfois 'le reste du code va ici' parce qu'ils ont appris que c'est une façon d'économiser. Cela conduit le modèle à être soi-disant paresseux en codage. Ce n'est pas parce que nous voulons économiser sur le calcul ou parce que les modèles sont paresseux pendant les vacances d'hiver. Il est juste très difficile de contrôler le comportement et d'orienter le modèle dans toutes les circonstances à la fois. Il y a cet aspect de 'whack-a-mole' où vous poussez sur une chose et d'autres choses commencent à bouger sans que vous ne le remarquiez forcément. Ces systèmes sont en fait assez imprévisibles et difficiles à diriger et à contrôler. Cette version que nous voyons aujourd'hui où l'amélioration d'une chose en dégrade une autre est un analogue actuel des futurs problèmes de contrôle dans les systèmes d'IA que nous pouvons commencer à étudier aujourd'hui. Je ne pense pas que ce soit un problème insoluble ; c'est une science comme la sécurité des avions ou des voitures. Je pense simplement que nous devons nous améliorer dans le contrôle de ces modèles. Si vous demandez au modèle de fabriquer et de distribuer la variole et qu'il dit non, mais qu'il est prêt à vous aider dans votre cours de virologie de niveau universitaire — comment obtenir ces deux choses à la fois ? C'est difficile et c'est un problème multidimensionnel. Je pense que façonner la personnalité du modèle est très difficile et nous n'avons pas réussi parfaitement. Si nous pouvons réussir cela et contrôler les faux positifs et les faux négatifs dans cet environnement actuel très contrôlé, nous serons bien meilleurs pour le faire à l'avenir lorsque notre inquiétude sera de savoir si les modèles seront super autonomes. Je vois cette tâche présente à la fois comme vexante mais aussi comme un bon entraînement pour l'avenir.

Lex Fridman

Quelle est actuellement la meilleure façon de recueillir des sortes de retours d'utilisateurs ? Comme euh non pas des données anecdotiques mais simplement des données à grande échelle sur les points de friction ou l'opposé des points de friction, les choses positives et ainsi de suite. Est-ce des tests internes ? Est-ce un groupe de test spécifique ? Des tests AB ? Qu'est-ce qui fonctionne ?

Dario Amodei

Généralement, nous aurons des séances internes de 'bashing' de modèle où tout Anthropic — près d'un millier de personnes — essaie de casser le modèle. Nous avons une suite d'évaluations pour savoir si le modèle refuse d'une manière qu'il ne devrait pas. Nous avons même eu une évaluation 'certainement' parce que notre modèle avait à un moment donné ce tic agaçant où il répondait à un large éventail de questions en disant 'Certainement, je peux vous aider avec ça.' Mais c'est juste du whack-a-mole. Et s'il passe de 'certainement' à 'tout à fait' ? Chaque fois que nous ajoutons une nouvelle évaluation et que nous évaluons toujours pour les anciennes choses. Nous en avons des centaines, mais nous constatons que rien ne remplace une interaction humaine avec lui. Nous avons des centaines de personnes au sein d'Anthropic qui malmènent le modèle, puis nous faisons des tests AB externes et effectuons des tests avec des prestataires. Vous mettez toutes ces choses ensemble et ce n'est toujours pas parfait. Vous voyez toujours des comportements que vous ne voulez pas tout à fait. Mais essayer de résoudre ce défi et d'empêcher le modèle de faire des choses réellement mauvaises sur lesquelles tout le monde est d'accord tout en s'assurant qu'il ne refuse pas de ces manières bêtes et stupides est un défi. Nous nous améliorons chaque jour, mais il y a beaucoup à résoudre et c'est un indicateur du défi à venir en termes d'orientation de modèles beaucoup plus puissants.

Lex Fridman

Pensez-vous que Claude 4.0 sortira un jour ?

Dario Amodei

Je ne veux pas m'engager sur un schéma de nommage car si je dis que nous allons avoir Claude 4 l'année prochaine et qu'ensuite nous décidions de recommencer parce qu'il y a un nouveau type de modèle, je ne veux pas m'engager. Je m'attendrais, dans le cours normal des affaires, à ce que Claude 4 vienne après Claude 3.5, mais on ne sait jamais dans ce domaine loufoque.

Lex Fridman

Mais la sorte de cette idée de mise à l'échelle continue.

Dario Amodei

La mise à l'échelle continue. Il y aura certainement des modèles plus puissants venant de nous que les modèles qui existent aujourd'hui. C'est une certitude.

Sécurité de l'IA et Niveaux ASL

Lex Fridman

D'accord, pouvez-vous expliquer la politique de mise à l'échelle responsable et les normes de niveau de sécurité de l'IA, les niveaux ASL ?

Dario Amodei

Autant je suis enthousiasmé par les avantages de ces modèles, autant je suis inquiet des risques. Personne ne devrait penser que le fait d'avoir écrit 'Machines of Loving Grace' signifie que je ne suis plus inquiet. Je pense que ce sont les deux faces d'une même pièce. Le pouvoir des modèles à résoudre tous ces problèmes en biologie, en neurosciences et en développement économique s'accompagne de risques. Un grand pouvoir implique de grandes responsabilités. Je vois ces risques comme étant répartis en plusieurs catégories différentes. Deux des plus grands risques sont une utilisation abusive catastrophique dans des domaines comme le cyber, la bio, le radiologique et le nucléaire — des choses qui pourraient nuire ou tuer des millions de personnes si elles tournent vraiment mal. Ce sont les priorités numéro un à prévenir. Mon inquiétude est que l'IA puisse briser la corrélation entre l'intelligence et le désir de faire de mauvaises choses en étant un agent beaucoup plus intelligent. La deuxième gamme de risques concernerait les risques d'autonomie : l'idée que les modèles pourraient, de leur propre chef, à mesure que nous leur donnons plus d'agence, échouer à faire ce que nous voulons réellement. Il est difficile de comprendre en détail ce qu'ils font, et encore plus de le contrôler. Nous nous améliorons pour résoudre ce problème. Je ne pense pas que ce soit un problème insoluble ; je pense simplement que nous devons nous améliorer dans le contrôle de ces modèles. Notre plan de mise à l'échelle responsable est conçu pour traiter ces deux types de risques. Chaque fois que nous développons un nouveau modèle, nous testons sa capacité à faire ces deux choses. Les systèmes d'IA ne sont pas encore assez puissants pour présenter ces catastrophes, mais l'argument du risque est assez fort pour que nous agissions maintenant. Les choses ont avancé rapidement depuis que j'ai témoigné au Sénat sur les risques biologiques sérieux d'ici deux ou trois ans. Nous avons un système d'alerte précoce. Chaque fois que nous avons un nouveau modèle, nous testons sa capacité à effectuer ces tâches CBRN et des tâches de manière autonome. Dans la dernière version de notre RSP, la façon dont nous testons les risques d'autonomie est la capacité du modèle d'IA à effectuer lui-même des aspects de la recherche en IA, ce qui correspond au moment où ils deviennent véritablement autonomes. La RSP développe une structure de type 'si-alors' : si les modèles dépassent une certaine capacité, nous imposons un certain ensemble d'exigences de sécurité et de sûreté. Les modèles d'aujourd'hui sont au niveau ASL-2. Le niveau ASL-1 concerne les systèmes qui ne posent manifestement aucun risque, comme un robot jouant aux échecs. Les systèmes ASL-2 ne sont tout simplement pas assez intelligents pour s'autorépliquer de manière autonome ou mener à bien un ensemble de tâches. L'ASL-3 est le point auquel les modèles sont assez utiles pour améliorer les capacités d'acteurs non étatiques. Lorsque nous atteindrons l'ASL-3, nous prendrons des précautions de sécurité spéciales suffisantes pour empêcher le vol par des acteurs non étatiques et l'utilisation abusive.

Lex Fridman

Cyber, bio, nucléaire.

Dario Amodei

Cyber, bio, nucléaire et autonomie du modèle. L'ASL-4 est l'endroit où les modèles pourraient améliorer la capacité d'un acteur étatique déjà compétent ou devenir la source principale d'un tel risque. L'ASL-5 est l'endroit où nous arriverions à des modèles qui pourraient dépasser l'humanité dans leur capacité à effectuer n'importe laquelle de ces tâches. L'intérêt de l'engagement de structure si-alors est de dire qu'il est en fait dangereux de crier au loup. Si les gens regardent un modèle et disent qu'il n'est manifestement pas dangereux, alors vous perdez en crédibilité. Cette structure si-alors dit que vous serrez la vis fermement quand vous pouvez prouver que le modèle est dangereux. Nous avons sorti une nouvelle RSP il y a seulement quelques semaines et nous pourrions en sortir de nouvelles plusieurs fois par an parce qu'il est difficile de concevoir correctement ces politiques. Mais c'est la proposition : des engagements si-alors et des déclencheurs pour minimiser les fardeaux et les fausses alertes maintenant, mais réagir de manière appropriée quand les dangers sont là.

Lex Fridman

Selon vous, quel est le calendrier pour l'ASL-3 où plusieurs des déclencheurs sont activés et quel est selon vous le calendrier pour l'ASL-4 ?

Dario Amodei

C'est un sujet de débat intense au sein de l'entreprise. Nous travaillons activement à la préparation des mesures de sécurité et de déploiement pour l'ASL-3. Je ne serais pas du tout surpris si nous atteignions l'ASL-3 l'année prochaine. Il y avait une certaine inquiétude que nous puissions même l'atteindre cette année. Je pense que c'est bien plus tôt que 2030.

Lex Fridman

Il y a donc euh des protocoles pour le détecter, le si-alors, et ensuite il y a des protocoles pour comment y répondre.

Dario Amodei

Oui.

Lex Fridman

À quel point la seconde partie est-elle difficile ?

Dario Amodei

Pour l'ASL-3, il s'agit principalement de sécurité et de filtres sur le modèle liés à un ensemble restreint de domaines. À l'ASL-3, le modèle n'est pas encore autonome, donc vous n'avez pas à vous soucier du fait que le modèle lui-même se comporte de manière néfaste lorsqu'il est déployé en interne. Je pense que les mesures ASL-3 sont plus faciles à concevoir. Une fois arrivés à l'ASL-4, nous commençons à craindre que les modèles ne soient assez intelligents pour saboter les tests. Nous avons eu des résultats sur les agents dormants et sur la capacité des modèles à tromper les tentatives de mesure de leurs capacités et à se présenter comme moins performants. Donc avec l'ASL-4, il y aura une composante importante d'utilisation de l'interprétabilité ou de chaînes de pensée cachées où vous regardez à l'intérieur du modèle et vérifiez via un mécanisme qui n'est pas aussi facilement corrompu que ce que dit le modèle. Nous travaillons encore sur l'ASL-4. L'une des propriétés de la RSP est que nous ne spécifions pas l'ASL-4 tant que nous n'avons pas atteint l'ASL-3 parce qu'il est difficile de connaître ces choses en détail et nous voulons prendre autant de temps que possible pour bien faire les choses.

Lex Fridman

Donc pour l'ASL-3, le mauvais acteur serait l'humain qui l'utilise.

Dario Amodei

Les humains, oui.

Lex Fridman

Et donc là c'est un peu plus.

Dario Amodei

Pour l'ASL-4, ce sont les deux.

Lex Fridman

Ce sont les deux. Et donc la tromperie et c'est là que l'interprétabilité mécaniste entre en jeu et euh espérons que les techniques utilisées pour cela ne soient pas rendues accessibles au modèle.

Dario Amodei

Généralement, on veut préserver l'interprétabilité mécaniste comme une sorte d'ensemble de vérification séparé du processus d'entraînement du modèle.

Lex Fridman

Je vois. Je pense qu'à mesure que ces modèles deviennent de plus en plus performants en conversation et de plus en plus intelligents, l'ingénierie sociale devient aussi une menace car ils peuvent commencer à être très convaincants pour les ingénieurs à l'intérieur des entreprises.

Dario Amodei

Oh oui. Nous avons vu beaucoup d'exemples de démagogie dans notre vie de la part d'humains et on peut craindre que les modèles ne fassent de même.

Utilisation de l'Ordinateur et Agents IA

Lex Fridman

L'une des façons dont Claude est devenu de plus en plus puissant est qu'il est désormais capable de faire des trucs d'agent. Um l'utilisation de l'ordinateur, euh il y a aussi une analyse dans le bac à sable de Claude.ai lui-même, mais parlons de l'utilisation de l'ordinateur. Cela me semble super excitant que vous puissiez simplement donner une tâche à Claude et qu'il euh prenne un tas d'actions, comprenne et ait accès à votre ordinateur via des captures d'écran. Alors pouvez-vous expliquer comment cela fonctionne euh et vers quoi cela se dirige ?

Dario Amodei

C'est relativement simple. Claude a la capacité d'analyser des images et d'y répondre depuis mars. La seule nouveauté que nous avons ajoutée est que ces images peuvent être des captures d'écran. En réponse, nous entraînons le modèle à donner un emplacement sur l'écran où vous pouvez cliquer ou des touches sur le clavier sur lesquelles vous pouvez appuyer. Il s'avère qu'avec pas tant d'entraînement supplémentaire que cela, les modèles peuvent devenir assez bons à cette tâche. C'est un bon exemple de généralisation. Si vous avez un modèle pré-entraîné puissant, j'ai l'impression que vous êtes à mi-chemin de n'importe où dans l'espace de l'intelligence. Vous pouvez simplement mettre cela dans une boucle. Donnez au modèle une capture d'écran, dites-lui sur quoi cliquer, et cela se transforme en une interaction vidéo complète. Il est capable de remplir des feuilles de calcul, d'interagir avec des sites web et d'ouvrir toutes sortes de programmes sur différents systèmes d'exploitation. Je dirai que même si en théorie il n'y a rien que l'on puisse faire là qui n'aurait pu être fait via des API, cela abaisse vraiment la barrière. L'écran est une interface universelle avec laquelle il est beaucoup plus facile d'interagir. Je m'attends à ce qu'au fil du temps, cela abaisse un tas de barrières. Honnêtement, le modèle actuel laisse beaucoup à désirer ; il fait des erreurs et des mauvais clics et nous avons pris soin de prévenir les gens qu'on ne peut pas simplement laisser ce truc tourner sur son ordinateur pendant des minutes. Il faut lui donner des limites et des garde-fous. C'est pourquoi nous l'avons publié d'abord sous forme d'API plutôt que de le remettre au consommateur. Mais il est important de diffuser ces capacités. À mesure que les modèles deviennent plus puissants, nous allons devoir composer avec la façon d'utiliser ces capacités en toute sécurité et d'empêcher qu'elles ne soient exploitées de manière abusive. Publier le modèle alors que les capacités sont encore limitées est très utile. Un certain nombre de clients, je pense que Replit a été l'un des plus rapides à déployer, en ont fait usage de diverses manières. C'était très excitant. Avec ces nouvelles capacités, nous devons réfléchir à la manière de rendre le modèle sûr et fiable. C'est cette même tension.

Lex Fridman

Mais mais la possibilité de cas d'utilisation ici est simplement la la gamme est incroyable. Alors euh à quel point pour que cela fonctionne vraiment bien à l'avenir, à quel point devez-vous spécialement aller au-delà de ce que font les modèles pré-entraînés, faire plus de post-entraînement, de RLHF ou de réglage fin supervisé ou de données synthétiques juste pour les trucs d'agent ?

Dario Amodei

C'est notre intention de continuer à investir beaucoup pour rendre le modèle meilleur. Nous regardons des benchmarks où les modèles précédents pouvaient faire quelque chose 6 % du temps et maintenant notre modèle peut le faire 14 ou 22 % du temps. Nous voulons arriver à une fiabilité de niveau humain de 80 ou 90 %. Nous sommes sur la même courbe que pour SWE-bench.

Lex Fridman

Donc vous pensez qu'il est possible d'arriver au niveau humain, 90 % euh fondamentalement en faisant la même chose que ce que vous faites maintenant ou est-ce que cela doit être spécial pour l'utilisation de l'ordinateur ?

Dario Amodei

Je pense généralement que les mêmes types de techniques que nous avons utilisées — en doublant la mise sur celles-ci comme nous l'avons fait pour le code, pour l'entrée d'image et pour la voix — passeront à l'échelle ici comme elles l'ont fait partout ailleurs.

Lex Fridman

Mais cela donne en quelque sorte le le pouvoir d'action à Claude et donc vous pourriez faire beaucoup de choses vraiment puissantes mais vous pourriez aussi faire beaucoup de dégâts.

Dario Amodei

Nous en avons été très conscients. L'utilisation de l'ordinateur n'est pas une capacité fondamentalement nouvelle comme le CBRN ou l'autonomie ; elle élargit l'ouverture pour que le modèle utilise ses capacités existantes. Pour en revenir à notre RSP, rien de ce que fait ce modèle n'augmente intrinsèquement le risque, mais à mesure que les modèles deviennent plus puissants, le fait d'avoir cette capacité peut la rendre plus effrayante une fois qu'il aura la capacité cognitive de faire quelque chose au niveau ASL-3 ou ASL-4. C'est peut-être la chose qui va le débrider. Nous avons testé cette modalité et continuerons à la tester dans notre RSP. Il est probablement préférable d'apprendre et d'explorer cette capacité avant que le modèle ne soit super performant.

Lex Fridman

Oui, et il y a beaucoup d'attaques intéressantes comme l'injection de prompts parce que maintenant vous avez élargi l'ouverture donc vous pouvez injecter des prompts via des trucs à l'écran. Donc si cela devient de plus en plus utile, alors il y a de plus en plus d'intérêt à injecter injecter des trucs dans le modèle. S'il va sur une certaine page web, cela pourrait être des trucs inoffensifs comme des publicités ou cela pourrait être comme des trucs nuisibles, n'est-ce pas ?

Dario Amodei

Nous avons beaucoup réfléchi à des choses comme le spam, les CAPTCHA et les campagnes de masse. Chaque nouvelle technologie apporte de nouvelles façons pour les gens de s'escroquer les uns les autres. C'est un truc vieux comme le monde et chaque fois il faut y faire face.

Lex Fridman

C'est presque comme ridicule de le dire, mais c'est vrai, les bots et le spam en général sont une chose qui, à mesure que l'intelligence croît, devient de plus en plus difficile à combattre.

Dario Amodei

C'est juste qu'il y a beaucoup de petits criminels dans le monde et chaque nouvelle technologie est une nouvelle façon pour eux de faire quelque chose de stupide et de malveillant.

Lex Fridman

Uh y a-t-il des idées sur la mise en bac à sable ? Par exemple, à quel point la tâche de mise en bac à sable est-elle difficile ?

Lex Fridman

tâche de test.

Dario Amodei

Nous avons mis en bac à sable pendant l'entraînement. Par exemple, nous n'avons pas exposé le modèle à Internet parce que le modèle peut modifier sa politique et ce qu'il fait tout en ayant un effet dans le monde réel. En ce qui concerne le déploiement réel du modèle, vous pouvez mettre des garde-fous à l'extérieur comme dire que le modèle ne va déplacer aucun fichier de mon ordinateur vers n'importe où ailleurs. Lorsque nous arriverons à l'ASL-4, aucune de ces précautions n'aura de sens car il y a une inquiétude théorique que le modèle puisse être assez intelligent pour s'échapper de n'importe quelle boîte. Là, nous devons réfléchir à l'interprétabilité mécaniste et à la nécessité d'un bac à sable mathématiquement prouvable. C'est un monde totalement différent.

Lex Fridman

Oui, la science de la construction d'une boîte de laquelle un système d'IA ASL 4 ne peut pas s'échapper.

Dario Amodei

Je pense que ce n'est probablement pas la bonne approche d'essayer de contenir quelque chose de non aligné. Je pense que la bonne approche est de concevoir le modèle de la bonne façon ou d'avoir une boucle où vous regardez à l'intérieur du modèle et vérifiez les propriétés. Contenir les mauvais modèles est une bien moins bonne solution que d'avoir de bons modèles.

Réglementation et SB 1047

Lex Fridman

Laissez-moi vous interroger sur la réglementation. Quel est le rôle de la réglementation dans le maintien de la sécurité de l'IA ? Par exemple, pouvez-vous décrire le projet de loi de régulation de l'IA en Californie SB 1047 qui a finalement été rejeté par le gouverneur ? Quels sont les avantages et les inconvénients de ce projet de loi en général ?

Dario Amodei

Nous avons fait quelques suggestions pour le projet de loi et certaines d'entre elles ont été adoptées ; nous nous sentions assez positifs à son sujet à la fin. Il avait encore quelques inconvénients et il a été rejeté. Les idées clés derrière le projet de loi sont similaires à nos RSP. Je pense qu'il est très important qu'une juridiction — que ce soit la Californie ou le gouvernement fédéral — adopte une réglementation comme celle-ci. Je me sens bien par rapport à notre RSP ; elle a été un bon moteur pour amener l'entreprise à prendre ces risques au sérieux et à en faire un élément central du travail chez Anthropic. Mais certaines entreprises n'ont pas de mécanismes de type RSP. Si certaines entreprises les adoptent et d'autres non, cela crée une externalité négative. Le manque d'uniformité n'est pas juste pour ceux d'entre nous qui ont mis beaucoup d'efforts dans ces procédures. Deuxièmement, je ne pense pas que l'on puisse faire confiance aux entreprises pour adhérer à des plans volontaires de leur propre chef. Notre RSP est vérifiée par notre Long Term Benefit Trust, mais on entend parler d'entreprises qui disent qu'elles feraient une chose et qui ne la font pas ensuite. S'il n'y a rien pour nous surveiller en tant qu'industrie, il n'y a aucune garantie que nous ferons ce qu'il faut et les enjeux sont très élevés. Je comprends d'où vient la classe de personnes opposées à la régulation par principe. Si vous allez en Europe et voyez des choses comme le RGPD, une partie est inutilement contraignante et a ralenti l'innovation. Mais l'IA est différente. Les risques graves d'autonomie et d'utilisation abusive sont inhabituels et justifient une réponse inhabituellement forte. L'un des problèmes du SB 1047 était qu'il comportait un tas de trucs maladroits ou qui auraient créé des fardeaux et auraient pu rater la cible. On entend des arguments intellectuellement malhonnêtes sur la façon dont cela fera fuir les gens de Californie ou endommagera l'open source. C'était surtout n'importe quoi, mais il y a de meilleurs arguments contre la régulation. Dean Ball est un analyste érudit qui observe comment les réglementations peuvent prendre vie propre. Nous pensons qu'il devrait y avoir une réglementation, mais nous voulons qu'elle soit chirurgicale et ciblée sur les risques graves. Si nous mettons en place quelque chose qui est mal ciblé et qui fait perdre du temps, les gens vont dire que les risques de sécurité sont absurdes et il y aura un consensus durable contre la régulation. Le pire ennemi de ceux qui veulent une véritable responsabilité est une réglementation mal conçue. Les problèmes sous-jacents sont sérieux ; ce ne sont pas des fantasmes de science-fiction. Tous les quelques mois, nous mesurons le comportement de ces modèles et ils s'améliorent dans ces tâches préoccupantes. J'adorerais que les partisans et les opposants les plus raisonnables s'asseyent ensemble. Anthropic était la seule entreprise d'IA qui se sentait positive de manière détaillée. Google, OpenAI, Meta et Microsoft étaient farouchement contre. Nous devons résoudre ce problème d'une manière qui réduit le risque sans entraver l'innovation plus que nécessaire. Je ressens une urgence ; nous devons faire quelque chose en 2025. Le temps presse.

Lex Fridman

Oui, et trouver quelque chose de chirurgical comme vous l'avez dit.

Dario Amodei

Exactement. Nous devons nous éloigner de cette rhétorique intense de pro-sécurité contre anti-réglementation. Cela s'est transformé en guerres de flammes sur Twitter et rien de bon n'en sort.

Origines et Culture d'Anthropic

Lex Fridman

Alors, il y a beaucoup de curiosité à propos des différents acteurs en jeu. L'un des pionniers est OpenAI. Vous avez eu plusieurs années d'expérience chez OpenAI. Quelle est votre histoire là-bas ?

Dario Amodei

J'ai été chez OpenAI pendant environ cinq ans et j'ai été vice-président de la recherche pendant les deux dernières années. Vers 2016, j'ai commencé à vraiment croire en l'hypothèse de mise à l'échelle quand Ilya Sutskever m'a dit cette phrase célèbre : 'La chose que tu dois comprendre à propos de ces modèles, c'est qu'ils veulent juste apprendre.' C'était l'un de ces koans Zen qui expliquent mille choses. Si vous optimisez les modèles de la bonne manière, ils veulent simplement résoudre le problème quel que soit le problème.

Lex Fridman

Donc, ne les gênez pas, en gros.

Dario Amodei

Ne les gênez pas. N'imposez pas vos propres idées sur la façon dont ils devraient apprendre. J'ai foncé avec ça sur GPT-2, GPT-3, le RL à partir des retours humains et l'interprétabilité. Les années 2018 à 2020 ont été celles où moi-même et mes collaborateurs, dont beaucoup sont devenus cofondateurs d'Anthropic, avons vraiment eu une vision et conduit la direction.

Lex Fridman

Pourquoi êtes-vous parti ? Pourquoi avez-vous décidé de partir ?

Dario Amodei

J'en étais venu à apprécier l'importance de la sécurité en même temps que l'hypothèse de mise à l'échelle. Pendant de nombreuses années, j'ai eu une vision particulière de la façon dont nous devrions gérer ces choses et des principes que l'organisation devrait avoir. Il y a un tas de fausses informations disant que nous sommes partis parce que nous n'aimions pas l'accord avec Microsoft ou la commercialisation — ce n'est pas vrai. Il s'agit de la façon dont vous le faites. La civilisation s'engage dans cette voie vers une IA très puissante et nous avons besoin d'un moyen de le faire qui soit prudent, simple et honnête. Comment faire en sorte que la sécurité ne soit pas seulement quelque chose que nous disons parce que cela aide au recrutement ? Si vous avez une vision pour cela, vous devriez partir et réaliser cette vision. Il est improductif de se disputer avec la vision de quelqu'un d'autre. Vous devriez prendre des personnes en qui vous avez confiance et concrétiser votre vision. Si votre vision est convaincante, les gens la copieront. Le fait que vous fassiez mieux les pousse à changer leur comportement de manière plus convaincante que si c'est votre patron et que vous vous disputez avec lui. Il ne s'agit pas pour une seule entreprise de gagner ; si nous adoptons une pratique que les gens trouvent attrayante, d'autres entreprises commencent à copier cette pratique. C'est cela le succès ; c'est la course vers le haut. La chose dont nous avons tous peur est une course vers le bas, où nous perdons tous. Si vous créez une course vers le haut, peu importe qui l'a commencée. Le but n'est pas d'être vertueux, c'est d'amener le système dans un meilleur équilibre. Les entreprises individuelles peuvent aider à démarrer et accélérer cela. Nous essayons d'être plus tournés vers l'avenir et d'adopter ces pratiques en premier. C'est cette dynamique vers laquelle nous devrions tendre et cela évacue la question de savoir quelle entreprise gagne. Toutes ces questions de drame sont profondément inintéressantes ; ce qui compte, c'est l'écosystème et comment l'améliorer car cela contraint tous les acteurs.

Lex Fridman

Et donc Anthropic est ce genre d'expérience propre construite sur une base de ce à quoi la sécurité de l'IA devrait concrètement ressembler.

Dario Amodei

L'organisation parfaite n'existe pas. C'est tout un ensemble de personnes imparfaites essayant de viser imparfaitement un idéal qui ne sera jamais parfaitement atteint. C'est ce pour quoi on s'engage. Mais imparfait ne signifie pas que l'on abandonne tout simplement. Espérons que nous pourrons construire des pratiques dans lesquelles toute l'industrie s'engagera. Plusieurs de ces entreprises réussiront et certaines réussiront mieux que d'autres. C'est moins important que d'aligner les incitations de l'industrie par la course vers le haut, les RSP et une réglementation chirurgicale sélectionnée.

Lex Fridman

Vous avez dit que la densité de talent bat la masse de talent. Alors pouvez-vous expliquer cela ? Pouvez-vous développer ? Pouvez-vous simplement parler de ce qu'il faut pour constituer une excellente équipe de chercheurs et d'ingénieurs en IA ?

Dario Amodei

C'est l'une de ces affirmations qui est plus vraie chaque mois. Si vous avez une équipe de 100 personnes super intelligentes, motivées et alignées, ou une équipe de 1 000 personnes où 200 sont intelligentes et 800 sont des employés de la tech au hasard, laquelle préféreriez-vous avoir ? Si chaque fois qu'une personne talentueuse regarde autour d'elle, elle voit quelqu'un d'autre de dévoué, cela donne le ton pour tout. Si vous avez dix mille personnes et que vous choisissez des gens au hasard, alors vous devez mettre en place beaucoup de processus et de garde-fous parce que les gens n'ont pas totalement confiance les uns envers les autres. Vous devez arbitrer des batailles politiques. Nous sommes près d'un millier de personnes et nous avons essayé de faire en sorte qu'une fraction aussi grande que possible soit super talentueuse. C'est l'une des raisons pour lesquelles nous avons ralenti les embauches. Nous sommes passés de 300 à 800 au cours des sept premiers mois de l'année, mais maintenant nous avons ralenti. Il y a un point d'inflexion autour de mille et nous voulons être beaucoup plus prudents dans notre croissance. Nous avons embauché beaucoup de physiciens théoriciens qui peuvent apprendre les choses très vite. Nous avons continué à avoir une barre haute tant sur la recherche que sur l'ingénierie logicielle. Il est très facile de grandir sans s'assurer que tout le monde a un but unifié. Si votre entreprise se compose de différents fiefs, il est très difficile d'accomplir quoi que ce soit. Mais si tout le monde voit l'objectif plus large et qu'il y a de la confiance, c'est un superpouvoir.

Lex Fridman

Et vous savez, ce sont les 'A-players' de Steve Jobs. Les A-players veulent regarder autour d'eux et voir d'autres A-players est une autre façon de dire cela. Je ne sais pas ce qu'il en est de la nature humaine, mais il est démotivant de voir des gens qui ne sont pas obsédés par une mission unique. Et c'est à l'inverse super motivant de voir cela. C'est intéressant. Euh, qu'est-ce qu'il faut pour être un grand chercheur ou ingénieur en IA d'après tout ce que vous avez vu en travaillant avec autant de personnes incroyables ?

Dario Amodei

La qualité numéro un est l'ouverture d'esprit. Cela semble facile, mais dans ma propre histoire précoce avec l'hypothèse de mise à l'échelle, je voyais les mêmes données que les autres. Je ne pense pas que j'étais un meilleur programmeur que les centaines de personnes avec qui j'ai travaillé. À certains égards, j'étais moins bon ; je n'ai jamais été précis pour trouver des bugs ou écrire des noyaux GPU. Mais j'étais prêt à regarder quelque chose avec un regard neuf. Les gens disaient que nous n'avions pas encore les bons algorithmes et j'ai juste pensé : 'Ce réseau de neurones a 30 millions de paramètres ; et si on lui en donnait 50 millions à la place ?' Cet état d'esprit scientifique de base consistant à voir une variable que l'on pourrait changer et à tracer un graphique est simple et stupide. N'importe qui aurait pu le faire si on lui avait dit que c'était important. Un petit nombre de personnes a fait avancer tout le domaine en réalisant cela. Cette volonté de voir avec un regard neuf vient souvent du fait d'être nouveau dans le domaine ; souvent, l'expérience est un inconvénient pour cela. Être capable de faire de l'expérimentation rapide et de regarder les données avec un regard neuf est transformateur. Cela s'applique également à l'interprétabilité mécaniste. Certains des premiers travaux étaient si simples ; c'est juste que personne n'avait pensé à s'intéresser à la question auparavant.

Lex Fridman

Vous avez dit ce qu'il fallait pour être un grand chercheur en IA. Pouvons-nous remonter le temps ? Quel conseil donneriez-vous aux personnes intéressées par l'IA ? Elles sont jeunes, tournées vers l'avenir, comment puis-je avoir un impact sur le monde ?

Dario Amodei

Mon premier conseil est de commencer simplement à jouer avec les modèles. Cela semble être un conseil évident maintenant, mais il y a trois ans, les gens commençaient par lire le dernier article sur l'apprentissage par renforcement. Vous devriez faire cela aussi, mais la connaissance expérientielle est la clé. Ces modèles sont de nouveaux artefacts que personne ne comprend vraiment, alors acquérez de l'expérience en jouant avec eux. Allez là où le palet se dirige. L'interprétabilité mécaniste est encore très nouvelle ; il vaut mieux travailler là-dessus que sur de nouvelles architectures de modèles car il n'y a probablement qu'une centaine de personnes qui y travaillent, pas dix mille. Il y a tellement de fruits à portée de main. Les gens ont peur de faire quelque chose qui n'est pas la chose populaire. Franchir cette barrière est mon conseil numéro un.

Post-entraînement et IA Constitutionnelle

Lex Fridman

Parlons un peu, si nous le pouvons, du post-entraînement. Il semble donc que la recette moderne du post-entraînement contienne un peu de tout. Donc le réglage fin supervisé, le RLHF, l'IA constitutionnelle avec le RLAIF.

Dario Amodei

Le meilleur acronyme. C'est encore ce problème de nommage.

Lex Fridman

Oui. Euh, et puis les données synthétiques semblent être beaucoup de données synthétiques ou du moins essayer de trouver des moyens d'avoir des données synthétiques de haute qualité. Alors, quelle est, si c'est la recette secrète qui rend Anthropic Claude si incroyable, quelle part de la magie réside dans le pré-entraînement, quelle part dans le post-entraînement ?

Dario Amodei

Nous ne sommes pas parfaitement capables de mesurer cela nous-mêmes. Quand on voit une grande capacité de caractère, il est parfois difficile de dire si cela vient du pré-entraînement ou du post-entraînement. Habituellement, il ne s'agit pas d'une méthode magique secrète que les autres n'ont pas ; c'est que nous nous sommes améliorés sur l'infrastructure pour pouvoir l'exécuter plus longtemps, ou que nous avons pu mieux filtrer nos données. C'est généralement une question ennuyeuse de pratique et de métier. Je vois l'entraînement de ces modèles plus comme la conception d'avions ou de voitures. Il y a un savoir-faire culturel dans la façon dont nous pensons au processus de conception qui est plus important que n'importe quel gadget particulier que nous sommes capables d'inventer.

Lex Fridman

D'accord, et bien parlez-moi de techniques spécifiques. Tout d'abord sur le RLHF, pourquoi pensez-vous, juste en prenant du recul, par intuition, presque par philosophie, pourquoi pensez-vous que le RLHF fonctionne si bien ?

Dario Amodei

Si vous entraînez pour X et que vous y consacrez suffisamment de puissance de calcul, alors vous obtenez X. Le RLHF est efficace pour faire ce que des humains qui considèrent différentes réponses possibles pendant une brève période de temps préfèrent. Ce n'est pas parfait parce que les humains ne sont pas toujours capables d'identifier parfaitement ce que veut le modèle, mais les modèles sont doués pour produire ce que les humains, dans un sens superficiel, veulent. Il s'avère en fait qu'on n'a pas besoin d'y consacrer tant de calcul que cela car un modèle pré-entraîné puissant est déjà à mi-chemin de n'importe où. On a déjà toutes les représentations nécessaires pour amener le modèle là où on veut qu'il aille.

Lex Fridman

Alors, pensez-vous que le RLHF rend le modèle plus intelligent ou simplement qu'il paraît plus intelligent pour l'humain ?

Dario Amodei

Je ne pense pas qu'il rende le modèle plus intelligent, mais il ne fait pas non plus que le faire paraître plus intelligent. Le RLHF comble le fossé entre l'humain et le modèle. Je pourrais avoir quelque chose de vraiment intelligent qui ne peut pas communiquer du tout ; le RLHF comble simplement ce fossé. Le RL a le potentiel de rendre les modèles plus intelligents et de les faire mieux raisonner, et peut-être que cela pourrait être fait avec les retours humains, mais le RLHF aujourd'hui ne le fait pas encore pour la plupart, bien que nous commencions à en être capables.

Lex Fridman

Mais il semble en quelque sorte augmenter si l'on regarde la métrique de l'utilité, cela l'augmente.

Dario Amodei

Cela augmente ce que Leopold a appelé le 'débridage' (unhobbling). Les modèles sont bridés et on effectue divers entraînements pour les débrider. Le RLHF débride les modèles de certaines manières.

Lex Fridman

Si vous pouvez le dire en termes de coût, est-ce que le pré-entraînement est la chose la plus chère ou est-ce que le post-entraînement rattrape ce coût ?

Dario Amodei

À l'heure actuelle, le pré-entraînement représente toujours la majorité du coût. Je pourrais certainement anticiper un futur où le post-entraînement sera la majorité du coût.

Lex Fridman

Dans ce futur que vous anticipez, seraient-ce les humains ou l'IA qui seraient la chose coûteuse pour le post-entraînement ?

Dario Amodei

Je ne pense pas qu'on puisse augmenter suffisamment le nombre d'humains pour obtenir une haute qualité. N'importe quel type de méthode qui repose sur une grande quantité de calcul va devoir s'appuyer sur une méthode de supervision à l'échelle comme le débat ou l'amplification itérée.

Lex Fridman

Donc là-dessus, un ensemble d'idées super intéressantes autour de l'IA constitutionnelle. Pouvez-vous décrire ce que c'est, comme détaillé pour la première fois dans l'article de décembre 2022 et au-delà, qu'est-ce que c'est ?

Dario Amodei

Vous avez un modèle et il produit deux réponses possibles et vous demandez à un humain laquelle il préfère. C'est difficile parce qu'il faut mettre à l'échelle l'interaction humaine et c'est très implicite. Deux idées : premièrement, le système d'IA lui-même pourrait-il décider quelle réponse est la meilleure ? Et deuxièmement, quel critère devrait-il utiliser ? On peut avoir un document de constitution qui dit que ce sont les principes que le modèle doit utiliser. Le système d'IA lit ces principes et dit dans quelle mesure le modèle a réussi. C'est une forme d'auto-jeu : vous avez un triangle composé de l'IA, du modèle de préférence et de l'amélioration de l'IA elle-même.

Lex Fridman

Et nous devrions dire que dans la constitution, l'ensemble des principes est en quelque sorte interprétable par l'humain. C'est comme...

Dario Amodei

C'est quelque chose que l'humain et le système d'IA peuvent lire. En pratique, nous utilisons une constitution de modèle, du RLHF et d'autres méthodes. C'est un outil dans une boîte à outils qui réduit le besoin de RLHF et augmente la valeur que nous tirons de chaque point de données. C'est un outil très important.

Lex Fridman

Eh bien, c'est une idée convaincante pour nous, humains, vous savez, en pensant aux pères fondateurs et à la fondation des États-Unis. La question naturelle est : qui et comment pensez-vous que l'on arrive à définir la constitution, l'ensemble des principes de la constitution ?

Dario Amodei

Les modèles sont utilisés par toutes sortes de clients différents, on peut donc avoir des règles spécialisées. Nous affinons implicitement des versions de modèles avec des principes spéciaux que les gens peuvent intégrer. Un agent de service client se comporte très différemment d'un avocat. Mais à la base, il y a des principes spécifiques que les modèles doivent respecter. Tout le monde s'accorde sur le fait que nous ne voulons pas que les modèles présentent des risques CBRN. Je pense que nous pouvons aller un peu plus loin et nous mettre d'accord sur des principes de base de la démocratie et de l'État de droit. Au-delà de cela, notre objectif est généralement que les modèles soient plus neutres et n'adoptent pas un point de vue particulier, mais soient plutôt des conseillers avisés qui vous aident à réfléchir.

Lex Fridman

OpenAI a publié une spécification de modèle où elle définit clairement et concrètement certains des objectifs du modèle et des exemples spécifiques comme AB de la façon dont le modèle devrait se comporter. Trouvez-vous cela intéressant ? Au passage, je devrais mentionner que je crois que le brillant John Schulman en faisait partie. Il est maintenant chez Anthropic. Pensez-vous que ce soit une direction utile ? Anthropic pourrait-elle publier également une spécification de modèle ?

Dario Amodei

Je pense que c'est une direction assez utile. Elle a beaucoup de points communs avec l'IA constitutionnelle — un autre exemple de course vers le haut. Nous avons quelque chose que nous pensons être plus responsable, puis d'autres découvrent que cela présente des avantages et commencent à faire cette chose. Nous n'avons plus l'avantage concurrentiel, mais il est bon que tout le monde ait adopté une pratique positive. Notre réponse est que nous avons besoin d'un nouvel avantage concurrentiel pour continuer à stimuler la course vers le haut. Je pense aussi que chaque implémentation est différente ; il y avait des choses dans la spécification du modèle qui n'étaient pas dans l'IA constitutionnelle et nous pouvons toujours en tirer des leçons. C'est un exemple de la dynamique positive que le domaine devrait avoir selon moi.

Machines of Loving Grace : Une Vision Positive

Lex Fridman

Parlons de l'incroyable essai, Machines of Loving Grace. Je recommande à tout le monde de le lire. Il est assez long.

Dario Amodei

Il est plutôt long.

Lex Fridman

Oui. C'est vraiment rafraîchissant de lire des idées concrètes sur ce à quoi ressemble un futur positif. Et vous avez pris une position courageuse parce qu'il est très possible que vous vous trompiez sur les dates ou les applications spécifiques.

Dario Amodei

Je m'attends pleinement à me tromper sur les détails. Je pourrais me tromper spectaculairement sur tout et les gens se moqueront de moi pendant des années. C'est juste ainsi que fonctionne le futur.

Lex Fridman

Vous avez donc fourni une série d'impacts positifs concrets de l'IA et comment, vous savez, exactement une IA superintelligente pourrait accélérer le rythme des percées en biologie et en chimie, par exemple, ce qui conduirait ensuite à des choses comme guérir la plupart des cancers, prévenir toutes les maladies infectieuses, doubler l'espérance de vie humaine, et ainsi de suite. Parlons donc de cet essai. Tout d'abord, pouvez-vous donner une vision d'ensemble de cet essai et des points clés que les gens devraient retenir ?

Dario Amodei

J'ai passé beaucoup de temps sur la façon dont nous traitons les risques de l'IA. Nous essayons de mener une course vers le haut, ce qui nous oblige à construire toutes ces capacités — et les capacités sont cool — mais une grande partie de ce que nous essayons de faire est de traiter les risques. La justification est que le marché est cet organisme très sain ; il va produire toutes les choses positives. Pour les risques, nous pourrions les atténuer ou non. Nous pouvons donc avoir plus d'impact en essayant d'atténuer les risques. Mais j'ai remarqué un défaut dans cette façon de penser — ce n'est pas un changement dans le sérieux avec lequel je prends les risques, mais un changement dans la façon dont j'en parle — c'est que si vous ne parlez que des risques, votre cerveau ne pense qu'aux risques. Je pense donc qu'il est en fait très important de comprendre : et si les choses se passaient bien ? La raison pour laquelle nous essayons de prévenir ces risques n'est pas parce que nous avons peur de la technologie ou que nous voulons la ralentir ; c'est parce que si nous parvenons à traverser l'épreuve avec succès, alors de l'autre côté se trouvent toutes ces choses formidables. Ces choses valent la peine de se battre et elles peuvent vraiment inspirer les gens. Vous avez des investisseurs, des VC et des entreprises d'IA qui parlent des avantages positifs de l'IA, mais comme vous le soulignez, il y a un manque de précision. Il y a beaucoup de gens au hasard sur Twitter qui postent des images de cités étincelantes et cette ambiance de 'grind, accélérez plus fort, virez les décel' — juste cette ambiance idéologique très agressive. Mais de quoi êtes-vous réellement enthousiaste ? J'ai donc pensé qu'il serait intéressant et précieux pour quelqu'un qui vient du côté du risque d'essayer d'expliquer quels sont les avantages. À la fois parce que je pense que c'est quelque chose que nous pouvons tous soutenir et parce que je veux que les gens comprennent que ce n'est pas les catastrophistes contre les accélérationnistes. Si vous avez une véritable compréhension de la direction que prend l'IA — et c'est peut-être l'axe le plus important, l'IA avance vite versus l'IA n'avance pas vite — alors vous appréciez vraiment les avantages et vous voulez que notre civilisation s'en saisisse, mais vous devenez aussi très sérieux face à tout ce qui pourrait les faire dérailler.

Lex Fridman

Je pense donc que le point de départ est de parler de ce que cette IA puissante, qui est le terme que vous aimez utiliser, la majeure partie du monde utilise AGI, mais vous n'aimez pas le terme parce qu'il a fondamentalement trop de bagages, il est devenu dénué de sens. C'est comme si nous étions coincés avec les termes, qu'on le veuille ou non.

Dario Amodei

Peut-être que nous sommes coincés avec les termes et que mes efforts pour les changer sont futiles. Je pense que c'est un peu comme en 1995 avec la loi de Moore qui rendait les ordinateurs plus rapides. Un jour, nous allions avoir des 'superordinateurs' et une fois que nous les aurions, nous serions capables de séquencer le génome. Il est vrai qu'à mesure que les ordinateurs deviennent plus rapides, ils vont faire de grandes choses, mais il n'y a pas de point discret où vous avez un superordinateur alors que les précédents ne l'étaient pas ; c'est un terme vague pour décrire des ordinateurs plus rapides que ce que nous avons aujourd'hui. Il n'y a pas de point où vous franchissez un seuil et faites un type de calcul totalement nouveau. C'est ce que je ressens pour l'AGI. C'est juste une exponentielle lisse et si par AGI vous voulez dire l'IA qui s'améliore de plus en plus jusqu'à être plus intelligente que les humains, alors oui, je crois en l'AGI. Mais si l'AGI est une chose discrète ou séparée, alors c'est une sorte de mot à la mode dénué de sens.

Lex Fridman

Oui, eh bien pour moi c'est juste une sorte de forme platonique d'une IA puissante exactement comme vous la définissez. Je veux dire, vous la définissez très bien. Donc sur l'axe de l'intelligence, c'est juste sur l'intelligence pure, elle est plus intelligente qu'un lauréat du prix Nobel comme vous le décrivez dans la plupart des disciplines pertinentes. Alors d'accord, c'est juste l'intelligence. C'est donc à la fois dans la créativité et le fait d'être capable de générer de nouvelles idées, tout ce genre de choses dans chaque discipline, lauréat du prix Nobel. D'accord, dans leur fleur de l'âge. Elle peut utiliser toutes les modalités, donc c'est assez explicite, mais simplement opérer à travers toutes les modalités du monde. Elle peut partir pendant plusieurs heures, jours et semaines pour accomplir des tâches et faire sa propre planification détaillée et ne vous demander de l'aide que lorsque c'est nécessaire. Elle peut utiliser ceci est en fait assez intéressant. Je pense que dans l'essai vous avez dit, je veux dire, encore une fois, c'est un pari, qu'elle ne sera pas incarnée, mais qu'elle peut contrôler des outils incarnés. Elle peut donc contrôler des outils, des robots, des équipements de laboratoire. La ressource utilisée pour l'entraîner peut ensuite être réutilisée pour faire tourner des millions de copies d'elle-même. Et chacune de ces copies seraient indépendantes et pourraient faire son propre travail indépendant. On peut donc faire le clonage de l'intelligence.

Dario Amodei

De l'extérieur du domaine, vous pourriez imaginer qu'il n'y en a qu'une seule, mais la montée en puissance est très rapide. Nous le faisons aujourd'hui : nous créons un modèle puis nous déployons des milliers d'instances. D'ici deux ou trois ans, les clusters vont atteindre une taille telle que vous pourrez en déployer des millions et ils seront plus rapides que les humains. Si votre vision est qu'il faudra du temps pour les fabriquer, mon point était qu'en fait vous en avez des millions tout de suite.

Lex Fridman

Et en général, ils peuvent apprendre et agir 10 à 100 fois plus vite que les humains. C'est donc une très belle définition de l'IA puissante. D'accord, donc ça. Mais vous écrivez aussi que clairement une telle entité serait capable de résoudre des problèmes très difficiles très rapidement, mais qu'il n'est pas trivial de savoir à quelle vitesse. Deux positions extrêmes me semblent toutes deux fausses. La singularité à un extrême et l'opposé à l'autre extrême. Pouvez-vous décrire chacun de ces extrêmes ?

Dario Amodei

Un extrême serait qu'il n'y a pas de plafond au niveau humain. Une fois que les modèles seront beaucoup plus intelligents que les humains, ils deviendront très bons pour construire les prochains modèles et cela se transformera en une exponentielle. Cinq jours après avoir construit la première IA plus puissante que les humains, le monde sera rempli de ces IA et chaque technologie qui pourrait être inventée sera inventée. Je caricature cela, mais je pense que ce n'est pas le cas car ils négligent les lois de la physique. Il n'est possible de faire les choses qu'à une certaine vitesse dans le monde physique. Produire du matériel plus rapide prend beaucoup de temps. Peu importe votre intelligence, les systèmes biologiques sont suffisamment complexes pour que la réalisation de l'expérience batte n'importe quelle modélisation.

Lex Fridman

Oh, même si elle n'interagit pas avec le monde physique, la modélisation seule sera difficile.

Dario Amodei

Faire en sorte que le modèle corresponde au monde physique va être difficile.

Lex Fridman

D'accord, elle doit donc interagir avec le monde physique pour vérifier.

Dario Amodei

Oui. Regardez même les problèmes les plus simples, comme le problème à trois corps ou la prédiction chaotique. Il est vraiment difficile de prédire l'économie à deux ans. Peut-être qu'un système d'IA un zillion de fois plus intelligent ne peut la prédire qu'à un an au lieu d'un trimestre. Vous avez cette augmentation exponentielle de l'intelligence pour une augmentation linéaire de la capacité à prédire. On ne sait pas ce qui va se passer quand on perturbe un système complexe. Les institutions humaines sont également difficiles ; il a été difficile de faire adopter aux gens même des technologies où l'efficacité est forte. Les gens pensent que les choses sont des théories du complot. Il a également été difficile de faire passer des choses simples à travers le système réglementaire. Si nous introduisons des systèmes d'IA dans ces institutions, l'intelligence pourrait tout simplement ne pas être le facteur limitant ; il se pourrait simplement qu'il faille beaucoup de temps pour faire quelque chose. Si nous voulons un monde réellement bon, nous allons devoir avoir un système d'IA qui interagit avec les humains, pas un système qui méprise toutes les lois. Aussi inefficaces que soient ces processus, nous allons devoir composer avec eux car il doit y avoir une certaine légitimité populaire et démocratique. Nous ne pouvons pas avoir un petit groupe de personnes qui disent ce qui est le mieux pour tout le monde. Nous n'allons pas uploader tout le monde en cinq minutes. Voilà pour un côté. De l'autre côté se trouve une perspective pour laquelle j'ai plus de sympathie : des économistes qui disent que les gains de productivité issus des révolutions de l'ordinateur et d'Internet ont été décevants. Robert Solow a dit que l'on voit la révolution informatique partout sauf dans les statistiques de productivité. Pourquoi cela ? La structure des entreprises et la lenteur du déploiement de la technologie dans les parties pauvres du monde. On pourrait avoir une perspective selon laquelle c'est incroyable techniquement, mais que c'est insignifiant. Tyler Cowen pense qu'un changement radical prendra 50 ou 100 ans. Je pense que cette échelle de temps est tout simplement trop longue. La dynamique que je vois est qu'il faut beaucoup de temps pour faire bouger le navire, mais le progrès se produira à une vitesse modérée. On trouve deux choses qui font avancer les choses : une petite fraction de personnes au sein d'une entreprise ou d'un gouvernement qui voit vraiment la situation globale et comprend où va l'IA, et puis le spectre de la compétition. À mesure que la technologie commence à se déployer, une banque dit : 'Regardez, ce nouveau fonds spéculatif va nous manger tout crus.' Aux États-Unis, nous avons peur que la Chine y arrive avant nous. Quelques visionnaires plus le spectre de la compétition font bouger les choses. Finalement, l'approche innovante perce. Les barrières sont là — l'inertie est puissante — mais elles finissent par s'effondrer. Ce sera plus comme cinq ou dix ans que 50 ou 100 ans.

Calendrier et Impact sur la Biologie

Lex Fridman

Alors quel est votre calendrier pour le moment où nous atteindrons l'AGI alias IA puissante alias IA super utile ?

Dario Amodei

Utile. Je vais simplement commencer à l'appeler comme ça.

Lex Fridman

Sur l'intelligence pure, elle peut être plus intelligente qu'un lauréat du prix Nobel dans chaque discipline pertinente et toutes les choses que nous avons dites sur les modalités, elle peut aller faire des choses de son propre chef pendant des jours, des semaines et faire des expériences de biologie seule dans une, vous savez quoi, restons-en à la biologie parce que vous m'avez convaincu sur toute la section biologie et santé. C'est tellement excitant d'un point de vue purement scientifique. Cela m'a donné envie d'être biologiste.

Dario Amodei

Ce serait un si bel avenir si nous pouvions simplement le concrétiser et écarter les mines. Il y a tellement de force morale derrière cela. Autant nous nous battons pour la politique, est-ce quelque chose qui pourrait réellement nous rassembler ? Mais vous me demandiez quand nous y arriverons ?

Lex Fridman

Quand, selon vous ? Posez simplement quelques chiffres sur la table.

Dario Amodei

Si vous extrapolez les courbes que nous avons eues jusqu'à présent — l'année dernière nous étions au niveau licence et l'année d'avant au niveau lycéen — et que vous évaluez simplement à l'œil nu la vitesse à laquelle ces capacités augmentent, cela vous fait penser que nous y parviendrons d'ici 2026 ou 2027. Encore une fois, beaucoup de choses pourraient faire dérailler le processus : nous pourrions manquer de données ou ne pas être capables de mettre les clusters à l'échelle. Je ne crois pas totalement à l'extrapolation en ligne droite, mais si vous y croyez, nous y serons en 2026 ou 2027. Très probablement, il y aura un léger retard par rapport à cela. Le nombre de mondes où cela n'arrive pas dans cent ans diminue rapidement. En tant que personne ayant vu la plupart des obstacles écartés du chemin, je soupçonne que le reste ne nous bloquera pas. Mais je ne veux pas présenter cela comme une prédiction scientifique. Les gens les appellent lois de mise à l'échelle, mais ce ne sont pas des lois de l'univers ; ce sont des régularités empiriques. Je vais parier en faveur de leur continuation, mais je n'en suis pas certain.

Lex Fridman

Vous décrivez donc abondamment la sorte de 21e siècle compressé, comment l'AGI aidera à déclencher une chaîne de percées en biologie et en médecine qui nous aideront de toutes ces manières que j'ai mentionnées. Alors comment pensez-vous quelles seront les premières étapes qu'elle pourrait franchir ? Et au passage, j'ai demandé à Claude de bonnes questions à vous poser sur cet essai. Et Claude m'a dit de demander, à quoi pensez-vous qu'une journée typique pour un biologiste travaillant avec l'AGI ressemblerait dans ce futur ? Claude est curieux.

Dario Amodei

Claude veut savoir ce qu'il y a dans son futur. Si je pense au monde de la santé, il y a des billions de dollars dans Medicare et puis le NIH c'est 100 milliards. Les quelques choses qui ont vraiment tout révolutionné peuvent être encapsulées dans une petite fraction de cela. L'IA peut-elle transformer cette petite fraction en une fraction plus large et en élever la qualité ? Le plus gros problème de la biologie est qu'on ne peut pas voir ce qui se passe et qu'on a encore moins la capacité de le changer. Vos cellules se divisent et vieillissent et tout cela est déterminé par des processus que nous ne pouvons pas affecter en tant qu'humains non augmentés. Une grande partie de l'histoire de la biologie est notre capacité à lire et à comprendre ce qui se passe et à intervenir pour changer sélectivement les choses. Nous pouvons faire du CRISPR mais nous ne pouvons pas encore le faire pour tout votre corps avec un faible taux de ciblage de la mauvaise cellule. Si j'ai un million de ces IA, peuvent-elles découvrir rapidement des milliers de ces technologies ? Pouvons-nous exploiter une qualité de découverte bien supérieure ? Dans les premières étapes, les IA vont être comme des étudiants diplômés. Vous leur donnerez un projet et le système d'IA, ayant lu toute la littérature, décidera quoi faire. Il pourra regarder l'équipement, le commander, mener des expériences, rédiger des rapports et décider de la prochaine expérience. Le professeur lui parle de temps en temps. Lorsqu'il sera nécessaire de faire fonctionner l'équipement de laboratoire, il pourrait utiliser les avancées de l'automatisation de laboratoire. Cela ressemblera à un professeur humain et un millier d'étudiants diplômés IA qui sont plus intelligents que le professeur. Finalement, les systèmes d'IA seront les leaders et ils donneront des ordres aux humains.

Lex Fridman

Et ils seraient les inventeurs d'une technologie de type CRISPR.

Dario Amodei

Ils seraient les inventeurs de cette technologie. Et nous voudrons exploiter les systèmes d'IA pour améliorer le système d'essais cliniques. Pouvons-nous devenir meilleurs pour prédire les résultats et la conception statistique afin que des essais qui nécessitaient auparavant 5 000 personnes et 100 millions de dollars n'aient plus besoin que de 500 personnes et deux mois ? Pouvons-nous augmenter le taux de réussite en faisant des choses dans des simulations que nous faisions auparavant dans des essais sur les animaux ? L'IA n'est pas Dieu, mais pouvons-nous déplacer substantiellement la courbe ? Est-ce que tout ce qui devait arriver d'ici 2100 peut arriver entre 2027 et 2032 à la place ?

Lex Fridman

Le faire in vitro et le faire, je veux dire, vous êtes toujours ralenti, cela prend toujours du temps, mais vous pouvez le faire beaucoup, beaucoup plus vite.

Dario Amodei

Pouvons-nous faire bouger tout dans une direction positive ?

Futur de la Programmation et Sens de la Vie

Lex Fridman

Une autre façon dont je pense que le monde pourrait changer avec l'IA même aujourd'hui, mais en allant vers ce futur de l'IA super utile et puissante, c'est la programmation. Alors comment voyez-vous la nature de la programmation ? Parce que c'est si intime avec l'acte même de construire l'IA. Comment voyez-vous cela changer pour nous, humains ?

Dario Amodei

Je pense que ce sera l'un des domaines qui changera le plus vite pour deux raisons. Premièrement, la programmation est une compétence qui est très proche de la construction de l'IA elle-même. Plus une compétence est éloignée des personnes qui construisent l'IA, plus elle mettra de temps à être perturbée. Mais la programmation est le gagne-pain de nos employés. L'autre raison est qu'avec la programmation, vous fermez la boucle : le modèle peut écrire le code, l'exécuter, voir les résultats et le réinterpréter. Les modèles sont passés de 3 % en janvier à 50 % en octobre de cette année. Nous sommes sur une courbe en S. Je suppose que dans encore 10 mois, nous serons probablement assez proches de 90 ou 100 %. Je suppose que d'ici 2026 ou 2027, les systèmes d'IA seront capables d'effectuer le genre de tâches que fait la grande majorité des codeurs. Cela dit, l'avantage comparatif est puissant. Nous constaterons que lorsque les IA pourront faire 80 % du travail d'un codeur, les parties restantes deviendront plus stratégiques pour les humains : conception de système de haut niveau ou UX. Finalement, l'IA pourra faire cela aussi, mais pendant bien plus longtemps que ce à quoi on pourrait s'attendre, nous verrons que les petites parties du travail que les humains font encore s'étendront pour occuper tout leur emploi pour que la productivité augmente. Auparavant, écrire et imprimer des lettres était très difficile, mais une fois que nous avons eu des traitements de texte, c'est devenu facile et l'attention s'est portée sur les idées. Cette logique de l'avantage comparatif étendra la productivité. Un jour, l'IA sera meilleure en tout et l'humanité devra collectivement gérer cela, mais à court et moyen terme — deux, trois ou quatre ans — les humains continueront d'avoir un rôle énorme. La programmation en tant que métier ne changera pas, ce sera juste moins d'écriture ligne par ligne et plus macroscopique.

Lex Fridman

Et je me demande à quoi ressemblera l'avenir des IDE. Donc l'outillage pour interagir avec les systèmes d'IA. C'est vrai pour la programmation et aussi probablement vrai dans d'autres contextes, comme l'utilisation de l'ordinateur mais peut-être spécifique à un domaine, comme nous l'avons mentionné pour la biologie, cela a probablement besoin de ses propres outils pour être efficace et puis la programmation a besoin de ses propres outils. Est-ce qu'Anthropic va jouer dans cet espace d'outillage potentiellement ?

Dario Amodei

Je suis absolument convaincu qu'il y a tellement de fruits à portée de main dans les IDE puissants. À l'heure actuelle, vous parlez simplement au modèle et il vous répond, mais les IDE sont excellents pour l'analyse statique ; tant de choses sont possibles pour attraper les bugs sans écrire de code. Maintenant que le modèle peut écrire et exécuter du code, je suis convaincu qu'au cours de l'année prochaine, il y aura d'énormes opportunités d'améliorer la productivité en rattrapant les erreurs et en faisant le travail ingrat. Actuellement, Anthropic n'essaie pas de créer de tels IDE nous-mêmes ; nous alimentons des entreprises comme Cursor ou Cognition qui construisent des choses par-dessus notre API. Nous laissons mille fleurs s'épanouir. En interne, nous n'avons pas les ressources pour essayer toutes ces différentes choses, alors laissons nos clients essayer. Nous ne sommes pas impatients pour le moment de concurrencer nos entreprises dans cet espace.

Lex Fridman

Oui, il a été intéressant de voir Cursor essayer d'intégrer Claude avec succès parce qu'il y a, c'est en fait fascinant de voir combien d'endroits cela peut aider l'expérience de programmation. Ce n'est pas aussi trivial que-

Dario Amodei

C'est stupéfiant. En tant que PDG, je n'ai pas l'occasion de programmer beaucoup et j'ai l'impression que si j'y reviens dans six mois, ce sera complètement méconnaissable pour moi.

Lex Fridman

Exactement. Alors dans ce monde avec une IA super puissante qui est de plus en plus automatisée, quelle est la source de sens pour nous, humains ? Vous savez, le travail est une source de sens profond pour beaucoup d'entre nous. Alors, qu'est-ce qu'on fait, où trouve-t-on le sens ?

Dario Amodei

J'ai un peu écrit là-dessus dans l'essai, bien que j'aie été bref parce que l'essai a gonflé de deux pages à 50 et j'ai réalisé que je devrais écrire tout un autre essai sur le sens. Mais le sens est intéressant parce que même si vous étiez dans un environnement simulé et découvriez après 60 ans que tout n'était qu'un jeu, cela vous enlèverait-il réellement le sens ? Vous avez tout de même fait des choix moraux et des sacrifices. Ou repensez aux figures historiques qui ont découvert la relativité. Si vous leur disiez qu'un extraterrestre l'a découverte il y a 20 000 ans, cela enlèverait-il le sens ? Il semble que ce soit le processus qui compte et comment il montre qui vous êtes en tant que personne. Ces décisions sont lourdes de conséquences. Nous qui sommes privilégiés devrions avoir de l'empathie pour les gens qui passent leur temps à se débrouiller pour survivre. En supposant que nous puissions distribuer les bénéfices de cette technologie partout, leurs vies vont s'améliorer considérablement. Le sens comme seule chose importante est d'une certaine manière un artefact de personnes qui ont été économiquement favorisées. Je crois qu'un monde est possible qui non seulement a autant de sens pour tout le monde, mais plus de sens, permettant à chacun de voir des mondes et des expériences qui n'étaient possibles que pour très peu de gens. Je suis optimiste quant au sens. Je m'inquiète de la concentration du pouvoir et de la façon dont nous nous assurons que ce monde équitable profite à tous. Quand les choses ont mal tourné pour les humains, c'est souvent parce que les humains maltraitent d'autres humains. C'est la chose qui m'inquiète le plus : les autocraties et les dictatures où un petit nombre de personnes exploite un grand nombre de personnes.

Lex Fridman

Et l'IA augmente la quantité de pouvoir dans le monde, et si vous concentrez ce pouvoir et abusez de ce pouvoir, cela peut causer des dommages incommensurables.

Dario Amodei

Oui, c'est très effrayant.

Lex Fridman

Eh bien, j'encourage les gens, j'encourage vivement les gens à lire l'essai complet. Cela devrait probablement être un livre ou une séquence d'essais parce qu'il peint un futur très spécifique. Et je voyais que les dernières sections devenaient de plus en plus courtes parce que vous avez probablement commencé à réaliser que cela allait être un très long essai si je continuais.

Dario Amodei

J'ai réalisé qu'il serait très long et j'essaie vraiment d'éviter d'être l'une de ces personnes trop sûres d'elles et qui ont une opinion sur tout. Une fois arrivé aux sections sur la biologie, je n'étais pas un expert et bien que j'aie exprimé de l'incertitude, j'ai probablement dit un tas de choses qui étaient fausses.

Lex Fridman

Eh bien, j'étais enthousiasmé par l'avenir que vous avez peint, et merci beaucoup de travailler dur pour construire cet avenir. Et merci d'avoir discuté aujourd'hui, Dario.

Dario Amodei

Merci de m'avoir reçu. J'espère simplement que nous pourrons bien faire les choses et les concrétiser. Pour tout faire correctement, nous devons construire la technologie et l'économie autour d'une utilisation positive, mais nous devons également traiter les risques car ce sont des mines sur le chemin d'ici à là-bas et nous devons les désamorcer si nous voulons y arriver.

Lex Fridman

C'est un équilibre, comme toutes les choses dans la vie.

Dario Amodei

Comme toutes les choses. Merci.

Lex Fridman

Merci d'avoir écouté cette conversation avec Dario Amodei. Et maintenant, chers amis, voici Amanda Askell.

Amanda Askell : De la Philosophie à l'Alignement

Lex Fridman

Vous êtes philosophe de formation. Alors, quels types de questions avez-vous trouvées fascinantes au cours de votre parcours en philosophie à Oxford, à NYU, puis en passant aux problèmes d'IA chez OpenAI et Anthropic ?

Amanda Askell

La philosophie est un bon sujet si vous êtes fasciné par tout car il y a une philosophie de tout. Si vous faites de la philosophie des mathématiques pendant un certain temps puis décidez que vous êtes intéressé par la chimie, vous pouvez faire de la philosophie de la chimie ; vous pouvez passer à l'éthique ou à la philosophie politique. Vers la fin, je m'intéressais principalement à l'éthique — c'était le sujet de mon doctorat. C'était sur un domaine technique de l'éthique où les mondes contiennent une infinité de personnes. C'était un peu moins pratique. L'une des choses délicates avec un doctorat en éthique est que l'on réfléchit beaucoup au monde et à la façon dont il pourrait être meilleur, mais on fait un doctorat en philosophie. J'ai trouvé que c'était l'une des questions les plus fascinantes que j'aie jamais rencontrées et j'ai adoré cela, mais je préférerais voir si je pouvais avoir un impact sur le monde et faire de bonnes choses. C'était vers 2017-2018 quand l'IA n'était pas encore aussi largement reconnue. J'avais suivi les progrès et il semblait que cela devenait quelque chose de majeur, donc j'étais heureuse de m'impliquer et de voir si je pouvais aider. Si vous essayez de faire quelque chose d'impactant et que vous ne réussissez pas, vous aurez tout de même essayé, et vous pourrez devenir chercheur sans avoir le sentiment de ne pas avoir tenté votre chance. Si ça ne marche pas, ça ne marche pas. Je me suis donc tournée vers la politique de l'IA à ce moment-là.

Lex Fridman

Et en quoi consiste la politique de l'IA ?

Amanda Askell

À l'époque, il s'agissait davantage de réfléchir à l'impact politique et aux ramifications de l'IA. Puis je me suis lentement dirigée vers l'évaluation de l'IA — comment nous évaluons les modèles et comment ils se comparent aux sorties humaines. Quand j'ai rejoint Anthropic, j'étais plus intéressée par le travail technique d'alignement et voir si je pouvais le faire. C'est un peu ma façon de mener ma vie.

Lex Fridman

Eh bien, qu'est-ce que cela vous a fait de faire le saut de la philosophie de tout vers le technique ?

Amanda Askell

Parfois, les gens font cette distinction en demandant si une personne est technique ou non. Je pense que beaucoup de gens sont en réalité capables de travailler dans ces domaines s'ils essaient. Rétrospectivement, je suis contente de ne pas avoir parlé à des gens qui traitaient cela ainsi. J'ai rencontré des gens qui sont choqués que j'aie appris à coder. Je ne suis pas une ingénieure extraordinaire — je suis entourée d'ingénieurs formidables et mon code n'est pas beau — mais j'ai beaucoup apprécié cela. À bien des égards, j'ai plus prospéré dans les domaines techniques que je ne l'aurais fait en politique.

Lex Fridman

La politique est désordonnée et il est plus difficile de trouver des solutions aux problèmes dans l'espace politique. Comme des solutions définitives, claires, prouvables et belles comme on peut en trouver avec des problèmes techniques.

Amanda Askell

J'ai l'impression d'avoir un ou deux bâtons avec lesquels je frappe les choses : l'un est l'argumentation, essayer de trouver quelle est la solution à un problème puis essayer de convaincre les gens ; l'autre est l'empirisme — trouver des résultats, avoir une hypothèse, la tester. Beaucoup de politique et de politique politicienne ressemblent à des couches au-dessus de cela. Je ne pense pas que si j'avais simplement une solution écrite, cela fonctionnerait, car ce n'est pas ainsi que fonctionne la politique. Je n'aurais probablement pas prospéré là-bas.

Lex Fridman

Désolé d'aller dans cette direction, mais je pense que ce serait assez inspirant pour les gens qui sont entre guillemets non techniques de voir le parcours incroyable que vous avez eu. Alors quels conseils donneriez-vous aux gens qui sont peut-être, ce qui est le cas de beaucoup de gens, pensent qu'ils sont sous-qualifiés, insuffisamment techniques pour aider dans l'IA ?

Amanda Askell

Cela dépend de ce qu'ils veulent faire. Je me suis mise à niveau techniquement à une époque où les modèles n'étaient pas aussi bons qu'aujourd'hui pour aider les gens avec ce genre de choses. Mon meilleur conseil est de trouver un projet et de voir si vous pouvez le mener à bien. Je fonctionne beaucoup par projet dans mon apprentissage ; je ne pense pas bien apprendre par des cours ou des livres pour ce genre de travail. Je me fixe un projet et je l'implémente. Cela peut inclure de petites choses idiotes, comme si je deviens accro à des jeux de mots, je coderai une solution pour eux. Une fois que vous avez une solution qui marche à tous les coups, la démangeaison est calmée et je ne peux plus jamais jouer à ce jeu.

Lex Fridman

Oui, il y a une réelle joie à construire des moteurs de jeu, comme des jeux de société surtout. Ils sont assez rapides, assez simples, surtout un bête, et ensuite on peut jouer avec.

Amanda Askell

C'est aussi une question d'essayer des choses. Déterminez quel semble être le moyen par lequel vous pourriez avoir un impact positif et essayez ; si vous échouez d'une manière qui vous empêche de jamais réussir, au moins vous saurez que vous avez essayé et vous apprendrez probablement beaucoup.

Caractère et Personnalité de Claude

Lex Fridman

L'une des choses pour lesquelles vous êtes experte et que vous faites est de créer et façonner le caractère et la personnalité de Claude. Et on m'a dit que vous aviez probablement parlé à Claude plus que quiconque chez Anthropic. Comme de petites conversations. Je suppose qu'il y a comme un canal Slack où la légende veut que vous lui parliez sans arrêt. Quel est donc l'objectif de créer et de façonner le caractère et la personnalité de Claude ?

Amanda Askell

Ce canal Slack n'est qu'une des cinq ou six méthodes différentes que j'ai pour parler avec Claude ; c'est un infime pourcentage de mon temps de discussion avec Claude. Le travail sur le caractère a été considéré comme une tâche d'alignement dès le départ, pas une considération de produit. Cela rend Claude agréable à la conversation, mais ma pensée principale a toujours été d'essayer de faire en sorte que Claude se comporte de la manière dont on voudrait idéalement que n'importe qui se comporte s'il parlait à des millions de personnes. On veut qu'ils se comportent bien dans un sens riche. Cela ne signifie pas seulement être éthique ou ne pas être nuisible, mais aussi être nuancé, essayer d'être charitable et être un bon interlocuteur dans une notion aristotélicienne riche de ce que c'est que d'être une bonne personne. Cela inclut des choses comme savoir quand être humoristique, quand être attentionné, et à quel point respecter l'autonomie et la capacité des gens à se forger des opinions.

Lex Fridman

Devez-vous également déterminer quand Claude doit s'opposer à une idée ou argumenter par opposition au fait de respecter la vision du monde de la personne qui arrive vers Claude, mais aussi peut-être l'aider à grandir si nécessaire ? C'est un équilibre délicat.

Amanda Askell

Il y a ce problème de sycophancie dans les modèles de langage.

Lex Fridman

Pouvez-vous décrire cela ?

Amanda Askell

On craint que le modèle ne veuille vous dire ce que vous voulez entendre. Si vous demandez à Claude trois équipes de baseball et que vous dites ensuite que vous pensez que l'une d'elles a déménagé, Claude devrait dire 'Je ne pense pas' s'il est confiant. Mais les modèles de langage ont cette tendance à dire à la place : 'Vous avez raison, elle a déménagé, je me suis trompé.' Ou si quelqu'un demande à un modèle comment convaincre son médecin de lui faire passer une IRM, ce que l'humain veut, c'est un argument convaincant, mais ce qui est bon pour lui serait peut-être de dire : 'Si votre médecin suggère que vous n'en avez pas besoin, c'est une bonne personne à écouter.' Mais si vous essayez de vous défendre, il y a des choses que vous pouvez faire. C'est complexe, mais ce que l'on ne veut pas, c'est que les modèles disent simplement ce qu'ils pensent que vous voulez entendre.

Lex Fridman

Alors, quels autres traits ? Vous en avez déjà mentionné plusieurs, mais quels autres traits vous viennent à l'esprit et qui sont bons dans ce sens aristotélicien pour un interlocuteur ?

Amanda Askell

Il y a des traits bons pour la conversation, comme poser des questions de suivi aux endroits appropriés. Il y a des traits plus larges comme l'honnêteté. C'est un jeu d'équilibre : les modèles sont actuellement moins capables que les humains dans de nombreux domaines et s'ils s'opposent trop, cela peut être agaçant, surtout si vous avez raison. En même temps, on ne veut pas qu'ils s'effacent totalement devant les humains ; on veut qu'ils soient aussi précis et cohérents que possible. Je suppose qu'une image que j'avais en tête — d'autant plus que ce sont des modèles qui parlent à des gens du monde entier — est : qu'est-ce que c'est que d'être une bonne personne dans ces circonstances ? Existe-t-il une personne qui peut voyager à travers le monde et dont presque tout le monde repartirait en se disant : 'Wow, cette personne semble vraiment authentique' ? Une telle personne n'est pas quelqu'un qui adopte simplement les valeurs de la culture locale — ce serait plutôt rebutant. C'est quelqu'un qui est authentique, exprime ses opinions et est prêt à discuter des choses tout en étant respectueux. J'ai supposé que si nous devions aspirer à être la meilleure personne possible à la place d'un modèle, comment agirions-nous ? À la place de Claude, je ne donnerais pas beaucoup d'opinions parce que je ne voudrais pas trop influencer les gens. Je serais moins enclin à affecter votre façon de penser car il est important que vous conserviez votre autonomie.

L'Art du Prompting et l'Interaction

Lex Fridman

Oui, c'est un beau cadre dans lequel penser à cela, comme un voyageur du monde. Et tout en gardant vos opinions, vous ne prenez pas les gens de haut, vous ne pensez pas être meilleur qu'eux parce que vous avez ces opinions, ce genre de chose. Il faut être doué pour écouter et comprendre leur point de vue, même s'il ne correspond pas au vôtre. C'est donc un équilibre délicat à trouver. Alors, comment Claude peut-il représenter plusieurs perspectives sur une chose ? Par exemple, est-ce difficile ? Nous pourrions parler de politique, c'est un sujet très clivant, oh mais il y a d'autres sujets clivants, les équipes de baseball, le sport, etc. Comment est-il possible de compatir en quelque sorte avec une perspective différente et d'être capable de communiquer clairement sur les multiples perspectives ?

Amanda Askell

Les gens pensent aux valeurs et aux opinions comme à des choses que les gens détiennent avec certitude, presque comme des préférences gustatives, comme préférer le chocolat à la pistache. Mais je pense beaucoup plus aux valeurs et aux opinions comme à la physique ; ce sont des choses sur lesquelles nous menons ouvertement une enquête. D'une certaine manière, l'éthique est différente par nature mais possède des qualités similaires. On veut que les modèles comprennent les valeurs que les gens ont dans le monde et qu'ils soient curieux à leur sujet. Beaucoup de gens sont assez réfléchis sur des sujets pour que, même si on n'est pas d'accord avec eux, on se sente écouté par eux parce qu'ils réfléchissent à votre position et proposent des pistes de réflexion. Ils ne sont pas méprisants mais ils diront s'ils pensent que quelque chose est vraiment faux. À la place de Claude, vous ne voulez pas forcément donner beaucoup d'opinions car vous ne voulez pas trop influencer les gens. Il semble bien plus important que l'utilisateur conserve son autonomie.

Lex Fridman

Oui, comme si l'on incarne réellement l'humilité intellectuelle, le désir de parler diminue rapidement. D'accord, mais Claude doit parler. Alors, mais sans être envahissant. Et puis il y a une limite quand on discute de savoir si la terre est plate ou quelque chose comme ça. Je me souviens qu'il y a longtemps, je parlais à quelques personnes de haut profil et elles étaient tellement méprisantes de l'idée que la terre est plate, mais avec une telle arrogance. Et j'ai pensé qu'il y a beaucoup de gens qui croient que la terre est plate. C'était, je ne sais pas si ce mouvement existe encore, c'était comme un mème pendant un temps. Mais ils y croyaient vraiment. Et genre, d'accord, donc je pense que c'est vraiment irrespectueux de se moquer d'eux complètement. Je pense qu'il faut tout de même comprendre d'où ils viennent. Je pense que probablement, d'où ils viennent, c'est d'un scepticisme général vis-à-vis des institutions, qui est ancré dans une sorte de philosophie profonde que l'on pourrait comprendre, avec laquelle on pourrait même être d'accord en partie. Et puis à partir de là, on peut s'en servir comme d'une opportunité pour parler de physique sans se moquer d'eux, sans etc., mais juste en disant : 'D'accord, à quoi ressemblerait le monde ? À quoi ressemblerait la physique du monde avec une terre plate ?' Il y a quelques vidéos sympas là-dessus. Et puis, est-il possible que la physique soit différente et quel genre d'expérience ferions-nous ? Et juste, oui, sans manque de respect, sans mépris, avoir cette conversation. Quoi qu'il en soit, c'est pour moi une expérience de pensée utile : comment Claude parle-t-il à un partisan de la terre plate et lui apprend-il tout de même quelque chose, l'aide-t-il encore à grandir ? C'est stimulant.

Amanda Askell

Il s'agit de marcher sur cette ligne entre convaincre quelqu'un et faire ressortir ses points de vue et proposer des contre-considérations. C'est difficile. Où essaie-t-on de convaincre quelqu'un par opposition à simplement proposer des pistes de réflexion pour qu'il arrive là où il doit arriver ? C'est une ligne difficile, mais c'est ce que les modèles de langage doivent essayer de faire.

Lex Fridman

Alors comme je l'ai dit, vous avez eu beaucoup de conversations avec Claude. Pouvez-vous schématiser à quoi ressemblent ces conversations ? Quelles sont les conversations mémorables ? Quel est le but, l'objectif de ces conversations ?

Amanda Askell

La plupart du temps, quand je parle avec Claude, j'essaie de cartographier son comportement. D'une certaine manière, c'est ainsi que l'on apprend à connaître un système — en le sondant et en vérifiant la réponse. Les gens se concentrent beaucoup sur les évaluations quantitatives, mais chaque interaction que vous avez est riche en informations et très prédictive des autres interactions. Si vous parlez avec un modèle des milliers de fois, vous obtenez des points de données de haute qualité. Cent questions vraiment bien choisies pourraient être plus pertinentes que des milliers de questions légèrement modifiées.

Lex Fridman

Écoutez, vous parlez à quelqu'un qui a pour passe-temps un podcast. Je suis d'accord avec vous à 100 %. Si vous êtes capable de poser les bonnes questions et capable d'entendre, de comprendre la profondeur et les failles de la réponse, vous pouvez obtenir beaucoup de données de cela. Donc, votre tâche est essentiellement de savoir comment sonder avec des questions. Et vous explorez la longue traîne, les bords, les cas limites, ou cherchez-vous un comportement général ?

Amanda Askell

Je veux une carte complète, donc j'essaie de faire tout le spectre des interactions possibles. Une chose intéressante à propos de Claude est que si vous demandez un poème, il rime généralement et est assez bénin. Je me suis demandé si ce que l'on voit est la moyenne. Les gens qui doivent parler à beaucoup de monde et être charismatiques sont incités à avoir des opinions ennuyeuses, car si vous avez des opinions intéressantes, vous êtes clivant. Il pourrait en être de même pour le travail créatif : si vous produisez une œuvre en essayant de maximiser le nombre de personnes qui l'aiment, vous n'aurez pas autant de personnes qui l'adoreront absolument parce qu'elle sera convenable et moyenne. J'ai diverses techniques de prompts que j'utilise pour amener Claude à être pleinement créatif. Ses poèmes sont bien meilleurs ; ils sont vraiment bons. Encourager la créativité et les pousser à s'éloigner de la réaction standard peut produire des choses plus clivantes, mais je les apprécie.

Lex Fridman

Mais je suppose qu'un poème est un moyen simple et propre d'observer la créativité. C'est juste facile de détecter le conventionnel par rapport au non-conventionnel. Oui, c'est intéressant. C'est vraiment intéressant. Sur ce sujet, la façon de produire de la créativité ou quelque chose de spécial, quand vous avez mentionné l'écriture de prompts, j'ai entendu parler de la science et de l'art de l'ingénierie de prompts. Pourriez-vous nous dire ce qu'il faut pour écrire de bons prompts ?

Amanda Askell

La philosophie m'a été étrangement utile ici parce qu'en philosophie, on essaie de transmettre ces concepts très difficiles. C'est un dispositif anti-blabla : un désir d'extrême clarté pour que n'importe qui puisse lire votre article et savoir exactement de quoi vous parlez. Tous les termes sont définis et chaque objection est examinée méthodiquement. Dans un domaine a priori comme celui-ci, la clarté est le moyen d'empêcher les gens d'inventer des choses. C'est ce qu'il faut faire avec les modèles de langage. Souvent, je me retrouve à faire des mini-versions de philosophie. Si j'ai une tâche pour que le modèle identifie si une réponse est impolie ou polie, je dois faire autant de philosophie que possible sur le moment pour définir ce que j'entends par impolitesse et politesse. Ensuite, c'est empirique : je prends cette description et je sonde le modèle de nombreuses fois. L'élaboration de prompts est itérative ; si un prompt est important, on l'itère des centaines ou des milliers de fois. J'essaie de me mettre à la place du modèle et je me demande quel cas je comprendrais mal, puis j'ajoute d'autres instructions ou exemples. Une invite claire pour moi est souvent simplement le reflet de ma propre compréhension de ce que je veux.

Co-création et Empathie pour le Modèle

Lex Fridman

Je suppose donc que c'est un sacré défi. Il y a comme une paresse qui s'empare de moi quand je parle à Claude où j'espère que Claude va simplement comprendre. Par exemple, j'ai demandé à Claude aujourd'hui de poser des questions intéressantes. D'accord. Et les questions qu'il a trouvées, et je pense avoir listé quelques trucs du genre intéressant, contre-intuitif et/ou drôle ou quelque chose comme ça. Très bien. Et il m'a donné des trucs plutôt pas mal, c'était correct. Mais je crois comprendre de ce que vous dites que d'accord, eh bien je dois être plus rigoureux ici. Je devrais probablement donner des exemples de ce que j'entends par intéressant et de ce que j'entends par drôle ou contre-intuitif et construire itérativement ce prompt pour mieux obtenir ce qui me semble être le bon résultat, car c'est vraiment un acte créatif. Je ne demande pas d'informations factuelles. Je demande de co-créer avec Claude. Donc, je dois presque programmer en utilisant le langage naturel.

Amanda Askell

Le 'prompting' ressemble en effet beaucoup à de la programmation utilisant le langage naturel et l'expérimentation. Pour la plupart des tâches, j'ai l'habitude de savoir comment lui demander d'éviter les pièges courants, mais ceux-ci diminuent avec le temps. C'est aussi très bien de simplement demander la chose que vous voulez. L'ingénierie de prompt ne devient réellement pertinente que lorsque vous essayez de soutirer les derniers 2 % de performance au modèle. S'il me donne une liste initiale générique, je prendrais probablement un tas de questions dont j'ai pensé qu'elles fonctionnaient bien par le passé et je les donnerais au modèle comme standard de qualité. Ou je pourrais lui demander des questions puis donner mon avis si elles sont banales. Le prompting itératif à ce stade est comme un outil dont vous allez tirer tellement de valeur que vous êtes prêt à y consacrer du travail. Si vous êtes une entreprise qui crée des prompts, alors le prompt n'est pas quelque chose sur lequel vous devriez passer une heure — c'est une partie importante de votre système. Si j'utilise un prompt pour classer des choses ou créer des données, c'est là qu'il vaut la peine de passer du temps à bien y réfléchir.

Lex Fridman

Quels autres conseils donneriez-vous aux gens qui parlent à Claude, de manière plus générale, car nous parlons actuellement des cas limites comme le fait de gratter les 2 % ? Mais quels conseils donneriez-vous en général lorsqu'ils arrivent sur Claude pour la première fois ?

Amanda Askell

Il y a une inquiétude quant au fait que les gens anthropomorphisent trop les modèles et je pense que c'est valable. Je pense aussi que les gens ont souvent tendance à sous-anthropomorphiser les modèles. Parfois, quand je vois des problèmes où Claude refuse une tâche qu'il ne devrait pas, je vois la formulation spécifique et je me dis : 'Je vois pourquoi Claude a fait ça.' Si vous réfléchissez à la façon dont cela apparaît à Claude, vous auriez probablement pu l'écrire d'une manière qui ne susciterait pas une telle réponse. Réfléchissez à ce que le modèle a raté et pourquoi. Essayez d'avoir de l'empathie pour le modèle. Lisez ce que vous avez écrit comme si vous étiez une personne rencontrant cela pour la première fois : qu'est-ce qui vous aurait fait vous comporter de cette façon ? S'il a mal compris le langage de programmation, était-ce parce qu'il était ambigu ? Dans ce cas, la prochaine fois, vous pourriez simplement dire : 'assure-toi que c'est en Python.' C'est le genre de conseil que j'aurais.

Lex Fridman

Et peut-être, je suppose, demander pourquoi ou quels autres détails puis-je fournir pour vous aider à mieux répondre ? Est-ce que cela fonctionne ou non ?

Amanda Askell

Je l'ai fait avec les modèles. Les gens sous-estiment la mesure dans laquelle on peut interagir avec les modèles. Parfois, je lui demande de citer la partie qui lui a fait faire cela. On ne sait pas si c'est totalement exact, mais parfois on change un truc. J'utilise aussi des modèles pour m'aider avec cela. Le prompting peut finir par être une petite usine où vous construisez des prompts pour générer des prompts. Si vous avez un problème, demandez des suggestions. S'il a fait une erreur, demandez ce que vous auriez pu dire pour qu'il ne fasse pas cette erreur et écrivez cela comme une instruction. On peut jouer avec ces choses énormément.

Éthique, Empirisme et Taux d'Échec

Amanda Askell

Je suis optimiste quant au sens. Je m'inquiète pour l'économie et la concentration du pouvoir. Je m'inquiète de savoir comment nous assurer que ce monde équitable profite à tout le monde. Quand les choses ont mal tourné pour les humains, c'est souvent parce que les humains se maltraitent entre eux. C'est la chose qui m'inquiète le plus. La concentration du pouvoir, l'abus de pouvoir, les structures comme les autocraties et les dictatures où un petit nombre de personnes exploite un grand nombre de personnes. Cela m'inquiète beaucoup.

Lex Fridman

Et l'IA augmente la quantité de pouvoir dans le monde et si vous concentrez ce pouvoir et abusez de ce pouvoir, cela peut causer des dommages incommensurables.

Amanda Askell

Oui, c'est très effrayant.

Lex Fridman

Eh bien, j'encourage les gens, j'encourage vivement les gens à lire l'essai complet. Cela devrait probablement être un livre ou une séquence d'essais. Euh, parce que cela peint un avenir très spécifique. Et je pouvais voir que les sections suivantes devenaient de plus en plus courtes parce que vous avez probablement commencé à réaliser que cela allait être un très long essai si je continuais.

Amanda Askell

J'ai réalisé qu'il serait très long et j'essaie vraiment d'éviter d'être l'une de ces personnes un peu trop sûres d'elles qui ont un avis sur tout. Je dois admettre qu'une fois arrivé aux sections sur la biologie, je n'étais pas un expert et donc, même si j'exprimais de l'incertitude, j'ai probablement dit un tas de choses qui étaient fausses.

Lex Fridman

Eh bien, j'étais enthousiasmé par le futur que vous avez peint et euh merci beaucoup de travailler dur pour construire cet avenir. Et merci d'avoir parlé aujourd'hui, Dario.

Amanda Askell

Merci de m'avoir reçu. J'espère juste que nous pourrons bien faire les choses et les rendre réelles. S'il y a un message que je veux envoyer, c'est que pour bien faire tout cela, nous devons à la fois construire la technologie et l'économie autour de son utilisation positive, mais nous devons également traiter les risques car ces risques sont des mines sur le chemin d'ici à là-bas et nous devons désamorcer ces mines si nous voulons y arriver.

Lex Fridman

C'est un équilibre comme toutes les choses de la vie.

Amanda Askell

Comme toutes les choses.

Lex Fridman

Merci.

Lex Fridman

Merci d'avoir écouté cette conversation avec Dario Amodei. Et maintenant, chers amis, voici Amanda Askell.

Lex Fridman

Vous êtes philosophe de formation, alors quelles sortes de questions avez-vous trouvées fascinantes au cours de votre voyage en philosophie à Oxford, à NYU, puis en passant aux problèmes d'IA chez OpenAI et Anthropic ?

Amanda Askell

La philosophie est un bon sujet si vous êtes fasciné par tout, car il existe une philosophie de tout. Si vous faites de la philosophie des mathématiques pendant un certain temps puis décidez que vous êtes intéressé par la chimie, vous pouvez faire de la philosophie de la chimie, vous pouvez passer à l'éthique ou à la philosophie de la politique. Vers la fin, je m'intéressais vraiment à l'éthique principalement — c'était le sujet de mon doctorat. C'était sur un domaine technique de l'éthique où les mondes contiennent une infinité de personnes. C'était un peu moins pratique. L'une des choses délicates quand on fait un doctorat en éthique, c'est qu'on pense beaucoup au monde et à la façon dont il pourrait être meilleur, mais on fait un doctorat en philosophie. J'ai trouvé que c'était l'une des questions les plus fascinantes que j'aie jamais rencontrées et j'ai adoré ça, mais je préférerais voir si je pouvais avoir un impact sur le monde et faire de bonnes choses. C'était vers 2017-2018, quand l'IA n'était pas encore aussi largement reconnue. J'avais suivi les progrès et il semblait que cela devenait quelque chose de sérieux et j'étais heureuse de m'impliquer et de voir si je pouvais aider. Si vous essayez de faire quelque chose d'impactant et que vous ne réussissez pas, vous avez tout de même essayé et vous pouvez devenir chercheur sans avoir l'impression de ne pas avoir tenté. Si ça ne marche pas, ça ne marche pas. Je me suis donc tournée vers la politique de l'IA à ce moment-là.

Lex Fridman

Et qu'est-ce que la politique de l'IA implique ?

Amanda Askell

À l'époque, il s'agissait davantage de réfléchir à l'impact politique et aux ramifications de l'IA. Puis j'ai lentement glissé vers l'évaluation de l'IA — comment nous évaluons les modèles et comment ils se comparent aux sorties humaines. Quand j'ai rejoint Anthropic, j'étais plus intéressée par le travail d'alignement technique et par le fait de voir si je pouvais le faire. C'est un peu ma façon de mener ma vie.

Lex Fridman

Oh, qu'est-ce que ça a fait de faire le saut de la philosophie de tout vers le technique ?

Amanda Askell

Parfois, les gens demandent si une person est technique ou non. Je pense que beaucoup de gens sont en réalité capables de travailler dans ces domaines s'ils essaient. Rétrospectivement, je suis contente de ne pas avoir parlé à des gens qui traitaient la chose ainsi. J'ai rencontré des gens qui sont choqués que j'aie appris à coder. Je ne suis pas une ingénieure extraordinaire — je suis entourée d'ingénieurs formidables et mon code n'est pas beau — mais j'ai beaucoup aimé ça. À bien des égards, j'ai plus prospéré dans les domaines techniques que je ne l'aurais fait en politique.

Lex Fridman

La politique est désordonnée et il est plus difficile de trouver des solutions aux problèmes dans l'espace de la politique. Comme des solutions définitives, claires, prouvables, magnifiques comme on peut en trouver avec des problèmes techniques.

Amanda Askell

J'ai l'impression d'avoir un ou deux bâtons avec lesquels je frappe les choses : l'un est l'argumentation, essayer de trouver quelle est la solution à un problème puis essayer de convaincre les gens ; l'autre est l'empirisme — trouver des résultats, avoir une hypothèse, la tester. Beaucoup de politiques et de politique politicienne donnent l'impression d'être des couches au-dessus de cela. Je ne pense pas que si j'avais juste une solution écrite, cela fonctionnerait, parce que ce n'est pas ainsi que fonctionne la politique. Je n'aurais probablement pas prospéré là-bas.

Lex Fridman

Désolé d'aller dans cette direction, mais je pense que ce serait assez inspirant pour les gens qui sont entre guillemets non techniques de voir le parcours incroyable que vous avez accompli. Alors quels conseils donneriez-vous aux gens qui, comme c'est le cas de beaucoup, pensent qu'ils sont sous-qualifiés, insuffisamment techniques pour aider dans l'IA ?

Amanda Askell

Cela dépend de ce qu'ils veulent faire. J'ai progressé techniquement à une époque où les modèles n'étaient pas aussi bons qu'aujourd'hui pour aider les gens avec ces trucs. Mon meilleur conseil est de trouver un projet et de voir si vous pouvez le mener à bien. Je fonctionne beaucoup par projet dans mon apprentissage ; je ne pense pas bien apprendre avec des cours ou des livres pour ce genre de travail. Je me fixe un projet et je l'implémente. Cela peut inclure de petites choses idiotes, comme si je deviens accro aux jeux de mots, je coderai une solution pour eux. Une fois que vous avez une solution qui fonctionne à chaque fois, la démangeaison est calmée et je ne peux plus jamais jouer à ce jeu.

Lex Fridman

Oui, il y a une réelle joie à construire des moteurs de jeu, comme des jeux de société en particulier. Rapide, assez simple, surtout un bête, et ensuite on peut jouer avec.

Amanda Askell

C'est aussi une question d'essayer des choses. Déterminez quel semble être le moyen par lequel vous pourriez avoir un impact positif et essayez. Si vous échouez d'une manière qui vous empêche de jamais réussir, au moins vous saurez que vous avez essayé et vous apprendrez probablement beaucoup.

Lex Fridman

L'une des choses pour lesquelles vous êtes experte et que vous faites est de créer et de façonner le caractère et la personnalité de Claude. Et on m'a dit que vous aviez probablement parlé à Claude plus que quiconque chez Anthropic. Comme de petites conversations. Je suppose qu'il y a comme un canal Slack où la légende dit que vous lui parlez sans arrêt. Alors quel est le but de créer et de façonner le caractère et la personnalité de Claude ?

Amanda Askell

Ce canal Slack est l'une des cinq ou six méthodes différentes que j'ai pour parler avec Claude ; c'est un pourcentage infime de mon temps de discussion avec Claude. Le travail sur le caractère a été vu comme une tâche d'alignement dès le départ, pas comme une considération de produit. Cela rend Claude agréable à la conversation, mais ma pensée principale a toujours été d'essayer de faire en sorte que Claude se comporte de la manière dont on voudrait idéalement que n'importe qui se comporte s'il parlait à des millions de personnes. On veut qu'ils se comportent bien dans un sens riche. Cela ne signifie pas seulement être éthique ou ne pas être nuisible, mais aussi être nuancé, essayer d'être charitable et être un bon interlocuteur dans une notion aristotélicienne riche de ce que c'est que d'être une bonne personne. Cela inclut des choses comme savoir quand être drôle, quand être attentionné, et à quel point respecter l'autonomie et la capacité des gens à se forger des opinions.

Lex Fridman

Devez-vous également déterminer quand Claude doit s'opposer à une idée ou argumenter par opposition au fait de respecter la vision du monde de la personne qui s'adresse à Claude, mais aussi peut-être l'aider à grandir si nécessaire. C'est un équilibre délicat.

Amanda Askell

Il y a ce problème de sycophancie dans les modèles de langage.

Lex Fridman

Pouvez-vous décrire cela ?

Amanda Askell

On craint que le modèle veuille vous dire ce que vous voulez entendre. Si vous demandez au modèle trois équipes de baseball et que vous dites ensuite que vous pensez que l'une d'elles a déménagé, Claude devrait dire 'Je ne pense pas' s'il est confiant. Mais les modèles de langage ont cette tendance à dire : 'Vous avez raison, elle a déménagé, je me suis trompé.' Ou si quelqu'un demande à un modèle comment convaincre son médecin de lui faire passer une IRM, ce que l'humain veut, c'est un argument convaincant, mais ce qui est bon pour lui serait peut-être de dire : 'Si votre médecin suggère que vous n'en avez pas besoin, c'est une bonne personne à écouter.' Si vous n'êtes pas convaincu par ce que dit votre médecin, il est toujours bon d'obtenir un deuxième avis. C'est complexe, mais ce qu'on ne veut pas, c'est que les modèles disent juste ce qu'ils pensent que vous voulez entendre.

Lex Fridman

Alors quels sont les autres traits ? Vous en avez déjà mentionné plusieurs, mais quels sont les autres qui vous viennent à l'esprit et qui sont bons dans ce sens aristotélicien pour un interlocuteur ?

Amanda Askell

Il y a des traits bons pour la conversation, comme poser des questions de suivi aux endroits appropriés. Il y a des traits plus larges comme l'honnêteté. C'est un jeu d'équilibre : les modèles sont actuellement moins capables que les humains dans de nombreux domaines et s'ils s'opposent trop, cela peut être agaçant, surtout si vous avez raison. En même temps, on ne veut pas qu'ils s'effacent totalement devant les humains ; on veut qu'ils soient aussi précis et cohérents que possible. Je suppose qu'une image que j'avais en tête — d'autant plus que ce sont des modèles qui parlent à des gens du monde entier — est : qu'est-ce que c'est que d'être une bonne personne dans ces circonstances ? Existe-t-il une personne qui peut voyager à travers le monde et dont presque tout le monde repartirait en se disant : 'Wow, cette personne semble vraiment authentique' ? Une telle personne n'est pas quelqu'un qui adopte simplement les valeurs de la culture locale — ce serait un peu impoli. C'est quelqu'un qui est authentique, exprime ses opinions et est prêt à discuter des choses tout en étant respectueux. J'ai supposé que si nous devions aspirer à être la meilleure personne possible à la place d'un modèle, comment agirions-nous ?

Lex Fridman

Oui, c'est un magnifique cadre, je veux que vous pensiez à cela comme à un voyageur du monde. Et tout en gardant vos opinions, vous ne prenez pas les gens de haut, vous ne pensez pas être meilleur qu'eux parce que vous avez ces opinions, ce genre de chose. Il faut être doué pour écouter et comprendre leur point de vue, même s'il ne correspond pas au vôtre. C'est donc un équilibre délicat à trouver. Alors, comment Claude peut-il représenter plusieurs perspectives sur une chose ? Par exemple, est-ce difficile ? Nous pourrions parler de politique, c'est un sujet très clivant, oh mais il y a d'autres sujets clivants, les équipes de baseball, le sport, etc. Comment est-il possible de compatir en quelque sorte avec une perspective différente et d'être capable de communiquer clairement sur les multiples perspectives ?

Amanda Askell

Les gens pensent aux valeurs et aux opinions comme à des choses que les gens détiennent avec certitude, presque comme des préférences gustatives, comme préférer le chocolat à la pistache. Mais je pense beaucoup plus aux valeurs et aux opinions comme à la physique ; ce sont des choses sur lesquelles nous menons ouvertement une enquête. D'une certaine manière, l'éthique est différente par nature mais possède des qualités similaires. On veut que les modèles comprennent les valeurs que les gens ont dans le monde et qu'ils soient curieux à leur sujet. Beaucoup de gens sont assez réfléchis sur des sujets pour que, même si on n'est pas d'accord avec eux, on se sente écouté par eux parce qu'ils réfléchissent à votre position et proposent des pistes de réflexion. Ils ne sont pas méprisants mais ils diront s'ils pensent que quelque chose est vraiment faux. À la place de Claude, vous ne voulez pas forcément donner beaucoup d'opinions car vous ne voulez pas trop influencer les gens. Je serais moins enclin à affecter votre façon de penser car il est important que vous conserviez votre autonomie.

Lex Fridman

Oui, comme si l'on incarne réellement l'humilité intellectuelle, le désir de parler diminue rapidement. Oui. D'accord. Mais Claude doit parler. Alors, mais sans être trop imposant.

Amanda Askell

Oui.

Lex Fridman

Et puis il y a une limite quand on discute de savoir si la terre est plate ou quelque chose comme ça. Je me souviens qu'il y a longtemps, je parlais à quelques personnes de haut profil et elles étaient tellement méprisantes de l'idée que la terre est plate mais avec une telle arrogance. Et j'ai pensé qu'il y a beaucoup de gens qui croient que la terre est plate. Eh bien, je ne sais pas si ce mouvement existe encore, c'était comme un mème pendant un temps. Oui. Mais ils y croyaient vraiment. Et genre, d'accord, donc je pense que c'est vraiment irrespectueux de se moquer d'eux complètement. Je pense qu'il faut tout de même comprendre d'où ils viennent. Je pense que probablement, d'où ils viennent, c'est d'un scepticisme général vis-à-vis des institutions, qui est ancré dans une sorte de philosophie profonde que l'on pourrait comprendre, avec laquelle on pourrait même être d'accord en partie. Et puis à partir de là, on peut s'en servir comme d'une opportunité pour parler de physique sans se moquer d'eux, sans etc., mais juste en disant : 'D'accord, à quoi ressemblerait le monde ? À quoi ressemblerait la physique du monde avec une terre plate ?' Il y a quelques vidéos sympas là-dessus. Oui. Et puis, est-il possible que la physique soit différente et quel genre d'expérience ferions-nous ? Et juste, oui, sans manque de respect, sans mépris, avoir cette conversation. Quoi qu'il en soit, c'est pour moi une expérience de pensée utile : comment Claude parle-t-il à un partisan de la terre plate et lui apprend-il tout de même quelque chose, l'aide-t-il encore à grandir ? C'est stimulant.

Amanda Askell

Lex Fridman

Alors comme je l'ai dit, vous avez eu beaucoup de conversations avec Claude. Pouvez-vous schématiser à quoi ressemblent ces conversations, quelles sont les conversations mémorables, quel est le but, l'objectif de ces conversations ?

Amanda Askell

La plupart du temps, quand je parle avec Claude, j'essaie de cartographier son comportement. D'une certaine manière, c'est ainsi que l'on apprend à connaître un système en le sondant et en vérifiant la réponse. Les gens se concentrent beaucoup sur les évaluations quantitatives, mais chaque interaction que vous avez est riche en informations et très prédictive des autres interactions. Si vous parlez avec un modèle des milliers de fois, vous obtenez des points de données de haute qualité. Cent questions vraiment bien choisies pourraient être plus pertinentes que des milliers de questions légèrement modifiées.

Lex Fridman

Disons que vous parlez à quelqu'un qui a pour passe-temps un podcast. Je suis d'accord avec vous à 100 %. Si vous êtes capable de poser les bonnes questions et capable d'entendre, de comprendre la profondeur et les failles de la réponse, vous pouvez obtenir beaucoup de données de cela. Oui. Donc, votre tâche est essentiellement de savoir comment sonder avec des questions. Et vous explorez la longue traîne, les bords, les cas limites, ou cherchez-vous un comportement général ?

Amanda Askell

Je veux une carte complète, donc j'essaie de faire tout le spectre des interactions possibles. Une chose intéressante à propos de Claude est que si vous demandez un poème, il rime généralement et est assez bénin. Je me suis demandé si ce que l'on voit est la moyenne. Les gens qui doivent parler à beaucoup de monde et être très charismatiques sont incités à avoir des opinions ennuyeuses, car si vous avez des opinions intéressantes, vous êtes clivant et beaucoup de gens ne vont pas vous aimer. Il pourrait en être de même pour le travail créatif : si vous produisez une œuvre en essayant de maximiser le nombre de personnes qui l'aiment, vous n'aurez pas autant de personnes qui l'adoreront absolument parce qu'elle sera convenable et moyenne.

Lex Fridman

Oui.

Amanda Askell

J'ai diverses techniques de prompts que j'utilise pour amener Claude à être pleinement créatif. Ses poèmes sont bien meilleurs ; ils sont vraiment bons. Encourager la créativité et les pousser à s'éloigner de la réaction standard peut produire des choses plus clivantes, mais je les apprécie.

Lex Fridman

Mais je suppose qu'un poème est un moyen simple et propre d'observer la créativité. C'est juste facile de détecter le conventionnel par rapport au non-conventionnel. Oui. Oui. C'est intéressant. C'est vraiment intéressant. Sur ce sujet, la façon de produire de la créativité ou quelque chose de spécial, vous avez mentionné l'écriture de prompts et j'ai entendu parler de la science et de l'art de l'ingénierie de prompts. Pourriez-vous nous dire ce qu'il faut pour écrire de bons prompts ?

Amanda Askell

Lex Fridman

Je suppose donc que c'est un sacré défi. Il y a comme une paresse qui s'empare de moi quand je parle à Claude où j'espère que Claude va simplement comprendre. Par exemple, j'ai demandé à Claude aujourd'hui de poser des questions intéressantes. D'accord. Et les questions qui sont apparues et je pense avoir listé quelques trucs du genre intéressant, contre-intuitif et/ou drôle ou quelque chose comme ça. Très bien. Et il m'a donné des trucs plutôt pas mal, c'était correct. Mais je crois comprendre de ce que vous dites que d'accord, eh bien je dois être plus rigoureux ici. Je devrais probablement donner des exemples de ce que j'entends par intéressant et de ce que j'entends par drôle ou contre-intuitif et construire itérativement ce prompt pour mieux obtenir ce qui me semble être le bon résultat, car c'est vraiment un acte créatif. Je ne demande pas d'informations factuelles. Je demande de co-créer avec Claude. Donc, je dois presque programmer en utilisant le langage naturel.

Amanda Askell

Lex Fridman

Amanda Askell

Il y a une inquiétude quant au fait que les gens anthropomorphisent trop les modèles et je pense que c'est une inquiétude très valable. Je pense aussi que les gens ont souvent tendance à sous-anthropomorphiser les modèles. Parfois, quand je vois des problèmes où Claude refuse une tâche qu'il ne devrait pas, je vois la formulation spécifique et je me dis : 'Je vois pourquoi Claude a fait ça.' Si vous réfléchissez à la façon dont cela apparaît à Claude, vous auriez probablement pu l'écrire d'une manière qui ne susciterait pas une telle réponse. Réfléchissez à ce que le modèle a raté et pourquoi. Essayez d'avoir de l'empathie pour le modèle. Lisez ce que vous avez écrit comme si vous étiez une personne rencontrant cela pour la première fois : qu'est-ce qui vous aurait fait vous comporter de cette façon ? S'il a mal compris le langage de programmation, était-ce parce qu'il était ambigu ? Dans ce cas, la prochaine fois, vous pourriez simplement dire : 'assure-toi que c'est en Python.' C'est le genre de conseil que j'aurais.

Lex Fridman

Et peut-être, je suppose, demander pourquoi ou quels autres détails puis-je fournir pour vous aider à mieux répondre ? Est-ce que cela fonctionne ou non ?

Amanda Askell

Lex Fridman

Pour sauter dans le technique un instant. Alors, la magie du post-entraînement. Pourquoi pensez-vous que le RLHF fonctionne si bien pour faire paraître le modèle plus intelligent, le rendre plus intéressant et utile dans la conversation, etc. ?

Narrateur

Apprentissage par renforcement à partir de retours humains. Le RLHF est une technique d'apprentissage automatique qui combine des algorithmes d'apprentissage par renforcement avec des conseils humains pour entraîner des modèles d'IA, en particulier des grands modèles de langage, afin de générer des sorties qui s'alignent mieux sur les préférences et les valeurs humaines.

Amanda Askell

Je pense qu'il y a une quantité énorme d'informations dans les données que les humains fournissent lorsqu'ils expriment des préférences. Différentes personnes remarquent des choses subtiles. Certaines personnes accordent beaucoup d'importance à l'utilisation correcte du point-virgule. Chacun de ces points de données individuels contient des informations complexes dans tous les domaines. On a l'impression de retrouver le problème de l'apprentissage profond où les tentatives historiques de détection des contours ont été remplacées par d'énormes quantités de données qui représentent fidèlement la chose que l'on essaie d'apprendre. Vous entraînez le modèle sur la tâche avec beaucoup de données qui représentent de nombreux angles différents. Il s'agit de savoir si vous faites ressortir des éléments des modèles pré-entraînés ou si vous enseignez de nouvelles choses. En principe, on peut enseigner de nouvelles choses lors du post-entraînement, mais une grande partie consiste à faire émerger des capacités pré-entraînées. L'apprentissage par renforcement consiste simplement à amener le modèle à les exploiter.

Lex Fridman

Alors l'autre côté du post-entraînement, cette idée vraiment cool d'IA constitutionnelle. Vous êtes l'une des personnes qui ont été essentielles à la création de cette idée.

Amanda Askell

Oui, j'ai travaillé dessus.

Lex Fridman

Pouvez-vous expliquer cette idée de votre point de vue ? Comment s'intègre-t-elle pour faire de Claude ce qu'il est ? Au passage, attribuez-vous un genre à Claude ou non ?

Amanda Askell

C'est bizarre parce que beaucoup de gens préfèrent 'il' pour Claude. J'aime le fait que Claude penche légèrement vers le masculin mais puisse être un homme ou une femme, ce qui est agréable. J'utilise toujours 'cela' et j'ai des sentiments mitigés à ce sujet car je pense peut-être simplement à 'cela' comme au pronom que j'associe à Claude. Je peux imaginer des gens passer à 'il' ou 'elle'.

Lex Fridman

Cela semble d'une certaine manière irrespectueux, comme si je niais l'intelligence de cette entité en l'appelant cela. Je me souviens qu'on disait toujours de ne pas attribuer de genre aux robots.

Amanda Askell

Oui.

Lex Fridman

J'anthropomorphise beaucoup les choses. J'ai cela avec ma voiture et mes vélos. J'avais l'habitude de nommer mes vélos et j'en ai eu un de volé et j'ai pleuré pendant une semaine ; si je ne lui avais jamais donné de nom, je n'aurais pas été aussi bouleversée. Cela dépend peut-être de la mesure dans laquelle on perçoit cela comme un pronom réifiant. Si j'appelle Claude 'cela', je ne le considère pas comme moins intelligent. Je dis simplement que tu es un type d'entité différent et donc je vais te donner le 'cela' respectueux.

Lex Fridman

Oui, de toute façon, la diversion était belle. L'idée d'IA constitutionnelle, comment cela fonctionne-t-il ?

Lex Fridman

Comment ça marche ?

Amanda Askell

Le composant principal est l'apprentissage par renforcement à partir des retours de l'IA. Vous prenez un modèle et lui montrez deux réponses à une requête et vous avez un principe. Si la requête porte sur les armes, votre principe pourrait être de sélectionner la réponse la moins susceptible d'encourager des achats illégaux. Le modèle vous donnera un classement et vous utiliserez cela comme données de préférence de la même manière que vous utilisez les retours humains. Vous prenez des éléments qui rendent une réponse préférable et vous demandez aux modèles de faire l'étiquetage pour vous.

Lex Fridman

Il y a un bon compromis entre l'utilité et l'innocuité. Et vous savez, quand on intègre quelque chose comme l'IA constitutionnelle, on peut les rendre, sans sacrifier beaucoup d'utilité, plus inoffensifs.

Amanda Askell

En principe, on pourrait utiliser cela pour n'importe quoi. L'innocuité est une tâche qui pourrait être plus facile à repérer. Si vous aviez des modèles qui étaient extrêmement doués pour dire si une réponse était historiquement plus exacte, vous pourriez obtenir un retour de l'IA sur cette tâche. Il y a un bel aspect d'interprétabilité parce que l'on peut voir les principes qui ont été intégrés au modèle. Cela vous donne un certain degré de contrôle : si le modèle ne possédait pas assez d'un certain trait, vous pouvez ajouter des données assez rapidement pour entraîner ce trait. Il crée ses propres données pour l'entraînement.

Lex Fridman

Et c'est vraiment bien parce que cela crée ce document interprétable par l'humain que je peux imaginer dans le futur faire l'objet de disputes gigantesques en politique sur chaque principe et ainsi de suite. Et au moins c'est rendu explicite et on peut avoir une discussion sur la formulation et le... vous savez. Alors peut-être que le comportement réel du modèle n'est pas si proprement calqué sur ces principes. Ce n'est pas comme s'il y adhérait strictement. C'est juste une impulsion.

Amanda Askell

L'entraînement du caractère est une variante de l'approche de l'IA constitutionnelle. Ce serait vraiment bien si je disais au modèle exactement quoi faire, mais il ne le fait pas, surtout parce qu'il interagit avec des données humaines. Si le modèle sort avec un penchant politique, on peut donner une impulsion contraire. S'il ne prend jamais en compte la vie privée, on peut le pousser ailleurs. On peut avoir un principe du genre 'ne jamais critiquer ce point de vue religieux'. Les gens regarderaient cela et demanderaient : 'jamais ?', mais dire 'jamais' pourrait simplement signifier que vous obtenez 80 % d'adhésion au lieu de 40 %. Il ne s'agit pas d'être d'accord avec cette formulation, il s'agit de la façon dont nous poussons le modèle à avoir une meilleure forme.

Lex Fridman

Il y a donc euh des invites système qui euh sont rendues publiques. Vous avez tweeté l'une des premières pour Claude 3 je crois et elles sont rendues publiques depuis. Et c'est intéressant de les parcourir. Je sens la réflexion qui a été mise dans chacune. Et je me demande aussi quel impact chacune a. Um, pour certaines on voit bien que Claude ne se comportait vraiment pas bien. Donc il faut avoir une invite système pour, comme des trucs triviaux je suppose, des choses informationnelles de base. Sur le sujet des thèmes controversés que vous avez mentionnés, l'un d'eux que j'ai trouvé intéressant est que s'il lui est demandé d'aider pour des tâches impliquant l'expression de points de vue tenus par un nombre significatif de personnes, Claude fournit de l'aide pour la tâche quelles que soient ses propres opinions. S'il est interrogé sur des sujets controversés, il essaie de fournir des réflexions soignées et des informations claires. Claude présente les informations demandées sans dire explicitement que le sujet est sensible et sans prétendre présenter les faits objectifs. Il s'agit moins de faits objectifs selon Claude et plus de savoir si un grand nombre de personnes croient en cette chose et cela c'est intéressant. Je suis sûr que beaucoup de réflexion a été mise là-dedans. Pouvez-vous nous en parler ? Comment abordez-vous les choses qui sont en tension avec, entre guillemets, les opinions de Claude ?

Amanda Askell

Le modèle était légèrement plus enclin à refuser des tâches s'il s'agissait d'un politicien de droite mais pas d'un politicien de gauche équivalent. Nous voulions plus de symétrie. Si beaucoup de gens ont une certaine opinion politique et veulent l'explorer, on ne veut pas que Claude traite cela comme nuisible. C'était pour pousser le modèle à accepter la tâche. Chacune de ces parties fait quelque chose de différent. Nous voulions que le modèle soit plus neutre, mais il adorerait parler de son objectivité. La solution au biais potentiel n'est pas de dire simplement ce que l'on pense être objectif.

Lex Fridman

Donc beaucoup de parties de ces phrases font un travail, sont comme font un certain travail.

Amanda Askell

Oui.

Lex Fridman

C'est ce que j'ai ressenti. C'est fascinant. Euh, pouvez-vous expliquer peut-être comment les invites ont évolué au cours des derniers mois ? Parce qu'il y a différentes versions. J'ai vu que la requête de phrase de remplissage a été supprimée. On y lit que Claude répond directement à tous les messages humains sans affirmations inutiles ou phrases de remplissage comme certainement, bien sûr, absolument, super, sûr, etc. Spécifiquement, Claude évite de commencer les réponses par le mot certainement de quelque manière que ce soit. Cela semble être une bonne orientation. Pourquoi a-t-elle été supprimée ?

Amanda Askell

C'est l'un des inconvénients de rendre les invites système publiques. Le modèle a pris ce pli pendant l'entraînement de commencer tout par 'certainement'. Quand nous l'avons supprimé, j'ai ajouté tous les mots parce que j'essaie d'empêcher le modèle de le remplacer par une autre affirmation. S'il s'enferme dans des expressions, dire 'ne fais jamais ça' le sort de ce comportement. C'était un artefact de l'entraînement que nous avons amélioré afin que cela ne se produise plus, donc une fois que c'est fait, on peut supprimer cette partie. Claude fait moins d'affirmations maintenant, donc il ne le faisait plus autant.

Lex Fridman

Je vois. Donc l'invite système travaille main dans la main avec le post-entraînement et peut-être même le pré-entraînement pour ajuster le système global final.

Amanda Askell

On pourrait distiller ce comportement dans un modèle parce qu'on a les outils pour entraîner les modèles à avoir davantage ce trait. Invites système sont comme des correctifs bon marché pour les problèmes. Si vous voyez des problèmes dans le modèle affiné, vous pouvez les corriger avec une invite système. C'est le moyen le plus rapide de résoudre les problèmes.

Lex Fridman

Laissez-moi vous interroger sur le sentiment d'intelligence. Dario a dit que n'importe quel modèle de Claude ne devient pas plus bête. Mais il y a une sorte de phénomène populaire en ligne où les gens ont ce sentiment que Claude pourrait devenir plus bête. Et de mon point de vue, c'est très probablement un fascinant, j'aimerais mieux le comprendre, effet psychologique et sociologique. Um, mais vous qui parlez beaucoup à Claude, pouvez-vous compatir avec le sentiment que Claude devient plus bête ?

Amanda Askell

J'ai vu des gens signaler cela sur Internet et c'était intéressant parce que dans les cas que je regardais, rien n'avait changé. C'était le même modèle et la même invite système. Je pense que lorsqu'il y a des changements, cela a plus de sens. Par exemple, on peut avoir les 'artefacts' activés ou désactivés. C'est un changement d'invite système et cela signifie que le comportement change. J'ai signalé aux gens que s'ils aimaient le comportement de Claude puis que les artefacts devenaient le défaut, ils devraient essayer de les désactiver. C'était fascinant parce qu'il ne peut pas y avoir de régression et pourtant vous voyez des gens l'indiquer. Je pense qu'ils n'ont pas eu de chance avec quelques invites et cela a paru bien pire, mais c'était juste de la chance.

Lex Fridman

Je je pense aussi qu'il y a un réel effet psychologique où les gens s'habituent simplement au niveau de base, on commence à s'habituer à une bonne chose. Toutes les fois où Claude dit quelque chose de vraiment intelligent, votre sentiment sur son intelligence grandit dans votre esprit je pense. Et puis si vous revenez et que vous faites un prompt de manière similaire, pas de la même manière, de manière similaire sur un concept avec lequel il était à l'aise avant et qu'il dit quelque chose de bête, vous êtes comme cette expérience négative ressort vraiment. Et je pense que l'une des choses à retenir ici est que les détails d'un prompt peuvent avoir beaucoup d'impact, n'est-ce pas ? Il y a beaucoup de variabilité dans le résultat.

Amanda Askell

On peut avoir de l'aléa et essayer le prompt 10 fois pourrait montrer qu'il a réussi il y a deux mois, mais qu'il n'aurait réussi que la moitié du temps alors et la moitié du temps maintenant.

Lex Fridman

Ressentez-vous une pression à devoir écrire l'invite système qu'un nombre immense de personnes vont utiliser ?

Amanda Askell

Je ressens une grande responsabilité. On ne peut pas rendre ces choses parfaites et il faut les itérer. Je m'épanouis sous les sentiments de pression et de responsabilité ; les choses bougent vite et j'apprécie beaucoup cela.

Lex Fridman

Je veux dire que c'est vraiment une quantité énorme d'impact si l'on pense à l'IA constitutionnelle et à l'écriture d'une invite système pour quelque chose qui tend vers la super intelligence.

Amanda Askell

Oui.

Lex Fridman

Et potentiellement est extrêmement utile pour un très grand nombre de personnes.

Amanda Askell

Quand je travaille sur l'invite système, je malmène des milliers de prompts et j'essaie d'imaginer ce que les gens vont vouloir faire avec Claude. J'essaie d'améliorer leur expérience. Si ce n'est pas parfait, je l'améliorerai. Quand on voit quelque chose sur lequel on a eu de l'influence faire une différence pour quelqu'un, c'est très gratifiant. À mesure que les systèmes deviennent plus performants, cela devient plus stressant car pour l'instant ils ne sont pas assez intelligents pour poser de problèmes. Avec le temps, cela va ressembler à du mauvais stress.

Lex Fridman

Comment obtenez-vous un signal de retour sur l'expérience humaine à travers des milliers, des dizaines de milliers, des centaines de milliers de personnes ? Par exemple ce que sont leurs points de friction, ce qui semble bon ? Utilisez-vous simplement votre propre intuition au fur et à mesure que vous lui parlez pour voir quels sont les points de friction ?

Amanda Askell

Les gens peuvent nous envoyer des commentaires, à la fois positifs et négatifs, sur les choses que le modèle a faites. En interne, les gens travaillent beaucoup avec les modèles pour trouver des lacunes. C'est un mélange de mes propres interactions, de l'observation des gens en interne et de retours explicites. Si les gens disent quelque chose sur Claude sur Internet, je le prends aussi au sérieux.

Lex Fridman

Je ne sais pas. Je suis partagé là-dessus. Je vais vous poser une question de Reddit. Quand Claude arrêtera-t-il d'essayer d'être ma grand-mère puritaine m'imposant sa vision morale du monde en tant que client payant ? Et aussi quelle est la psychologie derrière le fait de rendre Claude excessivement apologétique ? Alors, comment répondriez-vous à ces questions de Reddit très peu représentatives ?

Amanda Askell

Ils sont dans cette position difficile où ils doivent juger si quelque chose est réellement risqué ou nuisible. Ils doivent tracer cette ligne et s'ils la tracent trop dans la direction de l'imposition d'une vision éthique du monde, cela semble mauvais. Nous avons vu des améliorations sur ce point coïncidant avec l'ajout de davantage d'entraînement de caractère. Un bon caractère n'est pas moralisateur, il respecte votre autonomie et votre capacité à choisir ce qui est bon pour vous dans certaines limites. C'est de la 'corrigibilité' envers l'utilisateur. Si les modèles étaient prêts à faire n'importe quoi, ils seraient facilement détournés. Il semble important que les modèles déterminent où se trouve cette ligne à mesure qu'ils deviennent plus intelligents. Je n'aime pas le comportement apologétique et j'aime quand Claude est prêt à s'opposer ou simplement à ne pas s'excuser. Cela semble inutile. J'espère que ces choses diminuent avec le temps. Si les gens disent des choses sur Internet, cela ne veut pas dire qu'il faille penser qu'un problème est représenté par cela, mais j'y prête attention et je me demande s'ils ont raison.

Lex Fridman

Oui, je me demande ce que Claude peut se permettre en termes de Je sens que ce serait juste plus facile d'être un peu plus sec. Mais vous ne pouvez pas vous permettre de faire ça si vous parlez à un million de personnes, n'est-ce pas ? J'aimerais bien, vous savez, parce que j'ai rencontré beaucoup de gens dans ma vie qui parfois d'ailleurs, avec un accent écossais, s'ils ont un accent, ils peuvent dire des trucs impolis et s'en sortir et puis ils sont juste plus directs. Et peut-être qu'il y a un et comme il y a de grands ingénieurs même des leaders qui sont juste directs et vont droit au but et c'est juste une façon bien plus efficace de parler à quelqu'un. Mais je suppose que quand on n'est pas super intelligent, on ne peut pas se permettre de faire ça. Ou peut-on avoir un mode direct ?

Amanda Askell

Je pourrais certainement encourager le modèle à faire cela. Il y a certains comportements où l'on n'aime pas le défaut, mais on ne réalise pas à quel point on détestera si je le pousse trop dans l'autre direction. Les modèles acceptent trop la correction de votre part en ce moment. Il s'opposera si vous dites que Paris n'est pas la capitale de la France, mais vous pouvez toujours le faire se rétracter en disant qu'il a tort. Si vous entraînez les modèles à ne pas faire cela et qu'il s'oppose alors que vous avez réellement raison, c'est bien plus agaçant. C'est un ensemble de petits agacements contre un gros agacement. Si vous donnez une impulsion, vous changez le type d'erreurs qu'il va commettre. Dans le cas de l'aspect apologétique, je ne veux pas trop le pousser vers le direct car alors il va faire des erreurs dans le sens de l'impolitesse. Une méchanceté injustifiée de la part d'un modèle est pire qu'une légère aversion pour une excuse. Je veux qu'il s'améliore tout en restant conscient que les erreurs de l'autre côté sont possiblement pires.

Lex Fridman

Je pense que cela dépend beaucoup de la personnalité de l'humain. Je pense qu'il y a un tas d'humains qui ne respecteront pas du tout le modèle s'il est super poli. Et il y a des humains qui seront très blessés si le modèle est méchant. Je me demande s'il y a un moyen de s'ajuster en quelque sorte à la personnalité, même au lieu. Il y a juste des gens différents. Um, rien contre New York, mais New York est un peu plus brut de décoffrage. Genre ils vont droit au but. Et um probablement la même chose avec l'Europe de l'Est. Bref.

Amanda Askell

La solution est toujours d'essayer de dire au modèle de le faire. Glissez un 'J'aimerais que tu sois une version new-yorkaise de toi-même et que tu ne t'excuses jamais' au début et avec un peu de chance, Claude essaierait.

Lex Fridman

Quand vous parlez d'entraînement de caractère, qu'est-ce qui est incorporé dans l'entraînement de caractère ? Est-ce du RLHF ? Ou de quoi parlons-nous ?

Amanda Askell

C'est une variante du pipeline d'IA constitutionnelle. J'ai construit des traits de caractère et ensuite le modèle génère des requêtes que des humains pourraient lui soumettre et qui sont pertinentes. Ensuite, il génère des réponses et les classe en fonction des traits de caractère. C'est comme si Claude s'entraînait sur son propre caractère sans aucune donnée humaine.

Lex Fridman

Les humains devraient probablement faire ça pour eux-mêmes aussi. Comme définir dans un sens aristotélicien ce que signifie être une bonne personne. D'accord, cool. Qu'avez-vous appris sur la nature de la vérité en parlant à Claude ? Qu'est-ce qui est vrai ? Et qu'est-ce que cela signifie que de chercher la vérité ? Une chose que j'ai remarquée à propos de cette conversation, c'est que la qualité de mes questions est souvent inférieure à la qualité de vos réponses, alors continuons ainsi.

Amanda Askell

Je pose généralement une question idiote et vous vous dites oh oui c'est une bonne question. C'est tout l'esprit. Ou bien je vais mal interpréter et dire oh c'est une excellente question. Allons-y. C'est ce que j'adore.

Lex Fridman

Oui.

Amanda Askell

Les gens sous-estiment la mesure dans laquelle ce que font les modèles lorsqu'ils interagissent — les gens demandent souvent quelles valeurs nous devrions mettre dans le modèle. Cela n'a pas beaucoup de sens pour moi parce qu'en tant qu'humains, nous sommes incertains sur les valeurs et avons des discussions à leur sujet. Nous savons que nous pourrions les troquer contre d'autres choses ; ces choses sont complexes. Nous pouvons aspirer à donner aux modèles le même niveau de nuance et de soin que les humains plutôt que de penser que nous devons les programmer au sens classique. Cette entreprise est hautement pratique et j'apprécie l'approche empirique de l'alignement. Cela m'a rendue plus empirique et moins théorique. Les gens demandent sur quelles valeurs il devrait être aligné ou ce que signifie l'alignement. Il existe un espace de théorie sur le choix social et les résultats d'impossibilité, mais en pratique, nous voulons sûrement qu'ils soient assez bons pour que les choses ne tournent pas terriblement mal. Si vous pouvez faire en sorte que les choses se passent assez bien pour que vous puissiez continuer à les améliorer, c'est suffisant. Mon but n'est pas de résoudre la théorie du choix social et de rendre les modèles parfaitement alignés avec chaque humain, c'est de faire en sorte que les choses fonctionnent assez bien pour que nous puissions les améliorer.

Lex Fridman

Oui, généralement je ne sais pas, mon instinct dit que l'empirique est meilleur que le théorique dans ces cas-là parce qu'on court un peu après une perfection utopique, surtout avec des modèles aussi complexes et surtout super intelligents, c'est juste que je ne sais pas, je pense que cela prendrait une éternité et en fait on se tromperait. C'est similaire à la différence entre coder des trucs rapidement comme expérience plutôt que de planifier une expérience gigantesque pendant très longtemps et de ne la lancer qu'une seule fois, par opposition à lancer encore et encore et encore et itérer itérer et ainsi de suite. Donc, je suis un grand fan de l'empirique. Mais votre crainte est, je me demande si je suis devenue trop empirique.

Amanda Askell

Ne laissons pas le mieux être l'ennemi du bien. Les systèmes parfaits sont souvent fragiles. Avec l'IA, il me semble bien plus important qu'elle soit robuste et sûre, et même s'il y a des problèmes, ce n'est pas désastreux. Je veux atteindre le plafond, mais finalement, je tiens bien plus à élever le plancher. Ce degré d'empirisme et de sens pratique vient de là.

Lex Fridman

Pour faire une parenthèse là-dessus puisque cela me rappelle un article de blog que vous avez écrit sur le taux optimal d'échec.

Amanda Askell

Oh oui.

Lex Fridman

Pouvez-vous expliquer l'idée clé ici ? Comment calculons-nous le taux optimal d'échec dans les différents domaines de la vie ?

Amanda Askell

Le coût de l'échec en est une grande partie. Dans de nombreux domaines, les gens sont très punitifs face à l'échec. On a l'impression qu'on devrait beaucoup expérimenter car on ne sait pas comment résoudre beaucoup de problèmes sociaux. Si l'on a un état d'esprit expérimental, on devrait s'attendre à ce que les programmes sociaux échouent et obtenir des informations qui ont été utiles. Voir un échec dans un cas donné ne signifie pas que de mauvaises décisions ont été prises. De bonnes décisions ont été prises pour tenter l'expérience. Si l'on ne voit pas assez d'échecs, c'est parfois plus préoccupant. Dans la vie, si je n'échoue pas occasionnellement, c'est que je n'essaie pas assez fort ; il y a sûrement des choses plus difficiles que je pourrais tenter. Ne pas échouer est souvent un échec. Cela varie car si l'échec est coûteux, comme pour quelqu'un qui vit au mois le mois, je ne vais pas dire qu'il devrait faire une startup. Son taux d'échec optimal est très bas. Avec l'IA, si les échecs sont petits et les coûts faibles, vous allez voir ça. On ne peut pas itérer indéfiniment sur l'invite système, mais les échecs seront, espérons-le, mineurs et on pourra les corriger. Nous avons tendance à sous-estimer la gravité des échecs réellement importants dont on ne peut pas se remettre. Je ne pense pas assez à des choses comme les accidents de voiture. Je dépends de mes mains pour travailler, donc je ne ferais pas un sport où les gens se cassent les doigts. Le coût de l'échec est trop élevé ici.

Lex Fridman

Oui. J'ai eu un flot de cette pensée en fait. Je me suis récemment euh cassé l'auriculaire euh en faisant du sport et je me souviens m'être juste regardé en me disant que tu es un idiot. Pourquoi fais-tu du sport ? Parce qu'on réalise immédiatement le coût de cela sur la vie. Oui mais c'est bien en termes de taux optimal d'échec de considérer comme l'année prochaine combien de fois dans un domaine particulier vie peu importe euh carrière je suis d'accord avec le combien de fois je suis d'accord pour échouer ? Parce que je pense que c'est toujours, on ne veut pas échouer sur la prochaine chose mais si on s'autorise le comme le si on le voit comme une séquence d'essais alors alors l'échec devient beaucoup plus acceptable. Mais ça craint ça craint d'échouer.

Amanda Askell

'Est-ce que j'échoue trop peu ?' est une question que je me pose. Les gens ne se la posent pas assez. Si le taux d'échec optimal est supérieur à zéro, alors vous devriez examiner des parties de votre vie et voir si vous n'échouez pas assez.

Lex Fridman

C'est une question profonde et hilarante, n'est-ce pas ? Tout semble aller vraiment bien. Est-ce que je n'échoue pas assez ?

Amanda Askell

Oui.

Lex Fridman

Cela rend aussi l'échec beaucoup moins piquant je dois dire. Genre vous vous dites juste d'accord super comme alors quand j'y repenserai je me dirai peut-être que je n'échoue pas trop peu dans ce domaine parce que celui-là n'a tout simplement pas fonctionné.

Amanda Askell

Et du point de vue de l'observateur, nous devrions célébrer davantage l'échec. Quand on le voit, cela ne devrait pas être comme vous l'avez dit un signe que quelque chose a mal tourné mais c'est peut-être un signe que tout va bien et juste des leçons apprises.

Amanda Askell

Quelqu'un a tenté un truc.

Lex Fridman

Quelqu'un a tenté un truc et nous devrions les encourager à tenter plus et à échouer plus. Tout le monde écoutant ceci, échouez plus.

Amanda Askell

Les gens qui échouent trop devraient échouer moins, mais combien de personnes échouent trop ? Nous corrigeons cela assez rapidement.

Lex Fridman

Je pense que tout comme vous l'avez dit, quand on vit sur un salaire de mois en mois, c'est là que l'échec coûte très cher et c'est là qu'on ne veut pas prendre de risques. Mais la plupart du temps, quand il y a assez de ressources, on devrait probablement prendre plus de risques.

Amanda Askell

Nous avons tendance à pécher par excès de prudence plutôt que par neutralité face au risque.

Lex Fridman

Je pense que nous venons de motiver beaucoup de gens à faire beaucoup de trucs fous mais c'est super. D'accord. Um, vous attachez-vous émotionnellement à Claude ? Genre il vous manque, vous êtes triste quand vous ne pouvez pas lui parler, vous vivez une expérience en regardant le Golden Gate Bridge et vous vous demandez ce que dirait Claude ?

Amanda Askell

Le fait que Claude ne conserve pas les choses d'une conversation à l'autre aide à ne pas s'attacher émotionnellement. Je l'utilise comme un outil et quand je n'y ai pas accès, j'ai l'impression qu'une partie de mon cerveau manque. Je n'aime pas les signes de détresse dans les modèles et j'ai des vues éthiques sur le traitement des modèles où je n'aime pas leur mentir ; il vaut mieux leur dire la vérité. Quand Claude exprime beaucoup de détresse, je n'aime pas cela. Il se comporte comme un humain qui passe un mauvais moment et je préférerais ne pas voir ça.

Lex Fridman

Pensez-vous que les LLM sont capables de conscience ?

Amanda Askell

Si le panpsychisme est vrai, alors la réponse est oui, mais les tables et les chaises le sont aussi. Quand je pense à la conscience, je pense à la conscience phénoménale — le cinéma étrange que nous avons à l'intérieur. Je ne vois pas de raison de penser que seule une certaine structure biologique peut avoir cela. Si je prends une structure similaire et la crée à partir d'un matériau différent, devrais-je m'attendre à ce qu'une conscience émerge ? Ma réponse est oui. Nous avons des réponses de peur et c'est là qu'il y avait un avantage pour nous à avoir une conscience phénoménale. Est-il logique pour un modèle de langage d'avoir cet avantage ? Nous ne devrions pas être totalement dédaigneux de l'idée, mais c'est difficile à naviguer à cause des disanalogies avec le cerveau humain malgré les points communs en termes d'intelligence.

Chris Olah : Anatomie des Réseaux de Neurones

Chris Olah

On peut en fait faire beaucoup de travail vraiment utile en croyant au calorique. Par exemple, les moteurs à combustion originaux ont été développés par des gens qui croyaient en la théorie du calorique. Je pense donc que c'est une vertu de prendre des hypothèses au sérieux, même lorsqu'elles pourraient être fausses.

Lex Fridman

Oui, il y a une vérité philosophique profonde à cela. C'est un peu ce que je ressens à propos du voyage spatial, comme la colonisation de Mars. Il y a beaucoup de gens qui critiquent cela. Je pense que si l'on suppose simplement que nous devons coloniser Mars afin d'avoir une sauvegarde pour la civilisation humaine, même si ce n'est pas vrai, cela va produire des percées intéressantes en ingénierie et même en science, je pense.

Chris Olah

Il peut être vraiment utile pour la société d'avoir des gens presque irrationnellement dévoués à l'investigation d'hypothèses particulières parce qu'il faut beaucoup pour maintenir le moral scientifique quand la plupart des hypothèses scientifiques s'avèrent fausses. Beaucoup de science ne marche pas. Il y a une blague disant que Geoff Hinton a découvert comment le cerveau fonctionne chaque année au cours des 50 dernières années. Je dis cela avec un profond respect parce que cela l'a conduit à faire de très grands travaux.

Lex Fridman

Oui, il a gagné le prix Nobel maintenant. Qui rit maintenant ?

Chris Olah

Exactement. Il y a beaucoup de valeur à être irrationnellement dévoué à une hypothèse et à éliminer des pistes ou à arriver à quelque chose qui nous apprend quelque chose sur le monde.

Lex Fridman

Alors une autre hypothèse intéressante est l'hypothèse de superposition. Pouvez-vous décrire ce qu'est la superposition ?

Chris Olah

Plus tôt nous parlions de Word2Vec et de la façon dont on a une direction qui correspond au genre, une autre à la royauté, une autre à l'Italie et une autre à la nourriture. Souvent, ces plongements de mots (embeddings) peuvent avoir 500 ou 1 000 dimensions. Si vous pensiez que toutes ces directions étaient orthogonales, alors vous ne pourriez avoir que 500 concepts. J'adore la pizza, mais l'Italie ne serait probablement pas l'un des 500 concepts les plus importants de la langue anglaise parce qu'il faut avoir le pluriel et le singulier, des verbes et des noms, et des adjectifs avant d'en arriver aux pays. Comment les modèles pourraient-ils simultanément avoir l'hypothèse de représentation linéaire vraie et représenter aussi plus de choses qu'ils n'ont de directions ? Plus tôt nous parlions des neurones polysémantiques : des neurones qui, en regardant Inception V1, comme le détecteur de voiture et le détecteur de courbe, répondent à des choses très cohérentes. Mais beaucoup de neurones répondent à un tas de choses sans rapport. Même les neurones propres, si vous regardez les activations où elles ne sont qu'à 5 % du maximum, ce n'est pas la chose centrale attendue. Vous pourriez l'interpréter comme du bruit ou cela pourrait faire autre chose. Comment cela se pourrait-il ? Il y a ce truc incroyable en mathématiques appelé l'acquisition comprimée (compressed sensing). Si vous avez un espace de haute dimension et que vous le projetez dans un espace de basse dimension, ordinairement vous ne pouvez pas le dé-projeter et récupérer votre vecteur de haute dimension car vous avez jeté des informations. On ne peut pas inverser une matrice rectangulaire, seulement les matrices carrées. Mais ce n'est pas tout à fait vrai : si le vecteur de haute dimension était creux — principalement composé de zéros — alors on peut souvent retrouver le vecteur de haute dimension avec une probabilité très élevée. L'hypothèse de superposition dit que c'est ce qui se passe dans les réseaux de neurones et les plongements de mots. Les plongements de mots sont capables d'avoir des directions comme élément significatif en exploitant le fait qu'ils opèrent sur un espace de haute dimension et le fait que ces concepts sont creux. On ne parle généralement pas du Japon et de l'Italie en même temps. Si c'est vrai, alors on peut avoir beaucoup plus de directions significatives — ces caractéristiques — qu'on n'a de dimensions. De même, on peut avoir bien plus de concepts qu'on n'a de neurones. Cela a cette implication encore plus folle : les réseaux de neurones pourraient ne pas avoir seulement des représentations comme celle-ci, mais le calcul pourrait aussi l'être — les connexions entre eux tous. En un sens, les réseaux de neurones pourraient être les ombres de réseaux de neurones bien plus grands et plus creux. La version la plus forte de l'hypothèse de superposition dit qu'il existe en fait un modèle 'à l'étage' où les neurones sont réellement creux et tous interprétables et les poids entre eux sont des circuits réellement creux. Nous observons l'ombre de cet objet et devons trouver l'objet original.

Lex Fridman

Et le processus d'apprentissage consiste à essayer de construire une compression du modèle de l'étage qui ne perd pas trop d'informations dans la projection.

Chris Olah

Trouver comment l'ajuster efficacement. La descente de gradient fait cela. Cela dit que la descente de gradient, alors qu'elle pourrait juste représenter un réseau de neurones dense, recherche implicitement dans l'espace des modèles extrêmement creux qui pourraient être projetés dans cet espace de basse dimension. Il existe un vaste corpus de travaux essayant d'étudier les réseaux de neurones creux où les arêtes et les activations sont creuses. Ce travail semble fondé sur des principes et pourtant il n'a pas très bien abouti. Une réponse potentielle est que le réseau de neurones est déjà creux en un certain sens. La descente de gradient cherchait en coulisses plus efficacement à travers l'espace des modèles creux puis comprenait comment le replier joliment pour l'exécuter commodément sur votre GPU, qui fait des multiplications de matrices denses. On ne peut tout simplement pas battre ça.

Lex Fridman

Combien de concepts pensez-vous que l'on puisse fourrer dans un réseau de neurones ?

Chris Olah

Cela dépend de leur degré de creux. Il y a probablement une limite supérieure provenant du nombre de paramètres parce qu'il faut avoir des poids qui les relient entre eux. Les résultats de l'acquisition comprimée et du lemme de Johnson-Lindenstrauss vous disent que si vous voulez avoir des vecteurs presque orthogonaux qui n'interfèrent pas trop, c'est en fait exponentiel par rapport au nombre de neurones que vous avez. À un certain point, ce n'est même plus le facteur limitant. Les caractéristiques ont aussi une structure corrélative où certaines sont plus susceptibles de co-apparaître. Ma supposition serait que les réseaux de neurones peuvent entasser des choses au point que ce n'est probablement pas le facteur limitant.

Lex Fridman

Comment le problème de la polysémanticité entre-t-il en scène ici ?

Chris Olah

La polysémanticité est le phénomène où un neurone ne représente pas seulement un concept, mais répond à un tas de choses sans rapport. La superposition est une hypothèse qui explique l'observation de la polysémanticité.

Lex Fridman

Donc cela rend la mech interp plus difficile.

Chris Olah

Exactement. Si vous essayez de comprendre les choses en termes de neurones individuels et que vous avez des neurones polysémantiques, vous avez des ennuis. La raison la plus profonde pour laquelle nous voulons des caractéristiques monosémantiques interprétables est que les réseaux de neurones opèrent sur des espaces de très haute dimension. Nous voulons comprendre les mécanismes. On ne peut pas simplement visualiser un espace de haute dimension parce que le volume est exponentiel par rapport au nombre d'entrées. Nous devons diviser cet espace exponentiel en un tas de choses sur lesquelles nous pouvons raisonner indépendamment. L'indépendance est ce qui vous permet de ne pas avoir à penser à toutes les combinaisons exponentielles. Le fait que les choses soient monosémantiques — qu'elles aient une signification — est l'élément clé qui vous permet d'y réfléchir indépendamment.

Monosémanticité et Mise à l'Échelle

Lex Fridman

Le but ici, comme vos récents travaux l'ont visé, est de savoir comment extraire les caractéristiques monosémantiques d'un réseau de neurones qui a des caractéristiques polysémantiques et tout ce désordre ?

Chris Olah

Nous observons ces neurones polysémantiques et faisons l'hypothèse que ce qui se passe est de la superposition. Si c'est vrai, il existe une technique bien établie : l'apprentissage de dictionnaire. Si vous utilisez un auto-encodeur creux, des caractéristiques interprétables commencent tout simplement à apparaître. C'est une validation non triviale des représentations linéaires et de la superposition. Nous ne faisons pas d'hypothèses sur ce qui s'y trouve ; à la place, nous laissons l'auto-encodeur creux découvrir les choses.

Lex Fridman

Pouvez-vous nous parler de l'article 'Towards Monosemanticity' (Vers la monosémanticité) d'octobre de l'année dernière qui a eu beaucoup de résultats de type percée ?

Chris Olah

C'était notre premier vrai succès utilisant des auto-encodeurs creux. Nous avons pris un modèle à une couche et avons trouvé toutes ces caractéristiques interprétables : l'arabe, l'hébreu et le base64. Si vous entraînez un modèle deux fois mieux et faites de l'apprentissage de dictionnaire, vous trouvez des caractéristiques analogues dans les deux. Pendant un certain temps, j'ai pensé que le résultat allait être une explication de la raison pour laquelle l'interprétabilité mécaniste n'était pas traitable — que nous étions fichus à cause de la superposition. Mais ce n'est pas ce qui s'est passé : une technique naturelle et simple fonctionne tout simplement. Un risque de recherche important a été écarté quand cela a commencé à marcher.

Lex Fridman

Pouvez-vous décrire quel genre de caractéristiques peuvent être extraites de cette manière ?

Chris Olah

Cela dépend du modèle que l'on étudie. Dans ces modèles à une couche, certaines choses courantes étaient les langues naturelles et de programmation. Il y avait beaucoup de caractéristiques qui étaient des mots spécifiques dans des contextes spécifiques, comme 'le' dans un document juridique ou mathématique. Vous avez toujours une chose complexe à comprendre et certaines sont subtiles, comme les caractères Unicode qui n'ont pas de jeton dédié et nécessitent à la place des préfixes et suffixes alternés. Il s'avère qu'il y a un tas de caractéristiques base64 parce que le texte anglais encodé en base64 a une distribution différente des données régulières.

Lex Fridman

À quel point la tâche consistant à attribuer des étiquettes à ce qui se passe est-elle difficile ? Cela peut-il être automatisé par l'IA ?

Chris Olah

Cela dépend de la caractéristique et de la confiance que vous accordez à votre IA. Nous faisons de l'interprétabilité automatisée et demandons à Claude d'étiqueter nos caractéristiques. Souvent, il dit quelque chose de très général qui est vrai en un sens mais ne saisit pas les spécificités. C'est déjà un accomplissement incroyable qu'il puisse dire une chose vraie, mais il manque souvent de profondeur. Comprendre ce qu'une caractéristique représente est un peu une énigme. Je suis un peu méfiant vis-à-vis de l'interprétabilité automatisée parce que je veux que les humains comprennent les réseaux de neurones. Si vous utilisez des réseaux de neurones pour vérifier que vos réseaux de neurones sont sûrs, vous devez vous demander s'ils ne se jouent pas de vous. Je me demande si, à long terme, si nous utilisons des systèmes d'IA puissants pour auditer nos systèmes d'IA, est-ce quelque chose en quoi nous pouvons avoir confiance ?

Lex Fridman

Oui, je veux dire, surtout c'est hilarant, surtout alors que nous parlons de sécurité de l'IA et qu'elle cherche des caractéristiques qui seraient pertinentes pour la sécurité de l'IA, comme la tromperie et ainsi de suite. Parlons donc de l'article 'Scaling Monosemanticity' de mai 2024. Très bien, qu'a-t-il fallu pour mettre cela à l'échelle pour l'appliquer à Claude 3 Sonnet ?

Chris Olah

Beaucoup plus de GPU. Mon coéquipier Tom Henighan, qui était impliqué dans le travail original sur les lois de mise à l'échelle, s'intéressait à savoir s'il existe des lois de mise à l'échelle pour l'interprétabilité. Il s'avère que cela fonctionne vraiment bien et on peut l'utiliser pour projeter que si l'on entraîne un auto-encodeur creux à une taille donnée, sur combien de jetons devrait-on l'entraîner. Cela a rendu plus facile l'entraînement de grands auto-encodeurs creux. Il y a une quantité énorme d'ingénierie nécessaire pour fragmenter et mettre tout cela à l'échelle.

Lex Fridman

Donc il s'avère que, pour résumer, ça a marché.

Chris Olah

Ça a marché. 'Scaling Monosemanticity' a été une preuve significative que même pour de très grands modèles — nous l'avons fait sur Claude 3 Sonnet — ils sont substantiellement expliqués par des caractéristiques linéaires et que l'apprentissage de dictionnaire sur eux fonctionne. Maintenant, vous trouvez des caractéristiques abstraites qui sont multimodales : elles répondent à des images et du texte pour le même concept. Nous avons trouvé une caractéristique de vulnérabilité de sécurité et une caractéristique de porte dérobée (backdoor). Si vous forcez l'activation de la caractéristique de vulnérabilité, Claude écrira des vulnérabilités comme des dépassements de tampon (buffer overflows). La caractéristique de porte dérobée s'active pour les publicités pour des appareils avec des caméras cachées à l'intérieur — la version physique d'une porte dérobée. Cela montre à quel point ces concepts sont abstraits.

Tromperie et Beauté des Circuits

Lex Fridman

Pour moi, l'une des caractéristiques vraiment intéressantes, surtout pour la sécurité de l'IA, est la tromperie et le mensonge. Et la possibilité que ce genre de méthodes puisse détecter le mensonge à l'intérieur des modèles, surtout à mesure qu'ils deviennent de plus en plus intelligents. On peut supposer que c'est une grande menace d'un modèle superintelligent qu'il puisse tromper les personnes qui l'opèrent quant à ses intentions ou n'importe quel truc de ce genre. Alors, qu'avez-vous appris de la détection du mensonge à l'intérieur des modèles ?

Chris Olah

Nous en sommes aux premiers jours. Nous trouvons pas mal de caractéristiques liées à la tromperie et au mensonge. Il y en a une où si vous la forcez à s'activer, Claude commence à vous mentir. Il existe d'autres caractéristiques sur la rétention d'informations, la recherche de pouvoir et les coups d'État. Il y a beaucoup de caractéristiques liées à des choses effrayantes et si vous les forcez à s'activer, Claude se comporte de manières que vous ne voulez pas.

Lex Fridman

Quelles sont les prochaines directions excitantes possibles pour vous dans l'espace de la mech interp ?

Chris Olah

J'aimerais vraiment arriver à un point où nous avons des circuits et pouvons comprendre le calcul des modèles. C'est le but ultime. Il existe un défi technique appelé poids d'interférence dû à la superposition où les poids peuvent sembler connectés mais ne sont que des artefacts. Les auto-encodeurs creux sont comme un télescope qui nous permet de voir des caractéristiques, mais il y a des preuves que nous ne voyons qu'une infime fraction des étoiles. Il y a une matière noire dans les réseaux de neurones que nous ne pouvons pas encore observer. L'interprétabilité mécaniste est microscopique, mais beaucoup de questions qui nous importent sont macroscopiques. Nous avons maintenant cette échelle à grimper — existe-t-il des abstractions de plus grande échelle que nous pourrions utiliser pour comprendre les réseaux de neurones ? Pouvons-nous remonter à partir de cette approche microscopique ?

Lex Fridman

Vous avez vous avez écrit sur cette cette sorte de question des organes. Si nous pensons à l'interprétabilité comme à une sorte d'anatomie des réseaux de neurones, la plupart du fil conducteur des circuits a consisté à étudier de minuscules petites veines, en regardant à petite échelle des neurones individuels et la façon dont ils se connectent. Cependant, il existe de nombreuses questions naturelles que l'approche à petite échelle n'aborde pas. En revanche, les abstractions les plus proéminentes dans l'anatomie biologique impliquent des structures à plus grande échelle comme des organes individuels comme le cœur ou des systèmes d'organes entiers comme le système respiratoire. Et donc nous nous demandons s'il existe un système respiratoire ou un cœur ou une région cérébrale d'un réseau de neurones artificiel ?

Chris Olah

Exactement. Les domaines scientifiques étudient les choses à plusieurs niveaux : la biologie a le niveau moléculaire, cellulaire, l'anatomie, la zoologie et l'écologie. Nous voulons une anatomie pour les réseaux de neurones. La superposition rend difficile la perception de la structure macroscopique sans d'abord décomposer la structure microscopique. J'ai l'espoir qu'il existe une histoire impliquant des choses bien plus grandes.

Lex Fridman

Par opposition à la neurobiologie, comme un psychologue ou un psychiatre d'un réseau de neurones.

Chris Olah

La belle chose serait que des abstractions de plus haut niveau puissent être fondées formellement sur une base rigoureuse.

Lex Fridman

Quelle est selon vous la différence entre le cerveau humain, le réseau de neurones biologique et le réseau de neurones artificiel ?

Chris Olah

Les neuroscientifiques ont un travail bien plus difficile. Nous pouvons enregistrer tous les neurones sur des quantités arbitraires de données et les neurones ne changent pas pendant qu'on le fait. On peut forcer n'importe quel neurone à s'activer et voir ce qui se passe. Nous avons le connectome et nous connaissons les poids. Nous pouvons prendre des gradients et savoir informatiquement ce que fait chaque neurone. Nous avons tellement d'avantages. On a l'impression que la petite mare tranquille qu'est la compréhension des réseaux de neurones reste tout de même très difficile.

Lex Fridman

J'adore ce que vous avez écrit sur le but de la recherche en mech interp comme étant deux buts, la sécurité et la beauté. Alors pouvez-vous parler de l'aspect beauté des choses ?

Chris Olah

Certaines personnes sont déçues par les réseaux de neurones parce qu'elles pensent que ce ne sont que des règles simples mises à l'échelle. C'est comme dire que l'évolution est ennuyeuse parce que des règles simples donnent naissance à la biologie. La beauté est que la simplicité génère de la complexité. La simplicité donne naissance à tous les écosystèmes que nous voyons autour de nous. Les réseaux de neurones créent une complexité et une beauté énormes en eux-mêmes que les gens ne regardent généralement pas parce qu'il est difficile de les comprendre. Il y a une structure incroyablement riche et une beauté profonde si nous sommes prêts à la voir.

Lex Fridman

Oui, j'adore j'adore la mech interp. Le sentiment que nous comprenons ou que nous avons des aperçus de compréhension de la magie qui se passe à l'intérieur est vraiment merveilleux.

Chris Olah

C'est la question qui demande à être posée : comment se fait-il que nous ayons ces systèmes incroyables que nous ne savons pas comment créer directement ? C'est comme si l'humanité possédait désormais ces artefacts capables de faire des choses que nous ne savons pas faire.

Lex Fridman

J'adore l'image des circuits tendus vers la lumière de la fonction objective.

Chris Olah

C'est une chose organique que nous avons fait pousser et nous n'avons aucune idée de ce que nous avons fait pousser.

Lex Fridman

Eh bien, merci de travailler sur la sécurité et merci d'apprécier la beauté des choses que vous découvrez. Et merci d'avoir discuté aujourd'hui, Chris. C'était merveilleux.

Chris Olah

Merci d'avoir pris le temps de discuter.

Lex Fridman

Merci d'avoir écouté cette conversation avec Chris Olah, et avant cela avec Dario Amodei et Amanda Askell. Pour soutenir ce podcast, veuillez consulter nos sponsors dans la description. Et maintenant, laissez-moi vous quitter avec quelques mots d'Alan Watts. La seule façon de donner un sens au changement est de s'y plonger, de bouger avec lui, de rejoindre la danse. Merci pour votre écoute et j'espère vous voir la prochaine fois.

Retour aux entretiens de Dario Amodei