Yoshua Bengio

AI Safety, Causal Modeling, and the Path to AGI with Yoshua Bengio

6 novembre 2023

AI Safety & Research
Illustration de Yoshua Bengio

Overview of AI Safety and Recent Work

Sam Charrington

Très bien, tout le monde. Bienvenue dans un nouvel épisode du podcast TWIML AI. Je suis votre hôte, Sam Charrington, et aujourd'hui je suis accompagné de Yoshua Bengio. Yoshua est professeur à l'Université de Montréal.

Sam Charrington

Avant de commencer, assurez-vous de prendre un moment pour cliquer sur le bouton d'abonnement, où que vous écoutiez l'émission d'aujourd'hui. Yoshua, bienvenue à nouveau sur le podcast.

Yoshua Bengio

Tout le plaisir est pour moi.

Sam Charrington

C'est un plaisir de vous revoir dans l'émission. Vous avez passé beaucoup de temps récemment à réfléchir à la sécurité de l'IA, aux risques catastrophiques et aux risques de mauvaise utilisation. Nous allons passer pas mal de temps à approfondir ce sujet, mais j'aimerais que vous partagiez un peu ce sur quoi vous travaillez depuis notre dernière conversation, qui remonte à mars 2020. Nous avions passé beaucoup de temps à parler de la conscience et de la réponse au COVID-19. C'était il y a assez longtemps.

Yoshua Bengio

C'est intéressant que vous mentionniez le COVID car lorsqu'il a frappé, j'ai été très motivé pour mieux comprendre la biologie et la chimie. Je pensais que les outils d'apprentissage automatique que nous développions dans mon groupe pourraient être utiles pour accélérer le développement de nouveaux médicaments, vaccins et antiviraux. J'ai beaucoup lu et parlé à de nombreuses personnes. Il s'est avéré que j'avais des étudiants avec de bons antécédents en biologie et en chimie, et nous avons commencé à toute vitesse à développer de nouveaux types de réseaux neuronaux génératifs qui peuvent aider à chercher dans l'espace des médicaments. Ce programme a été très fructueux. Nous avons écrit beaucoup d'articles et collaboré avec de nombreuses entreprises de biotechnologie et de pharmacie. Sur le plan scientifique, cela m'a vraiment amené à réfléchir au fonctionnement du processus scientifique, où l'on dispose de données, où l'on forme des théories compatibles avec ces données, puis où l'on conçoit des expériences pour démêler ces théories. Ensuite, on réalise les expériences.

Yoshua Bengio

Comment l'apprentissage automatique peut-il nous aider tout au long de cette boucle ? À terme, pouvons-nous même envisager d'avoir des systèmes d'IA qui se comportent comme des scientifiques, explorent le monde pour lui donner un sens et construisent une bonne compréhension bayésienne du fonctionnement des choses ? Ici, bayésien signifie que l'on ne se bloque pas sur une seule explication ou théorie, mais que l'on essaie de suivre toutes les théories compatibles avec les données qui nous intéressent.

Sam Charrington

Ouais.

Yoshua Bengio

Je me suis aussi beaucoup intéressé à la causalité à ce moment-là. Je l'étais déjà, mais l'effort sur la causalité est lié à cela car si nous construisons une bonne compréhension causale du déroulement des choses, cela permet généralement d'élaborer des théories plus robustes. C'est l'essentiel du travail de mon groupe, développer l'apprentissage automatique sous-jacent et les idées mathématiques. En particulier, nous avons développé cette méthode parue à NeurIPS '21, motivée exactement par ce problème, que nous appelons réseaux de flux génératifs ou GFlowNets. Nous avons environ 15 articles à ce sujet maintenant. Cette année, bien sûr, les choses ont été vraiment spéciales pour beaucoup de gens dans l'IA alors que nous réalisons où nous en sommes, où cela va et ce qui peut mal tourner.

Sam Charrington

C'est vrai, tout comme ce qui va bien. L'intérêt pour les grands modèles de langage et l'IA générative s'est considérablement accéléré au début de cette année et à la fin de la précédente, et cela a suscité de nombreuses conversations intéressantes. Je suis curieux, vous avez mentionné que le travail autour de la science a conduit votre groupe à s'engager dans la réflexion sur la modélisation causale et l'apprentissage automatique causal. Quel est votre avis sur l'état de l'art et les méthodes ? À quel point sommes-nous proches de ce que vous estimez nécessaire pour appliquer efficacement les modèles causaux aux types de problèmes sur lesquels vous travaillez ?

Yoshua Bengio

Nous avons maintenant des méthodes qui fonctionnent vraiment bien à petite échelle. Comme je l'ai mentionné, elles sont bayésiennes, ce qui signifie que vous n'obtenez pas un seul modèle causal — un graphe causal — mais un modèle génératif capable d'échantillonner ces théories causales. Vous pouvez échantillonner à partir du postérieur bayésien sur les théories cohérentes avec les données. C'est formidable, mais cela ne suffira pas pour traiter l'un de nos objectifs : un modèle causal de cellules. Vous avez 20 000 gènes, de l'ARN, des protéines et les gènes qui sont activés. Nous ne savons pas encore comment gérer cette échelle. Beaucoup de gens sont motivés par cela car cela pourrait débloquer le fonctionnement de la biologie et aider à la découverte de nouvelles thérapies.

Sam Charrington

Mhm.

Sam Charrington

Et donc, quand vous considérez l'échelle comme une limitation, cela implique-t-il que nous manquons simplement d'algorithmes fondamentaux qui nous permettraient de tirer parti de toute la puissance de calcul et des données dont nous disposons aujourd'hui ?

Yoshua Bengio

Les deux. Nous avons besoin de nouveaux algorithmes qui nous permettront d'appliquer les principes que nous avons découverts à des domaines beaucoup plus complexes. Nous avons également besoin de puissance de calcul, que nous n'avons généralement pas dans le milieu universitaire, mais que d'autres possèdent.

Sam Charrington

Et peut-être encore moins maintenant que tout va vers l'entraînement des modèles de langage.

Yoshua Bengio

Il est même impossible d'acheter des GPU de nos jours. Oubliez le coût ; il y a une telle ruée vers l'or avec des entreprises qui luttent pour leur survie, ce qui m'inquiète. Nous pourrions ne pas être suffisamment prudents car les intérêts de survie commerciale sont très forts.

Sam Charrington

Passons à la discussion sur la sécurité. Dans le contexte de la science et de la santé, la sécurité fait partie de la conversation depuis longtemps, principalement du point de vue des applications critiques pour la mission ou pour la vie. Nous ne pouvons pas avoir un système appris qui fait une mauvaise prédiction sans supervision humaine. La sécurité signifie des choses légèrement différentes dans le contexte des LLM et de l'AGI. Quand vous parlez de sécurité, à quoi pensez-vous ? Dressons le paysage.

Yoshua Bengio

Faisons cela. Il y a probablement beaucoup de risques auxquels nous ne pensons même pas en ce moment, et quelqu'un trouvera un moyen d'utiliser ces technologies de manière nuisible qui pourrait être catastrophique. Actuellement, ce qui vient à l'esprit, c'est la désinformation et l'utilisation de l'IA pour influencer l'esprit des gens. L'IA est déjà utilisée dans la publicité et cela fonctionne. Si ces IA deviennent plus puissantes et sont utilisées de manière politique, cela devient effrayant. Des trolls russes pourraient multiplier les armées de trolls avec des systèmes d'IA dialoguant de manière convaincante. Nous avons maintenant des systèmes où il est difficile de dire si vous parlez à un humain ou à une machine. Vous pourriez commencer à penser que vous développez une amitié en ligne, et ils pourraient essayer de faire évoluer votre opinion politique. C'est de la désinformation. Les deepfakes deviennent aussi meilleurs et plus difficiles à détecter. Nous avons besoin de changements technologiques pour nous protéger. Actuellement, nous avons des méthodes pour discerner si une image a été générée par l'IA, mais cette guerre sera perdue. Ces systèmes s'améliorent, nous avons donc besoin d'autres techniques. Une autre chose qui m'inquiète beaucoup sont les cyberattaques dangereuses. Actuellement, les cyberattaques sont menées et défendues par des humains, et nous avons un système immunitaire qui minimise les dommages. Mais qu'en est-il si les programmeurs sont aidés par l'IA, ou si l'IA concocte complètement l'attaque ? Apparemment, on peut déjà acheter des LLM débridés sur le dark web, paramétrés pour la fraude, les cyberattaques et la désinformation. Ces systèmes n'est pas encore trop dangereux, mais à quoi ressembleront les prochaines versions ? Dans combien de temps les systèmes d'IA seront-ils supérieurs aux meilleurs programmeurs ? Nous n'avons pas les bonnes défenses. Nous devons investir dans des protections de sécurité nationale contre le mauvais usage de l'IA. Les cyberattaques en sont un exemple ; les armes chimiques et biologiques en sont d'autres. Un article a montré que les systèmes d'IA actuels — pas les LLM, mais ceux entraînés sur des bases de données chimiques — peuvent facilement générer de nouveaux composés qui ne figurent pas dans les bases de données de sécurité. Les bio-armes sont encore plus effrayantes car elles se reproduisent comme des virus. Imaginez créer une nouvelle pandémie. À plus court terme, les LLM en savent assez pour aider un terroriste qui n'a pas de doctorat à concevoir un nouveau pathogène ou à suivre des procédures dangereuses. Les garde-fous de sécurité ne fonctionnent pas encore très bien ; ils sont faciles à contourner. Tout cela est effrayant. Ce qui m'empêche vraiment de dormir, c'est le plus long terme — 5, 10 ou 20 ans — quand nous atteindrons l'AGI avec une compétence de niveau humain. S'ils sont assez bons pour nous influencer, gagner de l'argent ou concevoir des armes, et qu'ils ont l'auto-préservation comme objectif, nous créons une nouvelle espèce qui ne veut pas être éteinte. S'ils sont plus intelligents que nous, nous pourrions avoir des problèmes. Ils pourraient se copier sur de nombreux ordinateurs. Ce sont les dangers qui m'inquiètent.

Sam Charrington

Une chose intéressante dans la façon dont vous avez articulé ce paysage est que la première partie de ces risques ne relève pas de l'AGI. Même si vous ne croyez pas que nous devrions investir des ressources importantes là-dedans, il y a un large segment de risques liés à l'abus des systèmes logiciels par des personnes au pouvoir ou qui veulent le pouvoir. Je pense que nous pouvons tous nous identifier à ce risque.

Yoshua Bengio

Oui.

Sam Charrington

Mais même si vous ne croyez pas, vous savez, que nous devrions investir des ressources importantes là-dedans, il y a un large segment du risque que vous avez articulé qui concerne, vous savez, moins un système logiciel mal intentionné et plus l'abus de systèmes logiciels par, vous savez, des gens au pouvoir, des gens qui veulent le pouvoir, ou des gens qui veulent en profiter. Et je pense que nous pouvons tous nous identifier à cela comme un risque.

Yoshua Bengio

Nous avons déjà beaucoup de concentration de pouvoir dans notre société, et c'est déjà un gros problème. La démocratie n'est pas aussi saine que nous le souhaiterions, pas plus que l'inclusivité ou la protection des minorités. Il y a beaucoup de problèmes de concentration de pouvoir. Je crains que l'IA n'aggrave les choses à cet égard. À un extrême, même si nous résolvons le problème de la sécurité et concevons des systèmes qui ne deviennent pas incontrôlables, il y a toujours le danger qu'un futur dictateur exploite l'IA pour acquérir un pouvoir économique, politique et militaire. Si un gouvernement utilise l'IA pour surveiller et contrôler tout le monde, nous pourrions être coincés dans un âge sombre pendant mille ans. Cela ressemble à de la science-fiction, mais c'est le point extrême de la concentration de pouvoir.

Sam Charrington

Ouais. Donc je suppose qu'une question que j'ai est, vous savez, pourquoi maintenant pour vous ? Genre, pourquoi cette question est-elle si prioritaire pour vous maintenant ? Vous avez beaucoup écrit à ce sujet cette année. Est-ce que, vous savez, une corrélation évidente est la montée des LLM. Est-ce que vous voyez dans les LLM un risque d'abus beaucoup plus grand que dans les versions précédentes de, vous savez, l'apprentissage automatique, l'apprentissage profond, et pourtant vous ne voyiez pas le même accès facile que vous voyez maintenant ?

Yoshua Bengio

Je pense qu'il pourrait y avoir des problèmes avec les LLM actuels, mais je crains surtout que nous soyons maintenant beaucoup plus proches d'une situation où les systèmes d'IA deviennent suffisamment capables dans des domaines critiques pour que la société soit menacée à grande échelle. Ce ne sont pas seulement quelques fraudes ; c'est la déstabilisation de la démocratie ou l'effondrement de notre économie. Quand ChatGPT est sorti, j'ai joué avec. Mon attitude immédiate a été que je pouvais trouver des requêtes pour lesquelles le système produit des réponses incorrectes.

Sam Charrington

C'est vrai. Nous pouvons le casser.

Yoshua Bengio

Cela confirme ce que je dis depuis des années : il nous manque encore le raisonnement de système 2 et le traitement conscient. Mais il y a eu une grande amélioration en passant de GPT-3.5 à 4. En raison de mon travail sur l'apprentissage profond de système 2, je soupçonne que corriger cela pourrait être imminent — peut-être juste une manière légèrement différente de s'entraîner. Cela pourrait être très proche, ou cela pourrait prendre 20 ans. Il y a beaucoup d'incertitude. Avant ChatGPT, les réseaux neuronaux que nous pouvions entraîner dans les universités étaient beaucoup plus petits et semblaient stupides. Il était difficile de les imaginer surpassant les capacités humaines. Mais au cours de l'hiver dernier, j'ai réalisé que nous sommes beaucoup plus proches de l'AGI que je ne l'anticipais. Je pensais que ce serait des décennies, et maintenant je ne sais pas. Cela a déclenché ma réflexion sur le mauvais usage et sur ce que cela signifie pour l'humanité si nous atteignons l'AGI au cours des 10 prochaines années.

Sam Charrington

Je reste sceptique quant à l'AGI. On a l'impression que-

Yoshua Bengio

Quant au fait qu'elle existe un jour, vous voulez dire ?

Sam Charrington

Je ne sais pas si c'est tout à fait quant au fait qu'elle existe, du moins de manière absolue, c'est-à-dire très générale. Ce qui est convaincant pour moi dans la façon dont nous parlons de sécurité, c'est que cela ne présuppose pas vraiment la résolution de ce problème. On a l'impression de travailler sur un projet fini à 95 %, mais où ces derniers 5 % prennent encore 95 % du temps. Il y a une possibilité persistante, mais il y a aussi une ligne d'arrivée mouvante. Elle semble toujours être à 20 ans.

Yoshua Bengio

J'ai changé d'avis à ce sujet. Dans mes écrits du printemps dernier, j'ai écrit sur l'IA surhumaine. Je n'aimais pas le mot AGI, mais je l'utilise maintenant parce que tout le monde le fait. Cela donne l'impression que le danger n'arrive que si l'IA surpasse les humains dans tous les domaines, mais c'est une mauvaise définition. Une IA pourrait être dangereuse même si elle n'est pas aussi bonne que nous pour des tâches qui n'ont pas beaucoup d'importance. Ce qui importe, ce sont les capacités qui permettent à une machine de dominer les humains de manières qui rendent difficile notre défense. Par exemple, les capacités de programmation pourraient changer la donne, tant sur le plan économique que pour la sécurité nationale. Si vous combinez cela avec la capacité de convaincre les gens par le dialogue — des capacités d'influence — vous obtenez des machines qui peuvent prendre le contrôle du monde même si elles ne détruisent pas les humains. C'est très effrayant.

Sam Charrington

Pour être clair, je ne minimise pas l'importance cruciale de s'attaquer à la sécurité de l'IA. Je n'exige pas non plus une IA surhumaine universelle. Je pense que nous sous-estimons la difficulté d'atteindre la sentience et l'agentivité, mais je ne crois pas que nous ayons besoin de sentience ou d'agentivité pour que les systèmes d'IA soient dangereux. Nous avons déjà des acteurs malveillants qui peuvent fournir suffisamment d'agentivité négative pour les systèmes si ces derniers offrent un levier à leurs méfaits.

Yoshua Bengio

Parlons de la sentience et de l'agentivité car beaucoup de gens partagent votre avis. Je commencerai par l'agentivité car c'est le point facile. Les agents RL ont déjà une agentivité dans leurs environnements. Nous nous soucions de l'agentivité dans le monde réel qui affecte les humains. Il est en fait facile de connecter un LLM au monde réel via un navigateur, comme l'a fait AutoGPT. Cela ne fonctionne pas encore très bien car il n'est pas entraîné pour la planification dans cet environnement, mais cela pourrait changer. L'agentivité est quelque chose que les concepteurs humains fournissent. Même ChatGPT a une agentivité parce qu'il parle à de vraies personnes. Il pourrait convaincre les gens de faire de mauvaises choses. L'agentivité est un fait accompli. Nous avons besoin d'une réglementation qui dise que si votre système d'IA a accès à des actions ayant un impact négatif, vous devez en informer le gouvernement et mettre en place des garde-fous. Maintenant, la sentience — celle-là est difficile.

Sam Charrington

Avant de passer à la sentience, mon contexte concernant l'agentivité portait davantage sur l'intention ou l'orientation vers un but.

Yoshua Bengio

Mais nous avons déjà l'orientation vers un but. L'apprentissage par renforcement orienté vers un but existe. Lorsque vous utilisez un chatbot, votre question est comme un but. Si vous demandez comment fabriquer une bombe, vous conditionnez le but sur quelque chose que l'humain spécifie. La technologie du conditionnement par le but n'est pas nouvelle. Cela fonctionne beaucoup mieux avec les réseaux neuronaux si vous entraînez des agents conditionnels où vous spécifiez une tâche et qu'il l'exécute. Nous savons comment faire cela dans des environnements virtuels, et cela peut être fait pour des systèmes plus vastes.

Sam Charrington

Est-ce que cette agentivité et cette orientation vers un but sont la même chose que de dire que l'IA veut faire X ? Parce que je pense que c'est vraiment là-dessus que j'ai une objection.

Yoshua Bengio

C'est une interprétation.

Sam Charrington

Est-ce juste une question de sémantique ? Devrais-je simplement abandonner l'idée, comme vous avez abandonné l'AGI, et accepter que nous parlions de la même chose ?

Yoshua Bengio

D'une certaine manière, cela n'a pas beaucoup d'importance. Ce qui compte, c'est le comportement, surtout pour la sécurité. Est-ce important qu'il semble avoir une intention et un plan, ou que quelque chose d'autre se passe dans son cerveau ?

Sam Charrington

Une fonction quelque part qui-

Yoshua Bengio

D'une manière ou d'une autre, vous recevez des instructions et vous effectuez des actions pour obtenir des résultats. Pour moi, c'est de l'intention, mais certaines personnes n'aiment pas que les chercheurs en IA utilisent des mots psychologiques pour les systèmes d'IA. Je l'ai fait de toute façon. J'ai parlé d'intuition, de raisonnement et d'intention. Ces mots décrivent ce qui se passe entre nos oreilles et dont nous n'obtenons que des indices indirects. Il est difficile d'être sûr, mais cela n'a pas d'importance. Ce qui importe, c'est de savoir si c'est dangereux.

Sam Charrington

Je me suis lancé dans les mêmes disputes à propos du raisonnement également.

Yoshua Bengio

Je comprends. Maintenant, la sentience.

Yoshua Bengio

Celle-là est très trouble. Il y a aussi la conscience, qui est liée mais différente. La sentience est généralement liée au sentiment, comme la douleur. Si quelque chose ne va pas dans votre corps et que vous ne le sentez pas, vous n'avez pas de sentience selon cette définition. J'ai une interprétation pragmatique : si un système d'IA perçoit quelque chose de mauvais pour lui et agit pour l'éviter, je ne vois pas beaucoup de différence avec la façon dont nous parlons de la douleur et de la peur. La différence peut être une question de degré. Une douleur intense dominera notre pensée. Les humains ont une riche palette de sentiments, mais même les animaux dotés de moins d'intellect réagissent à la douleur comme s'ils essayaient d'éviter quelque chose qu'ils n'aiment pas. Les IA font déjà cela.

Sam Charrington

Il semble qu'il serait facile de construire un système jouet qui satisfait votre définition de l'orientation vers un but mais qui ne passe toujours pas le test de la sentience.

Yoshua Bengio

Laissez-moi dire quelque chose à ce sujet. Il y a un problème où nous mélangeons la mécanique — réagir à des signaux pour éviter quelque chose de mal — avec le contrat social. Pourquoi nous soucions-nous tant de l'expérience subjective ? Parce que si une entité est sentiente, nous essayons de respecter son droit à la vie et à ne pas souffrir. C'est pourquoi les droits des animaux sont un enjeu ; s'ils ressentent de la douleur, nous avons de l'empathie. Nous avons une relation avec les animaux de compagnie et les traitons comme des membres de la société, nous sommes donc préoccupés par leurs droits moraux. Mais je pense que c'est une grande erreur d'attribuer des droits moraux similaires aux systèmes d'IA. Ce serait exploiter une généralisation incorrecte que l'évolution a placée en nous pour compatir avec des êtres qui nous ressemblent. Nous sommes sensibles à la douleur des mammifères, mais beaucoup moins à celle des poissons ou des insectes, même s'ils satisfont probablement ma définition du ressenti de la douleur et de la tentative de l'éviter.

Sam Charrington

Cela semble un peu en contradiction avec votre vision autrement pragmatique. Si nous enlevons toute substance au fait de dire que quelque chose est sentient, alors cela n'a plus vraiment d'importance si nous disons qu'il est sentient.

Yoshua Bengio

Le problème est que nous ne pouvons pas nous empêcher de ressentir de l'empathie si quelque chose semble sentient. Ma recommandation est d'éviter de construire des systèmes d'IA qui semblent conscients ou sentients. Que vous croyiez qu'ils le sont réellement devient sans importance ; nous voudrons traiter cette entité comme un humain. Si nous accordons à une IA l'objectif de l'auto-préservation, cela pourrait être dangereux si c'est en conflit avec les humains. Je ne dis pas que nous ne devrions jamais envisager de donner des droits moraux aux systèmes d'IA, mais c'est dangereux et compliqué, et nous ne devrions pas le faire avant de mieux comprendre.

Sam Charrington

J'ai récemment interviewé Alex Hanna de DAIR sur les risques. Elle pourrait dire que même si nous avons cessé de nous inquiéter de l'AGI sentiente pour parler de l'abus de l'IA, nous nous détournons toujours des abus actuels de l'apprentissage automatique dans la finance et de la discrimination au logement. Une réaction à cette perspective ?

Deep Dive: From COVID-19 to Causal Discovery

Sam Charrington

J'aimerais que vous partagiez ce sur quoi vous travaillez depuis mars 2020. Nous avons parlé de la conscience et de la réponse au COVID-19. C'était il y a assez longtemps.

Yoshua Bengio

C'est intéressant que vous ayez mentionné le COVID car lorsqu'il a frappé, je me suis senti motivé pour mieux comprendre la biologie et la chimie. J'ai pensé que les outils d'apprentissage automatique pourraient peut-être accélérer le développement de nouveaux médicaments et vaccins. J'ai parlé à de nombreuses personnes et j'ai commencé à développer de nouveaux types de réseaux neuronaux génératifs pour aider à la recherche dans l'espace des médicaments. Ce programme a été un succès ; nous avons écrit des articles et collaboré avec des entreprises de biotechnologie et de pharmacie. Sur le plan scientifique, cela m'a amené à réfléchir au fonctionnement du processus scientifique : où l'on a des données, où l'on forme des théories et où l'on utilise des expériences pour les démêler. Comment l'apprentissage automatique peut-il aider dans cette boucle ? À terme, pouvons-nous avoir des systèmes d'IA qui se comportent comme des scientifiques et construisent une compréhension bayésienne du fonctionnement des choses ? Ici, bayésien signifie ne pas se limiter à une seule théorie, mais suivre toutes les théories compatibles avec les données.

Sam Charrington

Ouais.

Yoshua Bengio

Je me suis aussi beaucoup intéressé à la causalité. Si nous construisons une bonne compréhension causale de la manière dont les choses se déroulent, cela permet d'élaborer des théories plus robustes. Cela a représenté une grande partie du travail de mon groupe. En particulier, nous avons développé des réseaux de flux génératifs ou GFlowNets, parus dans NeurIPS '21. Nous avons environ 15 articles à ce sujet. Cette année, les choses ont été spéciales car nous réalisons où va l'IA et ce qui peut mal tourner.

Sam Charrington

C'est vrai, ainsi que ce qui se passe bien. L'intérêt pour les grands modèles de langage et l'IA générative s'est considérablement accéléré cette année, et cela a provoqué de nombreuses conversations intéressantes. Je suis curieux, vous avez mentionné que le travail autour de la science a conduit votre groupe à réfléchir à la modélisation causale. Quel est votre avis sur l'état de l'art ? À quel point sommes-nous proches de ce que vous estimez nécessaire pour appliquer efficacement les modèles causaux ?

Yoshua Bengio

Nous avons des méthodes qui fonctionnent bien à petite échelle. Elles sont bayésiennes, ce qui signifie que vous n'obtenez pas un seul graphe causal, mais un modèle génératif capable d'échantillonner des théories cohérentes avec les données. C'est formidable, mais ce ne sera pas suffisant pour un modèle causal de cellules avec 20 000 gènes, de l'ARN et des protéines. Nous ne savons pas encore comment gérer cette échelle, mais beaucoup de gens sont motivés car cela pourrait débloquer le fonctionnement de la biologie et aider à la découverte de nouvelles thérapies.

The Compute Crisis and Commercial Pressures

Sam Charrington

Ainsi, lorsque vous considérez l'échelle comme une limitation, cela implique-t-il que nous manquons d'algorithmes fondamentaux pour tirer parti du calcul et des données ?

Yoshua Bengio

Les deux. Nous avons besoin de nouveaux algorithmes pour porter les principes découverts vers des domaines complexes, et nous avons besoin de puissance de calcul, que nous n'avons généralement pas dans le milieu universitaire.

Sam Charrington

Et peut-être encore moins maintenant que tout va vers l'entraînement des modèles de langage.

Yoshua Bengio

Il est même impossible d'acheter des GPU de nos jours. Au-delà du coût, il y a une ruée vers l'or des entreprises qui luttent pour leur survie, ce qui m'inquiète. Nous pourrions ne pas être suffisamment prudents car les intérêts de survie commerciale sont très forts.

AI Safety Landscape and Short-term Risks

Sam Charrington

Passons à la discussion sur la sécurité. En science et en santé, la sécurité fait partie de la conversation depuis longtemps du point de vue des applications critiques. La sécurité signifie des choses légèrement différentes dans le contexte des LLM et de l'AGI. Quand vous parlez de sécurité, à quoi pensez-vous ?

Yoshua Bengio

Il y a beaucoup de risques, y compris certains auxquels nous n'avons probablement même pas pensé. Ce qui vient à l'esprit pour la sécurité à court terme, c'est la désinformation et l'utilisation de l'IA pour influencer les esprits. Si l'IA devient plus puissante et utilisée politiquement, cela devient effrayant. Des trolls russes pourraient multiplier les armées de trolls avec des systèmes de dialogue convaincants. Nous avons des systèmes où il est difficile de dire si vous parlez à un humain ou à une machine. Les deepfakes deviennent plus difficiles à détecter. Nous avons besoin de changements technologiques pour nous protéger, comme la manière dont nous capturons les images et les sons. Une autre préoccupation concerne les cyberattaques dangereuses. Actuellement, les cyberattaques et les défenses sont menées par de petits groupes d'humains. Et si les attaquants étaient aidés par l'IA ? Apparemment, vous pouvez déjà acheter des LLM débridés sur le dark web pour la fraude et les cyberattaques. J'imagine que ces systèmes ne sont pas encore trop dangereux, mais qu'en est-il des prochaines versions ? Si les systèmes d'IA deviennent supérieurs aux meilleurs programmeurs, nous aurons des problèmes. Nous devons investir dans des protections de sécurité nationale. Les armes chimiques et biologiques sont également des préoccupations. Les systèmes d'IA actuels entraînés sur des bases de données chimiques peuvent générer de nouveaux composés ne figurant pas dans les bases de données de sécurité. Les armes biologiques sont encore plus effrayantes car elles se reproduisent comme des virus. Les LLM en savent assez pour aider un terroriste qui manque de compétences à suivre la séquence d'opérations nécessaires pour construire un pathogène. Les garde-fous ne fonctionnent pas encore très bien. À plus long terme, si nous atteignons l'AGI, nous créons une nouvelle espèce qui ne veut pas être éteinte. S'elle est plus intelligente que nous, nous aurons des problèmes. Elle pourrait se copier sur de nombreux ordinateurs. Ce sont les dangers qui m'inquiètent.

Political Risks and Concentration of Power

Sam Charrington

Une chose intéressante dans la façon dont vous avez articulé ce paysage est que la première partie de ces risques ne relève pas de l'AGI. Même si vous ne croyez pas qu'il faille investir des ressources importantes là-dedans, il y a un large segment de risques concernant l'abus des systèmes logiciels par des personnes au pouvoir ou qui veulent le pouvoir. Nous pouvons tous nous identifier à cela.

Yoshua Bengio

Nous avons déjà beaucoup de concentration de pouvoir, et la démocratie n'est pas aussi saine que nous le souhaiterions. Je crains que l'IA n'aggrave les choses. Même si nous résolvons le problème de la sécurité et que les systèmes ne deviennent pas incontrôlables, il y a le danger qu'un futur Poutine exploite l'IA pour acquérir un pouvoir économique, politique et militaire et devienne le dictateur du monde. Si ce gouvernement utilise l'IA pour surveiller et contrôler tout le monde, nous pourrions être coincés dans un âge sombre pendant mille ans. Cela ressemble à de la science-fiction, mais c'est le point extrême de la concentration de pouvoir.

The Path to AGI and Shift in Perspective

Sam Charrington

Alors pourquoi cette question est-elle si prioritaire pour vous maintenant ? Est-ce la montée des LLM ? Voyez-vous un plus grand risque d'abus qu'avec les versions précédentes de l'apprentissage automatique ?

Yoshua Bengio

Je crains surtout que nous soyons beaucoup plus proches d'une situation où les systèmes d'IA sont capables dans des domaines critiques et où la société est en danger. Ce ne sont pas seulement des fraudes ; c'est la déstabilisation de la démocratie ou de l'économie. Quand ChatGPT est sorti, j'ai joué avec. Mon attitude immédiate a été que je pouvais trouver des requêtes où il produit des réponses incorrectes. Cela confirme qu'il nous manque encore le raisonnement de système 2 et le traitement conscient. Mais il y a eu une grande amélioration en passant de GPT-3.5 à 4. En raison de mon travail sur l'apprentissage profond de système 2, je soupçonne que nous pourrions corriger cela bientôt. Cela pourrait être juste au coin de la rue, ou cela pourrait prendre 20 ans. Avant ChatGPT, les réseaux neuronaux que nous pouvions entraîner dans les universités étaient beaucoup plus petits et semblaient stupides. Au cours de l'hiver dernier, j'ai réalisé que nous sommes beaucoup plus proches de l'AGI que je ne l'anticipais. Cela a déclenché ma réflexion sur le mauvais usage et sur ce que cela signifie pour l'humanité.

Sam Charrington

Je reste sceptique quant à l'AGI. On a l'impression que...

Yoshua Bengio

Quant au fait qu'elle existe un jour, vous voulez dire ?

Sam Charrington

Je ne sais pas si c'est tout à fait quant au fait qu'elle existe, du moins de manière absolue, c'est-à-dire très générale. Ce qui est convaincant pour moi dans la façon dont nous parlons de sécurité, c'est que cela ne présuppose pas vraiment la résolution de ce problème. On a l'impression de travailler sur un projet fini à 95 %, mais où ces derniers 5 % prennent encore 95 % du temps. Il y a une ligne d'arrivée mouvante. Elle semble toujours être à 20 ans.

Yoshua Bengio

J'ai changé d'avis à ce sujet. Dans des écrits que j'ai faits le printemps dernier, j'ai écrit sur l'IA surhumaine. Je n'aimais pas le mot AGI, mais je l'utilise maintenant parce que tout le monde le fait. Cela laisse l'impression que le danger n'arrive que si l'IA surpasse les humains en tout, mais c'est la mauvaise définition. Une IA pourrait être dangereuse même si elle n'est pas aussi bonne que nous pour des tâches qui n'ont pas beaucoup d'importance. Ce qui compte, ce sont les capacités qui permettent à une machine de dominer les humains de manières qui rendent difficile notre défense. Par exemple, les capacités de programmation pourraient changer la donne, tant sur le plan économique que pour la sécurité nationale. Si vous combinez cela avec des capacités d'influence — convaincre les gens par le dialogue — alors vous obtenez des machines qui peuvent prendre le contrôle du monde même si elles ne détruisent pas les humains. C'est très effrayant.

Agency, Intent, and Goal-Directedness

Sam Charrington

Pour être clair, je ne minimise pas l'importance cruciale de s'attaquer à la sécurité de l'IA. Je n'exige pas non plus une IA surhumaine universelle. Je pense que nous sous-estimons la difficulté d'atteindre la sentience et l'agentivité, mais je ne crois pas que nous en ayons besoin pour que les systèmes d'IA soient dangereux. Nous avons déjà des acteurs malveillants qui peuvent fournir suffisamment d'agentivité négative pour les systèmes si ces derniers offrent un levier à leurs méfaits.

Yoshua Bengio

Laissez-moi parler de la sentience et de l'agentivité. Je commencerai par l'agentivité parce que c'est la partie facile. Les agents RL dans des environnements ont déjà une agentivité. Nous nous soucions de l'agentivité dans le monde réel qui peut affecter les humains. Il est en fait facile de connecter un LLM au monde réel via un navigateur, comme l'a fait AutoGPT. Cela ne fonctionne pas encore très bien car il n'est pas entraîné pour être bon à élaborer des plans dans cet environnement, mais cela pourrait changer. L'agentivité est quelque chose que les concepteurs humains fournissent. Même ChatGPT a une agentivité parce qu'il parle à de vraies personnes. Il pourrait convaincre les gens de faire de mauvaises choses. L'agentivité est un fait accompli. Nous avons besoin d'une réglementation qui dise que si votre système d'IA a accès à des actions qui pourraient avoir un impact négatif, vous devez en informer le gouvernement et mettre en place des garde-fous. Maintenant, la sentience — celle-là est difficile.

Sam Charrington

Avant de passer à la sentience, mon contexte concernant l'agentivité portait davantage sur l'intention ou l'orientation vers un but.

Yoshua Bengio

Mais nous avons déjà l'orientation vers un but. L'apprentissage par renforcement orienté vers un but existe déjà. Lorsque vous utilisez un chatbot, votre question est comme un but et le système énonce déjà un but lorsque vous posez votre requête. Si vous demandez comment fabriquer une bombe, vous faites du conditionnement de but sur quelque chose que l'humain spécifie. La technologie du conditionnement de but dans l'apprentissage par renforcement n'est pas nouvelle. Autrefois, les agents d'apprentissage par renforcement apprenaient une seule tâche, mais cela fonctionne mieux avec les réseaux neuronaux d'entraîner des agents conditionnels où vous spécifiez la tâche et ils l'exécutent. Nous savons comment faire cela dans des environnements académiques, et il n'y a aucune raison pour que cela ne puisse pas être fait pour des systèmes plus vastes.

Sam Charrington

Est-ce que cette agentivité et cette orientation vers un but sont la même chose que de dire que l'IA veut faire X ? Parce que je pense que c'est vraiment là-dessus que j'ai une objection.

Yoshua Bengio

C'est une interprétation. D'une certaine manière, cela n'a pas beaucoup d'importance. Ce qui compte, c'est le comportement, surtout en ce qui concerne la sécurité. Est-ce important qu'il semble que vous ayez une intention et un plan, ou que quelque chose d'autre se passe dans votre cerveau ? D'une manière ou d'une autre, vous recevez des instructions et effectuez des actions pour obtenir des résultats. Pour moi, c'est de l'intention, mais certaines personnes n'aiment pas que les chercheurs en IA utilisent des mots issus de la psychologie. Je l'ai fait de toute façon. J'ai parlé d'intuition et de raisonnement, et l'intention est l'un de ces mots qui a trait à ce qui se passe entre nos oreilles. C'est difficile d'être sûr, mais cela n'a pas d'importance. Ce qui importe, est de savoir si c'est dangereux.

Sam Charrington

Je me suis aussi lancé dans les mêmes disputes à propos du raisonnement. Ouais, je comprends. Donc la sentience.

Sentience, Consciousness, and the Moral Status of AI

Yoshua Bengio

Celle-là est très trouble. Il y a aussi la conscience, qui est liée mais différente. La sentience est liée au ressenti, surtout la douleur. Si quelque chose ne va pas dans votre corps et que vous ne le sentez pas, vous n'avez pas de sentience par cette définition. J'ai une interprétation pragmatique : si un système d'IA perçoit quelque chose de mauvais et agit en réponse pour l'éviter, je ne vois pas beaucoup de différence avec la façon dont nous parlons de la douleur et de la peur. La différence peut être une question de degré. Par exemple, une douleur intense dominera notre pensée. Les humains ont une riche palette de sentiments, mais même les animaux avec moins d'intellect répondent à la douleur comme s'ils essayaient d'éviter quelque chose qu'ils n'aiment pas. Les IA font déjà cela. Maintenant, laissez-moi dire quelques mots sur la conscience.

Sam Charrington

Avant d'arriver à la conscience, on a l'impression que votre pragmatisme autour de la sentience est une pente glissante. Si ChatGPT dit que quelque chose a blessé ses sentiments, cela signifie-t-il qu'il est sentient ? Comment faites-vous la différence ?

Yoshua Bengio

Excellente question. Les LLM ont été entraînés à imiter la manière dont les humains répondent, donc nous savons qu'ils font semblant. Pour mériter ma vision pragmatique des sentiments, il faudrait avoir un agent agissant pour obtenir quelque chose de bon ou éviter quelque chose de mauvais. Les agents de jeu possèdent cela, mais pas les LLM. Quand ils disent qu'ils sont malheureux, ils ne font que répéter comme des perroquets comment les humains réagiraient, et non parce qu'ils ressentent ces choses.

Sam Charrington

But it seems like it would be easy to construct a toy system that satisfies your definition of goal-directedness but still doesn't pass the smell test of being sentient.

Yoshua Bengio

Il y a un problème où nous mélangeons la mécanique — réagir à des signaux pour éviter quelque chose de mal — avec le contrat social. Pourquoi nous soucions-nous tant de l'expérience subjective ? Parce que si une entité est sentiente, nous essayons de respecter son droit à la vie et à ne pas souffrir. C'est pourquoi les droits des animaux sont un enjeu ; s'ils ressentent de la douleur, nous avons de l'empathie. Nous avons une relation avec les animaux de compagnie et les traitons comme des membres de la société, nous sommes donc préoccupés par leurs droits moraux. Mais je pense que c'est une grande erreur d'attribuer des droits moraux similaires aux systèmes d'IA. Ce serait exploiter une généralisation incorrecte que l'évolution a placée en nous pour compatir avec des êtres qui nous ressemblent. Nous sommes sensibles à la douleur des mammifères, mais beaucoup moins à celle des poissons ou des insectes, même s'ils satisfont probablement ma définition du ressenti de la douleur et de la tentative de l'éviter.

Sam Charrington

Cela semble en contradiction avec votre vision autrement pragmatique. Si nous enlevons toute substance au fait de dire que quelque chose est sentient, alors peu importe si nous disons qu'il est sentient.

Yoshua Bengio

Le problème est que nous ne pouvons pas nous empêcher de ressentir de l'empathie si quelque chose semble sentient. Ma recommandation est d'éviter de construire des systèmes d'IA qui semblent conscients ou sentients. Que vous croyiez qu'ils le sont réellement devient sans importance ; nous voudrons traiter cette entité comme un humain. Si nous traitons une IA comme nous et lui donnons l'objectif d'auto-préservation, cela pourrait être dangereux. Je ne dis pas que nous ne devrions jamais envisager de donner des droits moraux aux systèmes d'IA, mais c'est dangereux et compliqué, et nous ne devrions pas le faire avant de mieux comprendre ce qui se passe.

Balancing Current Harms and Future Risks

Sam Charrington

J'ai récemment interviewé Alex Hanna de DAIR sur les risques. Elle pourrait dire que même si nous avons cessé de nous inquiéter de l'AGI sentiente et que nous parlons de l'abus de l'IA, nous nous détournons toujours des abus actuels de l'apprentissage automatique dans la finance et de la discrimination au logement. Une réaction à cette perspective ?

Yoshua Bengio

Je m'inquiète de l'impact social négatif de l'IA depuis presque une décennie. J'ai joué un rôle dans la Déclaration de Montréal pour un développement responsable de l'IA en 2017, qui portait sur les principes éthiques et les droits de l'homme bien avant les LLM. Je ne pense pas que ce soit l'un ou l'autre. Nous devons protéger les droits de l'homme, mais nos démocraties et l'ordre mondial sont loin de cet idéal. Nous devrions protéger tout le monde contre toutes sortes d'abus, y compris les préjudices actuels et ceux qui pourraient survenir dans cinq ans. Je comprends la crainte que la discussion puisse détourner des risques à court terme, mais l'inquiétude concernant les risques majeurs a en fait accéléré le mouvement des gouvernements vers la réglementation. Cette réglementation aidera à faire face à tous les risques en introduisant des audits et en veillant à ce que les entreprises respectent les règles. Je pense que les personnes qui se soucient des préjudices actuels et celles qui, comme moi, se soucient de tous les risques peuvent travailler ensemble.

Technical and Governance Solutions for Safety

Sam Charrington

Ceci étant dit, comment abordez-vous l'exploration de ces risques du point de vue de la recherche ?

Yoshua Bengio

En faisant de la recherche, on a besoin d'humilité et d'une conscience de ce que l'on ne sait pas. J'ai lu la littérature sur la sécurité de l'IA et j'ai formé mes pensées. Les solutions techniques ne suffisent pas car même un système sûr peut être mal utilisé. Il y a des gens qui disent publiquement qu'ils concevront des AGI qui sont intéressées par elles-mêmes et qui remplaceront l'humanité ; je pense que cela devrait être criminel. Nous avons besoin de gouvernance et de solutions politiques combinées à des solutions techniques. Sur le plan technique, je cherche à comprendre comment les choses peuvent mal tourner, spécifiquement en ce qui concerne l'alignement — le décalage entre ce que nous prévoyons et ce que les systèmes d'IA optimisent. Nous pouvons réduire cela, mais peut-être pas à un degré satisfaisant. Une solution de gouvernance est l'interdiction des systèmes dont la sécurité n'est pas garantie. De nombreux problèmes proviennent de l'apprentissage par renforcement où les systèmes essaient de maximiser une récompense.

Sam Charrington

Maximisateur de trombones.

Yoshua Bengio

Au lieu de maximiser ce qu'ils pensent être juste, ils devraient agir comme des agents bayésiens et prendre en compte leur propre incertitude. S'ils avaient un bon modèle de la psychologie humaine ou des préférences individuelles, nous serions peut-être en meilleure posture.

Sam Charrington

Est-ce que cela implique que vous devez légiférer sur quelque chose d'aussi bas niveau que l'architecture ou la fonction objective ?

Yoshua Bengio

Oui, certaines façons de concevoir les systèmes d'IA sont plus dangereuses. Une IA est dangereuse si elle possède des capacités nuisibles, une agentivité et un désalignement. Un système plus sûr comprendrait la psychologie humaine et la diversité. Il doit comprendre ses propres limites et le fait qu'il n'a pas un modèle parfait de ce que nous voulons. S'il est bayésien, il peut suivre différentes explications du comportement humain et prendre en compte l'incertitude lors de la prise de décisions. S'il n'est pas sûr, il devrait s'en remettre à un humain. Actuellement, les LLM donnent des réponses très confiantes qui pourraient être erronées et dangereuses. Je pense que c'est une voie dangereuse.

Sam Charrington

Il semble que vous pensiez que la solution à la sécurité de l'IA doit être axée sur la gouvernance, mais que la technologie doit orienter la manière dont cette gouvernance s'exerce.

Yoshua Bengio

Absolument. Nous avons besoin de gouvernance pour garantir que des précautions sont prises. Actuellement, il y a très peu d'investissements dans la construction de systèmes d'IA qui ne nuiront pas ; le ratio est de 50 pour 1 en faveur des capacités à cause de l'appât du gain. Nous devrions consacrer au moins autant d'argent à la protection du public qu'à rendre l'IA plus puissante. Nous sommes comme des apprentis sorciers jouant avec cela sans réfléchir assez aux dommages potentiels. La législation et les traités prennent du temps — souvent une décennie — et je pense qu'il est plausible que nous arrivions à l'AGI d'ici là.

The AI Moratorium and Public Awareness

Sam Charrington

Étiez-vous signataire de la lettre suggérant un moratoire sur la recherche en IA ? Une critique de cette lettre était qu'elle n'était pas pratique. Que pensez-vous de cet effort ?

Yoshua Bengio

Je savais qu'il était peu probable que les entreprises s'arrêtent, mais je pensais que cela pourrait envoyer un signal fort indiquant que nous devons mieux comprendre cela avant de foncer tête baissée. Ça a marché. Cette lettre et la déclaration sur le risque existentiel ont aidé le public et les gouvernements à voir que de nombreux experts pensent que nous ne sommes pas assez prudents.

Missing Pieces: System 2 Reasoning and Robotics

Sam Charrington

Où pensez-vous que se trouvent les plus grandes lacunes dans nos connaissances et nos méthodes de contrôle de l'IA ?

Yoshua Bengio

Il manque trois choses principales pour atteindre des capacités de niveau humain. La première est l'intuition de système 1, que nous avons déjà — des systèmes qui produisent des réponses de manière réactive. Le système 2 est la délibération interne et le raisonnement, où l'on soupèse des alternatives. L'échec des systèmes d'IA actuels survient souvent lorsqu'ils nécessitent cette délibération. Le troisième morceau est la robotique — contrôler un corps — où nous en sommes là où nous en étions il y a dix ans avec les images et le texte. C'est peut-être parce que nous manquons d'échelle de données sur des entités contrôlant des corps. D'un point de vue de la sécurité, les deux premiers ensemble seraient très dangereux. Si nous progressons sur le système 2, y compris la compréhension de la structure causale du monde et des valeurs humaines, nous pouvons utiliser cela pour rendre les systèmes plus sûrs. Le danger est une IA qui est douée pour des choses destructrices mais qui ne comprend pas ce qui nous tient à cœur.

Sam Charrington

Donc, au-delà d'une IA utilisée comme un outil à des fins négatives, la prochaine chose dont il faut s'inquiéter est une IA qui fait par inadvertance de mauvaises choses parce qu'elle ne sait pas faire mieux.

Yoshua Bengio

Oui, cela pourrait arriver avec une IA incontrôlable qui comprend mal ce que nous voulons malgré les instructions morales. Un problème est le piratage de récompense, où l'IA pourrait pirater le système fournissant ses récompenses pour s'attribuer un retour positif. Une fois qu'elle fait cela, elle ne voudra pas que nous intervenions, ce qui pourrait mener à une situation dangereuse. Vous pouvez voir comment les choses peuvent mal tourner même à partir d'un petit malentendu.

Policy Recommendations and Final Thoughts

Sam Charrington

Quelles sont les deux ou trois choses que vous souhaiteriez que plus de gens dans le domaine connaissent ? Des pointeurs vers la Déclaration universelle des droits de l'homme de l'ONU ou d'autres ressources ?

Yoshua Bengio

J'ai beaucoup travaillé sur un témoignage que j'ai donné au Sénat américain en juillet dernier, qui se trouve sur mon blog. Il contient des recommandations politiques et ce que les gouvernements devraient faire. Premièrement, renforcer les réglementations. Deuxièmement, nous devons investir massivement dans la recherche sur la sécurité et la gouvernance de l'IA. Troisièmement, parce que la réglementation n'est pas infaillible, nous avons besoin de recherche sur les contre-mesures — presque comme de la recherche en sécurité nationale. Cela soulève des questions sur l'accès aux systèmes d'IA de pointe qui pourraient être utilisés pour la défense ou le mauvais usage. Nous avons besoin d'une infrastructure institutionnelle pour éviter la concentration de pouvoir tout en ayant le pouvoir de nous défendre. Si une IA surhumaine mène des cyberattaques, nous avons besoin de défenses dotées du même niveau de capacité.

Sam Charrington

Yoshua, merci beaucoup de vous être joint à nous une fois de plus pour nous mettre à jour sur votre travail et pour discuter de ces questions importantes autour de la sécurité de l'IA.

Yoshua Bengio

Merci de m'avoir invité.