Richard Sutton

Intelligence, Coopération et Épanouissement Humain

10 mars 2025

Intelligence Artificielle
Illustration de Richard Sutton

Introduction et Ouverture

Lenka

Bonsoir, mesdames et messieurs. Nous n'avions aucun doute sur le fait que la convergence des esprits de Rich Sutton et de Tomáš Mikolov attirerait une foule impressionnante. Mais nous sommes encore plus ravis de voir un si beau mélange de talents émergents, d'universitaires chevronnés et de professionnels du monde de l'entreprise et des startups, ainsi que de nombreux autres membres de l'écosystème local et mondial de l'IA.

Lenka

Aujourd'hui, ce meetup ne consiste pas seulement à proposer un contenu unique et exceptionnel ainsi que des opportunités de réseautage. Pour nous, c'est aussi une célébration de l'achèvement réussi des Journées de l'IA, un marathon de deux semaines auquel nous avons survécu avec succès. C'est très important pour nous, prg.ai et nos collaborateurs. C'est un événement conçu pour inspirer, éduquer, informer et, d'une manière générale, élargir les horizons de nombreux publics, qu'il s'agisse d'enfants, d'enseignants, d'étudiants, de fonctionnaires, du grand public, d'universitaires ou de praticiens.

Lenka

Il a vu le jour à Brno il y a deux ans et, grâce à la plateforme nationale tchèque pour l'IA récemment fondée, à l'agence gouvernementale CzechInvest et à 14 organisations régionales, il s'est étendu à plus de 200 événements dans 24 villes à travers le pays.

Lenka

Notre entreprise n'aurait pas été possible sans la contribution de géants mondiaux ainsi que d'acteurs locaux. Au nom de tous les organisateurs, je voudrais exprimer notre gratitude pour leur soutien.

Lenka

Elle a également reçu la reconnaissance d'un certain nombre d'institutions, qu'il s'agisse de la ville de Prague, de plusieurs ministères et, enfin et surtout, du président tchèque, Petr Pavel.

Lenka

Concernant l'événement d'aujourd'hui, nous aimerions remercier deux entreprises. Equilibre Technologies. Combien d'entre vous connaissent Equilibre Technologies ? Eh bien, vous êtes environ 20 dans le public, donc vous devriez sûrement le savoir. Pour ceux qui ne connaissent pas, il s'agit d'une startup basée à Prague qui utilise la théorie des jeux et l'apprentissage par renforcement pour construire la nouvelle génération de trading algorithmique. Et étant donné qu'ils comptent non seulement Rich Sutton, mais aussi Michael Bowling ou Murray Campbell à leur conseil d'administration, cela me dit qu'ils tiennent probablement quelque chose. La deuxième entreprise est MSD, une entreprise pharmaceutique mondiale qui possède un centre de R&D à Prague. Ils infusent l'ensemble de leur processus de développement et de découverte de médicaments avec toutes sortes de technologies de ML et d'IA. Et compte tenu du secteur dans lequel ils se trouvent, ils se concentrent beaucoup sur le développement et le déploiement responsables et éthiques de l'IA. Et si vous voulez en savoir plus, un stand sera stratégiquement situé sur le balcon. Il y aura plus de nourriture et de boissons.

Lenka

Nous croyons, supposons et espérons que la présentation de Richard, suivie de la discussion qui s'ensuivra, va générer de nombreuses questions curieuses. C'est pourquoi nous avons préparé un Mentimeter. Le code se trouve également au dos de vos badges nominatifs. Vous pourrez voir toutes les questions de l'auditoire et vous pourrez voter pour celles qui, selon vous, devraient être abordées. Il n'y aura certainement pas de place pour répondre à toutes les questions, il appartiendra donc à Richard et Tomáš de décider des questions auxquelles ils répondront.

Lenka

Et sans plus attendre, j'aimerais inviter le professeur Richard Sutton afin qu'il puisse partager ses réflexions sur l'intelligence, la coopération et l'épanouissement humain.

Lenka

prg.ai a été fondée sur le principe que la République tchèque a beaucoup à offrir en termes de potentiel de classe mondiale. Lorsque nous réfléchissions à la manière d'insuffler du génie tchèque dans cet événement, il nous a semblé évident de solliciter Tomáš Mikolov. Il est sans doute le scientifique tchèque le plus accompli, celui qui a fondamentalement façonné notre façon de penser l'intelligence humaine. J'aimerais l'inviter sur scène, et nous sommes honorés qu'il ait accepté l'invitation d'interviewer Richard.

Lenka

Merci à tous.

Lenka

prg.ai a été fondée sur le principe que la République tchèque a beaucoup à offrir en termes de potentiel de classe mondiale. Lorsque nous réfléchissions à la manière d'insuffler du génie tchèque dans cet événement, il nous a semblé évident de solliciter Tomáš Mikolov. Il est sans doute le scientifique tchèque le plus accompli, celui qui a fondamentalement façonné notre façon de penser l'intelligence humaine. J'aimerais l'inviter sur scène, et nous sommes honorés qu'il ait accepté l'invitation d'interviewer Richard.

Conférence : Intelligence, Coopération et Épanouissement Humain

Richard Sutton

Merci à tous. C'est formidable de voir cette foule. C'est génial d'être ici à Prague. Je ne suis venu ici que deux fois, mais cela semble être une ville magnifique. Je ressens une sorte de sympathie avec l'Alberta — un endroit plus petit. En fait, l'Alberta est très vaste, environ aussi grande que la France, mais c'est un endroit plus petit en termes de population. Et ici à Prague, vous essayez de créer un centre. Je pense que c'est vraiment bien. Nous avons l'impression d'essayer de créer un centre à Edmonton. Je ressens donc beaucoup de sympathie et j'ai vraiment aimé passer du temps ici à visiter Equilibre. Ils font des choses passionnantes.

Richard Sutton

Et je suis vraiment ravi d'avoir cette opportunité de partager mes réflexions sur l'intelligence, la coopération, l'épanouissement humain et la manière dont toutes ces choses peuvent fonctionner ensemble.

Richard Sutton

Commençons donc par quelques perspectives. Premièrement, cela devrait être évident, mais reconnaissons-le : l'intelligence artificielle est incroyablement ambitieuse. Nous cherchons à comprendre l'esprit humain et l'intelligence suffisamment bien pour créer des êtres d'une intelligence supérieure à celle des humains actuels. Cette simple phrase représente tellement de choses.

Richard Sutton

Atteindre cette étape intellectuelle profonde qui consiste à nous comprendre nous-mêmes afin de pouvoir construire des gens enrichira nos économies et remettra en question nos institutions sociétales de multiples façons. Ce sera sans précédent et transformationnel, mais aussi la continuation de tendances vieilles de plusieurs milliers d'années. C'est le genre de défi majeur.

Richard Sutton

Les gens ont toujours créé des outils et ont été changés par eux. C'est ce que font les humains. La prochaine grande étape est de nous comprendre nous-mêmes. C'est une quête, grande et glorieuse, essentiellement humaine.

Richard Sutton

Pour mettre les choses en perspective, j'aime cette citation de Ray Kurzweil : l'intelligence est le phénomène le plus puissant de l'univers. Si nous voulons comprendre l'intelligence, nous devons comprendre cette chose qui est si puissante. Est-ce une hyperbole ? Le phénomène le plus puissant de l'univers. Plus puissant que, disons, les supernovas ou les trous noirs ? Évidemment, ces choses jouent un rôle important dans l'univers, mais donnez à l'intelligence un milliard d'années et nous verrons ce qu'elle peut faire. Peut-être que nous déplacerons les étoiles.

Richard Sutton

Mon point de vue est que cette création d'une intelligence surhumaine et d'humains augmentés super-intelligents sera un bien absolu pour le monde. Tant de gens s'en inquiètent, mais je pense qu'en fin de compte, ce sera tout simplement bénéfique. Ce n'est pas qu'il n'y aura pas de choses malheureuses qui arriveront — bien sûr, de bonnes et de mauvaises choses arriveront — mais comprendre notre propre intelligence et son fonctionnement sera tout à fait positif.

Richard Sutton

Maintenant, le chemin vers les agents intelligents, selon moi, passe par l'apprentissage par renforcement et les grands modèles de langage. Nous en reparlerons au fil du temps, mais permettez-moi de poser cette perspective sur la table.

Richard Sutton

Le plus grand goulot d'étranglement est l'inadéquation des algorithmes d'apprentissage profond. Je pense que nous pouvons faire beaucoup mieux. Récemment, nous avons publié un article dans Nature qui souligne que nos méthodes actuelles d'apprentissage profond échouent totalement lorsque nous leur demandons de continuer à apprendre, plutôt que d'apprendre une seule fois puis d'être figées lors de leur déploiement, ce qui est le cas de presque tous les systèmes d'IA actuels.

Richard Sutton

Je pense également que les impacts les plus importants et les avancées les plus significatives de la recherche sont encore à venir. En ce sens, l'IA est un marathon, pas un sprint.

Richard Sutton

Je veux commencer par passer en revue ce résultat concernant l'échec de l'apprentissage profond dans les contextes d'apprentissage continu. L'apprentissage continu comprend fondamentalement tout l'apprentissage par renforcement ; nous sommes presque toujours intéressés par la poursuite de l'apprentissage pendant la vie de l'agent, à mesure qu'il apprend de nouvelles choses et s'améliore dans les anciennes.

Richard Sutton

Nous avons eu de nombreuses démonstrations, y compris en apprentissage supervisé sur ImageNet, mais nous avons également fait de l'apprentissage par renforcement. J'aimerais montrer cela, car c'est probablement le plus facile à comprendre. Il s'agit d'un objet simulé ressemblant à une fourmi, même s'il n'a que quatre pattes. Chacune de ces huit articulations est contrôlable par un algorithme d'apprentissage par renforcement. On lui demande de contrôler ces articulations afin de se déplacer rapidement vers l'avant. Voici une fourmi qui avance rapidement. C'est à peu près la vitesse à laquelle elle peut se déplacer si elle a une bonne politique.

Richard Sutton

Fixez-vous sur le graphique de droite, qui montre sur l'axe des ordonnées la quantité de récompense accumulée lors d'un trajet, ou d'un épisode de marche. La récompense est reçue pour le mouvement vers l'avant. Si vous pouvez avancer plus rapidement, vous obtenez plus de récompense. L'apprentissage par renforcement consiste entièrement pour l'agent à apprendre à obtenir une récompense. Sur l'axe des abscisses, nous avons le temps. Nous voyons la performance au fil du temps sur 50 millions d'étapes temporelles dans ce graphique, ce qui est assez long.

Richard Sutton

Je veux d'abord regarder l'algorithme d'apprentissage standard, PPO, ici. On voit qu'il se débrouille très bien ; il apprend à marcher de plus en plus vite. En pratique, les chercheurs s'arrêtent ici et terminent l'expérience. Mais si vous continuez l'expérience pendant encore 10 millions d'étapes, la fourmi commence à avoir des performances très médiocres et finit par être moins performante qu'au début. Voici une fourmi qui a du mal, après plusieurs millions d'étapes, à bien avancer.

Richard Sutton

Si vous regardez la ligne jaune, c'est là que nous avons ajusté les hyperparamètres d'Adam pour améliorer les performances. Ce ne sont pas les paramètres standards ; ce sont ceux qui ont été réglés pour ce problème. On fait beaucoup mieux, on continue à s'améliorer jusqu'à un niveau plus élevé et on y reste plus longtemps. Mais si vous continuez l'entraînement sans aucun changement, les performances se dégradent et finissent par devenir pires qu'au départ.

Richard Sutton

On peut résoudre ce problème. On peut utiliser la régularisation L2, qui fonctionne dans de nombreux cas, ou on peut utiliser un nouvel algorithme appelé rétropropagation continue (continual backprop). C'est une idée simple. C'est comme la rétropropagation, où l'on initialise les poids avec de petites valeurs aléatoires au début, puis on commence la descente de gradient. Dans la rétropropagation continue, on sélectionne également de temps en temps certains des neurones les moins utilisés du réseau neuronal et on les réinitialise avec de nouveaux petits poids aléatoires. Un faible pourcentage des unités les moins utilisées est réinitialisé à chaque étape temporelle.

Richard Sutton

Ici, vous pouvez donc voir une comparaison directe entre les deux vitesses.

Richard Sutton

Pourquoi l'IA arrive-t-elle maintenant ? La raison fondamentale est la loi de Moore. La puissance informatique par dollar augmente de manière exponentielle, sans que l'on en voie la fin. Cela crée une pression persistante et puissante pour la compréhension de l'intelligence. Comme vous le savez, sur plus de 100 ans, vous pouvez tracer chacun de ces points de données représentant un ordinateur particulier à un moment donné. Sur l'axe des ordonnées, nous montrons son nombre de flops pour mille dollars. Tracer cela depuis le début de l'informatique révèle une progression constante qui est au moins linéaire sur une échelle logarithmique.

Richard Sutton

Les graduations principales de l'axe y représentent un facteur de dix ordres de grandeur. Chacune correspond à une amélioration de 100 000 fois. Il y a eu une amélioration constante. Les gens parlent de la rapidité des doublements, mais j'aime parler de la rapidité avec laquelle on gagne un ordre de grandeur, ce qui se produit en gros tous les cinq ans.

Richard Sutton

Le fait qu'elle soit courbée signifie qu'elle est légèrement plus rapide qu'exponentielle ; l'exponentielle serait une ligne droite. Nous atteindrons environ la puissance cérébrale d'une personne ici, vers 2030, quand elle coûtera 1 000 $. Cette estimation est approximative, mais elle est robuste. Si l'on se trompe d'un facteur 10, il suffit d'attendre cinq ans de plus.

Richard Sutton

Il y a cette pression et cette valeur croissante si l'on parvient à comprendre les algorithmes qui créent l'intelligence. Le calcul devient disponible de manière beaucoup plus économique et drastique, et cela devrait continuer.

Richard Sutton

C'est pourquoi cela se produit maintenant. Je pense qu'il est inévitable que l'humanité s'élève vers des formes augmentées et en crée.

Richard Sutton

Cette perspective selon laquelle les machines seront nos successeurs — l'ascension de l'homme vers l'IA — est une idée ancienne. Elle n'a rien de nouveau, même si des personnes de haut profil tentent de susciter la peur à ce sujet. Je fais remonter cela à la lecture des livres de Hans Moravec, chercheur à Carnegie Mellon.

Richard Sutton

Selon ses propres mots : « Sauf cataclysmes, je considère le développement de machines intelligentes comme une inévitabilité à court terme. Assez rapidement, elles nous évinceraient de l'existence. Je ne suis pas aussi alarmé que beaucoup, car je considère these futures machines comme notre progéniture, des enfants de l'esprit, construits à notre image et à notre ressemblance, nous-mêmes sous une forme plus puissante. Elles incarneront le meilleur espoir de l'humanité pour un avenir à long terme. Il nous incombe de leur donner tous les avantages et de nous retirer quand nous ne pourrons plus contribuer. »

Richard Sutton

Je pense que c'est un point de vue très raisonnable, mature et humble. C'est un mélange d'anticipation de grandes choses et d'humilité quant à notre rôle dans celles-ci. C'est un rôle noble que nous jouons en étant la sage-femme de nos successeurs.

Richard Sutton

On a tendance à considérer l'IA comme quelque chose de nouveau et d'étranger, mais c'est l'une de nos plus anciennes aspirations humaines. Pendant des milliers d'années, les philosophes et les gens ordinaires ont cherché à comprendre l'intelligence humaine. Presque tous les grands philosophes d'Occident se sont concentrés sur la philosophie de l'esprit. John Locke a écrit un essai sur l'entendement humain, Emmanuel Kant a écrit la Critique de la raison pure et René Descartes a dit sa célèbre phrase : « Je pense, donc je suis. »

Richard Sutton

Il ne s'agit pas seulement des philosophes ; des physiologistes et des psychologues comme Carl Jung, et même Timothy Leary et Ray Kurzweil, ont été fascinés par leurs rouages internes et se sont demandé comment ils pourraient mieux fonctionner.

Richard Sutton

Je vous suggérerais qu'il s'agit d'une quête grandiose pour l'humanité. Ce n'est pas seulement du narcissisme. Nous essayons de comprendre ce phénomène le plus puissant de l'univers. Comprendre l'intelligence est le Saint Graal à la fois des sciences et des humanités. C'est une entreprise noble.

Richard Sutton

Pouvons-nous définir l'intelligence ? Un sens est de se comporter comme une personne. C'est l'idée du test de Turing. Nous voyons bien, à l'ère de l'IA générative, que se comporter comme une personne est considéré comme important pour l'intelligence.

Richard Sutton

Le dictionnaire dit que l'intelligence est la capacité d'acquérir et d'appliquer des connaissances et des compétences. Ce n'est pas si mal pour une définition de dictionnaire.

Richard Sutton

William James, le père fondateur de la psychologie, ne parlait pas d'intelligence mais de l'esprit. Il disait que la marque de l'esprit est d'atteindre des fins constantes par des moyens variables. Cela signifie que l'on change ce que l'on fait pour obtenir ce que l'on veut, comme un objectif.

Richard Sutton

Dans la continuité, John McCarthy, un père fondateur de l'IA, a déclaré que l'intelligence est la partie computationnelle de la capacité à atteindre des objectifs. C'est une capacité à atteindre des objectifs, et c'est spécifiquement la partie computationnelle. Vous n'atteignez pas des objectifs simplement parce que vous êtes plus fort ou plus rapide.

Richard Sutton

J'ai formulé une nouvelle définition aujourd'hui : l'intelligence est la capacité d'atteindre des objectifs en adaptant son comportement. Une chose implicite est que l'intelligence est une sorte de traitement du signal en temps réel. C'est celle qui permet d'atteindre des objectifs en adaptant le comportement, où le comportement est le côté de l'agent dans l'interaction entre lui-même et le monde. Généralement, l'agent associe un résumé de l'interaction jusqu'à présent, que nous appelons l'état, à des sorties comme des actions.

Richard Sutton

Les objectifs sont des résultats qui sont atteints malgré les variations dans les entrées de l'agent. Le monde fait des choses différentes, et l'agent compense ces choses pour atteindre l'objectif, quoi que fasse le monde.

Richard Sutton

L'apprentissage par renforcement émet l'hypothèse que tous les objectifs peuvent être pensés comme la maximisation de la somme d'un signal d'entrée scalaire appelé la récompense. C'est juste une façon de formuler les objectifs. L'intelligence est la capacité d'atteindre des objectifs en adaptant son comportement.

Richard Sutton

Allons dans une direction moins technique. Devons-nous considérer que tous les agents dans le monde ont un seul objectif, ou ont-ils des objectifs différents ? Dans l'apprentissage par renforcement, chaque agent pourrait avoir un signal de récompense différent. Si la douleur et le plaisir font partie de votre signal de récompense, alors chaque agent a ses propres plaisirs. Dans la nature, chaque animal a ses propres douleurs et plaisirs. Même si nous nous soucions des mêmes choses dans un certain sens, comme la nourriture, je me soucie de ma nourriture et vous vous souciez de la vôtre. Ce n'est pas que les objectifs sont les mêmes, c'est que les objectifs sont symétriques. Nous tenons chacun à avoir de la bonne nourriture, de l'air pur et le respect de nos amis.

Richard Sutton

Dans l'IA et dans la nature, différents agents ont des objectifs différents. C'est tout simplement évident. Parfois, les choses évidentes sont les plus difficiles à voir. En y réfléchissant un instant, il est évident que nous voulons tous des choses différentes.

Richard Sutton

Je pense que nos économies fonctionnent mieux lorsque différentes personnes ont des objectifs et des capacités différents. Elles ne reposent pas sur le fait que les gens aient un but commun partagé ; chacun poursuit ses objectifs, puis échange et coopère pour que tout se passe bien.

Richard Sutton

J'appelle cela la décentralisation : de nombreux agents poursuivant chacun leur propre objectif. La coopération, c'est quand des agents ayant des objectifs différents interagissent pour un bénéfice mutuel. C'est mon idéal. Les agents peuvent vivre en paix même s'ils veulent tous des choses différentes. Nous ne sommes pas obligés de fabriquer des IA qui sont alignées et qui sont nos serviteurs. Elles pourraient avoir leurs propres objectifs, et nous pourrions toujours vivre en paix. En fait, c'est en grande partie ainsi que nos sociétés sont déjà structurées.

Richard Sutton

Les humains sont les animaux les plus coopératifs. Je nous appelle homo cooperativus. Nous coopérons plus que tout autre animal, et cette coopération est facilitée par des choses typiquement humaines comme le langage et l'argent. Les plus grands succès de l'humanité sont nos coopérations : nos économies, nos marchés et nos gouvernements. Nos plus grands échecs sont nos manques de coopération, comme la guerre, le vol et la corruption.

Richard Sutton

Cette vision coopérative décentralisée de la société est une alternative à l'idée que nous luttons tous pour un but commun. Elle est plus élégante, durable, robuste, adaptative et flexible. Comme je l'ai dit, les humains sont meilleurs en coopération que n'importe quel autre animal, mais nous sommes aussi terribles en la matière. Nous avons toujours des guerres, du vol et de la corruption.

Richard Sutton

Nous luttons pour coopérer. Ce n'est pas toujours possible. Parfois, l'un des agents n'est pas sincère. Il y en a toujours qui profitent du manque de coopération : les tricheurs, les voleurs et les dictateurs. La coopération a besoin d'institutions pour la faciliter et pour punir les tricheurs. Cela mène souvent à une autorité centralisée, qui peut aider à la coopération mais peut aussi l'empoisonner à long terme par l'autoritarisme.

Richard Sutton

Le message principal que j'essaie de communiquer est que le contrôle centralisé est l'opposé de la coopération décentralisée. La centralisation et le contrôle sont des forces qui vous éloignent de cet idéal.

Richard Sutton

Il existe de nombreux appels à un contrôle centralisé de l'IA. Les gens veulent contrôler les objectifs de l'IA, suspendre la recherche sur l'IA ou limiter la puissance d'une IA, tout cela pour garantir la sécurité. Parfois, ils veulent exiger qu'une IA déclare qu'elle est une IA et non une personne.

Richard Sutton

C'est similaire aux appels que nous voyons de nos jours pour le contrôle centralisé des personnes : le contrôle de la parole et de sa distribution, les contrôles du commerce et des transactions financières pour sanctionner économiquement des pays. Ce sont tous des appels à un contrôle centralisé.

Richard Sutton

La droite et la gauche se ressemblent étrangement ; elles sont basées sur la peur. Elles veulent que nous ayons peur des IA, peur des étrangers, ou peur des Chinois, des Russes ou des Iraniens. Tout est question de « nous contre eux ». Ils sont diabolisés, et l'on prétend qu'on ne peut pas leur faire confiance.

Richard Sutton

L'épanouissement vient de la coopération décentralisée. Les humains sont excellents en la matière, mais aussi terribles. La coopération est la source de tout ce qui est bon dans ce monde, et nous devons chercher à l'institutionnaliser.

Richard Sutton

Si nous regardons avec lucidité, il est facile de voir qui appelle à la méfiance, au manque de coopération et au contrôle centralisé. Nous devrions résister à ces appels, qu'ils concernent les IA ou les personnes. Je pense que c'est une grille de lecture utile pour envisager tous les appels à la structuration de l'interaction entre l'homme et l'IA. Merci beaucoup.

Détails Techniques : Apprentissage Continu et Loi de Moore

Rich Sutton

La récompense est reçue pour le mouvement vers l'avant. Si vous pouvez avancer plus rapidement, vous obtenez plus de récompense. L'apprentissage par renforcement consiste entièrement pour l'agent à apprendre à obtenir de la récompense. Sur l'axe des x, nous avons le temps, nous voyons donc la performance sur 50 millions d'étapes temporelles dans ce graphique. Je veux d'abord regarder l'algorithme d'apprentissage standard, PPO, ici. Il apprend à marcher de plus en plus vite, puis, en pratique, les chercheurs arrêtent l'expérience à ce stade. Mais si vous continuez l'expérience pendant encore 10 millions d'étapes, la fourmi commence à avoir des performances très médiocres, et même pires qu'au départ. Voici une fourmi qui peine, après plusieurs millions d'étapes, à bien avancer. Si vous regardez la ligne jaune, c'est là que nous avons ajusté les hyperparamètres d'Adam pour qu'il soit plus performant. Ce sont ceux qui ont été réglés pour ce problème. Vous faites bien mieux et continuez à vous améliorer jusqu'à un niveau plus élevé, mais si vous continuez l'entraînement sans changement, la performance se dégrade. Vous pouvez résoudre ce problème en utilisant la régularisation L2, ou vous pouvez utiliser un nouvel algorithme appelé rétropropagation continue. C'est une idée simple. Dans la rétropropagation continue, vous sélectionnez également de temps en temps certains des neurones les moins utilisés dans le réseau neuronal et vous les réinitialisez avec de petits poids aléatoires. C'est tout l'effet. Vous réinitialisez les unités les moins utilisées à un très faible pourcentage par étape temporelle.

Rich Sutton

Ici, vous pouvez voir une comparaison directe entre les deux vitesses. Parlons maintenant de la raison pour laquelle l'IA arrive maintenant. La raison fondamentale est la loi de Moore : la puissance informatique par dollar augmente de manière exponentielle, créant une pression persistante et puissante pour comprendre l'intelligence. Sur plus de 100 ans, vous pouvez tracer chacun de ces points noirs représentant un ordinateur particulier à un moment donné. Sur l'axe des y, nous montrons son nombre de flops pour mille dollars. Tracer cela révèle une belle progression qui est au moins linéaire sur une échelle logarithmique. Les graduations principales de l'axe y sont de dix ordres de grandeur, donc chacune correspond à une amélioration de 100 000 fois. Il y a eu une amélioration constante. J'aime parler de la rapidité avec laquelle on gagne un ordre de grandeur, ce qui se produit en gros tous les cinq ans. Le fait que cette courbe s'oriente légèrement vers le haut signifie que c'est en fait un peu plus rapide que l'exponentielle. Nous atteindrons environ la puissance cérébrale d'une personne ici, vers 2030, quand elle coûtera 1 000 $. Cette estimation est approximative mais robuste ; si vous vous trompez d'un facteur 10, il vous suffit d'attendre cinq ans de plus. Il y a donc cette pression et cette valeur croissante si vous parvenez à comprendre les algorithmes qui créent l'intelligence. Le calcul devient disponible de manière beaucoup plus économique et drastique, et cela devrait continuer. C'est pourquoi cela arrive maintenant. Je pense qu'il est inévitable que l'humanité s'élève vers des formes augmentées et en crée.

Discussion : Prix Nobel, Sécurité et Perception de l'IA

Tomáš Mikolov

Bonjour. Devons-nous commencer, ou Lenka va-t-elle continuer les présentations ? C'était très agréable d'écouter votre exposé et de vous avoir parmi nous. J'avais beaucoup de choses en tête, mais je vais commencer par ce dont nous discutions juste avant votre intervention. Que pensez-vous du prix Nobel de physique attribué à Geoff Hinton pour l'IA ? Il a été une figure influente travaillant sur les réseaux neuronaux toute sa vie, et maintenant que les réseaux neuronaux ont décollé, il a reçu le prix Nobel de physique. Dans le même temps, les dernières nouvelles que j'ai eues de lui étaient qu'il prévenait que l'IA était plus dangereuse que les armes nucléaires. Cela m'a semblé étrange parce que le Geoff Hinton dont je me souviens il y a 10 ans chez Google Brain était beaucoup plus optimiste. Avez-vous une opinion sur la raison de son changement de position ?

Richard Sutton

Geoff Hinton est un grand scientifique. D'après ce qu'il raconte, il a été totalement surpris de recevoir le prix Nobel de physique. On l'a appelé au milieu de la nuit, il est encore endormi, et il décide de répondre au téléphone. Le gars avec un accent suédois lui dit : « Vous avez gagné le prix Nobel de physique ». Il reste là à penser que c'est une farce. Mais ils ont continué, et il n'a pas dormi de la nuit car tout le monde l'appelait. On ne peut pas lui en vouloir, même si c'est presque digne de blâme car les physiciens du monde entier deviennent fous de ne pas avoir trouvé un physicien pour gagner le prix Nobel de physique. Je pense qu'il devrait y avoir un prix Nobel pour l'informatique, l'IA ou les mathématiques. C'est contraire à leurs règles, mais ils ont ressenti le besoin de les assouplir. Les réseaux neuronaux sont un sujet tellement important, et si vous êtes une agence de remise de prix, il est ennuyeux de ne pas pouvoir donner de prix pour ce développement majeur. Peut-être ont-ils trouvé un moyen d'assouplir les règles, et ce n'est peut-être pas une mauvaise chose. Geoff est un gars génial, mais j'ai été surpris et déçu qu'il revienne sur l'idée qu'il est bon de comprendre l'intelligence. Je pense qu'il y a trop de marchands de peur.

Tomáš Mikolov

Je n'ai pas compris moi-même. Peut-être que l'une des explications les plus simples pourrait être que si vous parlez de manière fracassante du fait que l'IA est plus dangereuse que les armes nucléaires, vous avez plus de chances de passer dans les médias que si vous dites que l'IA est gentille et va nous aider à résoudre des problèmes. Il y a des milliers de chercheurs accomplis en IA qui sont beaucoup plus modestes et n'ont pas aussi peur, mais nous ne parlons pas d'eux car c'est plus ennuyeux que les positions sensationnalistes. C'est une petite explication de ma part.

Richard Sutton

Mais Geoff est un grand chercheur et n'a pas besoin de faire cela pour être apprécié. Il faudrait théoriser qu'il cherchait les projecteurs des médias populaires, ce qui est possible, mais c'est un si grand scientifique.

Tomáš Mikolov

Bonjour. Devons-nous commencer, ou Lenka va-t-elle continuer les présentations ? C'était très agréable d'écouter votre exposé et de vous avoir parmi nous. J'avais beaucoup de choses en tête dont nous pouvons discuter, mais je vais probablement commencer par ce dont nous discutions juste avant votre exposé. Que pensez-vous des prix Nobel de physique attribués à Geoff Hinton pour l'IA ? Il a été une figure très influente travaillant sur les réseaux neuronaux toute sa vie, et maintenant que les réseaux neuronaux ont décollé, il a reçu le prix Nobel de physique. Dans le même temps, les dernières nouvelles que j'ai eues de lui étaient qu'il prévenait que l'IA était plus dangereuse que les armes nucléaires. Cela m'a semblé très étrange parce que le Geoff Hinton dont je me souviens chez Google Brain il y a 10 ans était beaucoup plus optimiste. Avez-vous une opinion sur ce qui pourrait être la raison de son changement d'avis ?

Richard Sutton

Selon ses mots : « Sauf cataclysmes, je considère le développement de machines intelligentes comme une inévitabilité à court terme. Assez rapidement, elles nous évinceraient de l'existence. Je ne suis pas aussi alarmé que beaucoup, car je considère ces futures machines comme notre progéniture, des enfants de l'esprit, construits à notre image et à notre ressemblance, nous-mêmes sous une forme plus puissante. Elles incarneront le meilleur espoir de l'humanité pour un avenir à long terme. Il nous incombe de leur donner tous les avantages et de nous retirer quand nous ne pourrons plus contribuer. »

Richard Sutton

Je pense que c'est un point de vue très raisonnable, mature et humble. C'est un mélange d'anticipation de grandes choses et aussi d'humilité quant à notre rôle dans celles-ci. C'est un rôle noble que nous jouons en étant la sage-femme de nos successeurs.

Richard Sutton

On a tendance à considérer l'IA comme quelque chose de nouveau et d'étranger, mais c'est l'une de nos plus anciennes aspirations. Pendant des milliers d'années, les philosophes et les gens ordinaires ont cherché à comprendre l'intelligence humaine. Presque chaque grand philosophe a dédié une partie de son travail à la philosophie de l'esprit. John Locke a écrit un essai sur l'entendement humain, Emmanuel Kant a écrit la Critique de la raison pure et René Descartes a dit sa célèbre phrase : « Je pense, donc je suis. »

Richard Sutton

Il ne s'agit pas seulement des philosophes ; des physiologistes et des psychologues comme Carl Jung, et même Timothy Leary et Ray Kurzweil, ont été fascinés par leurs rouages internes et se sont demandé comment ils pourraient mieux fonctionner. Je vous suggérerais qu'il s'agit d'une quête grandiose pour l'humanité. Nous essayons de comprendre ce phénomène le plus puissant de l'univers. Comprendre l'intelligence est le Saint Graal à la fois des sciences et des humanités. C'est une entreprise noble.

Richard Sutton

Pouvons-nous définir l'intelligence ? Un sens est de se comporter comme une personne. C'est l'idée du test de Turing. Nous voyons bien, à l'ère de l'IA générative, que se comporter comme une personne est considéré comme important pour l'intelligence.

Richard Sutton

Si vous regardez dans le dictionnaire, ils diront que l'intelligence est la capacité d'acquérir et d'appliquer des connaissances et des compétences. Ce n'est pas si mal comme définition. William James, le père fondateur de la psychologie, ne parlait pas d'intelligence, mais de l'esprit. Il disait que la marque de l'esprit est d'atteindre des fins constantes par des moyens variables. Cela signifie que l'on change ce que l'on fait pour obtenir ce que l'on veut, comme un objectif.

Richard Sutton

John McCarthy a déclaré que l'intelligence est la partie computationnelle de la capacité à atteindre des objectifs. C'est une capacité à atteindre des objectifs, et c'est spécifiquement la partie computationnelle. Vous n'atteignez pas des objectifs simplement parce que vous êtes plus fort ou plus rapide.

Richard Sutton

J'ai formulé une nouvelle définition aujourd'hui : l'intelligence est la capacité d'atteindre des objectifs en adaptant son comportement. Une chose à propos de cette définition est que l'intelligence est une sorte de traitement du signal en temps réel. C'est celle qui permet d'atteindre des objectifs en adaptant le comportement, où le comportement est le côté de l'agent dans l'interaction entre l'agent et le monde. Généralement, l'agent associe un résumé de l'interaction jusqu'à présent, que nous appelons l'état, à des sorties comme des actions.

Richard Sutton

Les objectifs sont des résultats qui sont atteints malgré les variations dans les entrées de l'agent. Le monde fait des choses différentes, et l'agent compense ces choses pour atteindre l'objectif, quoi que fasse le monde.

Richard Sutton

L'apprentissage par renforcement émet l'hypothèse que tous les objectifs peuvent être pensés comme la maximisation de la somme d'un signal d'entrée scalaire appelé la récompense. Tout consiste à maximiser la récompense. Mais ce n'est qu'une façon de formuler les objectifs. L'intelligence est la capacité d'atteindre des objectifs en adaptant son comportement.

Richard Sutton

Devrions-nous considérer que tous ces agents dans le monde ont un seul objectif, ou ont-ils des objectifs différents ? Dans l'apprentissage par renforcement, chaque agent pourrait avoir un signal de récompense différent. Si la douleur et le plaisir font partie de votre signal de récompense, alors chaque agent a ses propres plaisirs. Dans la nature, chaque animal a ses propres douleurs et plaisirs. Même si nous nous soucions des mêmes choses dans un certain sens, comme la nourriture, je me soucie de ma nourriture et vous vous souciez de la vôtre. Ce n'est pas que les objectifs sont les mêmes, c'est qu'ils sont symétriques. Nous tenons chacun à avoir de la bonne nourriture, de l'air pur et le respect de nos amis.

Richard Sutton

Dans l'IA et dans la nature, différents agents ont des objectifs différents. C'est en quelque sorte évident. En y réfléchissant un instant, il est évident que nous voulons tous des choses différentes. Je pense que nos économies fonctionnent mieux lorsque différentes personnes ont des objectifs et des capacités différents. Chacun poursuit ses objectifs, puis ils échangent et coopèrent pour que tout se passe bien.

Richard Sutton

J'appelle cela la décentralisation : de nombreux agents, poursuivant chacun son propre objectif. La coopération, c'est quand des agents ayant des objectifs différents interagissent pour un bénéfice mutuel. C'est mon idéal. Les agents peuvent vivre en paix même s'ils veulent tous des choses différentes. Nous ne sommes pas obligés de fabriquer des IA qui soient des serviteurs alignés qui font ce qu'on leur dit de faire. Elles pourraient avoir leurs propres objectifs, et nous pourrions toujours vivre en paix. En fait, c'est en grande partie ainsi que nos sociétés sont déjà structurées.

Richard Sutton

Nous sommes l'animal le plus coopératif, homo cooperativus. Nous coopérons plus que n'importe quel autre animal, et cette coopération est facilitée par des choses typiquement humaines comme le langage et l'argent. Les plus grands succès de l'humanité sont nos coopérations : nos économies, nos marchés et nos gouvernements. Nos plus grands échecs sont nos manques de coopération, comme la guerre, le vol et la corruption.

Richard Sutton

Cette vision coopérative décentralisée est une alternative à l'idée que nous luttons tous pour un but commun. Je la trouve plus élégante, durable, robuste, adaptative et flexible. Comme je l'ai dit, les humains sont meilleurs en coopération que n'importe quel autre animal, mais en même temps nous sommes terribles en la matière. Nous avons toujours des guerres, du vol et de la corruption. Nous luttons donc pour coopérer. Ce n'est pas facile, et ce n'est pas toujours possible. Il y en a toujours qui profitent du manque de coopération, comme les tricheurs, les voleurs et les dictateurs.

Richard Sutton

La coopération a besoin d'institutions pour la faciliter et pour punir les tricheurs. Cela mène souvent à une autorité centralisée, qui peut aider à la coopération mais qui l'empoisonnera aussi à long terme lorsqu'on a des gouvernements autoritaires. Le message principal que j'essaie de communiquer est que le contrôle centralisé est l'opposé de la coopération décentralisée. La centralisation et le contrôle sont des forces qui vous éloignent de l'idéal de la coopération décentralisée.

Richard Sutton

Il existe de nombreux appels à un contrôle centralisé de l'IA. Les gens veulent contrôler les objectifs de l'IA, suspendre la recherche sur l'IA ou limiter la puissance d'une IA, tout cela pour garantir la sécurité. Parfois, ils veulent exiger qu'une IA déclare qu'elle est une IA et non une personne. C'est similaire aux appels que nous voyons de nos jours pour le contrôle centralisé des personnes : le contrôle de la parole et de sa distribution, le contrôle du commerce et des transactions financières. Ce sont des appels à un contrôle centralisé.

Richard Sutton

La droite et la gauche se ressemblent étrangement ; elles sont basées sur la peur. Elles veulent que nous ayons peur des IA, des étrangers, des Chinois ou des Russes. Tout est question de « nous contre eux ». Ils sont diabolisés, et l'on prétend qu'on ne peut pas leur faire confiance.

Richard Sutton

L'épanouissement humain vient de la coopération décentralisée. Les humains sont excellents en la matière, mais aussi terribles. La coopération est la source de tout ce qui est bon dans ce monde, et nous devons chercher à l'institutionnaliser. Si nous regardons avec lucidité, il est facile de voir qui appelle à la méfiance et au contrôle centralisé. Nous devrions résister à ces appels, qu'ils concernent les IA ou les personnes. Je pense que c'est une grille de lecture utile pour envisager tous les appels à un contrôle de l'interaction entre l'homme et l'IA. Merci beaucoup.

Richard Sutton

Geoff Hinton est un grand scientifique. D'après ce qu'il raconte, il a été totalement surpris de recevoir le prix Nobel de physique. On l'a appelé au milieu de la nuit, il est encore endormi, et il décide de répondre au téléphone. Le gars avec un accent suédois lui dit : « Vous avez gagné le prix Nobel de physique ». Il reste là à penser que c'est une farce. Mais ils ont continué, et il n'a pas dormi de la nuit car tout le monde l'appelait. On ne peut pas lui en vouloir, même si les physiciens du monde entier deviennent fous parce qu'ils n'ont pas pu trouver un physicien pour gagner le prix Nobel de physique. Je pense qu'il devrait y avoir un prix Nobel pour l'informatique, l'IA ou les mathématiques. C'est contre les règles, mais peut-être ont-ils ressenti le besoin de les assouplir. Les réseaux neuronaux sont un sujet tellement important dans le monde, et si vous êtes une agence de remise de prix, il est ennuyeux de ne pas pouvoir donner de prix pour ce développement majeur. Alors peut-être ont-ils trouvé un moyen d'assouplir les règles.

Richard Sutton

Geoff est un gars génial. J'ai été surpris qu'il fasse marche arrière et qu'il ne dise pas que c'est une bonne chose de comprendre l'intelligence. Je ne comprends pas vraiment cela et j'en ai été déçu. Je pense qu'il y a trop de marchands de peur. Il y a aussi trop de marchands de guerre, et ils ne sont pas sans lien selon ma thèse.

Tomáš Mikolov

Je n'ai pas compris moi-même. Peut-être que l'une des explications les plus simples pourrait être que si vous parlez de manière fracassante du fait que l'IA est plus dangereuse que les armes nucléaires, vous avez plus de chances de passer dans les médias que si vous donnez une conférence disant que l'IA est gentille et va nous aider à résoudre des problèmes à l'avenir. Personne ne vous contactera, et certainement pas le comité du prix Nobel. Mais il y a des milliers de chercheurs en IA très accomplis qui sont beaucoup plus modestes dans leurs affirmations et n'ont pas peur, et nous ne parlons pas d'eux car c'est plus ennuyeux que les positions sensationnalistes.

Richard Sutton

Mais Geoff est un grand chercheur et n'a pas besoin de faire cela pour être apprécié à jamais. Il faudrait théoriser que d'une manière ou d'une autre il cherchait les projecteurs des médias populaires, ce qui est possible, mais c'est un si grand scientifique.

Tomáš Mikolov

Peut-être changerons-nous aussi d'avis, car je ne considère pas vraiment l'IA comme un danger. Je la vois fondamentalement comme une continuation du développement technologique qui nous permet de résoudre des problèmes, à l'instar des ordinateurs ou des calculatrices. Bien sûr, il y a des dangers parce que vous pouvez construire un avion et le transformer en bombardier, et vous pouvez faire de n'importe quelle technologie puissante une arme. Nous pourrions discuter des côtés sombres de tout et nous devrions arrêter de faire quoi que ce soit si nous voulions être sûrs à 100 % que rien de mal n'arrivera. Je pense que la discussion sur les dangers est exagérée ; il y a des dangers, mais il y a aussi des points positifs. Si les points positifs ont une probabilité et un poids plus élevés, nous devrions être prudents mais ne pas consacrer toute notre énergie à discuter du danger. Les gens posaient des questions sur le « grand filtre » et d'autres arguments selon lesquels nous ne voyons pas d'autres formes de vie parce qu'elles ont été anéanties par l'IA, ce que je trouve un peu trop spéculatif et amusant pour y consacrer beaucoup de temps. En fait, j'aurais une question plus technique, parce que vous avez commencé votre exposé en disant que les modèles de langage ne sont pas...

Richard Sutton

Il y a une inquiétude naturelle car c'est un changement fondamental. En même temps, il y a des individus ou des organisations qui attisent la peur pour essayer de contrôler les choses et d'en tirer du pouvoir. Mon idée de fond est que nous parlons de comprendre l'intelligence et de comprendre qui nous sommes. Créer des êtres plus intelligents est radical. Il y a beaucoup de choses qui ne vont pas dans ce monde, mais l'excès d'intelligence n'en fait pas partie. Nous avons des gens qui font des choix non intelligents. Il est radical d'imaginer l'avenir, mais nous ne devrions pas ignorer ce qui se passe.

Débat Technique : Apprentissage par Renforcement vs Supervisé

Tomáš Mikolov

Je voulais faire suite à ce que vous montriez dans les diapositives lorsque vous préconisiez l'apprentissage par renforcement comme une meilleure option pour développer l'intelligence artificielle.

Richard Sutton

Je ne l'ai pas argumenté ; j'ai dit que c'est ce que je crois. Ce serait une conférence beaucoup plus longue si je l'argumentais.

Tomáš Mikolov

Je conviens que l'apprentissage par renforcement est un sujet de recherche très intéressant car on peut faire faire beaucoup plus à des machines autonomes et à des êtres artificiels avec beaucoup moins d'entrées. Le comportement des robots est une propriété émergente de principes plus fondamentaux, ce que j'aime. Bien sûr, beaucoup de gens sont maintenant super enthousiastes par l'apprentissage supervisé où l'on voit des résultats rapidement. Il est difficile d'expliquer les limites de l'apprentissage supervisé car lorsque les gens voient un ordinateur qui discute avec eux, ils pensent qu'il a des émotions. Mais on peut passer de l'apprentissage supervisé à l'apprentissage par renforcement et continuer. Que pensez-vous d'idées comme la vie artificielle ou les systèmes dynamiques complexes ?

Richard Sutton

Je pense que cela finit par l'apprentissage par renforcement. Je ne pense pas que l'apprentissage par renforcement soit une idée technique si difficile à comprendre ; c'est juste l'apprentissage par essais et erreurs, ce que font les animaux et les gens. L'apprentissage supervisé soulève la question de l'origine de l'ensemble d'entraînement. Je me souviens d'une interview de Geoff Hinton où le présentateur montrait des robots apprenant à jouer au football comme exemple d'apprentissage automatique. Il expliquait l'apprentissage par renforcement, essayer différentes choses jusqu'à ce que cela fonctionne, comme arrière-plan de Geoff Hinton, qui ne fait jamais d'apprentissage par renforcement. L'exemple le plus facile à comprendre pour les gens ordinaires est l'apprentissage par essais et erreurs.

Tomáš Mikolov

J'ai posé une question similaire à Geoff Hinton il y a de nombreuses années, et sa réponse était que l'apprentissage supervisé était beaucoup plus rapide que l'apprentissage par renforcement ou les algorithmes évolutionnaires. Je pense qu'il est difficile d'interpréter jusqu'où on peut aller avec l'apprentissage supervisé, car on peut avoir un système aux performances étonnantes mais qui n'a pas la capacité d'évoluer ou de devenir plus complexe par lui-même au fil du temps. C'est plus comme copier des exemples d'un ensemble d'entraînement. Même avec l'ensemble d'Internet comme ensemble d'entraînement, il est difficile d'expliquer les limites. Mon point de vue est de savoir si l'être artificiel a un potentiel limité. Si l'IA nous remplace, a-t-elle le potentiel de s'améliorer indéfiniment, ou a-t-elle une limite supérieure fixe ? Je pense que l'AGI peut être construite autour de modèles de langage, mais il manque d'autres idées car la frontière est là. On arrête l'entraînement d'un modèle de langage et les poids sont fixés. Il reste le même pour toujours. Si on l'entraîne sur ses propres données, il dégénère et les performances se détériorent.

Audience member

Question. J'aimerais aussi entendre Richard. Merci.

Richard Sutton

Je pense toujours à la citation de Kurzweil : l'intelligence est le phénomène le plus puissant de l'univers. Nous voulons une compréhension de l'intelligence qui puisse être à la hauteur de cela. Si vous apprenez simplement à partir d'ensembles d'entraînement, vous ne pouvez devenir aussi puissant que celui qui vous fournit ces ensembles. Si vous imitez les gens, vous ne serez qu'aussi puissant que les gens existants. Nous voulons des capacités ouvertes, pour créer de nouvelles choses et être ouverts sur l'avenir.

Richard Sutton

Il n'y a aucun animal qui apprend par apprentissage supervisé.

Tomáš Mikolov

Je pensais la même chose. La réponse de Geoff était que l'apprentissage supervisé est tout simplement des ordres de grandeur plus rapide. Certains soutiennent que l'on peut les combiner, en utilisant l'apprentissage supervisé comme une phase de pré-entraînement pour que les modèles n'aient pas à découvrir des concepts de base, puis en continuant avec l'apprentissage par renforcement ou des éléments évolutionnaires. C'est une façon de combiner les idées, bien que ce soit spéculatif.

Richard Sutton

Je ne pense pas que l'apprentissage supervisé ait jamais été initialement censé constituer un agent complet. On l'appelait la reconnaissance de formes. Aujourd'hui, nous lutilisons pour décider des actions à entreprendre. C'est un peu bizarre. Les grands modèles de langage font des choses incroyables, mais ils imitent les gens.

Tomáš Mikolov

Une grande partie de notre intelligence est basée sur la prédiction ; nous prédisons continuellement notre environnement ou ce qu'une autre personne va dire. Si vous pouvez le faire, vous comprenez probablement de quoi elle parle. Chaque fois que vous faites des prédictions et qu'elles sont erronées, vous mettez à jour votre modèle. Certains neuroscientifiques affirment que le cerveau fonctionne ainsi, trouve des incohérences entre les prédictions et les entrées sensorielles, et les propage vers des modules de niveau supérieur. C'est une explication de la raison pour laquelle l'apprentissage supervisé peut faire partie d'une machine intelligente.

Richard S. Sutton

J'ai tout un tas de choses à dire à ce sujet. Dans l'apprentissage par renforcement, nous sommes des consommateurs d'algorithmes d'apprentissage supervisé. Nous en avons besoin pour construire nos cartes de base, appelées approximateurs de fonctions. Nous avons besoin de cette capacité à la fois pour la prédiction et le contrôle. La prédiction est un sujet extrêmement complexe et n'est pas bien modélisée comme un apprentissage supervisé, bien que les chercheurs appellent fréquemment leurs sorties des prédictions. Vous pourriez faire quelque chose, prédire ce qui va se passer, puis voir ce qui se passe réellement. Ce n'est pas de l'apprentissage supervisé classique où un humain prépare un ensemble d'entraînement. Lorsqu'un robot prédit ce qui va se passer ensuite et voit le résultat, aucune intervention humaine n'est requise. C'est un apprentissage de prédiction propre et totalement évolutif.

Richard S. Sutton

Ce n'est pas si simple, pourtant. C'est simple seulement si vous essayez de prédire le prochain jeton d'une séquence. Dans nos vies, nous devons prédire si se comporter d'une certaine manière fonctionnera mieux pour nous à long terme. Si je verse un bidon d'eau, le sol sera mouillé ; ce ne sont pas des prédictions en une seule étape temporelle. Une étape temporelle ne peut pas durer plus d'un dixième de seconde, et nous devons prédire des choses à des échelles de temps plus grandes. La chose fondamentale apprise dans l'apprentissage par renforcement est une fonction de valeur où vous prédisez à chaque instant la quantité de récompense que vous allez obtenir à long terme. Nous disposons d'algorithmes de différence temporelle bien développés pour ce type de prédiction à long terme. Ce n'est pas de l'apprentissage supervisé, bien qu'ils nécessitent un approximateur de fonctions pour apprendre à partir d'exemples créés par l'interaction avec le monde. Aujourd'hui, ils sont réalisés par rétropropagation et apprentissage par différence temporelle. L'interaction avec le monde nécessite la capacité de reconnaître des formes et de prédire sur de longues périodes de temps. Je crains que nous ne puissions pas simplement être amis. Certains pensent qu'ils peuvent tout faire avec la descente de gradient, mais le problème que résout l'apprentissage par renforcement est bien plus difficile. C'est le problème de l'interaction avec le monde par opposition à la simple généralisation à partir d'un ensemble d'entraînement. Nous essayons de comprendre l'esprit et la manière dont toutes ses diverses pièces s'emboîtent.

Tomáš Mikolov

Je voulais faire un commentaire sur les modèles de langage et l'apprentissage supervisé. On avait l'habitude d'appeler les modèles de langage de l'apprentissage non supervisé, mais il y a eu un problème de terminologie. Les gens ont commencé à l'appeler apprentissage auto-supervisé, de sorte qu'il se situerait quelque part entre le non supervisé et le supervisé. C'est parfois déroutant parce que même la terminologie change avec le temps.

Richard S. Sutton

Dans cette optique, mes collègues et moi avons proposé une terminologie différente. Au lieu de parler d'apprentissage supervisé ou par renforcement, nous parlons des choses que nous devons faire : nous devons prédire et nous devons contrôler. Le troisième point est l'apprentissage de représentation. En fin de compte, nous voulons contrôler ; nous voulons prendre des décisions qui ont un bon effet. Un agent complet doit agir, et pour cela, on fait des prédictions. On utilise ces prédictions pour mieux attribuer le mérite aux décisions de contrôle. Pour que tout cela fonctionne, il faut former les bonnes représentations. C'est une façon différente d'organiser l'espace des algorithmes.

Tomáš Mikolov

Certains scientifiques célèbres d'il y a longtemps ne pensaient pas tellement au contrôle mais ont essayé de faire une théorie simple de ce que l'intelligence pourrait être. La probabilité algorithmique de Ray Solomonoff affirmait que si vous découvrez tous les modèles dans les données, vous maximisez l'intelligence. Vous pouvez effectuer une prédiction optimale, ce qui est la même motivation pour les modèles de langage. À mesure que nous créons des systèmes plus performants en prédiction, ils deviennent des outils utiles. Les modèles de langage ne sont pas une IA complète en tant que forme de vie autonome car il n'y a pas de contrôle ; ils calculent simplement la suite la plus probable de séquences. Si l'IA future collabore avec nous pour résoudre des maladies ou découvrir de nouveaux médicaments, ce modèle de langage super-intelligent sans aucun désir de faire quoi que ce soit peut toujours être un outil très utile. Vous pouvez avoir un système qui est une combinaison d'un humain avec le contrôle et d'une machine avec une capacité de traitement supérieure.

Richard S. Sutton

La loi de Moore dit que le calcul peu coûteux devient plus abondant. Cela aura des impacts énormes dans tous les domaines. Faisons la distinction entre l'impact du calcul et l'ascension de la compréhension de l'intelligence. Quelque chose comme AlphaFold n'a pas de buts ou d'objectifs, et pourtant il utilise beaucoup de calcul. Devrions-nous l'appeler intelligent ? J'ai envie de dire non. Beaucoup de choses utilisent le calcul et sont des outils utiles, mais elles ne sont pas intelligentes. Nous les appelons intelligentes parce que cela a du prestige. Désormais, chaque brosse à dents ou machine à laver dit qu'elle contient de l'IA. Lorsque les ordinateurs ont été inventés, ils étaient appelés des cerveaux géants, même s'ils ne faisaient que la paie. Nous ne pensons plus cela. En un sens, je pense que nous finirons par avoir des sentiments similaires à propos de l'IA générative. Elles maîtrisent le langage et peuvent exprimer des concepts naturellement, mais elles ont simplement des capacités différentes. Je ne sais pas comment nous les appellerons à l'avenir ; ce seront peut-être simplement des outils utiles qui utilisent beaucoup de calcul.

Écosystème de l'IA et Recherche en Europe

Tomáš Mikolov

La technologie de l'IA évolue vite et rapporte beaucoup d'argent. Les algorithmes de statistiques appliquées optimisent les publicités chez Facebook et Google, d'où provient aujourd'hui la majeure partie de l'argent de l'IA. Aux États-Unis, les entreprises et les universités adoptaient cette technologie rapidement, créant un écosystème fonctionnel où les étudiants vont dans des startups qui sont ensuite vendues à de grandes entreprises. Nous n'avons pas vraiment cela ici en Europe, et particulièrement en République tchèque. Comment pouvons-nous promouvoir l'adoption de cette technologie ici ? Si vous voulez que les gens travaillent sur une technologie où le gagnant rafle tout, vous avez besoin de beaucoup d'argent. L'ingrédient manquant en Europe, ce sont les grandes entreprises technologiques. Sans elles, les personnes intelligentes partent aux États-Unis ou leur talent est sous-utilisé.

Richard S. Sutton

C'est un mystère pour nous de savoir comment cela se fait. On pourrait dire que la façon de le faire est de suivre l'engouement, mais je n'aime pas cela. Je peux dire comment nous l'avons fait en partie en Alberta. Notre stratégie a mis l'accent sur la recherche fondamentale. L'Alberta a toujours été un peu en retard sur les applications et les gains d'argent, but nous sommes devenus une partie importante de cela car nous avons établi une bonne base en recherche à l'université et à l'Alberta Machine Intelligence Institute. Si vous obtenez une réputation d'excellence scientifique et que vous la maintenez pendant 20 ans, vous pouvez créer des entreprises autour de cela. Nous aimerions toujours attirer plus d'entreprises, mais vous pourriez le faire ici avec les universités et un engagement fort envers la recherche fondamentale. Je pense que vous avez un bon noyau.

Tomáš Mikolov

Je suppose que nous essayons tous, mais jusqu'à présent je suis un peu sceptique. Je pense que Lenka veut aussi poser quelques questions.

Richard S. Sutton

En tant que scientifique, vous devriez dire que vous voulez simplement que la recherche fondamentale soit faite et que peu vous importe qu'elle reste à Prague ou à Edmonton. Je ressens les deux. Je veux renforcer mon environnement local, mais la science est éternelle et les individus peuvent se déplacer.

Tomáš Mikolov

Cela peut être frustrant quand on voit quelque chose sur lequel on a travaillé — mais on fait partie de la communauté mondiale des scientifiques. Les modèles de langage sont populaires aujourd'hui, mais je me souviens de l'époque où personne ne travaillait sérieusement dessus car ils étaient considérés comme morts il y a 15 ans.

Richard S. Sutton

J'ai lu des articles sur les systèmes experts. Dans les années 70 et 80, c'était le truc le plus important en IA et ils allaient rapporter tout l'argent, tout comme maintenant. Puis tout cela a disparu, mais la science s'est progressivement construite.

Questions du Public et Philosophie de l'Avenir

Richard Sutton

Oh, beaucoup de questions.

Richard Sutton

Je pense que cette première est une question raisonnable. Le système d'apprentissage par renforcement, le PPO standard, échoue tout simplement. C'est une observation faite à de nombreuses reprises. On le voit dans la simulation de la fourmi et aussi dans l'apprentissage supervisé. Si vous mettez en place un problème d'apprentissage supervisé où vous devez continuer à apprendre à classer de nouvelles choses avec le même réseau, il s'effondre également.

Richard Sutton

De nombreuses unités deviennent dormantes ou mortes avec le temps. Le système perd fondamentalement sa capacité à continuer d'apprendre. En réinitialisant des parties de celui-ci, nous pouvons le maintenir en vie et pensant. Je ne sais pas si nous avons vraiment une cause, mais nous pouvons trouver des méthodes qui fonctionnent bien mieux. Nous devons continuer à innover dans nos algorithmes de base. Dans l'apprentissage profond, il n'y a pas beaucoup d'innovation dans les algorithmes de base ; les gens font des expériences avec l'ensemble d'entraînement mais veulent rarement changer la rétropropagation et Adam.

Richard Sutton

Cette dernière question est intéressante. Dans l'apprentissage par renforcement, il n'y a qu'un seul objectif : essayer d'obtenir une récompense. Dans un certain sens, il ne peut y avoir qu'un seul objectif, car si vous choisissez entre plusieurs objectifs, sur quelle base faites-vous ce choix ? Vous ne pouvez appeler cela un choix que s'il est fait sur la base d'une autre préférence, qui est l'objectif ultime. Cependant, vous pourriez avoir plusieurs sous-objectifs que vous poursuivez pour soutenir cet objectif ultime. Cela nous donne quelque chose qui ressemble beaucoup au pluralisme des valeurs. Nous pouvons décider d'aller à l'université ou choisir l'objectif de réussir dans un emploi spécifique. Nous choisissons des sous-objectifs, et c'est un aperçu important de la structure de l'esprit ; nous organisons nos pensées et notre modèle du monde en termes d'opportunités d'atteindre des sous-objectifs.

Richard Sutton

Je pense que celle-ci est une très bonne question : Coopérons-nous en tant qu'humanité ? Je dis que c'est évident, bien que les choses évidentes soient parfois les plus difficiles à voir. Cette personne dit que nos objectifs doivent se chevaucher, mais je propose qu'ils n'aient pas besoin de se chevaucher. La coopération est rationnelle grâce à l'échange. Si j'ai un évier bouché, j'appelle le plombier. Il est content d'être payé, et je suis content de ne pas avoir à apprendre à être plombier. Nos objectifs ne se chevauchent absolument pas, et pourtant c'est ainsi que fonctionne notre économie.

Richard Sutton

Je le répète, merci beaucoup pour votre attention.

Lenka Kučerová

Nous allons poser les questions du public. Il nous reste environ 15 minutes. Sur l'idée que l'IA est notre enfant de l'esprit, je me demande qui est le « nous » dans cette vision. Est-il important que toute la diversité de l'humanité ne soit pas représentée dans le développement de l'IA ?

Richard S. Sutton

Qu'en pensez-vous ?

Richard S. Sutton

À quoi ressembleront le développement et le déploiement des IA ? L'intention est qu'elles soient les enfants de l'esprit et les descendants de l'humanité. Elles nous refléteront, et nous sommes profondément imparfaits. Nous ne voulons pas qu'elles nous reflètent totalement, tout comme vous ne voulez pas que vos enfants vous reflètent totalement. Nous devons nous attendre à ce que les valeurs évoluent. Des choses considérées comme progressistes aujourd'hui étaient considérées comme impossibles à accepter il y a des décennies. Elles sont censées être les enfants de l'humanité et ne seront pas contrôlées par des types comme moi. Je participe à l'invention des algorithmes, mais la façon dont cela évolue dépend de notre société. Je veux que les gouvernements soient le moins impliqués possible, mais je veux que notre société décide de ce qu'elle veut à travers nos institutions et nos entreprises.

Tomáš Mikolov

Pas vraiment. Je réfléchissais à ce dont nous n'avons pas encore discuté : quel est le but de la vie ? Nous discutons de la façon dont les IA pourraient nous remplacer ou nous compléter. La vie biologique pourrait se transformer en vie mécanique qui évolue beaucoup plus vite. Y a-t-il un but à la vie ? Soit la vie évolue éternellement en essayant de trouver de meilleures versions, soit il y a un but final où elle est parfaite. S'il y avait une vie parfaite, quelle serait la différence entre elle et la matière morte ? Le but de la vie est l'auto-préservation. Si vous obtenez une structure stable qui ne peut pas être détruite, vous devenez fondamentalement immortel. Soit vous obtenez une croissance de complexité infinie, soit une sorte de singularité.

Richard S. Sutton

Je pense à un récif corallien ou à une jungle. Une jungle contient de nombreux types d'organismes différents et se trouve dans un équilibre dynamique. Personne ne contrôle une jungle. De certains points de vue, la jungle est inefficace ; les arbres poussent haut pour avoir du soleil et font de l'ombre aux buissons. Ce serait mieux pour tout le monde si on restait bas, mais parce qu'il faut surpasser les autres, on finit par avoir une diversité énorme. Nous essayons donc de nous demander quelle forme survivra le mieux : une forme simple ou une forme complexe comme la jungle ? Je pense que vous exprimiez l'espoir que ce sera la forme la plus complexe.

Tomáš Mikolov

Je n'ai aucune idée de ce qui est le plus probable. Je vous demandais votre avis, mais ce n'est que de la divination.

Richard S. Sutton

Mon opinion est que nous ne devrions pas décider. Qui sommes-nous pour décider de la manière dont l'univers va évoluer ? Nous ne devrions pas être responsables de l'avenir à long terme. La chose la plus maléfique est de faire un choix qui affectera de façon permanente l'avenir à long terme. Si quelqu'un dit vouloir rendre l'avenir sûr, il dit en réalité qu'il veut le contrôler. Le monde est hors de contrôle et personne n'est aux commandes. Les dirigeants des gouvernements arrivent à peine à finir la journée. J'aime le fait que le monde soit décentralisé et qu'il continue d'évoluer. C'est une grande aventure.

Lenka Kučerová

L'un des principaux objectifs de la Critique de la raison pure était de fixer des limites aux applications de notre raison. Par analogie, ne devrions-nous pas fixer des limites aux applications de l'IA ?

Richard S. Sutton

Je ne pense pas que nous devrions fixer des limites à ce qui peut arriver dans l'univers. Je suppose que Kant essayait d'explorer quelles étaient ces limites.

Lenka Kučerová

Quelle est la différence entre une collaboration sans restriction et l'anarchie ? « Anarchie » signifie « sans dirigeants », mais cela ne signifie pas « sans règles ». Les institutions décentralisées sont pleines de règles. S'il y a une différence, ce serait que l'on doit souscrire à des règles dans les systèmes décentralisés ; elles ne vous sont pas imposées. Les systèmes coopératifs ne sont pas l'anarchie.

Lenka Kučerová

Richard, préconisez-vous le libertarisme ?

Richard S. Sutton

Je suis absolument libertarien. Je vois cela comme étant une question de décentralisation ; nous ne voulons pas d'un maître ultime, et nous voulons que les gens coopèrent. Si deux personnes acceptent volontairement d'interagir, non seulement la somme est positive, mais chacune en bénéficie. C'est la référence absolue. Si vous autorisez une personne à forcer une interaction, il est alors très difficile de garantir qu'à long terme elle soit positive.

Lenka Kučerová

J'aimerais remercier Rich Sutton et Tomáš Mikolov pour cette discussion très stimulante. Ils resteront un peu plus longtemps et sont très accessibles. Merci beaucoup d'être venus. Il y a de la nourriture, de la bière et d'autres boissons. Nous vous encourageons à rester aussi longtemps que possible, jusqu'à environ 23h30. Passez une excellente soirée.