Prof. Simon Prince - Understanding Deep Learning with Prof. Simon Prince

Prof. Simon Prince

Understanding Deep Learning with Prof. Simon Prince

26 décembre 2023

Artificial Intelligence

Introduction to Understanding Deep Learning

Dr. Tim Scarfe

Ce livre s'intitule Understanding Deep Learning pour le distinguer d'autres ouvrages plus pratiques axés sur le codage.

Dr. Tim Scarfe

Ce livre traite exclusivement des idées qui sous-tendent l'apprentissage profond.

Dr. Tim Scarfe

Après avoir lu ce livre, vous serez en mesure d'appliquer l'apprentissage profond à des situations inédites pour lesquelles il n'existe pas de recette de succès établie.

Prof. Simon Prince

Le livre commence par décrire les réseaux de neurones profonds et vous guide à travers le processus d'entraînement et de test, ainsi que sur la manière d'améliorer leurs performances.

Prof. Simon Prince

Ensuite, il aborde différentes architectures : réseaux convolutionnels, réseaux résiduels, réseaux de neurones graphiques et transformeurs.

Prof. Simon Prince

Il y a une longue section sur les modèles génératifs, les flux de normalisation, les VAE, les GAN et les modèles de diffusion, et une courte section sur l'apprentissage par renforcement.

Prof. Simon Prince

À la fin, il y a deux chapitres vraiment intéressants. Il y a un chapitre intitulé 'Pourquoi les réseaux de neurones profonds fonctionnent-ils ?' où j'interroge pourquoi nous avons besoin de cette architecture particulière, pourquoi elle est facile à entraîner et pourquoi elle se généralise.

Prof. Simon Prince

Nous n'avons pas vraiment de réponses à ces questions, mais je présente les preuves existantes. Le dernier chapitre porte sur l'éthique.

Prof. Simon Prince

Je pense que le livre sera utile si vous ne connaissez rien du tout à l'apprentissage profond. Il vous emmènera de zéro à un niveau proche de la pointe de la recherche.

Prof. Simon Prince

Si vous enseignez l'apprentissage profond, ce sera une ressource utile. Il contient 275 figures, dont la plupart sont nouvelles et représentent les choses de différentes manières.

Prof. Simon Prince

Il propose également des notebooks Python. Si vous êtes un praticien ou un chercheur en apprentissage automatique, il comblera les lacunes de vos connaissances et vous fera réfléchir aux choses différemment.

Prof. Simon Prince

Je pense que même ma description initiale des réseaux de neurones profonds est un peu différente de la manière dont ils sont habituellement décrits. Je pense que vous apprendrez beaucoup car j'ai beaucoup appris en l'écrivant, donc je suppose que vous apprendrez quelque chose aussi.

Prof. Simon Prince

Si vous vous appelez Geoff Hinton ou Jürgen Schmidhuber, il se peut que cela ne vous soit pas très utile.

Dr. Tim Scarfe

Eh bien, on ne sait jamais.

The Mystery of Generalization

Dr. Tim Scarfe

Le titre est un peu ironique car, au moment où j'écris, personne ne comprend comment fonctionnent les modèles d'apprentissage profond. Littéralement personne.

Dr. Tim Scarfe

Les modèles d'apprentissage profond apprennent des fonctions linéaires par morceaux. Comme vous le saurez grâce à notre épisode sur la théorie des splines de l'apprentissage profond, ils découpent l'espace d'entrée en de nombreuses petites régions.

Dr. Tim Scarfe

En fait, la plupart des modèles ont plus de régions qu'il n'y a d'atomes dans l'univers. Franchement, c'est un mystère.

Dr. Tim Scarfe

Comment ces modèles se généralisent-ils ? Et comment apprennent-ils ces fonctions ? Personne ne le sait.

Dr. Tim Scarfe

Alors pourquoi l'apprentissage profond fonctionne-t-il ? Il est remarquable que l'algorithme d'ajustement ne reste pas piégé dans des minima locaux ou bloqué près de points selles et qu'il puisse recruter efficacement la capacité excédentaire du modèle pour ajuster des données d'entraînement inexpliquées.

Dr. Tim Scarfe

Ce succès est peut-être moins surprenant lorsqu'il y a beaucoup plus de paramètres que de données d'entraînement. Cependant, il est discutable de savoir si c'est généralement le cas.

Dr. Tim Scarfe

AlexNet avait 60 millions de paramètres et a été entraîné avec 1 million de points de données. Cependant, chaque exemple d'entraînement a été augmenté de 2 048 transformations.

Dr. Tim Scarfe

GPT-3 avait 175 milliards de paramètres et a été entraîné sur 300 milliards de jetons. Il n'est pas évident que l'un ou l'autre modèle ait été surparamétré, et pourtant ils ont été entraînés avec succès.

Dr. Tim Scarfe

Il est surprenant que nous puissions ajuster des réseaux profonds de manière fiable et efficace. Soit les données, soit les modèles, soit les algorithmes d'entraînement, soit une combinaison des trois doivent posséder des propriétés spéciales qui rendent cela possible.

Dr. Tim Scarfe

L'ajustement efficace des modèles d'apprentissage profond est saisissant et leur généralisation est stupéfiante.

Dr. Tim Scarfe

Premièrement, il n'est pas évident a priori que des ensembles de données typiques soient suffisants pour caractériser la cartographie entrée-sortie. Deuxièmement, les réseaux profonds décrivent des fonctions très compliquées.

Dr. Tim Scarfe

Troisièmement, la généralisation s'améliore avec plus de paramètres. Cet excès de paramètres donne au modèle la latitude de faire presque n'importe quoi entre les données d'entraînement, et pourtant il se comporte de manière sensée.

Dr. Tim Scarfe

Il n'est ni évident que nous devrions être capables d'ajuster des réseaux profonds, ni qu'ils devraient se généraliser. A priori, l'apprentissage profond ne devrait pas fonctionner et pourtant il fonctionne.

Dr. Tim Scarfe

Le succès de l'apprentissage profond est surprenant. Dans son livre, le professeur Prince discute des défis de l'optimisation des fonctions de perte de haute dimension et soutient que la surparamétrisation et le choix de la fonction d'activation rendent cela gérable dans les réseaux profonds.

Dr. Tim Scarfe

Il a montré que pendant l'entraînement, les paramètres se déplacent à travers un sous-espace de faible dimension vers une famille de minima globaux connectés et que les minima locaux ne sont pas apparents.

Dr. Tim Scarfe

À mesure que nous surparamétrons ces modèles, la généralisation augmente, mais elle est également liée à des choses comme la platitude du minimum et les a priori inductifs.

Dr. Tim Scarfe

Il semble qu'un grand nombre de paramètres et plusieurs couches de réseau soient nécessaires pour une bonne généralisation, bien que nous ne sachions pas encore pourquoi.

Dr. Tim Scarfe

De nombreuses questions restent sans réponse. Nous n'avons actuellement aucune théorie prescriptive qui nous permette de prédire les circonstances dans lesquelles l'entraînement et la généralisation réussiront ou échoueront.

Dr. Tim Scarfe

Nous ne connaissons pas les limites de l'apprentissage dans les réseaux profonds ni si des modèles beaucoup plus efficaces sont possibles. Nous ne savons pas s'il existe des paramètres qui se généraliseraient mieux au sein du même modèle.

Dr. Tim Scarfe

L'étude de l'apprentissage profond est souvent guidée par des démonstrations empiriques. Simon concède que celles-ci correspondent de manière impressionnante à notre compréhension des mécanismes de l'apprentissage profond.

Ethics and Social Implications

Dr. Tim Scarfe

Concernant l'éthique, Simon a déclaré qu'il serait irresponsable d'écrire ce livre sans discuter des implications éthiques de l'IA. Cette technologie changera le monde de manière similaire à l'électricité, au moteur à combustion interne ou à l'internet.

Dr. Tim Scarfe

Les avantages potentiels dans la santé, le design, les transports et le commerce sont énormes. Cependant, les scientifiques sont souvent d'un optimisme irréaliste quant à leur travail, et le potentiel de préjudice est tout aussi grand.

Dr. Tim Scarfe

Simon soutient que quiconque étudie l'IA devrait réfléchir à la mesure dans laquelle les scientifiques sont responsables des utilisations de leur technologie.

Dr. Tim Scarfe

Il a déclaré que nous devrions considérer que le capitalisme stimule principalement le développement de l'IA et que les avancées juridiques pour le bien social risquent d'être considérablement à la traîne.

Dr. Tim Scarfe

Nous devrions réfléchir à la question de savoir s'il est possible pour les scientifiques de contrôler les progrès dans ce domaine et de réduire le potentiel de préjudice.

Dr. Tim Scarfe

Nous devrions réfléchir au type d'organisations pour lesquelles nous sommes prêts à travailler et au sérieux de leur engagement à réduire les préjudices potentiels de l'IA.

Dr. Tim Scarfe

Font-elles simplement du 'blanchiment éthique' pour réduire le risque réputationnel ou mettent-elles réellement en œuvre des mécanismes pour arrêter des projets éthiquement suspects ?

Dr. Tim Scarfe

Simon invite les lecteurs à approfondir ces questions. L'IA changera radicalement la société pour le meilleur ou pour le pire.

Dr. Tim Scarfe

Les visions optimistes d'une société utopique portée par l'IA devraient être accueillies avec prudence et réflexion critique.

Dr. Tim Scarfe

Le livre cite Green (2019), qui a souligné que des projets comme l'amélioration de la responsabilité de la police et le maintien de l'ordre prédictif sont tous deux présentés comme de 'l'IA pour le bien social'.

Dr. Tim Scarfe

L'attribution de ce label est un jugement de valeur qui manque de principes fondateurs. Le bien d'une communauté est le mal d'une autre.

Dr. Tim Scarfe

L'IA éthique est un problème d'action collective, et le chapitre se conclut par un appel aux scientifiques à considérer les implications morales de leur travail.

Dr. Tim Scarfe

Toutes les questions éthiques ne sont pas sous le contrôle de chaque individu, mais cela ne signifie pas que les chercheurs n'ont aucune responsabilité pour atténuer le détournement potentiel des systèmes qu'ils créent.

Agency and Cognition

Dr. Tim Scarfe

Nous faisons de la plongée sous-marine ; nous faisons réellement des choses. Peut-être que je suis juste un chauvin humain, mais je suis tout à fait d'accord pour que cela s'intègre dans notre écosystème cognitif.

Prof. Simon Prince

GPT fait des choses. Pas très bien, mais il les fait.

Dr. Tim Scarfe

Vraiment ? Je ne sais pas s'il fait quelque chose. Comme une chatière, on peut lui faire faire des choses, il peut exécuter du code, mais je ne dirais pas qu'il a une capacité d'action.

MLST Introduction and Guest Bio

Dr. Tim Scarfe

Bonjour à tous. C'est Tim de MLST, votre chaîne et podcast de référence pour tout ce qui concerne l'apprentissage automatique, l'IA et la philosophie.

Dr. Tim Scarfe

Créer du contenu pour MLST prend un temps considérable. C'est un travail de passion que je fais pour le plaisir et l'intérêt du sujet.

Dr. Tim Scarfe

Mais pour continuer à vous proposer du contenu de haute qualité, j'ai besoin de votre soutien. Veuillez envisager de nous soutenir sur Patreon. Chaque geste compte.

Dr. Tim Scarfe

Si vous n'en avez pas les moyens, faites-le moi savoir et je vous donnerai un accès gratuit aux avantages de Patreon. Sans poser de questions. Merci beaucoup pour votre temps.

Dr. Tim Scarfe

Simon, c'est un honneur absolu de vous rencontrer. Bienvenue sur Machine Learning Street Talk.

Prof. Simon Prince

Je suis très heureux d'être ici.

Dr. Tim Scarfe

Parlez-nous de vous.

Prof. Simon Prince

J'ai commencé ma carrière en psychologie. Mon doctorat est en psychologie, puis j'ai parcouru diverses parties de la science. J'ai travaillé en neurosciences, en réalité augmentée et en imagerie médicale.

Prof. Simon Prince

Dans les années 2000, j'étais professeur à l'UCL et je travaillais sur la vision par ordinateur, et je suis probablement plus connu pour un livre que j'ai écrit à cette époque.

Prof. Simon Prince

Au cours de la dernière décennie, j'ai principalement travaillé dans l'industrie, dans la finance et l'informatique graphique. Je suis actuellement professeur à l'Université de Bath où j'ai travaillé sur un nouveau livre, 'Understanding Deep Learning', publié par MIT Press.

The Shift to Deep Learning (AlexNet)

Dr. Tim Scarfe

Simon, nous plaisantions avant sur le fait que pour votre dernier livre, vous vous êtes fait 'Uberiser'. Vous écriviez un livre sur la vision par ordinateur et les modèles graphiques probabilistes, puis il y a eu ce gars Krizhevsky.

Dr. Tim Scarfe

C'était Alex Krizhevsky. C'étaient essentiellement les gars de Hinton. Ils ont sorti AlexNet, et la vision par ordinateur était complètement résolue.

Prof. Simon Prince

Mon dernier livre était une tentative ambitieuse de remodeler l'ensemble de la vision par ordinateur en formulant une sélection de méthodes en termes de modèles graphiques probabilistes.

Prof. Simon Prince

En 2010, je suis allé en congé sabbatique à l'Université de Toronto et j'ai travaillé sur ce livre, partageant un bureau avec le post-doctorant de Jeff Hinton.

Prof. Simon Prince

Je l'ai publié en 2012, quelques mois avant la sortie d'AlexNet, et tout le domaine a pris un virage à angle droit. Bien que je pense qu'il soit toujours utile, le domaine a évolué.

Prof. Simon Prince

Ce livre est une description plus directe de l'endroit où nous en sommes avec l'apprentissage profond. C'est le successeur spirituel de Goodfellow, Bengio et Courville, publié en 2016.

Prof. Simon Prince

Il adopte un juste milieu pragmatique entre les preuves théoriques et le code pratique. Il n'y a pas de preuves et pas de code ; il s'agit des idées qui animent l'apprentissage profond.

Motivation and the State of Research

Dr. Tim Scarfe

Simon, quand vous avez commencé à écrire ce livre, quelle était l'idée principale que vous aviez en tête ?

Prof. Simon Prince

L'histoire de l'apprentissage profond est que les expérimentateurs ont largement dépassé la théorie. Nous avons maintenant une augmentation exponentielle du nombre d'articles publiés.

Prof. Simon Prince

Quand Ie dis littéralement, c'est au sens propre. Il y a un graphique dans un article de l'année dernière où, sur une échelle semi-log Y, c'est une ligne droite avec 4 000 articles publiés sur arXiv chaque mois.

Prof. Simon Prince

Évidemment, cela ne peut pas augmenter de manière exponentielle éternellement. Il y a un nombre fini d'humains sur la planète, et ils ne peuvent pas tous faire de la recherche en apprentissage automatique.

Prof. Simon Prince

Il y a une quantité stupéfiante d'informations. Si vous débutez en apprentissage automatique, il est presque impossible de trouver de bonnes ressources. Les gens apprennent sur des blogs écrits par des personnes qui ne savent pas toujours de quoi elles parlent.

Prof. Simon Prince

Il semblait utile de rédiger tout ce qui s'est passé d'important au cours des 10 dernières années en rapport avec l'apprentissage profond avec la même notation, illustré de manière moderne.

Prof. Simon Prince

Je ne commence pas par le perceptron ; je plonge directement dans les réseaux de neurones profonds dès la page 20 du livre pour faire gagner du temps à la communauté.

The Neuron Metaphor and Alchemy

Dr. Tim Scarfe

Pensez-vous que l'apprentissage profond est de l'alchimie ?

Prof. Simon Prince

Non, ce n'est pas de l'alchimie. À l'avenir, nous le considérerons comme la science de la modélisation des fonctions et des distributions de probabilité dans de très hautes dimensions.

Prof. Simon Prince

Pour le moment, nous nous soucions des résultats, mais dans 40 ans, ils regarderont en arrière et diront que dans les années 2010, nous avons étudié comment modéliser des distributions de probabilité dans des dimensions supérieures à 50.

Dr. Tim Scarfe

J'étais ironique sur l'alchimie, mais les gens ont fait des analogies avec les neurosciences et la biologie. Le mot 'neurone' n'apparaît que quatre fois dans votre livre, et deux fois vous conseillez de ne pas l'utiliser.

Prof. Simon Prince

Je vais probablement utiliser 'neurone' par accident parce qu'il est tellement ancré dans notre communauté, mais je pense que c'est une terrible analogie. Rien ne prouve que le cerveau fonctionne de la même manière que les réseaux de neurones profonds.

Prof. Simon Prince

Le cerveau humain possède une mémoire à court terme et des parties modulaires pour les visages ou la navigation. Rien ne prouve que l'apprentissage profond possède quoi que ce soit de cela.

Prof. Simon Prince

De même, rien ne prouve que le cerveau présente les épiphénomènes de l'apprentissage profond, comme la double descente, les exemples adverses ou les tickets de loterie.

Prof. Simon Prince

C'est acceptable pour notre communauté, mais maintenant l'IA devient importante dans le monde réel. Communiquer avec des métaphores comme 'neurones' comporte beaucoup de bagages.

Prof. Simon Prince

Si vous parlez à quelqu'un qui travaille dans un domaine différent et que vous lui demandez comment fonctionne l'IA, il n'en a aucune idée. Je désapprouve la métaphore neuronale car elle implique que les réseaux ont des pensées.

Prof. Simon Prince

C'est profondément trompeur pour les personnes extérieures à notre communauté, et tout ce que nous faisons affecte de plus en plus ces personnes.

Emergence vs. Data Statistics

Dr. Tim Scarfe

Sur le point de l'alchimie, nous traitons maintenant plusieurs niveaux d'émergence. Les gens comprennent l'optimisation de gradient, mais ils ne comprennent pas les phénomènes émergents et se tournent vers des analogies psychologiques.

Prof. Simon Prince

Je ne suis pas tout à fait convaincu qu'il y ait des phénomènes émergents. Pour moi, un phénomène émergent serait un changement de phase où de nouveaux phénomènes apparaissent soudainement avec l'échelle.

Prof. Simon Prince

Je n'ai pas l'impression que nous ayons mené ces expériences de manière approfondie. Les statistiques des données d'internet sont d'une richesse surprenante, permettant la complétion de phrases ou la traduction.

Prof. Simon Prince

Cela reflète les statistiques sur internet. C'est surprenant quand on les met ensemble dans un réseau, mais je vois cela comme une propriété des données plutôt que du réseau.

Dr. Tim Scarfe

Que cela vienne de la richesse des statistiques ou non, nous cherchons des cadres de référence mentaux pour comprendre les phénomènes. La psychologie dispose d'une littérature sur la théorie de l'esprit que nous pouvons utiliser.

Prof. Simon Prince

J'ai une vision réductionniste. Quand je vois un grand modèle de langage, je vois une équation énorme avec des billions de termes. Nous avons réglé les paramètres pour qu'il produise un comportement.

Prof. Simon Prince

C'est une équation. Des entrées arrivent, vous calculez, vous multipliez, et il en sort des nombres qui se traduisent en mots. Je ne pense pas que cela puisse être compris à un niveau plus profond que cela.

Dr. Tim Scarfe

Ne pourriez-vous pas argumenter qu'il n'y a rien de spécial dans nos états mentaux parce que nous effectuons aussi des calculs simples à un certain niveau ?

Prof. Simon Prince

On pourrait argumenter cela, mais il y a plus de structure dans le cerveau humain, avec différents systèmes cérébraux interagissant après avoir évolué au fil du temps. Ce n'est juste une équation.

Internal Models and Cognition

Dr. Tim Scarfe

Quand vous avez cette riche dynamique fonctionnelle de choses interagissant dans le monde physique, vous avez l'émergence d'une capacité d'action. Vous dites que les réseaux de neurones sont loin de cela.

Prof. Simon Prince

Vous posez des questions dont personne ne connaît la réponse. Le seul modèle que nous ayons et qui fonctionne est l'esprit humain, et il semble fonctionner sur des principes différents de la simple échelle.

Prof. Simon Prince

Les grands modèles de langage comme ChatGPT sont ce que nous avons de plus proche du cerveau humain car ils ont une fenêtre de contexte de mémoire à court terme.

Prof. Simon Prince

Il est ironique que nous ne fassions pas référence à cette fenêtre de contexte en termes d'analogie neuronale. En principe, le système pourrait opérer sur ce contexte, le résumer ou générer d'autres hypothèses.

Prof. Simon Prince

Je n'ai lu aucun travail où le système transformeur revient en arrière et modifie son contexte passé, mais ce serait une direction pour rendre le système plus proche de la 'pensée'.

Prof. Simon Prince

Un système purement à propagation avant ne peut rien faire de sophistiqué. Pour atteindre un autre niveau de cognition, vous avez besoin de quelque chose qui construit un modèle interne cohérent de ce qui existe.

Prof. Simon Prince

Reste à voir si cela nécessite une interaction avec le monde réel ou peut être fait purement dans le domaine du langage.

Dr. Tim Scarfe

L'infosphère que nous avons créée est comme un organisme symbiotique qui a des artefacts de connaissances cohérents, mais de nombreux humains soutiennent que la terre est plate.

Prof. Simon Prince

Ils ont une vision interne cohérente selon laquelle le monde est plat. Pour eux, c'est cohérent. Ils expliquent les phénomènes et construisent un modèle qui soutient leur hypothèse.

Prof. Simon Prince

Il n'y a aucun sentiment qu'un transformeur fasse cela. Il prédit juste le mot suivant basé sur des statistiques cohérentes avec sa fenêtre de contexte.

Dr. Tim Scarfe

On pourrait argumenter que nos cerveaux sont aussi très chaotiques, mais nous avons la fabulation et la rationalisation post-hoc pour éviter la dissonance cognitive.

Prof. Simon Prince

Nous avons un nombre fini de visions qui sont des théories du monde partiellement formées. Le grand modèle de langage a tout ce que l'humanité a jamais créé sans autre préférence que la probabilité statistique.

Prof. Simon Prince

Nous essayons de proposer des modèles cohérents du monde car nous devons agir. Il est impossible de faire cela si vous avez 50 000 vues conflictuelles sur le fonctionnement des choses.

Intelligence and AGI

Dr. Tim Scarfe

Hinton dit que ChatGPT est une superintelligence car il sait tout, mais je soutiendrais que nous sommes limités en tant qu'observateurs avec une restriction computationnelle sur ce que nous pouvons comprendre.

Dr. Tim Scarfe

Avec la cognition, ce n'est pas juste savoir, c'est aussi penser. Tout savoir n'est pas la seule pièce.

Prof. Simon Prince

Si vous entraîniez ChatGPT avec des données allant seulement jusqu'au début du 20ème siècle, serait-il capable de reproduire la théorie de la relativité d'Einstein ? Je pense que nous connaissons la réponse.

Prof. Simon Prince

Pour construire cette théorie, vous avez besoin d'un modèle du monde et de la réalisation que le modèle est faux. Vous devez proposer un nouveau modèle qui fait des prédictions vérifiables.

Prof. Simon Prince

Cela se produit aussi à petite échelle, avec vos théories sur le fonctionnement des entreprises ou sur la personnalité d'un ami. Les théories se brisent parfois et vous devez les repenser.

Dr. Tim Scarfe

D'un point de vue computationnel, ce sont des automates à états finis.

Prof. Simon Prince

Toute entité finie ne peut calculer que certaines choses. Il serait intéressant de pouvoir caractériser ce que l'on pourrait calculer avec un certain nombre de paramètres.

Prof. Simon Prince

Nous ne connaissons pas l'espace des fonctions que nous pouvons décrire étant donné un ensemble fixe de paramètres et d'architecture. C'est une surface très compliquée dans un espace multidimensionnel.

Prof. Simon Prince

Il semble très riche, dans la mesure où nous lui donnons presque n'importe quel ensemble de données et qu'avec assez de capacité, il peut l'ajuster.

Dr. Tim Scarfe

La grande discussion entre les connexionnistes et les partisans du symbolisme est de savoir si nous avons besoin d'une quantité infinie de calcul. Les réseaux de neurones suggèrent que dans de nombreux cas, ce n'est pas nécessaire.

Prof. Simon Prince

Y a-t-il des idées que l'esprit humain ne pourrait jamais saisir, ou que nous pouvons saisir mais qu'un réseau de neurones ne peut pas ?

The Efficiency of Neural Networks

Dr. Tim Scarfe

Simon, nous nous sommes maintenant téléportés dans notre studio. Nous étions juste dehors, gelés.

Prof. Simon Prince

Il fait beaucoup plus chaud et c'est moins boueux dans votre studio.

Dr. Tim Scarfe

Simon, nous allons droit au but. J'ai lu votre livre et je pense que nous devrions commencer par les chapitres trois et quatre où vous parlez des réseaux de neurones profonds.

Dr. Tim Scarfe

Il y a un éléphant dans la pièce concernant les réseaux de neurones : pourquoi fonctionnent-ils si bien ? L'efficacité déraisonnable des réseaux de neurones.

Dr. Tim Scarfe

Ils sont incroyablement efficaces, mais c'est un peu un mystère. ImageNet à l'époque aurait été considéré comme un objectif vraiment ambitieux.

Prof. Simon Prince

Richard Szeliski a écrit qu'il s'attendait à ce qu'il faille des années avant que les ordinateurs ne puissent voir aussi bien qu'un enfant de trois ans. ImageNet est une tâche difficile avec un espace de 150 000 dimensions.

Prof. Simon Prince

Il y a environ 10 puissance 150 000 images possibles. Vous devez construire un modèle qui mappe cela vers l'une des mille classes, et vous n'avez qu'un million d'exemples.

Prof. Simon Prince

Si vous ne saviez pas que les humains peuvent accomplir cette tâche, vous pourriez tout simplement abandonner. AlexNet a lancé un programme ambitieux pour construire un modèle avec 60 millions de paramètres.

Prof. Simon Prince

Je conçois les réseaux de neurones comme divisant l'espace d'entrée en polytopes convexes, dont chacun contient une fonction affine.

Prof. Simon Prince

Si l'espace d'entrée est bidimensionnel, il le divise en polygones convexes qui forment une surface continue. Avec 150 000 dimensions d'entrée, le modèle crée une surface compliquée.

Prof. Simon Prince

Les couches entièrement connectées à la fin créeraient des régions bien plus nombreuses que le nombre d'atomes dans l'univers. Presque aucune de ces régions ne verra jamais un point de données d'entraînement.

Prof. Simon Prince

Ajuster l'un des 60 millions de paramètres modifie ces régions de manière indirecte et difficile à caractériser. À cette époque, les problèmes à mille dimensions étaient considérés comme ambitieux.

Prof. Simon Prince

Ils ont utilisé une descente de gradient bruitée pour atteindre le fond car ils ne pouvaient pas utiliser d'informations de second ordre. Cela sonne comme un désastre ; peu auraient prédit que l'on puisse apprendre le modèle.

Prof. Simon Prince

Il y a beaucoup plus de paramètres que de points de données. C'est surparamétré, et peut-être que cela facilite l'ajustement. La surface passe essentiellement par chaque point de données exactement.

Prof. Simon Prince

Entre les points de données, elle avait la latitude de faire ce qu'elle voulait. Nous avons trouvé que le dropout et la régularisation ne sont pas vraiment critiques pour cette généralisation.

Prof. Simon Prince

Nous pouvons apprendre des modèles sans régularisation et ils se généralisent toujours. Ce modèle a été 15 % plus performant que le meilleur suivant. Époustouflant, vraiment.

Spline Theory and Polytopes

Dr. Tim Scarfe

Je suis partisan de l'idée qu'il découpe l'espace ambiant en polyèdres localement affines. Randall Balestriero a proposé cette théorie des splines.

Dr. Tim Scarfe

Il a dit que pour un exemple d'entrée, le réseau de neurones peut être représenté par une seule transformation affine, ce qui donne une intuition des réseaux de neurones comme des casiers de stockage.

Prof. Simon Prince

J'ai écrit ce livre sans connaître cette théorie, mais c'est exactement comme cela que je le décris. Ce n'est vrai que pour les ReLU et les ReLU fuitantes.

Prof. Simon Prince

Dès qu'on commence à parler de fonctions lisses, c'est plus difficile à caractériser. J'aime en discuter en termes de ReLU car le nombre de régions donne une notion de complexité.

Dr. Tim Scarfe

Vous avez les hyperplans qui se déplacent dans l'espace ambiant. Quand vous introduisez une entrée, elle active certains de ces hyperplans et crée une région convexe.

Prof. Simon Prince

Selon les unités cachées qui sont actives ou non.

Dr. Tim Scarfe

Même s'il s'agit de fonctions linéaires par morceaux, elles sont si nombreuses et se chevauchent si densément qu'elles paraissent localement lisses.

Prof. Simon Prince

Eh bien, nous pouvons tracer des chemins unidimensionnels à travers la fonction et elle semble lisse à cause du nombre impressionnant de régions.

Dimensionality and Generalization

Dr. Tim Scarfe

Avant les réseaux de neurones, on parlait de la malédiction de la dimensionnalité — la tendance du volume de l'espace à éclipser la quantité de données à mesure que les dimensions augmentent.

Dr. Tim Scarfe

Quand le volume de l'espace augmente de manière exponentielle, la signification statistique des données d'entraînement tend vers zéro. S'il n'y a pas d'information statistique, comment les réseaux fonctionnent-ils ?

Dr. Tim Scarfe

Pourquoi se généralise-t-il ? Ce qu'il fait entre les points de données est un sous-produit de nos algorithmes. Il fait une interpolation lisse, mais pourquoi est-ce une bonne interpolation, nous ne le savons pas.

Prof. Simon Prince

Cela semble être un sous-produit de la manière dont nous initialisons les réseaux et des algorithmes bruités que nous utilisons pour les entraîner. De petites magnitudes de paramètres correspondent à de faibles pentes.

Prof. Simon Prince

Bien qu'AlexNet ait eu 60 millions de paramètres et 1 million de points d'entraînement, ils ont augmenté leurs données. Il n'est pas totalement évident pour moi que tout soit surparamétré.

Prof. Simon Prince

Ils ont augmenté les données d'un facteur 2 048, ce qui brouille les pistes. Une façon de voir les choses est qu'il y a plus de points de données et que nous ne sommes pas surparamétrés.

Dr. Tim Scarfe

On nous a appris que le rasoir d'Occam signifie que les choses simples se généralisent. Maintenant, nous complexifions les réseaux de manière exponentielle. Pourquoi se généralisent-ils encore ?

Prof. Simon Prince

Les idées précédentes comme la complexité de Rademacher auraient prédit que la généralisation empirerait à mesure que l'on ajoute des paramètres.

Prof. Simon Prince

Plus de régions signifie simplement que vous pouvez modéliser une fonction plus lisse. Pour des choses comme les images, nous pouvons introduire des connaissances préalables en utilisant des réseaux convolutionnels.

Prof. Simon Prince

Nous cherchons dans un sous-ensemble raisonnable de modèles. Mais cela ne me satisfait toujours pas en tant qu'explication de la raison pour laquelle les réseaux se généralisent si bien.

Dr. Tim Scarfe

Les données sont certainement un a priori inductif. Vous pouvez faire de l'augmentation de données ou l'intégrer au réseau comme équivariant ou invariant selon vos besoins.

Dr. Tim Scarfe

Dans un monde idéal, vous n'auriez besoin que d'un seul exemple étiqueté car le réseau comprendrait toutes les transformations. Cela ne fonctionne pas.

Dr. Tim Scarfe

Il y a un juste milieu entre un MLP qui ne sait rien et l'introduction de connaissances du domaine sur la façon dont les choses peuvent être transformées.

Dr. Tim Scarfe

L'hypothèse de la variété est l'idée qu'il y a un certain sous-espace dans les données sur lequel le réseau peut concentrer son attention.

Prof. Simon Prince

Dans certains cas, on peut décrire ce sous-espace. Si vous filmez le visage de quelqu'un à partir d'un point de vue fixe, seuls 42 muscles peuvent bouger.

Prof. Simon Prince

Les images réelles ne sont pas n'importe quelles images. Sélectionnez des pixels au hasard et voyez combien de fois vous devez le faire avant d'obtenir quelque chose qui ne ressemble pas à du bruit.

Prof. Simon Prince

Nous ne connaissons pas la taille de cette variété, bien qu'elle soit liée à la mesure dans laquelle on peut compresser les images. Les modèles de diffusion ne sont pas si grands, mais peuvent générer un éventail incroyable d'images.

Prof. Simon Prince

Une bonne partie de la variété des images peut être stockée sur un disque dur, suggérant que l'espace des images naturelles n'est pas si vaste en réalité.

Universal Approximation and Depth

Dr. Tim Scarfe

La théorie de l'approximation universelle dit qu'avec un nombre infini de neurones, on peut approximer une fonction à une précision arbitraire.

Prof. Simon Prince

Il est important de savoir qu'on peut représenter n'importe quelle fonction. Ce qui est intéressant, c'est que pour construire quoi que ce soit qui fonctionne, nous avons besoin de 10 à 12 couches.

Prof. Simon Prince

Il y a différentes théories sur la raison pour laquelle nous aurions besoin d'un réseau profond étant donné que le théorème d'approximation universelle dit qu'un réseau peu profond peut tout modéliser.

Dr. Tim Scarfe

Placer des fonctions de base sur une seule couche est presque antithétique à la généralisation ; c'est de la mémorisation par définition. La profondeur replie progressivement ces régions affines.

Prof. Simon Prince

Une façon partielle d'y penser est que le premier réseau plie et reproduit le second réseau. Une autre façon est que vous créez des fonctions de base de plus en plus compliquées.

Prof. Simon Prince

Une façon souligne la symétrie et le pliage, et une autre souligne le découpage et la création de plus de jointures. Il est difficile d'avoir une image complète de ce qu'il fait exactement.

Prof. Simon Prince

Il y a une relation compliquée entre la manipulation d'un paramètre et toute la surface qui ressort à l'autre bout.

Dr. Tim Scarfe

En passant par des couches successives, vous pouvez recomposer les neurones précédents. Cette interprétation topologique suggère que le réseau de neurones a une structure définie par les premières couches.

Prof. Simon Prince

C'est contraint en termes d'information. Si vous perdez de l'information au début, elle ne peut pas être récupérée.

Dr. Tim Scarfe

Très tôt, ces fonctions de base initiales font des coupes dans l'espace. La complexification se produit à l'intérieur de ces régions, et elle s'ancre dans ce qu'elle fait.

Prof. Simon Prince

Peut-être qu'il replie des morceaux de l'espace sur lui-même et les traite de manière similaire, ce qui pourrait être la façon dont il exploite les régularités des données.

Prof. Simon Prince

Les premières couches définissent comment les miroitements et réflexions se produiront dans les couches ultérieures. Les couches ultérieures définissent la structure, et les premières couches la reflètent dans le reste de l'espace.

Training Dynamics and Forgetting

Dr. Tim Scarfe

Si vous prenez GPT et commencez à l'affiner sur du bruit, oublierait-il très vite tout ce qu'il a appris ou refuserait-il de bouger ?

Prof. Simon Prince

Cela dépend du taux d'apprentissage. Les modèles transformeurs ne s'entraînent généralement pas jusqu'à une erreur d'entraînement nulle ; ils font quelques passages sur les données et s'arrêtent.

Prof. Simon Prince

Il se souvient probablement plus de ce qu'il a vu récemment que de ce qu'il a vu il y a mille milliards de jetons. Ajouter du bruit change la surface de perte et vous descendez depuis le minimum global.

Prof. Simon Prince

La rapidité avec laquelle il oubliera dépend du taux d'apprentissage et de la nouvelle forme de la fonction de perte. Je ne sais pas si on peut dire quoi que ce soit de définitif là-dessus.

Feature Visualization and Overparameterization

Dr. Tim Scarfe

Les réseaux de vision ont des filtres de Gabor ancrés dans les premières couches. Après un moment, le réseau de neurones ne voit le monde qu'en termes de ses fonctions de base.

Prof. Simon Prince

Ce que les gens veulent dire par là, c'est que ce neurone a une activation élevée pour ce genre de chose. Dans une certaine mesure, c'est trivial. Le réseau à ce stade ne voit qu'un petit patch.

Prof. Simon Prince

Il va réagir de manière complexe à plein de choses différentes. Vous essayez de caractériser un polytope multidimensionnel compliqué par un point qui ressemble à un filtre de Gabor.

Prof. Simon Prince

En réalité, c'est une forme incroyablement compliquée dans un espace de 150 000 dimensions. Je n'aime pas l'idée qu'on puisse caractériser cette forme par ce seul point.

Dr. Tim Scarfe

La surparamétrisation aide pour la descente de gradient stochastique, mais devons-nous mémoriser tout ça ou pourrions-nous l'élaguer pour l'inférence ?

Prof. Simon Prince

Cela rend les choses plus faciles. Terry Sejnowski dit que cela revient à passer de la recherche d'une aiguille dans une botte de foin à la recherche d'une botte de foin composée d'aiguilles.

Prof. Simon Prince

On finit avec une surface de perte où il y a une partie de très haute dimension qui est le minimum global, qui correspond parfaitement à vos données.

Dr. Tim Scarfe

J'ai le sentiment qu'il y a un biais de modèle inhérent : des astuces font que le réseau se concentre sur les modes des données où se trouve la majeure partie de la variance. Les attributs de basse fréquence sont ignorés.

Prof. Simon Prince

Au final, ces choses sont assez stupides et ne peuvent rien faire d'autre qu'interpoler en douceur. Je préfère interpoler entre de vrais points de données que de les rater.

Dr. Tim Scarfe

Nous optimisons sur la précision, et le réseau de neurones apprend qu'il vaut mieux ne pas s'embêter à apprendre un cas rare que de se tromper tout le temps.

Prof. Simon Prince

Il apprend bien la 'longue traîne' des données pour la plupart des ensembles de données, car la perte devient presque nulle. Pour la classification, vous essayez de pousser softmax à l'infini, donc on n'y arrive jamais.

Dr. Tim Scarfe

Même si le réseau les connaît dans l'ensemble d'entraînement, elles n'auraient jamais de pouvoir statistique.

Dr. Tim Scarfe

Il est difficile avec un seul objectif d'entraînement d'avoir à la fois une haute précision et une grande équité.

Prof. Simon Prince

Les zones représentant des minorités peuvent avoir peu de points de données d'entraînement. Peut-être n'y a-t-il pas assez de régularité statistique dans les données fournies pour qu'il puisse généraliser.

Learning vs. Generalization

Prof. Simon Prince

Nous avons appris pas mal de choses sur ce qui affecte l'apprentissage par rapport à la généralisation. Étonnamment, l'ensemble de données n'affecte pas tant que ça l'apprentissage.

Prof. Simon Prince

On peut perturber les étiquettes ou mélanger les pixels, et le réseau apprendra toujours bien les données d'entraînement. Il y a des choses qu'on serait surpris qu'il puisse apprendre.

Dr. Tim Scarfe

Dans votre livre, une courbe représente la mémorisation d'informations aléatoires et l'autre les données réelles. La distance horizontale est l'écart de généralisation.

Prof. Simon Prince

C'est tiré de Zhang et al. (2017). Cela montre qu'on peut perturber ces étiquettes et qu'il apprend toujours parfaitement, mais plus lentement. Il y a des régularités dans les données réelles.

Prof. Simon Prince

La surface s'ajuste à travers plusieurs points de données et doit se contorsionner davantage pour s'ajuster à des données aléatoires. Cela montre la flexibilité du modèle ; on peut lui donner n'importe quelle donnée et il s'ajustera.

Prof. Simon Prince

Le temps de convergence dépend de l'initialisation des paramètres. Nous initialisons à certaines variances pour éviter les gradients qui explosent ou s'évanouissent.

Prof. Simon Prince

La magnitude des paramètres détermine le temps d'entraînement et la généralisation. Si les paramètres sont petits, cela fait des fonctions plates. S'ils sont énormes, il y a de grands changements brusques.

Prof. Simon Prince

C'est plus long si on n'initialise pas les paramètres correctement. Pour la généralisation, on veut qu'il interpole en douceur sans valeurs de paramètres variant sauvagement.

Grokking and Visualization

Prof. Simon Prince

En termes de généralisation, il y a un phénomène appelé grokking.

Dr. Tim Scarfe

J'ai reçu Neel Nanda. Neel a dit que le grokking est un peu une illusion. Une partie de la raison pour laquelle on peut amener la surface de perte à être lisse réside dans les données naturelles.

Prof. Simon Prince

On peut avoir des cas où il s'ajuste parfaitement aux données au début, mais met ensuite un temps fou à généraliser. Cela arrive quand on règle mal la magnitude des paramètres.

Prof. Simon Prince

Il s'ajuste correctement aux données, mais varie entre les points. Une caractéristique de la descente de gradient stochastique fait que la solution traverse la surface de perte jusqu'à devenir plus lisse.

Prof. Simon Prince

Le moyen le plus simple d'ajuster certaines données peut être avec une fonction compliquée. Il faut beaucoup de régularisation pour arriver à quelque chose de sensé. Les ensembles de données typiques finissent avec une surface plus lisse.

Dr. Tim Scarfe

Le grokking a été une surprise. On masse la surface de perte et on peut prédire l'entraînement requis, comme OpenAI pouvait prédire le niveau de perplexité de GPT-4.

Prof. Simon Prince

L'article OmniGrok dit que le temps est prévisible car les magnitudes des poids diminuent progressivement jusqu'à entrer dans la 'zone Goldilocks' où les choses se généralisent bien.

Dr. Tim Scarfe

Le livre fait un effort énorme pour visualiser les choses en basses dimensions.

Prof. Simon Prince

J'ai trois façons de tout comprendre : descriptions textuelles, équations et images. Relier ces trois éléments mène à une compréhension plus profonde.

Prof. Simon Prince

Des idées comme les modèles de diffusion peuvent être dessinées en une ou deux dimensions pour transmettre efficacement des concepts de façon non technique. L'espace multidimensionnel ne fonctionne pas comme on s'y attend.

Prof. Simon Prince

Si on prend deux points aléatoires gaussiens, en 100 dimensions ils sont presque certainement orthogonaux. Dans une orange multidimensionnelle, toute la surface est dans la peau.

Prof. Simon Prince

À mesure que les dimensions augmentent, la proportion d'espace occupée par une hypersphère dans un hypercube devient nulle. Je dessine en 2D, mais il faut être prudent.

Prof. Simon Prince

Il n'est pas nécessaire de travailler dans des espaces à très haute dimension pour voir les phénomènes de l'apprentissage profond. MNIST-1D est un ensemble plus simple de données en 40 dimensions.

Prof. Simon Prince

L'article de Sam Greydanus 'Scaling Down Deep Learning' va totalement à contre-courant de la tendance actuelle à tout passer à l'échelle massivement.

Prof. Simon Prince

Même si ce n'est qu'en 40 dimensions, on voit la plupart des phénomènes : exemples adverses, tickets de loterie et double descente.

Prof. Simon Prince

On peut l'exécuter dans une fenêtre Python sur le CPU. Les expériences géantes construisent maintenant des choses proches de la complexité de l'esprit humain.

Prof. Simon Prince

Pour comprendre ça, vous collectez un ensemble de données aussi complet que possible et essayez de proposer une théorie qui l'explique. Quand est-ce entraînable ou généralisable ?

Prof. Simon Prince

Avec un ensemble plus simple, on pourrait entraîner plein de réseaux pour voir quelles statistiques les font généraliser. C'est un banc d'essai qui n'est pas utilisé du tout.

Prof. Simon Prince

On ne peut pas publier un article sans obtenir l'état de l'art sur un ensemble énorme avec des millions d'exemples.

Batch Normalization and Scientific Rigor

Dr. Tim Scarfe

Nous allions parler de l'alchimie de l'apprentissage profond, car nous n'avons pas vraiment de théories globales. Il y a des choses comme le NTK et la théorie des splines, mais pas grand-chose d'autre.

Prof. Simon Prince

Une fois les paramètres ajustés dans les couches ultérieures, les changements dans les couches précédentes n'ont plus de sens. Des expériences ont montré qu'introduire un décalage de covariable n'aide pas.

Prof. Simon Prince

La normalisation par lots réinitialise la variance et stoppe l'explosion des gradients. Elle a trouvé un usage, mais il y a d'autres moyens de résoudre ce problème sans statistiques de lot.

Prof. Simon Prince

Elle a un effet de régularisation car le lot change à chaque fois. Elle peut aussi laisser fuiter des informations entre les données à cause de la variance du lot.

Prof. Simon Prince

C'est pourquoi on ne l'utilise pas dans les transformeurs avec attention masquée. Le but est que les mots n'accèdent pas aux données plus loin. Ils utilisent la normalisation de couche à la place.

Prof. Simon Prince

La normalisation par lots a été introduite pour une raison et adaptée pour une autre car elle a cet effet de régularisation indirect.

Dr. Tim Scarfe

Avec le temps, on semble moins compter sur ces astuces et plus sur les gros modèles et les données. Les études d'ablation montrent souvent que ces choses n'étaient pas nécessaires.

Prof. Simon Prince

Il devrait y avoir une tendance à simplifier. Un article de 2020 a analysé les modifs des transformeurs et a trouvé que presque aucune ne fait de différence. C'est lié à notre obsession pour l'état de l'art.

Prof. Simon Prince

On essaie tout ça sans vérifier si l'activation était critique car l'échéance de NeurIPS est dans deux jours. Personne ne revient examiner ces choses.

Prof. Simon Prince

Les transformeurs étaient durs à entraîner et demandaient un préchauffage du taux d'apprentissage. Je ne sais pas si l'entraînement de pointe pour les très gros modèles a éliminé ces complexités.

Dr. Tim Scarfe

C'est lié à la 'descente par étudiant diplômé'. Hinton aimait l'apprentissage contrastif, alors que LeCun chez FAIR a lancé les approches non contrastives. Ce sont des variations techniques mineures.

Prof. Simon Prince

C'est intéressant ce qu'on considère comme des résultats dans une conférence scientifique. On ne valorise pas forcément la compréhension. Grignoter 0,1 % sur un benchmark est souvent juste de la chance.

Prof. Simon Prince

Un article soutenait que les ConvNets font aussi bien que les transformeurs de vision sur ImageNet. C'est juste que personne ne les a pré-entraînés avec une base géante auparavant.

Prof. Simon Prince

On ne peut pas faire confiance à la conclusion scientifique que les transformeurs de vision sont meilleurs sans expérience comparable. Nous ne sommes pas très scientifiques ; nous sommes formés comme des ingénieurs.

Prof. Simon Prince

Les gens avancent des trucs et disent avoir inventé une méthode, mais ils ont changé sept choses et ce n'est pas la méthode qui a fait le gain. On est meilleurs grâce aux études d'ablation.

Dr. Tim Scarfe

Même avec des études d'ablation, c'est cher et seuls les gros joueurs peuvent jouer. Le succès d'OpenAI vient juste d'avoir autant de données.

Dr. Tim Scarfe

Ils ont bâti le prochain Google en aspirant toutes les données. On sous-estime la valeur des données des utilisateurs de ChatGPT.

Prof. Simon Prince

L'ingénierie de ChatGPT à cette échelle est dure, mais les articles ne sont pas satisfaisants intellectuellement. Ajouter des données continue de scaler, ce qu'on n'aurait pas prédit.

Prof. Simon Prince

La quantité de données sera la limite. On peut avoir la plupart des phénomènes en 40 dimensions. Si vous voulez essayer une idée, testez-la sur MNIST-1D.

GPT and the Extended Mind

Dr. Tim Scarfe

GPT a franchi la vallée de l'étrange. Les gens le psychologisent, mais il y a plus que la récupération d'infos. C'est un outil de recherche remarquable.

Prof. Simon Prince

D'une certaine façon, c'est vous l'intelligence ici. C'est ce que vous demandez qui est intéressant, pas comment il répond.

Dr. Tim Scarfe

En mode autonome comme AutoGPT, la magie disparaît. On est dupé par le hasard. C'est ce que David Chalmers appelait un 'esprit étendu'.

Prof. Simon Prince

Je pense que vous en avez une meilleure opinion que moi. Mes tests n'ont pas été super concluants. Il sait ce que les informaticiens savent car ils écrivent sur le web.

Prof. Simon Prince

Sur les algorithmes de recherche, il sait. Mais aux limites de ses données, il hallucine. Il a captivé l'imagination du public.

Prof. Simon Prince

Mes amis hors IA ont des avis tranchés et faux, et ne me demandent pas, à moi l'expert. Les gens ont leurs propres théories.

Superintelligence and AGI Realities

Dr. Tim Scarfe

Sutskever et Hinton disent que ça mènera à la superintelligence. Mais on sait qu'on interpole une variété de données avec un calcul fixe. Comment serait-il superintelligent ?

Prof. Simon Prince

Il n'a aucun moyen d'apprendre du neuf sauf son contexte, qu'il oublie. Même avec des déductions logiques sur ce contexte, il ne peut pas s'en souvenir.

Prof. Simon Prince

Il nous manque des pièces. Je ne vois pas la superintelligence pour demain.

Dr. Tim Scarfe

Je n'aime pas ce mot, mais parlons d'AGI. C'est pour quand ?

Dr. Tim Scarfe

Ces gens pensent qu'il existe une intelligence pure. S'il a appris une variété de données, elle est située dans ce qu'on a produit.

Dr. Tim Scarfe

Tout est réduit en représentation de données. C'est non interactif et non réflexif. C'est un système de recherche d'infos intégré à notre processus cognitif.

Prof. Simon Prince

Je n'aime pas le mot intelligence ; capacité est mieux. Il peut vous donner l'histoire de l'épigénétique de tête, ce que je ne saurais pas faire.

Prof. Simon Prince

Il vaudrait mieux parler de capacités. On peut dire s'il sait faire telle tâche. L'AGI veut dire qu'il peut faire une grosse partie d'un large ensemble de tâches. C'est mesurable.

Dr. Tim Scarfe

L'intelligence est un phénomène complexe hors de notre horizon. Je n'aime pas l'interprétation comportementale car GPT ne fait rien.

Dr. Tim Scarfe

Les processus cognitifs sont externes et physiques ; on met en œuvre un processus en l'utilisant. L'artefact n'a aucune capacité mesurable seul.

Prof. Simon Prince

Je ne suis pas d'accord pour dire que GPT ne fait rien.

Dr. Tim Scarfe

C'est un argument ésotérique. On pourrait dire que le sens d'un ordi d'échecs est dans son usage, donc il ne fait rien seul.

Prof. Simon Prince

Donnez un exemple de quelque chose qui fait quelque chose.

Dr. Tim Scarfe

On fait de la plongée ; on fait des choses. Peut-être suis-je chauvin, mais je valide son intégration cognitive. GPT fait des trucs, mais pas super bien.

Dr. Tim Scarfe

Comme une chatière. On peut lui faire faire des trucs, mais il n'a pas de capacité d'action. C'est lutter avec la complexité de son environnement.

Prof. Simon Prince

Et l'apprentissage par renforcement ? Un agent explore et résout des problèmes pour des récompenses. Ce n'est pas faire quelque chose ?

Dr. Tim Scarfe

Pas si différent de la chatière. La capacité d'action décrit une dynamique de planification. En RL, quelqu'un a conçu la fonction de récompense.

Ethics: Near-term Risks and Responsibility

Dr. Tim Scarfe

Votre dernier chapitre traite de l'éthique. Il y a un contraste entre sécurité à court et long terme. Je crains que le mot 'sécurité' ne soit galvaudé.

Dr. Tim Scarfe

Vous vous focalisez sur les risques proches : biais, désinformation, équité. Parlez-nous en.

Prof. Simon Prince

Co-écrit avec Travis LaCroix. Je ne me sentais pas capable d'écrire ça seul, mais on m'a encouragé.

Prof. Simon Prince

Travis apporte un bagage philosophique. On a traité le biais, l'explicabilité, la capacité d'action morale et l'alignement. La conclusion appelle les scientifiques à la responsabilité.

Prof. Simon Prince

Tout est chargé de valeurs. Juger les articles seulement sur l'état de l'art est une valeur.

Prof. Simon Prince

Le livre finit en demandant de réfléchir aux impacts. On peut choisir son employeur ou ses problèmes.

Prof. Simon Prince

Je veux séparer ça de mes vues sur les risques de l'IA. Le livre traite des problèmes proches comme le biais car ils sont concrets.

Prof. Simon Prince

Il y a des soucis partout. Je ne suis pas d'accord pour se focaliser sur un seul truc au détriment du reste.

Prof. Simon Prince

Les long-termistes se sapent en étant incohérents : ils disent de ne pas anthropomorphiser, puis qu'il voudra nous arrêter. Gros sous-entendus.

Prof. Simon Prince

Souvent on dit qu'il aura un libre arbitre. Je n'entre pas là-dedans, mais ça n'empêche pas de s'inquiéter.

Prof. Simon Prince

Biais et explicabilité sont clés. Je suis pessimiste sur l'explicabilité. On va supprimer plein d'emplois.

Prof. Simon Prince

Pas qu'il n'y aura plus de radiologues. Un seul fera le job de vingt. Gmail finit vos mails, donc on a besoin de 1 % de gens en moins.

Prof. Simon Prince

ChatGPT et DALL-E 3 réduiront les effectifs. McKinsey a estimé 800 millions de chômeurs en 2030.

Prof. Simon Prince

La perte de statut cause des troubles. On étudie longtemps pour être avocat ou médecin et on en a moins besoin. Ça va trop vite pour que la société s'adapte.

Automation and Human Agency

Dr. Tim Scarfe

Je doute sur le remplacement car on surestime la technologie. Copilot aide les développeurs mais ne les remplace pas.

Prof. Simon Prince

La syntaxe n'est pas le plus dur ; c'est l'organisation.

Dr. Tim Scarfe

Les risques d'équité et de biais sont n°1. Les systèmes de recommandation virent les humains pour fuir les responsabilités, créant des horreurs.

Prof. Simon Prince

Le dialogue oppose toujours biais et chômage. Il faut parler des deux.

Prof. Simon Prince

Je veux élargir le débat. On ne parle pas assez du chômage. Si on est plus efficace, on n'embauche plus de designers.

Prof. Simon Prince

Il faudra du temps pour trouver d'autres besoins. Les gouvernements pourraient freiner en responsabilisant les entreprises.

Prof. Simon Prince

Si je donne la recette du gaz nerveux, je suis complice. Si ChatGPT le fait, OpenAI décline toute responsabilité. Les rendre responsables ralentirait tout.

Dr. Tim Scarfe

L'ordre de Biden veut examiner les modèles. Distinguons diffusion des savoirs et capacité d'action.

Prof. Simon Prince

Les calculatrices ont remplacé les calculateurs humains.

Dr. Tim Scarfe

L'automatisation de notre capacité d'action m'inquiète. Si GPT tournait seul sans humain, ce serait un problème.

Prof. Simon Prince

Risque de dé-qualification. Si la voiture conduit seule, vous perdez l'habitude. En cas d'urgence, vous ne serez pas prêt.

Prof. Simon Prince

Un crash d'Air France est arrivé comme ça : pilote auto coupé, pilotes sans expérience manuelle. On cède nos compétences.

Dr. Tim Scarfe

L'affaiblissement est un gros souci. La pente glissante est d'éroder le libre arbitre et de faire des gens des automates.

Prof. Simon Prince

C'est une position luddite de vouloir les garder occupés au lieu de les libérer.

Prof. Simon Prince

L'humain est fait pour travailler et être fier de ce qu'il fait. Retraités, ils se sentent seuls si le job les définissait.

Prof. Simon Prince

On y va. Les autodidactes s'en sortiront, mais pas la majorité.

The AGI Button Experiment

Dr. Tim Scarfe

J'adorerais. Mon rêve n°1.

Dr. Tim Scarfe

C'est paternaliste. On veut garder le statu quo ?

Prof. Simon Prince

Vous suggérez une expérience de chaos pour que la société se réorganise.

Dr. Tim Scarfe

C'est le cœur du risque long-terme. Laisse-t-on faire ou empêche-t-on ?

Prof. Simon Prince

Test : un interrupteur crée l'AGI parfaite. Tim 2.0 peut produire à la vitesse de ChatGPT-4 et communiquer instantanément.

Prof. Simon Prince

La technologie sera attribuée au hasard à une grande entreprise tech ou à une puissance nucléaire. Actionneriez-vous le bouton sachant qu'ils feront 100 000 Tims ?

Dr. Tim Scarfe

On ne prédit pas l'avenir, et l'enfer est pavé de bonnes intentions. Les intuitions morales sont souvent fausses. Ça pourrait être bien.

Prof. Simon Prince

L'intuition dit non. Chez OpenAI ou DeepMind, vous bougez ce bouton un peu chaque jour.

Prof. Simon Prince

Responsabilité diffuse, mais vous poussez vers le milieu. Si la réponse est non, peut-être faut-il changer de boîte.

Dr. Tim Scarfe

Bref, Professeur Prince, ce fut un honneur.

Prof. Simon Prince

Une joie de discuter. J'ai appris de vos podcasts et j'attends les prochains.

Dr. Tim Scarfe

Merci de nous avoir rejoints.

Retour aux entretiens de Prof. Simon Prince