Understanding Deep Learning with Prof. Simon Prince
26 décembre 2023
Artificial Intelligence
Introduction to Understanding Deep Learning
Ce livre s'intitule Understanding Deep Learning pour le distinguer d'autres ouvrages plus pratiques axés sur le codage.
Ce livre traite exclusivement des idées qui sous-tendent l'apprentissage profond.
Après avoir lu ce livre, vous serez en mesure d'appliquer l'apprentissage profond à des situations inédites pour lesquelles il n'existe pas de recette de succès établie.
Le livre commence par décrire les réseaux de neurones profonds et vous guide à travers le processus d'entraînement et de test, ainsi que sur la manière d'améliorer leurs performances.
Ensuite, il aborde différentes architectures : réseaux convolutionnels, réseaux résiduels, réseaux de neurones graphiques et transformeurs.
Il y a une longue section sur les modèles génératifs, les flux de normalisation, les VAE, les GAN et les modèles de diffusion, et une courte section sur l'apprentissage par renforcement.
À la fin, il y a deux chapitres vraiment intéressants. Il y a un chapitre intitulé 'Pourquoi les réseaux de neurones profonds fonctionnent-ils ?' où j'interroge pourquoi nous avons besoin de cette architecture particulière, pourquoi elle est facile à entraîner et pourquoi elle se généralise.
Nous n'avons pas vraiment de réponses à ces questions, mais je présente les preuves existantes. Le dernier chapitre porte sur l'éthique.
Je pense que le livre sera utile si vous ne connaissez rien du tout à l'apprentissage profond. Il vous emmènera de zéro à un niveau proche de la pointe de la recherche.
Si vous enseignez l'apprentissage profond, ce sera une ressource utile. Il contient 275 figures, dont la plupart sont nouvelles et représentent les choses de différentes manières.
Il propose également des notebooks Python. Si vous êtes un praticien ou un chercheur en apprentissage automatique, il comblera les lacunes de vos connaissances et vous fera réfléchir aux choses différemment.
Je pense que même ma description initiale des réseaux de neurones profonds est un peu différente de la manière dont ils sont habituellement décrits. Je pense que vous apprendrez beaucoup car j'ai beaucoup appris en l'écrivant, donc je suppose que vous apprendrez quelque chose aussi.
Si vous vous appelez Geoff Hinton ou Jürgen Schmidhuber, il se peut que cela ne vous soit pas très utile.
Eh bien, on ne sait jamais.
The Mystery of Generalization
Le titre est un peu ironique car, au moment où j'écris, personne ne comprend comment fonctionnent les modèles d'apprentissage profond. Littéralement personne.
Les modèles d'apprentissage profond apprennent des fonctions linéaires par morceaux. Comme vous le saurez grâce à notre épisode sur la théorie des splines de l'apprentissage profond, ils découpent l'espace d'entrée en de nombreuses petites régions.
En fait, la plupart des modèles ont plus de régions qu'il n'y a d'atomes dans l'univers. Franchement, c'est un mystère.
Comment ces modèles se généralisent-ils ? Et comment apprennent-ils ces fonctions ? Personne ne le sait.
Alors pourquoi l'apprentissage profond fonctionne-t-il ? Il est remarquable que l'algorithme d'ajustement ne reste pas piégé dans des minima locaux ou bloqué près de points selles et qu'il puisse recruter efficacement la capacité excédentaire du modèle pour ajuster des données d'entraînement inexpliquées.
Ce succès est peut-être moins surprenant lorsqu'il y a beaucoup plus de paramètres que de données d'entraînement. Cependant, il est discutable de savoir si c'est généralement le cas.
AlexNet avait 60 millions de paramètres et a été entraîné avec 1 million de points de données. Cependant, chaque exemple d'entraînement a été augmenté de 2 048 transformations.
GPT-3 avait 175 milliards de paramètres et a été entraîné sur 300 milliards de jetons. Il n'est pas évident que l'un ou l'autre modèle ait été surparamétré, et pourtant ils ont été entraînés avec succès.
Il est surprenant que nous puissions ajuster des réseaux profonds de manière fiable et efficace. Soit les données, soit les modèles, soit les algorithmes d'entraînement, soit une combinaison des trois doivent posséder des propriétés spéciales qui rendent cela possible.
L'ajustement efficace des modèles d'apprentissage profond est saisissant et leur généralisation est stupéfiante.
Premièrement, il n'est pas évident a priori que des ensembles de données typiques soient suffisants pour caractériser la cartographie entrée-sortie. Deuxièmement, les réseaux profonds décrivent des fonctions très compliquées.
Troisièmement, la généralisation s'améliore avec plus de paramètres. Cet excès de paramètres donne au modèle la latitude de faire presque n'importe quoi entre les données d'entraînement, et pourtant il se comporte de manière sensée.
Il n'est ni évident que nous devrions être capables d'ajuster des réseaux profonds, ni qu'ils devraient se généraliser. A priori, l'apprentissage profond ne devrait pas fonctionner et pourtant il fonctionne.
Le succès de l'apprentissage profond est surprenant. Dans son livre, le professeur Prince discute des défis de l'optimisation des fonctions de perte de haute dimension et soutient que la surparamétrisation et le choix de la fonction d'activation rendent cela gérable dans les réseaux profonds.
Il a montré que pendant l'entraînement, les paramètres se déplacent à travers un sous-espace de faible dimension vers une famille de minima globaux connectés et que les minima locaux ne sont pas apparents.
À mesure que nous surparamétrons ces modèles, la généralisation augmente, mais elle est également liée à des choses comme la platitude du minimum et les a priori inductifs.
Il semble qu'un grand nombre de paramètres et plusieurs couches de réseau soient nécessaires pour une bonne généralisation, bien que nous ne sachions pas encore pourquoi.
De nombreuses questions restent sans réponse. Nous n'avons actuellement aucune théorie prescriptive qui nous permette de prédire les circonstances dans lesquelles l'entraînement et la généralisation réussiront ou échoueront.
Nous ne connaissons pas les limites de l'apprentissage dans les réseaux profonds ni si des modèles beaucoup plus efficaces sont possibles. Nous ne savons pas s'il existe des paramètres qui se généraliseraient mieux au sein du même modèle.
L'étude de l'apprentissage profond est souvent guidée par des démonstrations empiriques. Simon concède que celles-ci correspondent de manière impressionnante à notre compréhension des mécanismes de l'apprentissage profond.
Ethics and Social Implications
Concernant l'éthique, Simon a déclaré qu'il serait irresponsable d'écrire ce livre sans discuter des implications éthiques de l'IA. Cette technologie changera le monde de manière similaire à l'électricité, au moteur à combustion interne ou à l'internet.
Les avantages potentiels dans la santé, le design, les transports et le commerce sont énormes. Cependant, les scientifiques sont souvent d'un optimisme irréaliste quant à leur travail, et le potentiel de préjudice est tout aussi grand.
Simon soutient que quiconque étudie l'IA devrait réfléchir à la mesure dans laquelle les scientifiques sont responsables des utilisations de leur technologie.
Il a déclaré que nous devrions considérer que le capitalisme stimule principalement le développement de l'IA et que les avancées juridiques pour le bien social risquent d'être considérablement à la traîne.
Nous devrions réfléchir à la question de savoir s'il est possible pour les scientifiques de contrôler les progrès dans ce domaine et de réduire le potentiel de préjudice.
Nous devrions réfléchir au type d'organisations pour lesquelles nous sommes prêts à travailler et au sérieux de leur engagement à réduire les préjudices potentiels de l'IA.
Font-elles simplement du 'blanchiment éthique' pour réduire le risque réputationnel ou mettent-elles réellement en œuvre des mécanismes pour arrêter des projets éthiquement suspects ?
Simon invite les lecteurs à approfondir ces questions. L'IA changera radicalement la société pour le meilleur ou pour le pire.
Les visions optimistes d'une société utopique portée par l'IA devraient être accueillies avec prudence et réflexion critique.
Le livre cite Green (2019), qui a souligné que des projets comme l'amélioration de la responsabilité de la police et le maintien de l'ordre prédictif sont tous deux présentés comme de 'l'IA pour le bien social'.
L'attribution de ce label est un jugement de valeur qui manque de principes fondateurs. Le bien d'une communauté est le mal d'une autre.
L'IA éthique est un problème d'action collective, et le chapitre se conclut par un appel aux scientifiques à considérer les implications morales de leur travail.
Toutes les questions éthiques ne sont pas sous le contrôle de chaque individu, mais cela ne signifie pas que les chercheurs n'ont aucune responsabilité pour atténuer le détournement potentiel des systèmes qu'ils créent.
Agency and Cognition
Nous faisons de la plongée sous-marine ; nous faisons réellement des choses. Peut-être que je suis juste un chauvin humain, mais je suis tout à fait d'accord pour que cela s'intègre dans notre écosystème cognitif.
GPT fait des choses. Pas très bien, mais il les fait.
Vraiment ? Je ne sais pas s'il fait quelque chose. Comme une chatière, on peut lui faire faire des choses, il peut exécuter du code, mais je ne dirais pas qu'il a une capacité d'action.
MLST Introduction and Guest Bio
Bonjour à tous. C'est Tim de MLST, votre chaîne et podcast de référence pour tout ce qui concerne l'apprentissage automatique, l'IA et la philosophie.
Créer du contenu pour MLST prend un temps considérable. C'est un travail de passion que je fais pour le plaisir et l'intérêt du sujet.
Mais pour continuer à vous proposer du contenu de haute qualité, j'ai besoin de votre soutien. Veuillez envisager de nous soutenir sur Patreon. Chaque geste compte.
Si vous n'en avez pas les moyens, faites-le moi savoir et je vous donnerai un accès gratuit aux avantages de Patreon. Sans poser de questions. Merci beaucoup pour votre temps.
Simon, c'est un honneur absolu de vous rencontrer. Bienvenue sur Machine Learning Street Talk.
Je suis très heureux d'être ici.
Parlez-nous de vous.
J'ai commencé ma carrière en psychologie. Mon doctorat est en psychologie, puis j'ai parcouru diverses parties de la science. J'ai travaillé en neurosciences, en réalité augmentée et en imagerie médicale.
Dans les années 2000, j'étais professeur à l'UCL et je travaillais sur la vision par ordinateur, et je suis probablement plus connu pour un livre que j'ai écrit à cette époque.
Au cours de la dernière décennie, j'ai principalement travaillé dans l'industrie, dans la finance et l'informatique graphique. Je suis actuellement professeur à l'Université de Bath où j'ai travaillé sur un nouveau livre, 'Understanding Deep Learning', publié par MIT Press.
The Shift to Deep Learning (AlexNet)
Simon, nous plaisantions avant sur le fait que pour votre dernier livre, vous vous êtes fait 'Uberiser'. Vous écriviez un livre sur la vision par ordinateur et les modèles graphiques probabilistes, puis il y a eu ce gars Krizhevsky.
C'était Alex Krizhevsky. C'étaient essentiellement les gars de Hinton. Ils ont sorti AlexNet, et la vision par ordinateur était complètement résolue.
Mon dernier livre était une tentative ambitieuse de remodeler l'ensemble de la vision par ordinateur en formulant une sélection de méthodes en termes de modèles graphiques probabilistes.
En 2010, je suis allé en congé sabbatique à l'Université de Toronto et j'ai travaillé sur ce livre, partageant un bureau avec le post-doctorant de Jeff Hinton.
Je l'ai publié en 2012, quelques mois avant la sortie d'AlexNet, et tout le domaine a pris un virage à angle droit. Bien que je pense qu'il soit toujours utile, le domaine a évolué.
Ce livre est une description plus directe de l'endroit où nous en sommes avec l'apprentissage profond. C'est le successeur spirituel de Goodfellow, Bengio et Courville, publié en 2016.
Il adopte un juste milieu pragmatique entre les preuves théoriques et le code pratique. Il n'y a pas de preuves et pas de code ; il s'agit des idées qui animent l'apprentissage profond.
Motivation and the State of Research
Simon, quand vous avez commencé à écrire ce livre, quelle était l'idée principale que vous aviez en tête ?
L'histoire de l'apprentissage profond est que les expérimentateurs ont largement dépassé la théorie. Nous avons maintenant une augmentation exponentielle du nombre d'articles publiés.
Quand Ie dis littéralement, c'est au sens propre. Il y a un graphique dans un article de l'année dernière où, sur une échelle semi-log Y, c'est une ligne droite avec 4 000 articles publiés sur arXiv chaque mois.
Évidemment, cela ne peut pas augmenter de manière exponentielle éternellement. Il y a un nombre fini d'humains sur la planète, et ils ne peuvent pas tous faire de la recherche en apprentissage automatique.
Il y a une quantité stupéfiante d'informations. Si vous débutez en apprentissage automatique, il est presque impossible de trouver de bonnes ressources. Les gens apprennent sur des blogs écrits par des personnes qui ne savent pas toujours de quoi elles parlent.
Il semblait utile de rédiger tout ce qui s'est passé d'important au cours des 10 dernières années en rapport avec l'apprentissage profond avec la même notation, illustré de manière moderne.
Je ne commence pas par le perceptron ; je plonge directement dans les réseaux de neurones profonds dès la page 20 du livre pour faire gagner du temps à la communauté.
The Neuron Metaphor and Alchemy
Pensez-vous que l'apprentissage profond est de l'alchimie ?
Non, ce n'est pas de l'alchimie. À l'avenir, nous le considérerons comme la science de la modélisation des fonctions et des distributions de probabilité dans de très hautes dimensions.
Pour le moment, nous nous soucions des résultats, mais dans 40 ans, ils regarderont en arrière et diront que dans les années 2010, nous avons étudié comment modéliser des distributions de probabilité dans des dimensions supérieures à 50.
J'étais ironique sur l'alchimie, mais les gens ont fait des analogies avec les neurosciences et la biologie. Le mot 'neurone' n'apparaît que quatre fois dans votre livre, et deux fois vous conseillez de ne pas l'utiliser.
Je vais probablement utiliser 'neurone' par accident parce qu'il est tellement ancré dans notre communauté, mais je pense que c'est une terrible analogie. Rien ne prouve que le cerveau fonctionne de la même manière que les réseaux de neurones profonds.
Le cerveau humain possède une mémoire à court terme et des parties modulaires pour les visages ou la navigation. Rien ne prouve que l'apprentissage profond possède quoi que ce soit de cela.
De même, rien ne prouve que le cerveau présente les épiphénomènes de l'apprentissage profond, comme la double descente, les exemples adverses ou les tickets de loterie.
C'est acceptable pour notre communauté, mais maintenant l'IA devient importante dans le monde réel. Communiquer avec des métaphores comme 'neurones' comporte beaucoup de bagages.
Si vous parlez à quelqu'un qui travaille dans un domaine différent et que vous lui demandez comment fonctionne l'IA, il n'en a aucune idée. Je désapprouve la métaphore neuronale car elle implique que les réseaux ont des pensées.
C'est profondément trompeur pour les personnes extérieures à notre communauté, et tout ce que nous faisons affecte de plus en plus ces personnes.
Emergence vs. Data Statistics
Sur le point de l'alchimie, nous traitons maintenant plusieurs niveaux d'émergence. Les gens comprennent l'optimisation de gradient, mais ils ne comprennent pas les phénomènes émergents et se tournent vers des analogies psychologiques.
Je ne suis pas tout à fait convaincu qu'il y ait des phénomènes émergents. Pour moi, un phénomène émergent serait un changement de phase où de nouveaux phénomènes apparaissent soudainement avec l'échelle.
Je n'ai pas l'impression que nous ayons mené ces expériences de manière approfondie. Les statistiques des données d'internet sont d'une richesse surprenante, permettant la complétion de phrases ou la traduction.
Cela reflète les statistiques sur internet. C'est surprenant quand on les met ensemble dans un réseau, mais je vois cela comme une propriété des données plutôt que du réseau.
Que cela vienne de la richesse des statistiques ou non, nous cherchons des cadres de référence mentaux pour comprendre les phénomènes. La psychologie dispose d'une littérature sur la théorie de l'esprit que nous pouvons utiliser.
J'ai une vision réductionniste. Quand je vois un grand modèle de langage, je vois une équation énorme avec des billions de termes. Nous avons réglé les paramètres pour qu'il produise un comportement.
C'est une équation. Des entrées arrivent, vous calculez, vous multipliez, et il en sort des nombres qui se traduisent en mots. Je ne pense pas que cela puisse être compris à un niveau plus profond que cela.
Ne pourriez-vous pas argumenter qu'il n'y a rien de spécial dans nos états mentaux parce que nous effectuons aussi des calculs simples à un certain niveau ?
On pourrait argumenter cela, mais il y a plus de structure dans le cerveau humain, avec différents systèmes cérébraux interagissant après avoir évolué au fil du temps. Ce n'est juste une équation.
Internal Models and Cognition
Quand vous avez cette riche dynamique fonctionnelle de choses interagissant dans le monde physique, vous avez l'émergence d'une capacité d'action. Vous dites que les réseaux de neurones sont loin de cela.
Vous posez des questions dont personne ne connaît la réponse. Le seul modèle que nous ayons et qui fonctionne est l'esprit humain, et il semble fonctionner sur des principes différents de la simple échelle.
Les grands modèles de langage comme ChatGPT sont ce que nous avons de plus proche du cerveau humain car ils ont une fenêtre de contexte de mémoire à court terme.
Il est ironique que nous ne fassions pas référence à cette fenêtre de contexte en termes d'analogie neuronale. En principe, le système pourrait opérer sur ce contexte, le résumer ou générer d'autres hypothèses.
Je n'ai lu aucun travail où le système transformeur revient en arrière et modifie son contexte passé, mais ce serait une direction pour rendre le système plus proche de la 'pensée'.
Un système purement à propagation avant ne peut rien faire de sophistiqué. Pour atteindre un autre niveau de cognition, vous avez besoin de quelque chose qui construit un modèle interne cohérent de ce qui existe.
Reste à voir si cela nécessite une interaction avec le monde réel ou peut être fait purement dans le domaine du langage.
L'infosphère que nous avons créée est comme un organisme symbiotique qui a des artefacts de connaissances cohérents, mais de nombreux humains soutiennent que la terre est plate.
Ils ont une vision interne cohérente selon laquelle le monde est plat. Pour eux, c'est cohérent. Ils expliquent les phénomènes et construisent un modèle qui soutient leur hypothèse.
Il n'y a aucun sentiment qu'un transformeur fasse cela. Il prédit juste le mot suivant basé sur des statistiques cohérentes avec sa fenêtre de contexte.
On pourrait argumenter que nos cerveaux sont aussi très chaotiques, mais nous avons la fabulation et la rationalisation post-hoc pour éviter la dissonance cognitive.
Nous avons un nombre fini de visions qui sont des théories du monde partiellement formées. Le grand modèle de langage a tout ce que l'humanité a jamais créé sans autre préférence que la probabilité statistique.
Nous essayons de proposer des modèles cohérents du monde car nous devons agir. Il est impossible de faire cela si vous avez 50 000 vues conflictuelles sur le fonctionnement des choses.
Intelligence and AGI
Hinton dit que ChatGPT est une superintelligence car il sait tout, mais je soutiendrais que nous sommes limités en tant qu'observateurs avec une restriction computationnelle sur ce que nous pouvons comprendre.
Avec la cognition, ce n'est pas juste savoir, c'est aussi penser. Tout savoir n'est pas la seule pièce.
Si vous entraîniez ChatGPT avec des données allant seulement jusqu'au début du 20ème siècle, serait-il capable de reproduire la théorie de la relativité d'Einstein ? Je pense que nous connaissons la réponse.
Pour construire cette théorie, vous avez besoin d'un modèle du monde et de la réalisation que le modèle est faux. Vous devez proposer un nouveau modèle qui fait des prédictions vérifiables.
Cela se produit aussi à petite échelle, avec vos théories sur le fonctionnement des entreprises ou sur la personnalité d'un ami. Les théories se brisent parfois et vous devez les repenser.
D'un point de vue computationnel, ce sont des automates à états finis.
Toute entité finie ne peut calculer que certaines choses. Il serait intéressant de pouvoir caractériser ce que l'on pourrait calculer avec un certain nombre de paramètres.
Nous ne connaissons pas l'espace des fonctions que nous pouvons décrire étant donné un ensemble fixe de paramètres et d'architecture. C'est une surface très compliquée dans un espace multidimensionnel.
Il semble très riche, dans la mesure où nous lui donnons presque n'importe quel ensemble de données et qu'avec assez de capacité, il peut l'ajuster.
La grande discussion entre les connexionnistes et les partisans du symbolisme est de savoir si nous avons besoin d'une quantité infinie de calcul. Les réseaux de neurones suggèrent que dans de nombreux cas, ce n'est pas nécessaire.
Y a-t-il des idées que l'esprit humain ne pourrait jamais saisir, ou que nous pouvons saisir mais qu'un réseau de neurones ne peut pas ?
The Efficiency of Neural Networks
Simon, nous nous sommes maintenant téléportés dans notre studio. Nous étions juste dehors, gelés.
Il fait beaucoup plus chaud et c'est moins boueux dans votre studio.
Simon, nous allons droit au but. J'ai lu votre livre et je pense que nous devrions commencer par les chapitres trois et quatre où vous parlez des réseaux de neurones profonds.
Il y a un éléphant dans la pièce concernant les réseaux de neurones : pourquoi fonctionnent-ils si bien ? L'efficacité déraisonnable des réseaux de neurones.
Ils sont incroyablement efficaces, mais c'est un peu un mystère. ImageNet à l'époque aurait été considéré comme un objectif vraiment ambitieux.
Richard Szeliski a écrit qu'il s'attendait à ce qu'il faille des années avant que les ordinateurs ne puissent voir aussi bien qu'un enfant de trois ans. ImageNet est une tâche difficile avec un espace de 150 000 dimensions.
Il y a environ 10 puissance 150 000 images possibles. Vous devez construire un modèle qui mappe cela vers l'une des mille classes, et vous n'avez qu'un million d'exemples.
Si vous ne saviez pas que les humains peuvent accomplir cette tâche, vous pourriez tout simplement abandonner. AlexNet a lancé un programme ambitieux pour construire un modèle avec 60 millions de paramètres.
Je conçois les réseaux de neurones comme divisant l'espace d'entrée en polytopes convexes, dont chacun contient une fonction affine.
Si l'espace d'entrée est bidimensionnel, il le divise en polygones convexes qui forment une surface continue. Avec 150 000 dimensions d'entrée, le modèle crée une surface compliquée.
Les couches entièrement connectées à la fin créeraient des régions bien plus nombreuses que le nombre d'atomes dans l'univers. Presque aucune de ces régions ne verra jamais un point de données d'entraînement.
Ajuster l'un des 60 millions de paramètres modifie ces régions de manière indirecte et difficile à caractériser. À cette époque, les problèmes à mille dimensions étaient considérés comme ambitieux.
Ils ont utilisé une descente de gradient bruitée pour atteindre le fond car ils ne pouvaient pas utiliser d'informations de second ordre. Cela sonne comme un désastre ; peu auraient prédit que l'on puisse apprendre le modèle.
Il y a beaucoup plus de paramètres que de points de données. C'est surparamétré, et peut-être que cela facilite l'ajustement. La surface passe essentiellement par chaque point de données exactement.
Entre les points de données, elle avait la latitude de faire ce qu'elle voulait. Nous avons trouvé que le dropout et la régularisation ne sont pas vraiment critiques pour cette généralisation.
Nous pouvons apprendre des modèles sans régularisation et ils se généralisent toujours. Ce modèle a été 15 % plus performant que le meilleur suivant. Époustouflant, vraiment.
Spline Theory and Polytopes
Je suis partisan de l'idée qu'il découpe l'espace ambiant en polyèdres localement affines. Randall Balestriero a proposé cette théorie des splines.
Il a dit que pour un exemple d'entrée, le réseau de neurones peut être représenté par une seule transformation affine, ce qui donne une intuition des réseaux de neurones comme des casiers de stockage.
J'ai écrit ce livre sans connaître cette théorie, mais c'est exactement comme cela que je le décris. Ce n'est vrai que pour les ReLU et les ReLU fuitantes.
Dès qu'on commence à parler de fonctions lisses, c'est plus difficile à caractériser. J'aime en discuter en termes de ReLU car le nombre de régions donne une notion de complexité.
Vous avez les hyperplans qui se déplacent dans l'espace ambiant. Quand vous introduisez une entrée, elle active certains de ces hyperplans et crée une région convexe.
Selon les unités cachées qui sont actives ou non.
Même s'il s'agit de fonctions linéaires par morceaux, elles sont si nombreuses et se chevauchent si densément qu'elles paraissent localement lisses.
Eh bien, nous pouvons tracer des chemins unidimensionnels à travers la fonction et elle semble lisse à cause du nombre impressionnant de régions.
Dimensionality and Generalization
Avant les réseaux de neurones, on parlait de la malédiction de la dimensionnalité — la tendance du volume de l'espace à éclipser la quantité de données à mesure que les dimensions augmentent.
Quand le volume de l'espace augmente de manière exponentielle, la signification statistique des données d'entraînement tend vers zéro. S'il n'y a pas d'information statistique, comment les réseaux fonctionnent-ils ?
Pourquoi se généralise-t-il ? Ce qu'il fait entre les points de données est un sous-produit de nos algorithmes. Il fait une interpolation lisse, mais pourquoi est-ce une bonne interpolation, nous ne le savons pas.
Cela semble être un sous-produit de la manière dont nous initialisons les réseaux et des algorithmes bruités que nous utilisons pour les entraîner. De petites magnitudes de paramètres correspondent à de faibles pentes.
Bien qu'AlexNet ait eu 60 millions de paramètres et 1 million de points d'entraînement, ils ont augmenté leurs données. Il n'est pas totalement évident pour moi que tout soit surparamétré.
Ils ont augmenté les données d'un facteur 2 048, ce qui brouille les pistes. Une façon de voir les choses est qu'il y a plus de points de données et que nous ne sommes pas surparamétrés.
On nous a appris que le rasoir d'Occam signifie que les choses simples se généralisent. Maintenant, nous complexifions les réseaux de manière exponentielle. Pourquoi se généralisent-ils encore ?
Les idées précédentes comme la complexité de Rademacher auraient prédit que la généralisation empirerait à mesure que l'on ajoute des paramètres.
Plus de régions signifie simplement que vous pouvez modéliser une fonction plus lisse. Pour des choses comme les images, nous pouvons introduire des connaissances préalables en utilisant des réseaux convolutionnels.
Nous cherchons dans un sous-ensemble raisonnable de modèles. Mais cela ne me satisfait toujours pas en tant qu'explication de la raison pour laquelle les réseaux se généralisent si bien.
Les données sont certainement un a priori inductif. Vous pouvez faire de l'augmentation de données ou l'intégrer au réseau comme équivariant ou invariant selon vos besoins.
Dans un monde idéal, vous n'auriez besoin que d'un seul exemple étiqueté car le réseau comprendrait toutes les transformations. Cela ne fonctionne pas.
Il y a un juste milieu entre un MLP qui ne sait rien et l'introduction de connaissances du domaine sur la façon dont les choses peuvent être transformées.
L'hypothèse de la variété est l'idée qu'il y a un certain sous-espace dans les données sur lequel le réseau peut concentrer son attention.
Dans certains cas, on peut décrire ce sous-espace. Si vous filmez le visage de quelqu'un à partir d'un point de vue fixe, seuls 42 muscles peuvent bouger.
Les images réelles ne sont pas n'importe quelles images. Sélectionnez des pixels au hasard et voyez combien de fois vous devez le faire avant d'obtenir quelque chose qui ne ressemble pas à du bruit.
Nous ne connaissons pas la taille de cette variété, bien qu'elle soit liée à la mesure dans laquelle on peut compresser les images. Les modèles de diffusion ne sont pas si grands, mais peuvent générer un éventail incroyable d'images.
Une bonne partie de la variété des images peut être stockée sur un disque dur, suggérant que l'espace des images naturelles n'est pas si vaste en réalité.
Universal Approximation and Depth
La théorie de l'approximation universelle dit qu'avec un nombre infini de neurones, on peut approximer une fonction à une précision arbitraire.
Il est important de savoir qu'on peut représenter n'importe quelle fonction. Ce qui est intéressant, c'est que pour construire quoi que ce soit qui fonctionne, nous avons besoin de 10 à 12 couches.
Il y a différentes théories sur la raison pour laquelle nous aurions besoin d'un réseau profond étant donné que le théorème d'approximation universelle dit qu'un réseau peu profond peut tout modéliser.
Placer des fonctions de base sur une seule couche est presque antithétique à la généralisation ; c'est de la mémorisation par définition. La profondeur replie progressivement ces régions affines.
Une façon partielle d'y penser est que le premier réseau plie et reproduit le second réseau. Une autre façon est que vous créez des fonctions de base de plus en plus compliquées.
Une façon souligne la symétrie et le pliage, et une autre souligne le découpage et la création de plus de jointures. Il est difficile d'avoir une image complète de ce qu'il fait exactement.
Il y a une relation compliquée entre la manipulation d'un paramètre et toute la surface qui ressort à l'autre bout.
En passant par des couches successives, vous pouvez recomposer les neurones précédents. Cette interprétation topologique suggère que le réseau de neurones a une structure définie par les premières couches.
C'est contraint en termes d'information. Si vous perdez de l'information au début, elle ne peut pas être récupérée.
Très tôt, ces fonctions de base initiales font des coupes dans l'espace. La complexification se produit à l'intérieur de ces régions, et elle s'ancre dans ce qu'elle fait.
Peut-être qu'il replie des morceaux de l'espace sur lui-même et les traite de manière similaire, ce qui pourrait être la façon dont il exploite les régularités des données.
Les premières couches définissent comment les miroitements et réflexions se produiront dans les couches ultérieures. Les couches ultérieures définissent la structure, et les premières couches la reflètent dans le reste de l'espace.
Training Dynamics and Forgetting
Si vous prenez GPT et commencez à l'affiner sur du bruit, oublierait-il très vite tout ce qu'il a appris ou refuserait-il de bouger ?
Cela dépend du taux d'apprentissage. Les modèles transformeurs ne s'entraînent généralement pas jusqu'à une erreur d'entraînement nulle ; ils font quelques passages sur les données et s'arrêtent.
Il se souvient probablement plus de ce qu'il a vu récemment que de ce qu'il a vu il y a mille milliards de jetons. Ajouter du bruit change la surface de perte et vous descendez depuis le minimum global.
La rapidité avec laquelle il oubliera dépend du taux d'apprentissage et de la nouvelle forme de la fonction de perte. Je ne sais pas si on peut dire quoi que ce soit de définitif là-dessus.
Feature Visualization and Overparameterization
Les réseaux de vision ont des filtres de Gabor ancrés dans les premières couches. Après un moment, le réseau de neurones ne voit le monde qu'en termes de ses fonctions de base.
Ce que les gens veulent dire par là, c'est que ce neurone a une activation élevée pour ce genre de chose. Dans une certaine mesure, c'est trivial. Le réseau à ce stade ne voit qu'un petit patch.
Il va réagir de manière complexe à plein de choses différentes. Vous essayez de caractériser un polytope multidimensionnel compliqué par un point qui ressemble à un filtre de Gabor.
En réalité, c'est une forme incroyablement compliquée dans un espace de 150 000 dimensions. Je n'aime pas l'idée qu'on puisse caractériser cette forme par ce seul point.
La surparamétrisation aide pour la descente de gradient stochastique, mais devons-nous mémoriser tout ça ou pourrions-nous l'élaguer pour l'inférence ?
Cela rend les choses plus faciles. Terry Sejnowski dit que cela revient à passer de la recherche d'une aiguille dans une botte de foin à la recherche d'une botte de foin composée d'aiguilles.
On finit avec une surface de perte où il y a une partie de très haute dimension qui est le minimum global, qui correspond parfaitement à vos données.
J'ai le sentiment qu'il y a un biais de modèle inhérent : des astuces font que le réseau se concentre sur les modes des données où se trouve la majeure partie de la variance. Les attributs de basse fréquence sont ignorés.
Au final, ces choses sont assez stupides et ne peuvent rien faire d'autre qu'interpoler en douceur. Je préfère interpoler entre de vrais points de données que de les rater.
Nous optimisons sur la précision, et le réseau de neurones apprend qu'il vaut mieux ne pas s'embêter à apprendre un cas rare que de se tromper tout le temps.
Il apprend bien la 'longue traîne' des données pour la plupart des ensembles de données, car la perte devient presque nulle. Pour la classification, vous essayez de pousser softmax à l'infini, donc on n'y arrive jamais.
Même si le réseau les connaît dans l'ensemble d'entraînement, elles n'auraient jamais de pouvoir statistique.
Il est difficile avec un seul objectif d'entraînement d'avoir à la fois une haute précision et une grande équité.
Les zones représentant des minorités peuvent avoir peu de points de données d'entraînement. Peut-être n'y a-t-il pas assez de régularité statistique dans les données fournies pour qu'il puisse généraliser.
Learning vs. Generalization
Nous avons appris pas mal de choses sur ce qui affecte l'apprentissage par rapport à la généralisation. Étonnamment, l'ensemble de données n'affecte pas tant que ça l'apprentissage.
On peut perturber les étiquettes ou mélanger les pixels, et le réseau apprendra toujours bien les données d'entraînement. Il y a des choses qu'on serait surpris qu'il puisse apprendre.
Dans votre livre, une courbe représente la mémorisation d'informations aléatoires et l'autre les données réelles. La distance horizontale est l'écart de généralisation.
C'est tiré de Zhang et al. (2017). Cela montre qu'on peut perturber ces étiquettes et qu'il apprend toujours parfaitement, mais plus lentement. Il y a des régularités dans les données réelles.
La surface s'ajuste à travers plusieurs points de données et doit se contorsionner davantage pour s'ajuster à des données aléatoires. Cela montre la flexibilité du modèle ; on peut lui donner n'importe quelle donnée et il s'ajustera.
Le temps de convergence dépend de l'initialisation des paramètres. Nous initialisons à certaines variances pour éviter les gradients qui explosent ou s'évanouissent.
La magnitude des paramètres détermine le temps d'entraînement et la généralisation. Si les paramètres sont petits, cela fait des fonctions plates. S'ils sont énormes, il y a de grands changements brusques.
C'est plus long si on n'initialise pas les paramètres correctement. Pour la généralisation, on veut qu'il interpole en douceur sans valeurs de paramètres variant sauvagement.
Grokking and Visualization
En termes de généralisation, il y a un phénomène appelé grokking.
J'ai reçu Neel Nanda. Neel a dit que le grokking est un peu une illusion. Une partie de la raison pour laquelle on peut amener la surface de perte à être lisse réside dans les données naturelles.
On peut avoir des cas où il s'ajuste parfaitement aux données au début, mais met ensuite un temps fou à généraliser. Cela arrive quand on règle mal la magnitude des paramètres.
Il s'ajuste correctement aux données, mais varie entre les points. Une caractéristique de la descente de gradient stochastique fait que la solution traverse la surface de perte jusqu'à devenir plus lisse.
Le moyen le plus simple d'ajuster certaines données peut être avec une fonction compliquée. Il faut beaucoup de régularisation pour arriver à quelque chose de sensé. Les ensembles de données typiques finissent avec une surface plus lisse.
Le grokking a été une surprise. On masse la surface de perte et on peut prédire l'entraînement requis, comme OpenAI pouvait prédire le niveau de perplexité de GPT-4.
L'article OmniGrok dit que le temps est prévisible car les magnitudes des poids diminuent progressivement jusqu'à entrer dans la 'zone Goldilocks' où les choses se généralisent bien.
Le livre fait un effort énorme pour visualiser les choses en basses dimensions.
J'ai trois façons de tout comprendre : descriptions textuelles, équations et images. Relier ces trois éléments mène à une compréhension plus profonde.
Des idées comme les modèles de diffusion peuvent être dessinées en une ou deux dimensions pour transmettre efficacement des concepts de façon non technique. L'espace multidimensionnel ne fonctionne pas comme on s'y attend.
Si on prend deux points aléatoires gaussiens, en 100 dimensions ils sont presque certainement orthogonaux. Dans une orange multidimensionnelle, toute la surface est dans la peau.
À mesure que les dimensions augmentent, la proportion d'espace occupée par une hypersphère dans un hypercube devient nulle. Je dessine en 2D, mais il faut être prudent.
Il n'est pas nécessaire de travailler dans des espaces à très haute dimension pour voir les phénomènes de l'apprentissage profond. MNIST-1D est un ensemble plus simple de données en 40 dimensions.
L'article de Sam Greydanus 'Scaling Down Deep Learning' va totalement à contre-courant de la tendance actuelle à tout passer à l'échelle massivement.
Même si ce n'est qu'en 40 dimensions, on voit la plupart des phénomènes : exemples adverses, tickets de loterie et double descente.
On peut l'exécuter dans une fenêtre Python sur le CPU. Les expériences géantes construisent maintenant des choses proches de la complexité de l'esprit humain.
Pour comprendre ça, vous collectez un ensemble de données aussi complet que possible et essayez de proposer une théorie qui l'explique. Quand est-ce entraînable ou généralisable ?
Avec un ensemble plus simple, on pourrait entraîner plein de réseaux pour voir quelles statistiques les font généraliser. C'est un banc d'essai qui n'est pas utilisé du tout.
On ne peut pas publier un article sans obtenir l'état de l'art sur un ensemble énorme avec des millions d'exemples.
Batch Normalization and Scientific Rigor
Nous allions parler de l'alchimie de l'apprentissage profond, car nous n'avons pas vraiment de théories globales. Il y a des choses comme le NTK et la théorie des splines, mais pas grand-chose d'autre.
Une fois les paramètres ajustés dans les couches ultérieures, les changements dans les couches précédentes n'ont plus de sens. Des expériences ont montré qu'introduire un décalage de covariable n'aide pas.
La normalisation par lots réinitialise la variance et stoppe l'explosion des gradients. Elle a trouvé un usage, mais il y a d'autres moyens de résoudre ce problème sans statistiques de lot.
Elle a un effet de régularisation car le lot change à chaque fois. Elle peut aussi laisser fuiter des informations entre les données à cause de la variance du lot.
C'est pourquoi on ne l'utilise pas dans les transformeurs avec attention masquée. Le but est que les mots n'accèdent pas aux données plus loin. Ils utilisent la normalisation de couche à la place.
La normalisation par lots a été introduite pour une raison et adaptée pour une autre car elle a cet effet de régularisation indirect.
Avec le temps, on semble moins compter sur ces astuces et plus sur les gros modèles et les données. Les études d'ablation montrent souvent que ces choses n'étaient pas nécessaires.
Il devrait y avoir une tendance à simplifier. Un article de 2020 a analysé les modifs des transformeurs et a trouvé que presque aucune ne fait de différence. C'est lié à notre obsession pour l'état de l'art.
On essaie tout ça sans vérifier si l'activation était critique car l'échéance de NeurIPS est dans deux jours. Personne ne revient examiner ces choses.
Les transformeurs étaient durs à entraîner et demandaient un préchauffage du taux d'apprentissage. Je ne sais pas si l'entraînement de pointe pour les très gros modèles a éliminé ces complexités.
C'est lié à la 'descente par étudiant diplômé'. Hinton aimait l'apprentissage contrastif, alors que LeCun chez FAIR a lancé les approches non contrastives. Ce sont des variations techniques mineures.
C'est intéressant ce qu'on considère comme des résultats dans une conférence scientifique. On ne valorise pas forcément la compréhension. Grignoter 0,1 % sur un benchmark est souvent juste de la chance.
Un article soutenait que les ConvNets font aussi bien que les transformeurs de vision sur ImageNet. C'est juste que personne ne les a pré-entraînés avec une base géante auparavant.
On ne peut pas faire confiance à la conclusion scientifique que les transformeurs de vision sont meilleurs sans expérience comparable. Nous ne sommes pas très scientifiques ; nous sommes formés comme des ingénieurs.
Les gens avancent des trucs et disent avoir inventé une méthode, mais ils ont changé sept choses et ce n'est pas la méthode qui a fait le gain. On est meilleurs grâce aux études d'ablation.
Même avec des études d'ablation, c'est cher et seuls les gros joueurs peuvent jouer. Le succès d'OpenAI vient juste d'avoir autant de données.
Ils ont bâti le prochain Google en aspirant toutes les données. On sous-estime la valeur des données des utilisateurs de ChatGPT.
L'ingénierie de ChatGPT à cette échelle est dure, mais les articles ne sont pas satisfaisants intellectuellement. Ajouter des données continue de scaler, ce qu'on n'aurait pas prédit.
La quantité de données sera la limite. On peut avoir la plupart des phénomènes en 40 dimensions. Si vous voulez essayer une idée, testez-la sur MNIST-1D.
GPT and the Extended Mind
GPT a franchi la vallée de l'étrange. Les gens le psychologisent, mais il y a plus que la récupération d'infos. C'est un outil de recherche remarquable.
D'une certaine façon, c'est vous l'intelligence ici. C'est ce que vous demandez qui est intéressant, pas comment il répond.
En mode autonome comme AutoGPT, la magie disparaît. On est dupé par le hasard. C'est ce que David Chalmers appelait un 'esprit étendu'.
Je pense que vous en avez une meilleure opinion que moi. Mes tests n'ont pas été super concluants. Il sait ce que les informaticiens savent car ils écrivent sur le web.
Sur les algorithmes de recherche, il sait. Mais aux limites de ses données, il hallucine. Il a captivé l'imagination du public.
Mes amis hors IA ont des avis tranchés et faux, et ne me demandent pas, à moi l'expert. Les gens ont leurs propres théories.
Superintelligence and AGI Realities
Sutskever et Hinton disent que ça mènera à la superintelligence. Mais on sait qu'on interpole une variété de données avec un calcul fixe. Comment serait-il superintelligent ?
Il n'a aucun moyen d'apprendre du neuf sauf son contexte, qu'il oublie. Même avec des déductions logiques sur ce contexte, il ne peut pas s'en souvenir.
Il nous manque des pièces. Je ne vois pas la superintelligence pour demain.
Je n'aime pas ce mot, mais parlons d'AGI. C'est pour quand ?
Ces gens pensent qu'il existe une intelligence pure. S'il a appris une variété de données, elle est située dans ce qu'on a produit.
Tout est réduit en représentation de données. C'est non interactif et non réflexif. C'est un système de recherche d'infos intégré à notre processus cognitif.
Je n'aime pas le mot intelligence ; capacité est mieux. Il peut vous donner l'histoire de l'épigénétique de tête, ce que je ne saurais pas faire.
Il vaudrait mieux parler de capacités. On peut dire s'il sait faire telle tâche. L'AGI veut dire qu'il peut faire une grosse partie d'un large ensemble de tâches. C'est mesurable.
L'intelligence est un phénomène complexe hors de notre horizon. Je n'aime pas l'interprétation comportementale car GPT ne fait rien.
Les processus cognitifs sont externes et physiques ; on met en œuvre un processus en l'utilisant. L'artefact n'a aucune capacité mesurable seul.
Je ne suis pas d'accord pour dire que GPT ne fait rien.
C'est un argument ésotérique. On pourrait dire que le sens d'un ordi d'échecs est dans son usage, donc il ne fait rien seul.
Donnez un exemple de quelque chose qui fait quelque chose.
On fait de la plongée ; on fait des choses. Peut-être suis-je chauvin, mais je valide son intégration cognitive. GPT fait des trucs, mais pas super bien.
Comme une chatière. On peut lui faire faire des trucs, mais il n'a pas de capacité d'action. C'est lutter avec la complexité de son environnement.
Et l'apprentissage par renforcement ? Un agent explore et résout des problèmes pour des récompenses. Ce n'est pas faire quelque chose ?
Pas si différent de la chatière. La capacité d'action décrit une dynamique de planification. En RL, quelqu'un a conçu la fonction de récompense.
Ethics: Near-term Risks and Responsibility
Votre dernier chapitre traite de l'éthique. Il y a un contraste entre sécurité à court et long terme. Je crains que le mot 'sécurité' ne soit galvaudé.
Vous vous focalisez sur les risques proches : biais, désinformation, équité. Parlez-nous en.
Co-écrit avec Travis LaCroix. Je ne me sentais pas capable d'écrire ça seul, mais on m'a encouragé.
Travis apporte un bagage philosophique. On a traité le biais, l'explicabilité, la capacité d'action morale et l'alignement. La conclusion appelle les scientifiques à la responsabilité.
Tout est chargé de valeurs. Juger les articles seulement sur l'état de l'art est une valeur.
Le livre finit en demandant de réfléchir aux impacts. On peut choisir son employeur ou ses problèmes.
Je veux séparer ça de mes vues sur les risques de l'IA. Le livre traite des problèmes proches comme le biais car ils sont concrets.
Il y a des soucis partout. Je ne suis pas d'accord pour se focaliser sur un seul truc au détriment du reste.
Les long-termistes se sapent en étant incohérents : ils disent de ne pas anthropomorphiser, puis qu'il voudra nous arrêter. Gros sous-entendus.
Souvent on dit qu'il aura un libre arbitre. Je n'entre pas là-dedans, mais ça n'empêche pas de s'inquiéter.
Biais et explicabilité sont clés. Je suis pessimiste sur l'explicabilité. On va supprimer plein d'emplois.
Pas qu'il n'y aura plus de radiologues. Un seul fera le job de vingt. Gmail finit vos mails, donc on a besoin de 1 % de gens en moins.
ChatGPT et DALL-E 3 réduiront les effectifs. McKinsey a estimé 800 millions de chômeurs en 2030.
La perte de statut cause des troubles. On étudie longtemps pour être avocat ou médecin et on en a moins besoin. Ça va trop vite pour que la société s'adapte.
Automation and Human Agency
Je doute sur le remplacement car on surestime la technologie. Copilot aide les développeurs mais ne les remplace pas.
La syntaxe n'est pas le plus dur ; c'est l'organisation.
Les risques d'équité et de biais sont n°1. Les systèmes de recommandation virent les humains pour fuir les responsabilités, créant des horreurs.
Le dialogue oppose toujours biais et chômage. Il faut parler des deux.
Je veux élargir le débat. On ne parle pas assez du chômage. Si on est plus efficace, on n'embauche plus de designers.
Il faudra du temps pour trouver d'autres besoins. Les gouvernements pourraient freiner en responsabilisant les entreprises.
Si je donne la recette du gaz nerveux, je suis complice. Si ChatGPT le fait, OpenAI décline toute responsabilité. Les rendre responsables ralentirait tout.
L'ordre de Biden veut examiner les modèles. Distinguons diffusion des savoirs et capacité d'action.
Les calculatrices ont remplacé les calculateurs humains.
L'automatisation de notre capacité d'action m'inquiète. Si GPT tournait seul sans humain, ce serait un problème.
Risque de dé-qualification. Si la voiture conduit seule, vous perdez l'habitude. En cas d'urgence, vous ne serez pas prêt.
Un crash d'Air France est arrivé comme ça : pilote auto coupé, pilotes sans expérience manuelle. On cède nos compétences.
L'affaiblissement est un gros souci. La pente glissante est d'éroder le libre arbitre et de faire des gens des automates.
C'est une position luddite de vouloir les garder occupés au lieu de les libérer.
L'humain est fait pour travailler et être fier de ce qu'il fait. Retraités, ils se sentent seuls si le job les définissait.
On y va. Les autodidactes s'en sortiront, mais pas la majorité.
The AGI Button Experiment
J'adorerais. Mon rêve n°1.
C'est paternaliste. On veut garder le statu quo ?
Vous suggérez une expérience de chaos pour que la société se réorganise.
C'est le cœur du risque long-terme. Laisse-t-on faire ou empêche-t-on ?
Test : un interrupteur crée l'AGI parfaite. Tim 2.0 peut produire à la vitesse de ChatGPT-4 et communiquer instantanément.
La technologie sera attribuée au hasard à une grande entreprise tech ou à une puissance nucléaire. Actionneriez-vous le bouton sachant qu'ils feront 100 000 Tims ?
On ne prédit pas l'avenir, et l'enfer est pavé de bonnes intentions. Les intuitions morales sont souvent fausses. Ça pourrait être bien.
L'intuition dit non. Chez OpenAI ou DeepMind, vous bougez ce bouton un peu chaque jour.
Responsabilité diffuse, mais vous poussez vers le milieu. Si la réponse est non, peut-être faut-il changer de boîte.
Bref, Professeur Prince, ce fut un honneur.
Une joie de discuter. J'ai appris de vos podcasts et j'attends les prochains.
Merci de nous avoir rejoints.