Lisa Su - Le futur du calcul haute performance : Efficacité, IA et l'ère de l'échelle Zetta

Lisa Su

Le futur du calcul haute performance : Efficacité, IA et l'ère de l'échelle Zetta

27 février 2023

Technologie

Introduction et 70e anniversaire de l'ISSCC

Lisa Su

C'est un véritable honneur et un plaisir d'être ici aujourd'hui pour aider à célébrer le 70e anniversaire de l'ISSCC. Ce qui est incroyable, c'est l'ampleur des progrès accomplis pendant cette période. C'est aussi formidable de revoir tout le monde en personne après une longue période. Mon sujet d'aujourd'hui porte sur le calcul haute performance, qui touche nos vies de multiples façons. En tant qu'industrie, monde universitaire et écosystème, nous nous efforçons de repousser les limites de la performance, du calcul et de l'efficacité.

Progrès technologiques et évolution des transistors

Lisa Su

Je dois commencer par une image. Comme on dit, une image vaut mille mots ou des dizaines de milliards de transistors. Si l'on regarde les progrès accomplis au cours des 70 dernières années, on commence par la première radio de poche, qui possédait quatre transistors. La dernière fois que je suis venue à l'ISSCC, c'était il y a 10 ans. À cette époque, les processeurs d'ordinateurs portables de pointe comptaient un peu plus d'un milliard de transistors, quatre cœurs et quatre threads utilisant la technologie SOI de 32 nanomètres. Nous pensions que c'était incroyable. Combien d'entre vous étaient ici il y a 10 ans ?

Lisa Su

C'est un bon nombre. Vous nous avez tous aidés à accomplir ce que nous avons réalisé au cours des 10 dernières années. Aujourd'hui, les processeurs de serveurs de pointe utilisent une technologie de processus avancée, un conditionnement de pointe et des architectures de chiplets. Un exemple possède 90 milliards de transistors, 96 cœurs, treize chiplets de 5 et 6 nanomètres, ainsi qu'une mémoire importante. Nous avons fait des progrès considérables, et il nous reste encore beaucoup à faire.

La demande croissante pour le calcul haute performance

Lisa Su

Tout le monde a besoin de calcul haute performance et adaptatif. Cela s'applique à toutes les applications, des appareils personnels comme les téléphones, les PC et les tablettes, aux communications 5G, au cloud, au supercalcul haute performance et à l'apprentissage automatique. Il nous appartient de continuer à augmenter les performances et les capacités. Nous avons progressé, mais nous avons encore du travail.

Tendances de performance des CPU et GPU

Lisa Su

En examinant les tendances de performance au cours de la dernière décennie, les données industrielles d'AMD, d'Intel et d'autres fournisseurs montrent que les performances doublent tous les deux ans ou deux ans et demi. Malgré les discussions sur le ralentissement de la loi de Moore, l'innovation dans l'architecture, le conditionnement, la taille des puces et la puissance nous a permis de maintenir ce rythme.

Lisa Su

Il en va de même pour les performances des GPU, qui doublent tous les deux ans à deux ans et demi. Le supercalcul haute performance est l'un des exemples les plus complexes. Nous essayons de construire les plus grands ordinateurs du monde pour résoudre des problèmes scientifiques et commerciaux difficiles. Cela montre jusqu'où nous pouvons pousser la technologie pour progresser.

Supercalculateurs et l'objectif de l'échelle zetta

Lisa Su

L'évolution des supercalculateurs les plus rapides au monde au cours de la dernière décennie montre que même si les composants individuels doublent tous les deux ans et demi, au niveau du système, nous parvenons à un doublement presque annuel. En associant des systèmes plus vastes, le parallélisme, la capacité de puissance et les interconnexions, nous obtenons des résultats étonnants. Ces systèmes vous indiquent de quoi la technologie est capable lorsque vous mobilisez tout votre savoir-faire.

Lisa Su

Nous avons récemment franchi une étape importante avec le premier supercalculateur exascale. Situé à l'Oak Ridge National Labs, il a été construit en partenariat avec HP Enterprise et AMD en utilisant une combinaison de CPU et de GPU. Nous avons atteint le calcul exascale tant du point de vue de la performance que de l'efficacité. Si nous supposons que nous pouvons maintenir ce rythme d'innovation, nous pouvons tracer une ligne vers l'avenir.

Lisa Su

Si nous maintenons ce rythme, nous atteindrons le calcul à l'échelle zetta — 1 000 fois plus de calcul — d'ici environ 10 ans. C'est un défi pour nous tous. Une autre tendance passionnante est le rythme d'adoption de l'IA. Je suis sûre que tout le monde a utilisé ChatGPT récemment. Cela souligne le besoin insatiable de calcul. Nous avons la capacité de rendre l'informatique plus intelligente, plus performante et plus adaptable.

Le défi majeur de l'efficacité énergétique

Lisa Su

Il est nécessaire de construire des ordinateurs plus puissants car les modèles d'IA générative s'améliorent à mesure que l'on augmente le nombre de paramètres. Cela nécessite plus de calcul pour l'entraînement et l'inférence. Bien que la performance soit importante, le véritable sujet sur lequel nous devons travailler en tant qu'écosystème est l'efficacité énergétique. C'est le problème le plus difficile à résoudre pour nous. L'efficacité n'augmente pas au même rythme que la performance.

Lisa Su

L'aplatissement de la courbe d'efficacité est notre plus grand défi, tant du point de vue technologique que de la durabilité. Si l'on regarde l'utilisation du supercalcul au cours de la dernière décennie, nous sommes devenus plus efficaces, mais les gigaflops par watt ne doublent que tous les deux ans ou deux ans et demi.

Lisa Su

L'efficacité est limitée par des attributs physiques. Si nous traçons la ligne jusqu'à l'échelle zetta, une machine aurait besoin de 500 mégawatts, ce qui n'est pas pratique. C'est de l'ordre d'une centrale nucléaire. Notre défi pour la prochaine décennie est de donner la priorité à l'efficacité du calcul pour poursuivre les augmentations de performance que nous avons connues.

Limites de la loi de Moore et des E/S

Lisa Su

La technologie des procédés reste très importante. Cependant, la loi de Moore a ralenti, ce qui rend plus difficile l'obtention de la densité, de la performance et de l'efficacité. Auparavant, nous doublions les performances tous les trois ans. Dans les nœuds avancés comme le 5 nanomètres et le 4 nanomètres, nous voyons encore des améliorations, mais à un rythme plus lent. C'est l'une des raisons pour lesquelles l'efficacité énergétique ralentit.

Lisa Su

Une autre raison est que les E/S ne s'adaptent pas de la même manière que la logique. Nous avons réduit l'énergie par bit, mais la qualité des canaux est limitée sur des distances plus courtes. À mesure que les systèmes s'agrandissent, cela devient un limitateur de puissance. La mémoire présente également des défis. Les ensembles de données deviennent plus volumineux, et la bande passante requise fait de l'énergie d'accès à la mémoire un domaine clé pour l'innovation.

Approche holistique et architectures hétérogènes

Lisa Su

Au cours de la prochaine décennie, nous devons stimuler l'efficacité au niveau du système de manière holistique à travers le calcul, les communications et la mémoire. Chez AMD, we nous concentrons sur l'efficacité grâce à une architecture avancée, en utilisant la bonne technologie de calcul pour la bonne charge de travail. Cela implique des architectures hétérogènes et le calcul accéléré.

Lisa Su

Le supercalculateur exaflop que j'ai mentionné utilise le MI250, l'un de nos plus récents accélérateurs. Il exploite l'innovation architecturale, le conditionnement et les tendances du silicium pour améliorer l'efficacité. Nous devons nous concentrer sur tout. Le MI250 est un GPU de 6 nanomètres avec des améliorations spécifiques au domaine pour les charges de travail HPC et IA.

Lisa Su

Il présente des niveaux d'intégration plus élevés avec des chiplets et une intégration 2.5D, rapprochant la mémoire à large bande passante du calcul. Il utilise également la conception de circuits traditionnelle pour optimiser la gestion de l'énergie. Chacun de ces composants est important pour améliorer l'efficacité de la solution globale.

Conditionnement avancé et chiplets

Lisa Su

Le levier le plus important ces derniers temps a été le conditionnement avancé et les chiplets. Nous avons assisté à une progression de la technologie MCM 2D, qui utilise la technologie de processus appropriée pour différents éléments, vers la 2.5D, qui rapproche la mémoire du GPU. Cela nous permet d'optimiser les transistors denses et coûteux pour le calcul tout en utilisant d'autres capacités pour l'analogique et les E/S.

Lisa Su

Les chiplets 3D commencent à prendre leur essor. Bien que la technologie soit encore en phase de maturation pour les gros volumes, l'empilement de mémoire ou de logique sur un processeur offre des capacités formidables. Cela nous permet de rapprocher les composants de calcul et de réduire le coût des communications. Cela améliore considérablement l'efficacité des communications par rapport aux composants sur une carte.

Calcul spécifique au domaine et accélération de l'IA

Lisa Su

Un autre domaine est le calcul spécifique au domaine, qui utilise les mathématiques appropriées pour les bonnes opérations. Passer du virgule flottante double précision à d'autres formats mathématiques conduit à un calcul plus efficace. L'application phare ici est l'apprentissage automatique et l'IA. Une accélération spécifique continuera d'être importante pour diverses applications afin d'améliorer l'efficacité globale du calcul.

Lisa Su

Lorsque vous réunissez tout cela, vous obtenez une accélération GPU de nouvelle génération comme le MI300. En utilisant la technologie 5 nanomètres, l'empilement 3D de puces de cache et de fabric, de nouveaux formats mathématiques et une architecture mémoire différente, nous constatons des améliorations d'efficacité et de performance de 5 à 8 fois. Cela montre ce que la technologie peut faire lorsque ces éléments sont combinés.

Architecture de mémoire unifiée

Lisa Su

Dans les configurations traditionnelles, les CPU et les GPU ont leur propre cache mémoire et ne peuvent pas partager de données sans passer par le processeur. Avec les nouvelles capacités architecturales empilées, nous pouvons avoir une architecture de mémoire unifiée. Cela permet d'extraire des données d'un pool partagé, ce qui est beaucoup plus efficace. C'est ainsi que nous obtenons le dernier gain d'efficacité.

Lisa Su

Nous pensons que l'architecture, particulièrement autour des opérations de calcul, aura un impact important sur l'efficacité future. En combinant les innovations architecturales avec les chiplets et l'empilement 3D, we pouvons dépasser les projections industrielles précédentes. Nous avons besoin de la prochaine génération d'innovateurs pour nous aider dans ces avancées.

Intégration du calcul et de la mémoire

Lisa Su

Une intégration plus étroite entre le calcul et la mémoire est essentielle. Passer de la DDR5 standard à la mémoire à large bande passante et à la liaison 3D améliore considérablement l'efficacité. Nous avons démontré l'empilement de SRAM sur des puces de calcul en production, ce qui améliore certaines charges de travail. Il existe encore plus d'opportunités dans l'empilement de DRAM et d'autres types de mémoire sur le calcul.

Lisa Su

Il y a eu des discussions sur le traitement en mémoire. Bien que cela semble contre-intuitif pour un spécialiste des processeurs, cela a du sens d'un point de vue système. L'insertion de certains algorithmes dans les composants mémoire peut réduire l'énergie d'accès globale jusqu'à 85 %. Cela nécessite un apprentissage transversal entre le matériel et les applications.

Efficacité des E/S et optique co-packagée

Lisa Su

L'amélioration de l'efficacité des E/S est également critique. Si le conditionnement avancé fonctionne bien pour la communication locale, davantage de travail est nécessaire pour les E/S à plus longue portée. La communication optique est un domaine clé pour atteindre le calcul à l'échelle zetta. Nous avons travaillé avec la DARPA sur des solutions d'optique co-packagée pour répondre à ce problème.

Le boîtier comme nouvelle carte mère et standardisation

Lisa Su

Le boîtier est la nouvelle carte mère. Au lieu de placer des éléments de différents fournisseurs sur une carte, nous devons nous assurer qu'ils peuvent être intégrés dans un seul boîtier. Cela nous oblige à penser différemment. Nous voulons optimiser chaque cœur de calcul, qu'il s'agisse d'un CPU, d'un GPU ou d'un accélérateur spécifique au domaine.

Lisa Su

La standardisation des interfaces puce à puce est importante pour que nous puissions mélanger et assortir des composants optimisés par différentes personnes. L'ajout de l'optique co-packagée et du conditionnement avancé 2.5D et 3D rend cela possible. Nous devons nous concentrer sur une optimisation claire au sein des spécialités tout en veillant à ce que des normes existent pour connecter les différents composants.

Vers l'échelle zetta et l'utilisation de l'IA

Lisa Su

Nous ne savons pas encore exactement comment atteindre le calcul à l'échelle zetta. Nous avons de nombreuses pièces comme la technologie des procédés, les optimisations architecturales, les chiplets et la mémoire. Celles-ci amélioreront l'efficacité, mais il reste encore un écart dû aux limitations physiques. Il est difficile de prédire la taille de cet écart, mais nous devons nous concentrer sur l'efficacité énergétique.

Lisa Su

Nous devrions envisager de tirer parti de l'IA de manière plus holistique. L'IA peut résoudre des problèmes répétitifs comme l'entraînement de grands modèles, mais elle peut aussi être utilisée en mode hybride. Les flops d'IA se sont améliorés beaucoup plus rapidement que les mesures traditionnelles grâce aux capacités de précision mixte. Nous devrions utiliser cela pour plus de problèmes.

Modèles de physique de substitution par IA

Lisa Su

Un domaine important est celui des modèles de physique de substitution par IA. L'idée est d'utiliser le bon type de calcul pour le bon problème. Au lieu de résoudre des problèmes physiques complexes uniquement avec des supercalculateurs traditionnels et d'énormes ensembles de données, le HPC accéléré par l'IA offre un levier intéressant.

Lisa Su

Dans un flux de travail hybride, vous pourriez gérer une partie de la physique avec le calcul traditionnel, vous entraîner sur ces données, puis utiliser l'inférence pour raccourcir les cycles. Bien que cela en soit à ses débuts et nécessite du travail sur les algorithmes et le partitionnement des problèmes, c'est une énorme opportunité pour l'optimisation au niveau du système.

Lisa Su

Il est important de rassembler toutes ces innovations pour résoudre des problèmes système à grande échelle. L'IA sera un élément de plus en plus important, tant dans les algorithmes que dans les environnements de conception pour concevoir des puces plus rapidement. Il y a beaucoup de potentiel dans ces domaines.

Conclusion et appel à l'innovation

Lisa Su

C'est un honneur d'être à l'ISSCC pour parler aux personnes les plus intelligentes de la planète. C'est une période passionnante pour la technologie. Tout le monde a besoin de plus de calcul car cela rend tout plus intelligent et nos vies plus efficaces. Le principal défi pour ceux qui travaillent dans le matériel est l'efficacité énergétique, qui reste notre principal limitateur.

Lisa Su

Les étudiants peuvent utiliser des outils comme ChatGPT pour commencer leurs travaux et les améliorer ensuite, passant moins de temps sur des tâches non différenciatrices. Nous devons innover dans de nouvelles dimensions. En tant que membre du PCAST, nous avons examiné une vision à 10 ans pour la R&D américaine sur les semi-conducteurs. Le point majeur est que toutes les disciplines doivent travailler ensemble.

Lisa Su

Il n'y a pas de solution unique. Nous avons besoin de travail dans l'architecture, les matériaux, les systèmes, la technologie des procédés et les circuits. Rassembler ces éléments pour résoudre de grands défis fait ressortir le meilleur de l'industrie et du monde universitaire. Qu'il s'agisse d'atteindre l'échelle zetta ou de réduire le temps de conception des puces, ces problèmes seront le moteur de la prochaine série d'innovations.

Lisa Su

Merci beaucoup de m'avoir reçue. Ce fut un plaisir d'être ici, et merci pour tout ce que vous faites pour faire progresser notre technologie.

Retour aux entretiens de Lisa Su