Intel présente ses CPU et GPU MAX Series : Sapphire Rapids-HBM et Ponte Vecchio

Rémi Bouvet , le 10 novembre 2022

Fin d’un suspens de plusieurs mois : les Xeon de 4e génération avec mémoire HBM2e proposent jusqu’à 56 cœurs CPU.

Avec un peu d’avance sur le Supercomputing 22, et quelques heure avant l’officialisation par AMD des ses EPYC Genoa, Intel a présenté de nouveaux produits pour les centres de données : des CPU Xeon Max et des GPU Data Center Max Series.

Image 1 : Intel présente ses CPU et GPU MAX Series : Sapphire Rapids-HBM et Ponte Vecchio — © Intel

Ces noms dissimulent en réalité des CPU et des cGPU dont nous avons régulièrement parlé au cours des derniers mois, à savoir les processeurs Sapphire Rapids et les GPU Ponte Vecchio.

Pour s’adapter aux restrictions, NVIDIA propose une alternative à l’A100 en Chine

Intel Max Series CPU

Les processeurs Xeon Max embarquent finalement jusqu’à 56 cœurs de performance (Golden Cove) construits à partir de quatre tuiles et connectés à l’aide de la technologie EMIB (embedded multi-die interconnect bridge) d’Intel, dans une enveloppe de 350 watts. Les processeurs Xeon Max contiennent 64 Go de mémoire intégrée à large bande passante (HBM2e), ainsi que des E/S PCI Express 5.0 et CXL1.1. Les CPU Xeon Max fourniront plus de 1 Go de capacité de mémoire à large bande (HBM) par cœur, “ce qui est suffisant pour répondre à la plupart des charges de travail HPC courantes” selon Intel. Ces puces prennent en charge huit canaux de mémoire DDR5 et l’interface PCIe Gen 5 avec le protocole CXL 1.1.

Image 2 : Intel présente ses CPU et GPU MAX Series : Sapphire Rapids-HBM et Ponte Vecchio — © Intel

Image 3 : Intel présente ses CPU et GPU MAX Series : Sapphire Rapids-HBM et Ponte Vecchio

Image 4 : Intel présente ses CPU et GPU MAX Series : Sapphire Rapids-HBM et Ponte Vecchio

Performances

Pour vanter les performances de ses nouveaux processeurs Xeon, Intel les compare aux EPYC Milan-X d’AMD (des EPYC 7003 dotés du 3D V-Cache). Comme indiqué en début d’article, AMD dégainera des EPYC Genoa sous architecture Zen 4 et proposant jusqu’à 96 cœurs aujourd’hui en fin d’après-midi.

Avant cela, revenons-en à nos Xeon Max. Intel rapporte que les CPU “offrent des performances jusqu’à 4,8 fois supérieures à celles de la concurrence sur des charges de travail HPC réelles”. Plus précisément, la société liste les points clefs qui suivent :

68 % de consommation électrique en moins qu’un cluster AMD Milan-X pour les mêmes performances HPCG.
Les extensions AMX ( Advanced Matrix Extensions) stimulent les performances de l’IA et offrent un débit maximal 8 fois supérieur à celui d’AVX-512 pour les opérations d’accumulation INT8 avec INT32.
Offre la flexibilité de fonctionner dans différentes configurations de mémoire HBM et DDR.
Repères de charge de travail :
Modélisation climatique : 2,4x plus rapide que AMD Milan-X sur MPAS-A en utilisant seulement la HBM.
Dynamique moléculaire : Sur DeePMD, amélioration des performances de 2,8x par rapport aux produits concurrents avec la mémoire DDR.

Les avantages de la HBM2E

Pour apporter un peu plus de détails sur la mémoire HBM2e, elle offre une bande passante maximale d’environ 1 To/s, ce qui se traduit en effet par 1,14 Go de HBM2E par cœur à 18,28 Go/s. Pour la comparaison, un CPU Sapphire Rapids à 56 cœurs collaborant avec huit barrettes de DDR5-4800 plafonne à 307,2 Go/s de bande passante, autrement dit un débit de 5,49 Go/s par cœur.

Les Xeon Max peuvent utiliser la mémoire HBM2E de trois manières différentes : simplement comme mémoire système ; comme cache haute performance pour le sous-système de mémoire DDR5 ; au sein d’un pool de mémoire unifié (HBM flat mode). Les deux premières solutions sont transparentes côté logiciel, mais pas la dernière.

Intel Max Series GPU

Les GPU de calcul Data Center GPU Max d’Intel, nom de code Ponte Vecchio, reposent sur l’architecture Xe-HPC. Par rapport à Xe-HPG, l’architecture Xe-HPC propose des sous-systèmes de mémoire et de mise en cache plus sophistiqués, ainsi que des cœurs Xe configurés différemment (chaque cœur Xe-HPG possède 16 moteurs vectoriels de 256 bits et 16 moteurs matriciels de 1024 bits, alors que chaque cœur Xe-HPC possède huit moteurs vectoriels de 512 bits et huit moteurs vectoriels de 4096 bits). Le ray tracing est – étrangement – toujours de la partie, mais le GPU Xe-HPC ne possède pas certains éléments d’un GPU Xe-HPG, comme les unités de texturage par exemple. Le GPU associe 47 tuiles, dont 8 tuiles de HBM2e, et compte plus de 100 milliards de transistors.

La série Max propose jusqu’à 128 cœurs Xe-HPC. Intel met en avant les caractéristiques suivantes :

408 Mo de cache L2 – le plus élevé du secteur – et 64 Mo de cache L1 pour augmenter le débit et les performances.
Le seul GPU HPC/AI avec accélération native du ray tracing, conçu pour accélérer la visualisation et l’animation scientifiques.
Bancs d’essai des charges de travail :
Finance : gain de performance de 2,4 fois par rapport à l’A100 de NVIDIA sur l’évaluation des options de crédit de Riskfuel.
Physique : amélioration de 1,5 fois par rapport au A100 pour les simulations de réacteurs virtuels NekRS.

Intel prend cette fois l’A100 comme cible. Là encore, ce n’est pas le produit le plus récent de NVIDIA ; l’entreprise a dégainé un H100 il y a quelques semaines.

Image 5 : Intel présente ses CPU et GPU MAX Series : Sapphire Rapids-HBM et Ponte Vecchio — © Intel

Image 6 : Intel présente ses CPU et GPU MAX Series : Sapphire Rapids-HBM et Ponte Vecchio

Image 7 : Intel présente ses CPU et GPU MAX Series : Sapphire Rapids-HBM et Ponte Vecchio

Facteurs de forme

Les GPU de la série Max seront disponibles dans plusieurs facteurs de forme :

GPU Max Series 1100 : Une carte PCIe double largeur de 300 watts avec 56 cœurs Xe et 48 Go de mémoire HBM2e. Plusieurs cartes peuvent être connectées via des ponts Intel Xe Link.
GPU Max Series 1350 : Un module OAM de 450 watts avec 112 cœurs Xe et 96 Go de HBM.
GPU Max Series 1550 : Module OAM de 600 watts, le plus performant d’Intel, avec 128 cœurs Xe et 128 Go de HBM.

Au-delà des cartes et modules individuels, Intel proposera le sous-système Intel Data Center GPU Max Series avec une carte porteuse GPU OAM x4 et Intel Xe Link pour permettre une communication multi-GPU haute performance au sein du sous-système.

cGPU	Data Center Max 1100	Data Center Max 1350	Data Center Max 1550	AMD Instinct MI250X	Nvidia H100	Nvidia H100
Facteur de forme	PCIe	OAM	OAM	OAM	SXM	PCIe
Tuiles + mémoire	?	?	39+8	2+8	1+6	1+6
Transistors	?	?	100 milliards	58 milliards	80 milliards	80 milliards
Cœurs Xe HPC \| Unités de calcul	56	112	128	220	132	114
Cœurs RT	56	112	128	–	–	–
Moteurs vectoriels 512-bit	448	896	1024	?	?	?
Moteurs matriciels 4096-bit	448	896	1024	?	?	?
Cache L1	?	?	64 Mo à 105 To/s	?	?	?
Cache L2	?	?	408 Mo à13 To/s	?	50 Mo	50 Mo
HBM2E	48 Go	96 Go	128 Go à 3,2 To/s	128 Go/s à 3,2 To/s	80 Go à 3,35 To/s	80 Go à 2 To/s
Multi-GPU	8	16	16	8	8	8
Consommation	300W	450W	600W	560W	700W	350W

Performances Ponte Vecchio

Comme le souligne Anton Shilov de Tom’s Hardware US, les XMX (Xe Matrix Extensions) permettent d’obtenir des performances tensorielles/matricielles théoriques de haut vol : jusqu’à 419 TFLOPS FP32 et jusqu’à 1678 INT8 TOPS, selon Intel. Seulement, notre confrère met en évidence dans le tableau qui suit une réalité moins idyllique : le Max 1550 reste inférieur au H100 de NVIDIA dans la plupart des cas, et n’est pas systématiquement meilleur que l’Instinct MI250X d’AMD.

cGPU	Data Center Max 1550	AMD Instinct MI250X	NVIDIA H100	NVIDIA H100
Facteur de forme	OAM	OAM	SXM	PCIe
HBM2E	128 Go à 3,2 To/s	128 Go/s à 3,2 To/s	80 Go à 3,35 To/s	80 Go à 2 To/s
Consommation	600W	560W	700W	350W
Peak INT8 Vector	?	383 TOPS	133,8 TFLOPS	102,4 TFLOPS
Peak FP16 Vector	104 TFLOPS	383 TFLOPS	134 TFLOPS	102,4 TFLOPS
Peak BF16 Vector	?	383 TFLOPS	133.8 TFLOPS	102,4 TFLOPS
Peak FP32 Vector	52 TFLOPS	47.9 TFLOPS	67 TFLOPS	51 TFLOPS
Peak FP64 Vector	52 TFLOPS	47,9 TFLOPS	34 TFLOPS	26 TFLOPS
Peak INT8 Tensor	1678 TOPS	?	1979 TOPS \| 3958 TOPS*	1513 TOPS \| 3026 TOPS*
Peak FP16 Tensor	839 TFLOPS	?	989 TFLOPS \| 1979 TFLOPS*	756 TFLOPS \| 1513 TFLOPS*
Peak BF16 Tensor	839 TFLOPS	?	989 TFLOPS \| 1979 TFLOPS*	756 TFLOPS \| 1513 TFLOPS*
Peak FP32 Tensor	419 TFLOPS	95,7 TFLOPS	989 TFLOPS	756 TFLOPS
Peak FP64 Tensor	–	95,7 TFLOPS	67 TFLOPS	51 TFLOPS

Disponibilité

Les produits Max présentés ici seront disponibles à partir de 2023. Au salon Supercomputing 22, qui se déroulera du 13 au 18 novembre, Intel présentera plus de 40 conceptions de systèmes à venir de 12 fabricants d’équipements originaux utilisant des produits de la série Max. Les participants pourront également voir des démonstrations illustrant les performances et les capacités des produits de la série Max pour toute une série d’applications d’intelligence artificielle et de calcul intensif.

Les produits de la série Max équiperont plusieurs systèmes HPC, dont le plus emblématique est le supercalculateur Aurora. Actuellement en construction à l’Argonne National Laboratory, il devrait devenir le premier supercalculateur à dépasser 2 exaflops de performance de calcul en double précision. Aurora sera également le premier à associer des GPU et des CPU de la série Max dans un seul système, avec plus de 10 000 lames, chacune contenant six GPU de la série Max et deux CPU Xeon Max. Sunspot, le système de développement de test d’Aurora, composé de 128 lames, sera accessible pour les chercheurs du programme Aurora Early Science à partir de la fin 2022.

Enfin, Intel a annoncé que la prochaine génération de GPU Max Series aurait pour nom Rialto Bridge. Lancement prévu en 2024.