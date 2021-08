À l’occasion de l’Intel Architecture Days 2021, Intel a détaillé ses CPU Alder Lake et Sapphire Rappids, mais également deux GPU : Alchemist, les premières solutions Xe HPG (high performance gaming) de la gamme Intel Arc, et Ponte Vecchio, basé pour sa part sur l’architecture Xe HPC (high perfomance computing) et destiné au secteur du même nom.

Première information et non des moindres : les GPU Alchemist seront gravés en 6 nm par TSMC, soit sur un nœud plus avancé que le N7 (7 nm) des GPU RDNA 2 d’AMD. Le N6 fournit notamment une densité de transistors 18 % plus élevée.

Architecture Xe-HPG Alchemist

Penchons-nous d’abord sur le GPU Alchemist. Il s’arme de blocs de calcul indivisibles, baptisés Xe-core, qui contiennent chacun 16 moteurs vectoriels de 256 bits et 16 moteurs matriciels de 1024 bits. À ces éléments s’ajoutent un cache L1 (taille non précisée) et une matrice de stockage. Intel associe quatre Xe-core au sein d’un Render Slice, agrémenté de quatre unités de ray tracing et d’éléments communs nécessaires aux fonctionnalités DirectX 12 telles que des pipelines de géométrie et de rastérisation. La version de GPU Alchemist présentée ici embarque 8 Render Slices. Puisqu’il y a 16 unités d’exécution par Xe-core, cela donne 64 UE pour un Render Slice ; nous retrouvons donc bien les 512 UE maintes fois évoquées pour la meilleure des solutions DG2 (Alchemist désormais).

En outre, en partie grâce au nœud de gravure N6, Intel revendique une efficacité énergétique 50 % supérieure à celle des solutions Xe LP.

Lors de l’officialisation de sa marque de cartes graphiques dédiées Intel Arc, la société s’était bornée à annoncer une compatibilité avec DirectX 12 Ultimate pour ses GPU Alchemist et mentionné une technologie de sur-échantillonnage IA dans la lignée du DLSS ; nous connaissons désormais son appellation : XeSS pour Xe Super Sampling. Les développeurs auront accès au SDK du XeSS d’ici la fin du mois. Quant aux cartes graphiques Alchemist, elles arriveront au cours du premier trimestre 2022.

Architecture Xe-HPC Ponte Vecchio

Comme Raja Koduri l’avait affirmé, Ponte Vecchio comprend plus de 100 milliards de transistors et 47 Tiles. Il est fabriquée sur cinq nœuds de gravure différents dont le N5 de TSMC pour les tiles de calcul, reliées à la « tile base » grâce à Intel Foveros.

Le GPU HPC Xe reprend partage certaines similitudes avec le GPU Alchemist, notamment les blocs de calcul Xe-core avec huit moteurs vectoriels et huit moteurs matriciels, ainsi qu’une unité matérielle de lancer de rayon. Cependant, les moteurs utilisent des registres de 512 bits et 4096 bits respectivement. La taille de cache L1 est de 512 Ko. En outre, le Xe-HPC prend en charge les données au format TF32 utilisées pour l’apprentissage automatique.

Grâce à ses huit moteurs vectoriels, un seul Xe-core peut effectuer 256 opérations FP64 / FP32 par cycle ou 512 opérations FP16 par cycle ; les moteurs matriciels offrent 4096 opérations FP16 ou BF16 par cycle, 8192 opérations INT8 par cycle, ou 2048 opérations TF32 par cycle.

128 Xe-Core

Vous vous en doutez, un slice ne possède pas un seul Xe-core ; et pas non plus 8 comme le GPU MXM Alchemist, mais carrément 16. Le GPU Ponte Vecchio s’arme de 4 slices reliées entre elles par un cache L2 de 144 Mo et une matrice mémoire, avec huit connecteurs Xe Link, quatre piles HBM2e et un moteur multimédia. Mais Intel le proposera aussi dans une configuration à deux piles reliées entre elles par EMIB et qui double toutes ces valeurs. Enfin, il sera possible de faire travailler ensemble jusqu’à 8 GPU interconnectés par Xe Link.

Intel indique avoir un silicium A0 fonctionnel. Il délivre pour l’instant 45 TFLOPS FP32. La bande passante HBM2e affiche un débit de 5 To/s tandis que les débit de connectivité fonctionne s’élève à plus de 2 To/s.

Le supercalculateur Aurora notamment embarquera 6 GPU Ponte Vecchio et deux processeurs Sapphire Rapids par lame.