GeForce RTX : toutes les nouveautés de l’architecture Turing

Chris Angelini , le 14 septembre 2018

Voici donc les derniers nés de l’histoire des GPU NVIDIA, une saga qui dure depuis le tout premier NV1 lancé il y a… 28 ans ! Après la génération Pascal, voici la génération Turing, l’architecture Volta ne s’adressant pas aux joueurs. NVIDIA présente Tu

NVIDIA Turing : une ray-volution ?

Voici donc les derniers nés de l’histoire des GPU NVIDIA, une saga qui dure depuis le tout premier NV1 lancé il y a… 23 ans ! Après la génération Pascal, voici la génération Turing, l’architecture Volta ne s’adressant pas aux joueurs. NVIDIA présente Turing comme une petite révolution pour le rendu 3D en temps réel des jeux vidéo : c’est le premier GPU du genre à intégrer des coeurs dédiés à l’intelligence artificielle (Tensor) et surtout au ray tracing (RT). De quoi améliorer considérablement la qualité du rendu 3D en assistant les traditionnels coeurs CUDA.

« La plus grande avancée depuis 10 ans »

Selon NVIDIA, il s’agit du plus grand bond en avant technique depuis une dizaine d’années. Le géant du GPU explique d’ailleurs que les coeurs RT sont le résultat de 10 ans de recherche, depuis l’ambition du ray tracing en temps réel avancée par NVIDIA en 2008.

Pour l’instant, il est impossible d’en dire plus sur les performances pratiques de ces cartes. Nos testeurs viennent tout juste de recevoir les cartes et les pilotes adaptés. Notez d’ailleurs que les premiers tests des GeForce RTX 2080 Ti et 2080, publiés le 19 septembre, ne montreront pas les performances avec les technos RTX et l’assistance des coeurs Tensor, faute de jeu pour l’exploiter. On en saura toutefois plus sur les capacités de ces cartes dans un rendu classique par rastérisation.

Pour l’instant donc, voici tout ce qu’il faut savoir sur l’architecture Turing : fonctionnement, apports, promesses, et caractéristiques précises. Notez que nous avons déjà parlé de Ansel RTX, et de toutes les démos vidéo à voir à l’annonce des cartes.

Caractéristiques complètes des cartes :

Modèle	Quadro RTX 6000	GeForce RTX 2080 Ti Founders Edition	Quadro RTX 5000	GeForce RTX 2080 Founders Edition	GeForce RTX 2070 Founders Edition
Architecture GPU	Turing TU102	Turing TU102	Turing TU104	Turing TU104	Turing TU106
GPCs	6	6	6	6	3
TPCs	36	34	24	23	18
SMs	72	68	48	46	36
Coeurs CUDA par SM	164	64	64	64	64
Coeurs CUDA par GPU	4608	4352	3072	2944	2304
Coeurs Tensor par SM	8	8	8	8	8
Coeurs Tensor par GPU	576	544	384	368	288
Coeurs RT	72	68	48	46	36
Fréquence GPU Base (Boost)	1455 MHz 1770 MHz	1350 MHz 1635 MHz	1620 MHz 1815 MHz	1515 MHz 1800 MHz	1410 MHz 1710 MHz
RTX-OPS (Tera-OPS)	84	78	62	60	45
Rays Cast (Giga Rays/s)	10	10	8	8	6
FP32 TFLOPS	16,3	14,2	11,2	10,6	7,9
INT32 TIPS	16,3	14,2	11,2	10,6	7,9
FP16 TFLOPS	32,6	28,5	22,3	21,2	15,8
FP16 Tensor TFLOPS avec FP16 Accumulate	130,5	113,8	89,2	84,8	63
FP16 Tensor TFLOPS avec FP32 Accumulate	130,5	56,9	89,2	42,4	31,5
INT8 Tensor TOPS	261	227,7	178,4	169,6	126
INT4 Tensor TOPS	522	455,4	356,8	339,1	252,1
Mémoire	24576 Mo GDDR6	11264 Mo GDDR6	16384 Mo GDDR6	8192 Mo GDDR6	8192 Mo GDDR6
Interface Mémoire	384-bit	352-bit	256-bit	256-bit	256-bit
Vitesse de transfert	14 Gb/s	14 Gb/s	14 Gb/s	14 Gb/s	14 Gb/s
Bande Passante VRAM	672 Go/s	616 Go/s	448 Go/s	448 Go/s	448 Go/s
ROPs	96	88	64	64	64
Unités de texture	288	272	192	184	144
Texel Fill-rate (Gigatexels/s)	510	444,7	348	331,2	246,2
Cache L2	6144 Ko	5632 Ko	4096 Ko	4096 Ko	4096 Ko
Total Bancs de registres par SM	256 Ko	256 Ko	256 Ko	256 Ko	256 Ko
Total Bancs de registres par GPU	18432 Ko	17408 Ko	12288 Ko	11776 Ko	9216 Ko
TDP	260 W	260 W	230 W	225 W	185 W
Transistors	18,6 milliards	18,6 milliards	13,6 milliards	13,6 milliards	10,8 milliards
Taille du die	754 mm²	754 mm²	545 mm²	545 mm²	445 mm²
Finesse de gravure	12 nm FFN	12 nm FFN	12 nm FFN	12 nm FFN	12 nm FFN

Les GPU TU102, TU104 et TU106 en détail

Image 1 : GeForce RTX : toutes les nouveautés de l'architecture Turing

TU102 : le GPU complet de la Quadro RTX 6000

Le TU102 est le GPU Turing le plus puissant, et donc le plus grand (754 mm²), avec 18,6 milliards de transistors gravés par TSMC en 12 nm FinFET. Par rapport à la génération Pascal, la puce est 60 % plus grande, avec 55 % plus de transistors, l’écart est donc assez énorme. Ce n’est pourtant pas le GPU le plus monstrueux de NVIDIA, qui reste le GV100 (Volta), avec 21,1 milliards de transistor sur une surface de 815 mm².

Volta n’est toutefois pas fait pour les joueurs. Un bon exemple : il dispose de 2688 coeurs FP64, 32 par Streaming Multiprocessor (SM), pour le calcul en double précision, indispensable pour certaines applications scientifiques. Pour les jeux, les unités FP64 ne servent à rien, et Turing s’en passe, ou presque : il lui en reste deux par SM, juste pour assurer une compatibilité avec les applications qui l’exigent (mais les performances seront alors divisées par 16 face au FP32).

Un GPU Turing TU102 complet intègre six Graphics Processing Clusters (GPC), composé d’un Raster Engine, de six Texture Processing Clusters (TPC). Chaque TPC intègre deux SM et un Polymorph Engine pour la géométrie. Chaque SM contient 64 coeurs CUDA, 8 coeurs Tensor, un coeur RT, 4 unités de texture, 16 unités load/store pour gérer les registres, 256 Ko de registre, quatre caches d’instructions L0 et un cache L1 de 96 Ko partagé configurable.

Multipliez le tout, et vous obtenez 72 SM, 4608 coeurs CUDA, 576 coeurs Tensor, 72 coeurs RT, 288 unités de texture, et 36 moteurs PolyMorph. Sans oublier l’interface mémoire, composées de 12 contrôleurs GDDR6 32 bits, chacun attaché à un cluster de 8 ROP et 512 Ko de cache L2… Pour un total de 96 ROP sur un bus mémoire 384 bits avec 6 Mo de cache L2.

Image 2 : GeForce RTX : toutes les nouveautés de l'architecture Turing

GeForce RTX 2080 Ti : un TU102 allégé

Pour faire simple : afin de réduire la facture et la consommation, la 2080 Ti sacrifie deux TPC, soit quatre SM. Elle se sépare donc de 256 coeurs CUDA, 32 coeurs Tensor, 4 coeurs RT, 2 moteurs Polymorph, et 16 unités de texture. Un contrôleur mémoire 32 bits est aussi désactivé, pour une largeur agrégée de bus qui tombe donc à 352 bits, avec 8 ROP de moins, et 512 Ko de cache L2 disparus. Et pour cause, il n’y a plus 12 puces mémoire sur le PCB, mais 11.

La carte arbore un TDP de 260 W en version Founders Edition, et pourra descendre à 250 W sur les modèles de référence. Ce qui est étonnant, c’est que la Quadro RTX 6000, avec un GPU plus lourd, arbore aussi un TDP de 260 W, et sa fréquence boost monte bien plus haut (1770 MHz contre 1635 MHz pour la 2080 Ti). Seule explication possible : les GPU d’excellente qualité seront triés pour la Quadro !

TU104 : la version raisonnable

On retrouve des dimensions plus « humaines » avec le TU104, qui laisse place à une RTX 2080 au prix moins délirant. Le nombre de transistor diminue (13,6 milliards), sur une surface de 545 mm²… qui reste supérieure à celle du GPU Pascal GP102 haut de gamme !

Le TU104 garde évidemment la même structure architecturale, à une différence près : les six GPC ne contiennent désormais que 4 TPC au lieu de 6. Du coup, un TU104 complet, celui que la Quadro RTX 5000, regroupe 3072 coeurs CUDA. L’interface mémoire est aussi tronquée, avec huit contrôleurs 32 bits, 64 ROP et 4 Mo de cache L2. Notez que le TU104 voit aussi une connexion NVLink réduite par deux (8x, soit 50 Go/s).

La version destinée à la GTX 2080 est encore un peu tronquée : l’un des TPC du TU104 est désactivé, soit 128 coeurs CUDA et 2 coeurs RT en moins, etc. Attention, la carte est effectivement plus puissante que la GTX 1080, mais elle est aussi plus gourmande en énergie de 45 W.

TU106 : le petit frère

Image 3 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Si le précédent GP106 équipait les GeForce GTX 1060 milieu de gamme, le nouveau TU106 équipe l’entrée du haut de gamme, la RTX 2070. Le GPU est encore plus petit (445 mm²). Il n’intègre plus que 3 GPC contenant 6 TPC chacun, ce qui donne 36 SM et 2304 coeurs CUDA. Il n’y a plus que 36 coeurs RT et 288 coeurs Tensor. Sur le papier, la carte est presque deux fois moins puissante que la RTX 2080 Ti, mais garde une consommation relativement élevée de 185 W dans sa version Founders Edition overclockée, 175 W de référence, alors que la 1070 était à 150 W. Le TU106 perd aussi le NVLink.

Le SM Turing en détail

Image 4 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Le Streaming Multiprocessor de Turing est totalement différent du précédent SM de Pascal et ses 128 coeurs CUDA. Il n’embarque plus que 64 coeurs CUDA, mais s’arme de huit coeurs Tensor et d’un coeur RT. Héritage de l’architecture Volta : les Coeurs CUDA ont cette fois la possibilité d’exécuter simultanément des opérations FP32 à virgule flottante et INT32 en nombres entiers, ce qui va profiter grandement aux performances de rendu des jeux classiques en rastérisation, selon NVIDIA.

Le gain potentiel serait assez important pour certain jeux comme Battlefield 1, qui exécute 50 opérations INT32 pour 100 opérations FP32 dans son code de rendu. D’autres jeux sont moins demandeurs en opération INT32, mais NVIDIA affirme qu’environ 36 % des opérations sont du INT32 qui retardent le pipeline FP32, réduisant ainsi les performances si le GPU n’est pas capable de les traiter en parallèle. NVIDIA parlent toujours de 64 coeurs CUDA pour simplifier, mais il y a en fait 64 unités FP32 et 64 unités INT32 dans le SM, pour être exact.

Image 5 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Les SM du précédent GPU Pascal peuvent sembler plus complexes et avancés, mais Turing en embarque deux fois plus, ce qui permet de contenir beaucoup plus de coeurs CUDA, sans compter l’interface mémoire beaucoup plus avancée. S’y ajoutent les capacités d’accélération du coeur RT, que nous allons détailler dans les pages suivantes, et l’assistance des coeurs Tensor. Pour l’instant, NVIDIA ne semble avoir qu’une seule application claire de cette IA : le DLSS, dont nous allons aussi parler dans les pages suivantes.

Turing augmente sa mémoire et améliore sa hiérarchie d’utilisation. Pascal utilisait un cache L1 pour chacun de ses quatre blocs, et une mémoire partagée entre tous les blocs. Les nouveaux SM optent pour un cache L1 unifié et partagé entre leurs quatre blocs. Cette unification permet de stocker toute les tâches dans un cache, quelque soit leur destination (cache L1 ou mémoire partagée dans Pascal), sans ralentir les unités d’exécution.

Ce cache L1 profite aussi d’un bus de donnée bien plus large, doublant sa bande passante (128 octets par cycle d’horloge contre 64 octets chez Pascal). Ce cache peut aussi être configuré en 64 Ko de L1 et 32 Ko de mémoire partagée (ou l’inverse), ce qui rappelle l’architecture Kepler. Le cache L2 du GPU est aussi doublé par rapport au GP102 Pascal, avec une bande passante annoncée « significativement plus importante ».

50 % plus rapide ?

Image 6 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Toutes ces améliorations combinées permettent à NVIDIA d’annoncer 50 % de performance en plus par coeur CUDA, par rapport à Pascal. Et au niveau de la mémoire vidéo, NVIDIA affirme avoir encore perfectionné sont système de compression lancé avec Pascal sur de la RAM GDDR6 plus rapide. La bande passante mémoire est donc nettement supérieure, d’environ 50 % si on cumule les gains de la fréquence mémoire et de la compression.

Image 7 : GeForce RTX : toutes les nouveautés de l'architecture Turing

L’IA au service du rendu 3D

Image 8 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Turing hérite des coeurs Tensor arrivés avec l’architecture Volta, mais dans une version améliorée. Le TU102 intègre toutefois moins de coeurs Tensor que la puce GV100 de la Titan V (576 maximum contre 640). Ils sont aussi différents car ils ne gère pas les calculs vraiment destinés à l’entraînement en Deep Learning, Turing étant plutôt conçu pour exploiter par inférence l’IA d’un réseau neuronal déjà entraîné. Ces coeurs Tensor sont toutefois annoncés très rapides, capables d’atteindre 114 TFLOPS FP16, et jusqu’à 455 TOPS INT4.

Ces coeurs Tensor sont destinés à l’assistance au rendu graphique 3D, mais NVIDIA a suggéré qu’il serait possible de les utiliser dans d’autres domaines, notamment l’intelligence artificielle des personnages dans les jeux vidéo, la reconnaissance et la synthèse vocale, la détection de la triche en jeu, etc.

Image 9 : GeForce RTX : toutes les nouveautés de l'architecture Turing

L’antialiasing intelligent ultime ?

Pour l’instant, la seule application annoncée est le DLSS, pour Deep Learning Super Sampling. La technos doit être gérée par les développeurs via l’API NGX de NVIDIA, mais l’implémentation est annoncée ultra-simple. Après tout, il ne s’agit que d’appliquer par inférence ce qu’a appris un gros réseau neuronal entraîné par NVIDIA sur de multiples images en haute et basse définition. Les modèles entraînés sont ensuite téléchargés via les pilotes graphiques de NVIDIA, et utilisent les coeurs Tensor pour s’appliquer en temps réel à l’image. Selon NVIDIA, ces modèles ne font que quelques mégaoctets.

Image 10 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Image 11 : GeForce RTX : toutes les nouveautés de l'architecture Turing

La question de la qualité réelle du DLSS reste en suspend. L’exemple de NVIDIA sur la démo Infiltrator de Epic sous Unreal Engine est forcément très convaincante, mais le DLSS fonctionnera-t-il aussi bien sur tous les jeux ? Le DLSS est entraîné sur des images échantillonnés 64 fois, ainsi, un DLSS 2x serait aussi efficace qu’un filtre d’antialiasing classique 64x en super-sampling, sans monopoliser les ressources des coeurs CUDA du GPU. Reste à savoir en pratique ce que ça donnera, avec quelle définition d’image, et quels seront les gains réels de performances…

Image 12 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Le RayTracing hybride expliqué

Voilà le coeur de la nouveauté de l’architecture Turing : le ray tracing en temps réel, un Graal que beaucoup de graphistes et joueurs attendent depuis longtemps. Il ne s’agit évidemment pas d’un rendu 100 % en lancée de rayon, mais d’un rendu hybride, qui mélange rastérisation classique pour la majorité du rendu, et ray tracing accéléré en matériel pour les effets de lumières, de reflets et d’ombre.

A lire > RayTracing : tout ce qu’il faut retenir des démos de la GDC 2018

Image 13 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Les coeurs RT sont en fait des accélérateurs matériel d’une fonction fixe, celle du BVH (Bounding Volume Hierarchy). Cet algorithme permet de structurer et de simplifier les opérations de ray tracing pour les rendre plus efficaces, notamment en réduisant le nombre d’intersections de triangles qui doivent être testées pour calculer la trajectoire finale du rayon. Les calculs BVH existent déjà dans les jeux, dans des volumes très restreints, via l’API D3D12 RayTracing Fallback. Ils prennent énormément de ressources, surtout s’ils doivent être appliqués dans un grand volume. Le calcul monopolise les coeurs programmables du GPU pour tester les intersections des rayons et des triangles. Il est donc impossible de faire tourner ça en temps réel sur un GPU normal pour un grand volume.

Image 14 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Chez Turing, les coeurs RT accélèrent précisément ces calculs. Le SM lance un rayon dans la scène à tester, et laisse le coeur RT simuler le reste en matériel, sans monopoliser les coeurs CUDA. Ainsi, la GeForce GTX 1080 Ti ne peut générer que 1,1 milliard de rayons par seconde en monopolisant tous ses coeurs CUDA, et la RTX 2080 Ti peut en générer 10 milliards seulement avec ses 68 coeurs RT. Des chiffres qui restent à confirmer, car ils correspondent à des tests spécifiques en ray tracing, et pas à un comportement en jeu.

Image 15 : GeForce RTX : toutes les nouveautés de l'architecture Turing

	GeForce GTX 1070	GeForce GTX 1080	GeForce GTX 1080 Ti	GeForce RTX 2070 FE	GeForce RTX 2080 FE	GeForce RTX 2080 Ti FE	Quadro RTX 5000	Quadro RTX 6000
Rays Cast (Giga Rays/sec)	0,65	0,89	1,1	6	8	10	8	10
Cœurs RT	0	0	0	36	46	68	48	72

Le ray tracing est ainsi capable de dessiner des ombres quasi-parfaites à l’écran, mais aussi de gérer beaucoup mieux les reflets. Les rayons lancés restant limités, il faudra améliorer artificiellement le résultat par débruitage des ombres, lumières et reflets. Ce débruitage sera logiciel dans la majorité des cas, ce qui va prendre un peu de ressources. NVIDIA a déjà mis au point un système de débruitage matériel par intelligence artificielle, mais n’en parle pas dans ce cas précis. Difficile de savoir pour l’instant si les coeurs Tensor pourront s’en charger. Nous savons que les reflets par ray tracing de Battlefield V sont débruités par un algorithme logiciel. NVIDIA explique toutefois que dans le futur, le débruitage par IA remplacera toutes les méthodes logicielles actuelles.

Image 16 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Image 17 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Un shading plus intelligent

Le Mesh Shading : pour plus d’objets à l’écran

Image 18 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Outre les améliorations architecturales pures et dures de la puces, Turing s’accompagne aussi de technologies censées améliorer l’efficacité du rendu graphique. Ces techniques ne sont pas encore implémentées dans les jeux, et il faudra du temps pour en voir les bénéfices. Exemple type : le Mesh Shading, qui consiste à décharger le CPU de plusieurs tâches qui peuvent lui demander beaucoup de ressources lorsqu’il faut gérer la géométrie de centaines de milliers d’objets affichés à l’écran.

La technique semble fonctionner avec DirectX 11 et 12, et propose un shader spécial (mesh shader) pour prendre en charge par le GPU le calcul du LOD (niveau de détail à appliquer à l’objet par tesselation en fonction de sa distance dans la scène), et la suppression de l’objet dans le rendu lorsqu’il n’est pas visible à l’écran. Ce shader, moins spécifique que le vertex shader, peut prendre en charge une liste d’objets pour libérer le CPU en calculant directement sur le GPU la localisation de l’objet, son niveau de détail LOD et s’il peut être ignoré dans le rendu.

Variable Rate Shading : du shading astucieux

Image 19 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Turing va aussi permettre d’appliquer un shading différemment dans différentes parties de la scène à afficher, toujours dans le but d’améliorer les performances. Il est possible d’appliquer un shading exact en 1×1 pour chaque pixels, mais il sera aussi possible de réduire le nombre de pixels traités en appliquant des modèles moins précis (plus faible définition) sur d’autres parties de l’image, sur des blocs 2×1, 1×2, 2×2 et 4×4.

Image 20 : GeForce RTX : toutes les nouveautés de l'architecture Turing

L’idée consiste évidemment à appliquer ce shading sans réduire la qualité de l’image finale. Le shading moins précis se fera en fonction du contenu de l’image (content-adaptive shading), par exemple à des aplats de couleur uniformes. La seconde idée consiste à appliquer un shading moins précis en fonction du mouvement des pixels (Motion-adaptive shading), par exemple à des parties de l’image où les mouvements sont très rapides (et donc flous).

NVIDIA a fait la démonstration de cette technique avec Wolfenstein II. Avec le Content-adaptive shading et le Motion-adaptive shading, les performances étaient annoncées 15 % meilleures, sans perte de qualité d’image visible à l’oeil nu. Il est possible que cette technique profite surtout aux cartes moins puissantes dans des jeux plus demandeurs en GPU, on parle alors de plus de 20 % de performances en plus autour de 60 ips…

Wolfenstein II fonctionne sous Vulkan, et ces techniques nécessitent des extensions dans l’API. On imagine que Microsoft prépare ces extensions pour DirectX avec NVIDIA.

La notion de RTX OPS : quel calcul ?

La notion de RTX-OPS est un petit bricolage mathématique qui consiste à donner une idée de la puissance de la carte en pratique dans un jeu avec ray tracing RTX en temps réel. Les GPU deviennent de plus en plus complexes, surtout avec Turing et ses différentes parties, pas toujours sollicitées de manière uniforme. Difficile alors de résumer ses performances simplement, c’est pourtant ce que l’indice RTX-OPS souhaite faire.

Image 21 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Le RTX-OPS est censé prendre en compte tous les différents coeurs du GPU pour montrer ses capacités globales : coeurs INT32, FP32, Tensor et RT. Il suppose donc qu’une applications ou un jeu utilise la totalité des coeurs du GPU. Evidemment, les premiers benchs des GeForce RTX que vous verrez sur le Web ne représenteront que les performances classiques du GPU, sans les coeurs RT et Tensor.

Voilà donc la méthode de calcul du RTX-OPS selon les estimations et constatations de fonctionnement pratique du GPU par NVIDIA :

Les coeurs Tensor sont utilisés environ 20 % du temps de calcul de l’image (basé sur l’utilisation du DLSS)
Les coeurs CUDA travaillent pour le reste du temps de calcul, soit 80 %
Les coeurs RT sont utilisés pendant 50 % de ce temps de rendu restant (la moitié des 80 % restants, soit 40 %)
Les pipelines INT32 sont utilisés pendant 35 % de ce temps de rendu restant (35 % de 80 %, soit 28 %)
Un giga-ray prend l’équivalent de 10 TFLOPS de calcul sur CUDA (Pascal)

=> RTX-OPS = TENSOR x 20% + FP32 x 80% + RTOPS x 40% + INT32 x 28%

Pour une GeForce RTX 2080 Ti :
(14 FP32 TFLOPS x 80%) + (14 INT32 TIPS x 28%) + (100 RT TFLOPS x 40%) + (114 FP16 Tensor TFLOPS x 20%) = 78

	GeForce GTX 1070	GeForce GTX 1080	GeForce GTX 1080 Ti	GeForce RTX 2070 FE	GeForce RTX 2080 FE	GeForce RTX 2080 Ti FE	Quadro RTX 5000	Quadro RTX 6000
RTX-OPS (Tera-OPS)	6,5	8,9	11,3	45	60	78	62	84

C’est un peu tiré par les cheveux, mais ça se tient dans la mesure où il faut bien trouver un moyen d’afficher les performances relatives de chaque carte. Évidemment, nous n’utiliserons pas cet indice dans nos tests, qui resteront bien plus terre à terre : les performances de la carte en pratique !

NVLink : le renouveau du SLI ?

Les TU102 et TU104 sont les premiers GPU de bureau de Nvidia à utiliser le NVLink plutôt qu’une interface MIO (Multiple Input/Output) pour le support SLI. Le TU102 utilise deux liens x8, contre seulement un lien pour le TU104. Chaque liaison bidirectionnelle offre une bande passante pouvant atteindre 50 Go/s, dans chaque sens. Ainsi, la GeForce RTX 2080 Ti est capable d’atteindre 100 Go/s entre les cartes, là où la RTX 2080 est limitée à la moitié seulement.

Image 22 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Que ce soit avec un lien ou deux, du SLI de RTX ne fonctionnera qu’avec une paire de cartes espacées par trois ou quatre emplacements (au moins un emplacement vide entre les cartes est nécessaire pour le flux d’air). Officiellement, les GPU Pascal sont limités au même maximum de deux cartes, mais certaines configurations avec trois ou quatre GeForce GTX haut de gamme fonctionnant ensemble apparaissent parfois dans des benchmarks.

Une partie des problèmes rencontrés par le SLI sur Pascal venait des contraintes de bande passante entre les ponts SLI. Le lien MIO de l’interface SLI originale atteignait 1 Go/s, et l’implémentation sur Pascal poussait la bande passante à 4 Go/s environ. C’est suffisant pour renvoyer la trame de rendu de la seconde carte vers la première pour l’afficher sur un écran 4K à 60 Hz, mais cela devient insuffisant pour fonctionner à 120 Hz, une fréquence de rafraîchissement que de nombreux écrans haut de gamme atteignent aujourd’hui.

Même dans une configuration à liaison unique (50 Go/s), l’interface NVLink peut déplacer les données si rapidement que du SLI sur un écran 8K est possible. Piloter des moniteurs 4K à 144 Hz en mode Surround ne pose aucun problème, et deux liaisons x8 ont le débit nécessaire pour les écrans 8K en Surround.

Image 23 : GeForce RTX : toutes les nouveautés de l'architecture Turing

La véritable question est plutôt : qui se soucie encore du SLI ? AMD et Nvidia ont tellement mis de côté les configurations multi-GPU que vous ne nous demandez quasiment jamais de résultats de benchs avec des configurations SLI. A une époque, il était commun de grouper deux cartes de milieu de gamme pour égaler les performances d’une carte plus puissante, mais Nvidia a mis un terme à cette pratique en limitant le support du SLI à ses modèles haut de gamme. Même la GeForce RTX 2070 n’a pas de connecteur NVLink. Les anciens jeux basés sur DirectX 11 fonctionnent toujours bien sur deux cartes, et une poignée de titres basés sur DirectX 12 exploitent le mode multi-GPU explicite de l’API. Mais le fait que des développeurs comme EA DICE consacrent du temps sur des fonctionnalités comme le ray tracing en temps réel et ignorent le multi-GPU en dit long sur l’avenir du SLI.

Des représentants de Nvidia nous ont expliqué qu’ils auraient prochainement d’autres choses à nous dire à ce sujet. Pour l’instant, le support du NVLink sur les GeForce RTX 2080 Ti et 2080 est une nouveauté qui nous permet de nous concentrer sur des taux d’images par seconde suffisant pour assurer un rendu fluide en 4K.

Du 8K en 60 Hz, VirtualLink pour la VR

Les cartes GeForce RTX Founders Edition comportent trois connecteurs DisplayPort 1.4a, une sortie HDMI 2.0b et une interface VirtualLink. Elles prennent en charge jusqu’à quatre moniteurs simultanément et sont bien entendu compatibles HDCP 2.2. Pourquoi pas de HDMI 2.1 ? NVIDIA nous répond que ce standard n’était pas encore prêt en novembre 2017, lorsque le design des cartes Turing devait être terminé.

Image 24 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Turing permet également la compression de flux d’affichage (Display Stream Compression, ou DSC) via le DisplayPort, ce qui permet d’afficher du 8K (7680×4320) à 60 Hz, ou bien du 4K (3840×2160) HDR avec un taux de rafraîchissement de 120 Hz.

En parlant de HDR, Turing lit maintenant en natif le contenu HDR à l’aide d’un circuit de mappage tonal (tone mapping) dédié. Pascal de son côté avait besoin d’appliquer un traitement à part, ce qui ajoutait de la latence.

Image 25 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Enfin, les trois cartes Founders Edition incluent des connecteurs VirtualLink pour les casques VR de nouvelle génération. L’interface VirtualLink utilise un connecteur USB de type C mais avec un câblage différent permettant d’associer quatre lignes DisplayPort, un canal de données USB 3.1 Gen2 bidirectionnel pour les capteurs haute résolution, et jusqu’à 27W de puissance. Selon le consortium VirtualLink, les casques existants fonctionnent généralement avec une puissance de 15W (écrans, contrôleurs, audio, électronique du câble et pertes du câble et des connecteurs compris). Cette nouvelle interface est conçue pour prendre en charge les futurs appareils plus gourmands en énergie, avec des capacités d’affichage améliorées, un meilleur son et des caméras haut de gamme. Attention : la puissance fournie via VirtualLink n’est pas comprise dans le TDP annoncé des cartes GeForce RTX. Nvidia indique que l’utilisation de cette interface nécessite jusqu’à 35W supplémentaires.

Meilleur encodeur vidéo hardware

Turing s’équipe d’un nouveau moteur d’encodage et de décodage vidéo matériel, annoncé plus efficace dans tous les domaines. Le streaming étant devenu très important pour les joueurs, il fallait perfectionner l’encodage, ce qui est chose faite. NVIDIA annonce que son nouveau NVENC est capable d’encoder en temps réel une vidéo 8K HDR à 30 images par seconde. L’encodeur permettrait aussi d’économiser 25 % de débit en H.265 et 15 % en H.264, améliorant donc la qualité finale de l’image à débit égal. Pour la première fois, NVIDIA annonce surpasser la qualité d’encodage logiciel en x264 en mode Fast pour du temps réel.

Image 26 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Côté décodage, NVENC est désormais capable de gérer le VP9 en 10 et 12 bits HDR, et le HEVC 4:4:4 10 et 12 bits HDR. Par rapport à Pascal, NVIDIA ajoute simplement le HEVC 4:4:4 en 12 bits.

Rénovation pour les cartes Founders Edition

Image 27 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Il faut dire adieu au blower avec ventilateur radial : les nouvelles cartes Founders Edition utilisent désormais une ventilation axiale à deux ventilateurs, sur un radiateur assez original encore jamais vu dans l’industrie des cartes graphiques. Ce radiateur est équipé d’une grande chambre à vapeur qui touche le GPU, mais aussi l’étage d’alimentation de la carte.

Image 28 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Image 29 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Attention, ce nouveau design signifie qu’il faudra désormais un boîtier bien ventilé pour prendre en charge tout l’air chaud que la carte va rejeter au sein même du PC (les ailettes étant axées sur la largeur de la carte, et pas la longueur). A n’en pas douter, les EOM vont devoir repenser l’aération de leur boîtier. Pour rappel, le blower était effectivement moins efficace en termes de refroidissement, et plus bruyant, mais il avait l’avantage de simplifier le design des PC par les fabricants. Certaines marques doivent faire un peu grise mine à la vue de ces Founders Edition, mais plusieurs fabricants ont déjà prévu des modèles blower classiques pour les satisfaire !

Image 30 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Les cartes Founders Edition semblent toutefois très travaillées pour taquiner les cartes haut de gamme des fabricants partenaires. Elles sont annoncées taillées pour l’overclocking, avec une limite de puissance qui peut monter 60 W au delà du standard de 260 W de la RTX 2080 Ti. Le rendement électrique est annoncé particulièrement travaillé grâce à un étage d’alimentation à huit phases, qui peuvent s’activer ou se désactiver dynamiquement en fonction de la charge.

Image 31 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Image 32 : GeForce RTX : toutes les nouveautés de l'architecture Turing

NVIDIA scanner : overclocking automatique !

NVIDIA Scanner va permettre d’exploiter la technologie NVIDIA Boost à son maximum, en analysant les capacités de la carte graphique à monter en fréquence de manière stable, et en déterminant la fréquence d’overclocking maximale qu’elle peut atteindre. Chaque carte est certifiée pour tenir une fréquence minimale, mais certaines bénéficient d’un GPU de meilleur qualité (loterie du silicium !), ce qui permet de monter plus haut en fréquence sans planter.

Image 33 : GeForce RTX : toutes les nouveautés de l'architecture Turing

NVIDIA fournit un package API/DLL à ses partenaires, comme EVGA ou MSI, qui pourront implémenter cette fonction dans leur logiciel de gestion de la carte graphique. Le système fait tourner une routine arithmétique faite maison, qui peut gérer des erreurs (et les détecter) sans planter. De quoi donner au logiciel la capacité d’augmenter la tension pour tester la même fréquence. Une fois que le Scanner atteint la tension maximale et rencontre encore une erreur, une nouvelle courbe de fréquence et de tension est calculée sur la base des essais qui ont réussi. Le processus de test dure environ 20 minutes.

La bonne nouvelle, c’est que le Scanner ne sera pas limité aux GeForce RTX, et sera compatible avec les précédentes cartes graphiques. NVIDIA ne précise pas lesquelles, mais nous pensons qu’il s’agit uniquement de Pascal, dont la gestion du Boost est déjà très avancée. D’ailleurs, lors de la sortie des GeForce Pascal, NVIDIA nous avait fait la démonstration d’un outil très similaire, qui n’avait finalement jamais vu le jour…