Accueil » Dossier » GeForce RTX : toutes les nouveautés de l’architecture Turing » Page 2

GeForce RTX : toutes les nouveautés de l’architecture Turing

1 : NVIDIA Turing : une ray-volution ? 3 : Le SM Turing en détail 4 : L'IA au service du rendu 3D 5 : Le RayTracing hybride expliqué 6 : Un shading plus intelligent 7 : La notion de RTX OPS : quel calcul ? 8 : NVLink : le renouveau du SLI ? 9 : Du 8K en 60 Hz, VirtualLink pour la VR 10 : Meilleur encodeur vidéo hardware 11 : Rénovation pour les cartes Founders Edition 12 : NVIDIA scanner : overclocking automatique !

Les GPU TU102, TU104 et TU106 en détail

Image 1 : GeForce RTX : toutes les nouveautés de l'architecture Turing

TU102 : le GPU complet de la Quadro RTX 6000

Le TU102 est le GPU Turing le plus puissant, et donc le plus grand (754 mm²), avec 18,6 milliards de transistors gravés par TSMC en 12 nm FinFET. Par rapport à la génération Pascal, la puce est 60 % plus grande, avec 55 % plus de transistors, l’écart est donc assez énorme. Ce n’est pourtant pas le GPU le plus monstrueux de NVIDIA, qui reste le GV100 (Volta), avec 21,1 milliards de transistor sur une surface de 815 mm².

Volta n’est toutefois pas fait pour les joueurs. Un bon exemple : il dispose de 2688 coeurs FP64, 32 par Streaming Multiprocessor (SM), pour le calcul en double précision, indispensable pour certaines applications scientifiques. Pour les jeux, les unités FP64 ne servent à rien, et Turing s’en passe, ou presque : il lui en reste deux par SM, juste pour assurer une compatibilité avec les applications qui l’exigent (mais les performances seront alors divisées par 16 face au FP32).

Un GPU Turing TU102 complet intègre six Graphics Processing Clusters (GPC), composé d’un Raster Engine, de six Texture Processing Clusters (TPC). Chaque TPC intègre deux SM et un Polymorph Engine pour la géométrie. Chaque SM contient 64 coeurs CUDA, 8 coeurs Tensor, un coeur RT, 4 unités de texture, 16 unités load/store pour gérer les registres, 256 Ko de registre, quatre caches d’instructions L0 et un cache L1 de 96 Ko partagé configurable.

Multipliez le tout, et vous obtenez 72 SM, 4608 coeurs CUDA, 576 coeurs Tensor, 72 coeurs RT, 288 unités de texture, et 36 moteurs PolyMorph. Sans oublier l’interface mémoire, composées de 12 contrôleurs GDDR6 32 bits, chacun attaché à un cluster de 8 ROP et 512 Ko de cache L2… Pour un total de 96 ROP sur un bus mémoire 384 bits avec 6 Mo de cache L2.

Image 2 : GeForce RTX : toutes les nouveautés de l'architecture Turing

GeForce RTX 2080 Ti : un TU102 allégé

Pour faire simple : afin de réduire la facture et la consommation, la 2080 Ti sacrifie deux TPC, soit quatre SM. Elle se sépare donc de 256 coeurs CUDA, 32 coeurs Tensor, 4 coeurs RT, 2 moteurs Polymorph, et 16 unités de texture. Un contrôleur mémoire 32 bits est aussi désactivé, pour une largeur agrégée de bus qui tombe donc à 352 bits, avec 8 ROP de moins, et 512 Ko de cache L2 disparus. Et pour cause, il n’y a plus 12 puces mémoire sur le PCB, mais 11.

La carte arbore un TDP de 260 W en version Founders Edition, et pourra descendre à 250 W sur les modèles de référence. Ce qui est étonnant, c’est que la Quadro RTX 6000, avec un GPU plus lourd, arbore aussi un TDP de 260 W, et sa fréquence boost monte bien plus haut (1770 MHz contre 1635 MHz pour la 2080 Ti). Seule explication possible : les GPU d’excellente qualité seront triés pour la Quadro !

TU104 : la version raisonnable

Image 3 : GeForce RTX : toutes les nouveautés de l'architecture TuringOn retrouve des dimensions plus « humaines » avec le TU104, qui laisse place à une RTX 2080 au prix moins délirant. Le nombre de transistor diminue (13,6 milliards), sur une surface de 545 mm²… qui reste supérieure à celle du GPU Pascal GP102 haut de gamme !

Le TU104 garde évidemment la même structure architecturale, à une différence près : les six GPC ne contiennent désormais que 4 TPC au lieu de 6. Du coup, un TU104 complet, celui que la Quadro RTX 5000, regroupe 3072 coeurs CUDA. L’interface mémoire est aussi tronquée, avec huit contrôleurs 32 bits, 64 ROP et 4 Mo de cache L2. Notez que le TU104 voit aussi une connexion NVLink réduite par deux (8x, soit 50 Go/s).

La version destinée à la GTX 2080 est encore un peu tronquée : l’un des TPC du TU104 est désactivé, soit 128 coeurs CUDA et 2 coeurs RT en moins, etc. Attention, la carte est effectivement plus puissante que la GTX 1080, mais elle est aussi plus gourmande en énergie de 45 W.

TU106 : le petit frère

Image 4 : GeForce RTX : toutes les nouveautés de l'architecture Turing

Si le précédent GP106 équipait les GeForce GTX 1060 milieu de gamme, le nouveau TU106 équipe l’entrée du haut de gamme, la RTX 2070. Le GPU est encore plus petit (445 mm²). Il n’intègre plus que 3 GPC contenant 6 TPC chacun, ce qui donne 36 SM et 2304 coeurs CUDA. Il n’y a plus que 36 coeurs RT et 288 coeurs Tensor. Sur le papier, la carte est presque deux fois moins puissante que la RTX 2080 Ti, mais garde une consommation relativement élevée de 185 W dans sa version Founders Edition overclockée, 175 W de référence, alors que la 1070 était à 150 W. Le TU106 perd aussi le NVLink.

Sommaire :

  1. NVIDIA Turing : une ray-volution ?
  2. Les GPU TU102, TU104 et TU106 en détail
  3. Le SM Turing en détail
  4. L'IA au service du rendu 3D
  5. Le RayTracing hybride expliqué
  6. Un shading plus intelligent
  7. La notion de RTX OPS : quel calcul ?
  8. NVLink : le renouveau du SLI ?
  9. Du 8K en 60 Hz, VirtualLink pour la VR
  10. Meilleur encodeur vidéo hardware
  11. Rénovation pour les cartes Founders Edition
  12. NVIDIA scanner : overclocking automatique !