Le grand test de la GeForce GTX 1080 : la nouvelle reine

2 : Démontage de la GTX 1080 Founders Edition 3 : Simultaneous Multi-Projection et Async Compute 4 : Display Pipeline et SLI 5 : Méthode de test 6 : Résultats : Ashes, Battlefield et GTAV 7 : Résultats : Hitman, CARS et Rise of the Tomb Raider 8 : Résultats : The Division et The Witcher 3 9 : Résultats : applications professionnelles 10 : Résultats : consommation 11 : Résultats : température et bruit 12 : Conclusion

GeForce GTX 1080 8 Go : architecture du GP104

Voilà donc les cartes les plus attendues de l’année chez Nvidia : les GeForce GTX 1080 et 1070 ! Elles utilisent un processeur graphique GP104, le deuxième GPU pascal, le premier étant celui de la carte graphique Tesla P100. Pascal utilise une nouvelle finesse de gravure : du 16 nm FinFET Plus en provenance de TSMC. Le fondeur promet des performances 65 % plus élevées, une densité deux fois plus importante ou une consommation réduite de 70 % comparativement à son 28 nm. NVIDIA choisit une combinaison de tous ces avantages.

Gigabyte GeForce GTX 1080 Founders Edition

Asus GeForce GTX 1080 Founders Edition

789€

Caractéristiques records

La première puce de NVIDIA en 28 nm (GK104) date de 2012, et elle contenait 3,5 milliards de transistors. Les Maxwell GM204 intégraient 5,2 milliards de transistors dans un die de 398 mm2 de surface. Le GPU GP104 dispose aujourd’hui de 7,2 milliards de transistors sur une surface de 314 mm2. Les nouvelles GeForce GTX ont quatre Graphics Processing Cluster (GPC). Chaque GPC intègre cinq Thread/Texture Processing Cluster (TPC) et une unité de rastérisation. Chaque TPC offre un Streaming Multiprocessor (SM) et une unité PolyMorph. Le SM intègre 128 coeurs CUDA en simple précision, un fichier de registre de 256 Ko, 96 Ko de mémoire partagés, 48 Ko de cache L1/texture et huit unités de texture. Le moteur PolyMorph inclut quant à lui un nouveau bloc logique qui se situe à la fin du pipeline géométrique et juste avant l’unité de rastérisation. Il rend ainsi possible la technologie Simultaneous Multi-Projection. Au final, on trouve 20 SM, 2 560 coeurs CUDA et 160 unités de textures.

Huit contrôleurs mémoire 32 bits offrent un bus total d’une largeur de 256 bits. On trouve aussi huit ROP et 256 Ko de cache L2 associé à chacun d’entre eux. On retrouve donc de nombreuses similarités avec le GM204. L’architecture Maxwell avait donné la priorité au rendement, sans bouleverser les atouts des Kepler et Pascal utilisent la même philosophie.

Ajouter quatre SM ne semble pas être la solution pour accroître les performances de façon importante, mais la GP104 a plus d’un tour dans son sac. L’un d’entre eux fonctionne à une fréquence nettement plus élevée. La fréquence de base est de 1 607 MHz, comparativement au 1 126 MHz de la GM204. Le Boost atteint 1 733 MHz et nous avons pu atteindre 2 100 MHz sur notre carte de test en utilisant la version bêta de l’utilitaire PrecisionX d’EVGA. Selon Jonah Alben, vice-président et responsable de l’ingénierie des GPU, NVIDIA s’est concentré sur l’optimisation des timings et des circuits qui auraient pu causer une baisse de la fréquence. En conséquence, l’architecture GP104 atteint 8,228 TFLOPS en simple précision comparativement au 4,612 TFLOPS de la GTX 980, et le texel fill rate passe de 155 GT/s à 277,3 GT/s.


GeForce GTX 1080 (GP104) GeForce GTX 980 (GM204)
SM2016
Cœurs CUDA25602048
Fréquence de base1607 MHz1126 MHz
Fréquence GPU Boost1733 MHz1216 MHz
GFLOP Fréquence de base82284612
Unités de texture160128
Texel Fill Rate277,3 GT/s155,6 GT/s
Bus mémoire256 bits256 bits
MémoireGDDR5X 10 Gbit/sGDDR5 7 Gbit/s
Bande passante RAM320 Go/s224 Go/s
ROP6464
Cache L22Mo2Mo
TDP180W165W
Transistors7,2 milliards5,2 milliards
Surface du die314 mm²398 mm²
Gravure16 nm28 nm

Mémoire GDDR5X

De plus, même si la nouvelle carte utilise toujours 64 ROP et un bus de 256 bits, l’utilisation de la GDDR5X accroît la bande passante. NVIDIA a tenté de faire oublier la mémoire HBM utilisée par AMD ou la HBM2 des Tesla P100. Il semblerait qu’il n’y ait pas assez de HBM2 pour en avoir sur toutes les cartes et la firme ne voulait pas être limitée par l’HBM qui n’empile que des dies de 1 Go, ce qui aurait été problématique si NVIDIA avait empilé huit dies. Les volumes de la GDRR5x sont aussi faibles, puisque la GeForce GTX 1070 utilise de la GDDR5. Pour rappel, les 7 Gbit/s de la GDDR5 sur le bus 256 bits de la GeForce GTX 980 offraient une bande passante de 224 Go/s. La GDDR5X a un débit de 10 Gbit/s ce qui permet d’avoir un débit de 320 Go/s (une augmentation de 43 % environ). Selon NVIDIA, cette augmentation a lieu sans augmentation de la consommation, mais demande de repenser le circuit imprimé.

Tout comme Maxwell à son arrivée, Pascal promet une meilleure utilisation de la bande passante à l’aide de cache optimisé et d’algorithmes de compression. La technique de compression des delta des couleurs de la GP104 réduit de moitié la place que prennent ces informations et un nouveau mode 4:1 permet de réduire les ressources nécessaires lorsque les informations entre plusieurs pixels sont très légèrement différentes. Il y a aussi un mode 8:1 qui utilise la compression 4:1 sur des blocs de 2×2 pixels, en offrant une compression de 2:1 sur les différences entre eux.



L’image ci-dessus montre une capture d’écran non compressée de Project CARS et l’image suivante montre les éléments (en magenta) qui pourraient être compressé par une architecture Maxwell. Enfin, on peut voir ce que Pascal peut compresser. Selon NVIDIA, cela se traduit par une réduction de 20 % des informations qui ont besoin d’être puisées dans la mémoire pour rendre chaque image.

Sommaire :

  1. GeForce GTX 1080 8 Go : architecture du GP104
  2. Démontage de la GTX 1080 Founders Edition
  3. Simultaneous Multi-Projection et Async Compute
  4. Display Pipeline et SLI
  5. Méthode de test
  6. Résultats : Ashes, Battlefield et GTAV
  7. Résultats : Hitman, CARS et Rise of the Tomb Raider
  8. Résultats : The Division et The Witcher 3
  9. Résultats : applications professionnelles
  10. Résultats : consommation
  11. Résultats : température et bruit
  12. Conclusion