Nvidia GV100 : premier GPU Volta, 5376 coeurs CUDA, 120 TFlops

David Civera , le 11 mai 2017

Gigantesque !

Image 1 : Nvidia GV100 : premier GPU Volta, 5376 coeurs CUDA, 120 TFlops

La nouvelle architecture Volta

Le GV100 est le plus gros GPU jamais fabriqué par Nvidia, et le plus gros du marché puisque ses 21 milliards de transistors gravés en 12 nm occupent une surface de 815 mm². La nouvelle puce, la première basée sur l’architecture Volta se distingue par la présence de nouveaux coeurs complètement inédit, les coeurs Tensor. Destinés à optimiser l’apprentissage automatique, ils accélèrent certains calculs FP16 et FP32 au point d’atteindre une puissance théorique sur ces instructions spécifiques de 120 TFLOPS par GPU.

5376 coeurs CUDA

L’architecture GV100 dispose de six Graphics Processing Cluster contenant chacun 14 Volta Streaming Multiprocessor. Chaque Streaming Multiprocessor a 64 coeurs CUDA FP32, ce qui fait un total de 5376 coeurs CUDA.

La première carte à utiliser le GV100, la Tesla V100, utilise une version légèrement bridée contenant quatre Streaming Multiprocessor désactivés pour un total de 5120 coeurs CUDA. Sa puissance de calcul FP32 générique, hors coeurs Tensor, est de 15 TFlops, soit 40 % de mieux que la Tesla P100.

Deux cartes

NVIDIA proposera dans un premier temps deux cartes graphiques embarquant sa nouvelle mouture. La première aura un design single slot et un TDP de seulement 150 W, contre 300 W pour le modèle double slot. La firme n’a pas de donnée de détails supplémentaires, mais on imagine que les deux auront des fréquences très différentes.

Image 4 : Nvidia GV100 : premier GPU Volta, 5376 coeurs CUDA, 120 TFlops

Caractéristiques	Tesla K40	Tesla M40	Tesla P100	Tesla V100
GPU	GK110 (Kepler)	GM200 (Maxwell)	GP100 (Pascal)	GV100 (Volta)
Streaming Multiprocessors (SM)	15	24	56	80
Texture Processor Cluster	15	24	28	40
Coeurs CUDA FP32 / SM	192	128	64	64
Coeurs CUDA FP32 / GPU	2880	3072	3584	5120
Coeurs CUDA FP64 / SM	64	4	32	32
Coeurs CUDA FP64 / GPU	960	96	1792	2560
Coeurs CUDA Tensor / SM	NA	NA	NA	8
Coeurs CUDA Tensor / GPU	NA	NA	NA	640
Fréquence Boost	810/875 MHz	1114 MHz	1480 MHz	1455 MHz
Puissance théorique FP32 (TFLOPS)	5,04	6,8	10,6	15
Puissance théorique FP64 (TFLOPS)	1,68	2,1	5,3	7,5
Puissance théorique TensorOp (TFLOPS)	NA	NA	NA	120
Unités de Texture	240	192	224	320
Interface mémoire	GDDR5 384 bits	GDDR5 384 bits	HBM2 4096 bits	HBM2 4096 bits
VRAM	jusqu’à 12 Go	jusqu’à 24 Go	16 Go	16 Go
Cache L2	1536 ko	3072 ko	4096 ko	6144 ko
Mémoire partagée / SM	16 ko/32 ko/48 ko	96 ko	64 ko	jusqu’à 96 ko
TDP	235 W	250 W	300 W	300 W
Transistors	7,1 milliards	8 milliards	15,3 milliards	21,1 milliards
Surface GPU	551 mm²	601 mm²	610 mm²	815 mm²
Finesse	28 nm	28 nm	16 nm FinFET+	12 nm FFN TSMC