Accueil » Dossier » AMD FX-8350 : le nouveau Bulldozer

AMD FX-8350 : le nouveau Bulldozer

1 : Introduction 2 : Overclocking et compatibilité avec les cartes-mères existantes 4 : Architecture Piledriver : une consommation réduite 5 : Configuration de test et benchmarks 6 : PCMark 7 7 : 3DMark 11 8 : Sandra 2013 Beta 9 : Création de contenu 10 : Adobe CS 6 11 : Bureautique 12 : Compression 13 : Encodage audio/vidéo 14 : Battlefield 3 15 : The Elder Scrolls V: Skyrim 16 : World Of Warcraft: Mists Of Pandaria 17 : Consommation et efficacité énergétique 18 : Conclusion

Architecture Piledriver : du Bulldozer amélioré

Nous avons couvert l’essentiel de l’architecture x86 actuelle d’AMD dans notre article consacré au lancement du FX-8150 (Test AMD Bulldozer : FX-8150). On retrouve toutes les bases de celles-ci dans l’architecture Piledriver présentée aujourd’hui. Nous savons toutefois que les ingénieurs d’AMD ont appris un certain nombre de choses lorsqu’ils ont transposé le concept « Bulldozer » en un véritable processeur. Nous savons également la technologie de gravure a évolué au cours de l’année écoulée, même si la société fait toujours appel à un processus en 32 nm pour les Vishera. C’est donc sans grande surprise que nous apprenons que l’architecture Piledriver est avant tout une reformulation résultant de maintes petites améliorations prévues depuis bien longtemps déjà.

Image 1 : AMD FX-8350 : le nouveau Bulldozer

Améliorations du front-end

Dans les jours qui ont suivi le lancement des puces Bulldozer, la prédiction de branchement a immédiatement été reconnue comme l’une des faiblesses de l’architecture. Le concept des « modules » implique le partage de certaines ressources leur fournissant deux threads d’exécution ; les architectes ont tenté de limiter les goulots d’étranglement au niveau du front-end en installant une file de prédiction par thread derrière un cache L1 à 512 entrées et un cache L2 à 5000 entrées. AMD affirme que le prédicteur de l’architecture Piledriver est plus précis.

Image 2 : AMD FX-8350 : le nouveau Bulldozer

La nouvelle architecture ajoute la prise en charge de deux extensions ISA que nous avons déjà abordées pour la première fois dans notre article consacré aux APU Trinity. La première, « fused multiply-add », était en réalité déjà présente dans le Bulldozer, mais dans une version nommée FMA4 qui permet à une instruction d’avoir quatre opérandes. Informé du fait qu’Intel prévoit d’en gérer la version FMA3, plus simple et à trois opérandes, dans sa future architecture Haswell, AMD a décidé de prendre les devants et de la supporter dans Piledriver. La deuxième extension, F16C, permet de prendre en charge la conversion simultanée d’un maximum de quatre valeurs demi-précision en valeurs en virgule flottante. Elle est déjà présente dans les Intel Ivy Bridge, donc AMD ne fait ici que rattraper son retard. Non que l’architecture Bulldozer ait réellement souffert de leur absence : leur prise en charge côté compilateur n’a été ajoutée que dans Visual Studio 2012.

Au cœur des clusters de traitement des entiers

Les deux clusters de traitement des nombreux entiers de chaque module de calcul comprennent une unité de chargement/stockage out-of-order capables d’effectuer deux opérations « load » de 128 bits ou une « store » de 128 bits par cycle. AMD s’est rendu compte du fait que, dans certains cas, le Bulldozer n’attrapait pas les données « store » se trouvant déjà dans le registre ; le problème est aujourd’hui réglé et les instructions sont envoyées aux clusters de traitement plus rapidement.

Image 3 : AMD FX-8350 : le nouveau Bulldozer

Au sein de chaque core de traitement des entiers, nous avons à nouveaux deux unités d’exécution et deux unités de génération d’adresses (dites « AGen »). Ces AGen sont aujourd’hui plus performantes car elles sont capables d’exécuter des instructions MOV. Lorsqu’une AGen est sous-utilisée, l’architecture y fait donc transiter ces instructions.

L’un des changements les plus notables est l’élargissement du TLB (translation lookaside buffer) du cache de données L1, qui passe de 32 à 64 entrées. Étant donné que le TLB L2 a une latence assez élevée (20 cycles), l’augmentation du hit rate du L1 peut engendrer des gains de performances assez significatifs dans les charges de travail touchant des structures de données de grande taille. C’est particulièrement important pour les serveurs, mais les architectes d’AMD affirment que certains jeux y sont également sensibles, ce qui était assez inattendu.

Optimisations du cache L2

Image 4 : AMD FX-8350 : le nouveau Bulldozer

Le prefetching matériel au sein du cache L2 a également fait l’objet d’améliorations. La latence minimale n’a pas évolué, ce qui explique pourquoi Sandra 2013 ne détecte pas d’amélioration, mais le prefetcher et le cache L2 sont utilisés plus efficacement et d’après AMD, la latence moyenne (bien plus difficile à mesurer) devrait également diminuer. Sandra 2013 ne détecte pas non plus beaucoup de changements en ce qui concerne la latence du cache L3, et pour cause : les architectes d’AMD avec lesquels nous sommes entrés en contact nous ont confirmé que le cache L3, que se partagent tous les modules des processeurs FX, n’avait subi aucune modification.

Comparatif express : cinq architectures à 4 GHz

Quels effets ont tous ces petits ajustements sur les performances par cycle des puces Piledriver ? Pour le savoir, nous avons fait tourner cinq architectures différentes à une même fréquence, 4 GHz, et avons comparé les résultats.

Image 5 : AMD FX-8350 : le nouveau Bulldozer

Sous iTunes, logiciel monothreadé par excellence, le FX-8350 fait nettement mieux que le FX-8150, basé sur l’architecture Bulldozer, mais se montre moins rapide qu’un Phenom II X6 1100T. Ne parlons même pas des processeurs Sandy Bridge et Ivy Bridge, qui creusent l’écart avec le plus véloce des processeurs AMD.

Image 6 : AMD FX-8350 : le nouveau Bulldozer

Notez que le Core i7 est considéré comme un processeur quad-core capable de traiter simultanément quatre thread : c’est parce que nous avons désactivé l’Hyper-Threading afin de mieux isoler les performances des différents cores.Si cette fonctionnalité avait été activée, il est plus que probable que le modèle moyen/haut de gamme d’Intel aurait aussi terminé en pole position sous 3ds Max.

Quoi qu’il en soit, ce qui nous intéresse aujourd’hui est le gain de performances qu’apporte le FX-8350 par rapport au 8150. Celui-ci est significatif, mais une fois encore, les six cores du Thuban (Phenom II) parviennent à dépasser les quatre modules du Vishera.Comme on peut le voir, AMD utilise la meilleure capacité de sa nouvelle architecture à monter en fréquence pour damer le pion à son ancienne : en effet, même s’il est plus performant par cycle, le Thuban n’est guère conçu pour fonctionner à une telle cadence.

Sommaire :

  1. Introduction
  2. Overclocking et compatibilité avec les cartes-mères existantes
  3. Architecture Piledriver : du Bulldozer amélioré
  4. Architecture Piledriver : une consommation réduite
  5. Configuration de test et benchmarks
  6. PCMark 7
  7. 3DMark 11
  8. Sandra 2013 Beta
  9. Création de contenu
  10. Adobe CS 6
  11. Bureautique
  12. Compression
  13. Encodage audio/vidéo
  14. Battlefield 3
  15. The Elder Scrolls V: Skyrim
  16. World Of Warcraft: Mists Of Pandaria
  17. Consommation et efficacité énergétique
  18. Conclusion