Le supercalculateur Frontier subit des défaillances quotidiennement

Rémi Bouvet , le 12 octobre 2022

Bon, rien d’anormal étant donné sa complexité.

En mai dernier, AMD annonçait le déploiement de Frontier, premier calculateur à atteindre l’exaflop, grâce à des processeurs EPYC 7A53s (64 cœurs) et des GPU Instinct MI250X. Comme l’explique Justin Whitt, directeur de programme de l’Oak Ridge Leadership Computing Facility (OLCF), dans les colonnes de InsideHPC, faire fonctionner correctement un tel système est un défi au quotidien.

Image 1 : Le supercalculateur Frontier subit des défaillances quotidiennement — © OLCF

Justin Whitt rapporte : “Nous travaillons sur les problèmes matériels et nous nous assurons que nous les comprenons. Il y a forcément des défaillances à une telle échelle. Le temps moyen entre deux pannes sur un système de cette taille est de quelques heures, pas de quelques jours. Vous devez donc vous assurer que vous comprenez la nature de toutes ces défaillances et qu’aucune ne posera de problèmes insolubles. Ensuite, il s’agit de paramétrer l’environnement de programmation de manière à obtenir des performances maximales pour les applications.”

JUPITER sera le premier supercalculateur européen à atteindre l’exaflops

Un système avec pas mal de CPU et GPU…

Comme mentionné ci-dessus, le système Frontier est alimenté par des CPU AMD EPYC 7A53s “Trento” 64 cœurs à 2,0 GHz et des GPU Instinct MI250X. Les composants sont interconnectés par le biais de commutateurs Slingshot 64 ports de HPE Cray qui assurent l’échange de données à travers les lames de calcul.

D’après Justin Whitt, Frontier soulève des défis matériels en grand partie liés à cette interface d’interconnexion : “Les problèmes que nous rencontrons sont donc principalement liés à l’exécution de très, très lourdes tâches utilisant l’ensemble du système… et à la nécessité de faire fonctionner tout le matériel de concert pour y parvenir […]. C’est un peu l’examen final des superordinateurs. C’est la partie la plus difficile à finaliser. Et c’est le genre de problèmes que nous rencontrons à ce stade, pour que le réglage soit suffisamment universel pour bénéficier à un large éventail d’applications.”

Forcément, les difficultés avec un système comme Frontier sont relatives à son échelle : le supercalculateur est constitué de 685 composants différents, d’environ 60 millions de composants en tout.

Concrètement, le supercalculateur se compose de 74 cabinets et s’étend sur 372 mètres carrés. Chaque cabinets renferme 64 lames, chacune constituée de deux nœuds HPE Cray EX. Il y a 9 472 nœuds en tout, chacun gérant un processeur Epyc AMD 7A53 et quatre GPU AMD Instinct MI250X. Ainsi, cela donne 37 888 GPU et 606 208 cœurs CPU ; plus de 8 millions de cœurs GPU / GPU pour l’ensemble du système.

Image 2 : Le supercalculateur Frontier subit des défaillances quotidiennement — © OLCF

Tout devrait être prêt pour le début d’année prochaine

Justin Whitt se montre toutefois rassurant : “À ce stade, nous n’avons pas beaucoup d’inquiétudes concernant les produits AMD. Nous sommes confrontés à problèmes de début de vie que nous avons observés sur d’autres machines déployées, donc rien d’extraordinaire.“

Il ajoute : “Nous approchons de la fin du processus et nous sommes sur la bonne voie. Lorsque nous avons élaboré les plans pour Frontier en 2019, voire fin 2018, nous avons dit que nous serions prêts pour les programmes utilisateurs le 1er janvier 2023“. Justin Whitt pense que tout sera prêt à cette échéance, en dépit des difficultés d’approvisionnement auxquelles ses équipes ont été confrontées au cours des derniers mois.

Sources : InsideHPC, OLCF

AMD Serveurs

Rémi Bouvet

Pas du tout convaincu que "c'était mieux avant", je préfère m'intéresser à demain plutôt que fantasmer hier.

Les commentaires sont fermés.

Les derniers articles

AMD fait un bide avec ses cartes graphiques ? Un analyste révèle des informations intrigantes
8 juillet 2025 07:36
iOS 26 : Apple règle enfin ce problème qui ruinait l’expérience utilisateur
8 juillet 2025 06:55
RTX 5090 : ce détail peut faire chuter drastiquement les performances de la carte
7 juillet 2025 09:59
MSI Afterburner se met enfin à jour pour les cartes graphiques récentes
7 juillet 2025 09:45
Windows 10 arrive en fin de support ? Passez à la version la plus propre pour seulement 9 € !
4 juillet 2025 09:05
iPhone 17 Pro Max : enfin une batterie de 5000 mAh à bord ?
4 juillet 2025 07:48
Xiaomi en difficulté sur le développent de sa puce XRING 02
4 juillet 2025 06:42
Voici comment le FSR 4 va booster la PS5 Pro à partir de 2026
3 juillet 2025 07:56
La Nintendo Switch 2 s’est vendue comme des petits pains en juin
3 juillet 2025 07:04
Jusqu’à –70 % sur le stockage cloud à vie avec pCloud : une offre à ne pas manquer à l’occasion du 14 juillet !
2 juillet 2025 13:30

Le supercalculateur Frontier subit des défaillances quotidiennement

Un système avec pas mal de CPU et GPU…

Tout devrait être prêt pour le début d’année prochaine

La rédaction vous conseille aussi...