Accueil » Actualité » Le supercalculateur Frontier subit des défaillances quotidiennement

Le supercalculateur Frontier subit des défaillances quotidiennement

Bon, rien d’anormal étant donné sa complexité.

En mai dernier, AMD annonçait le déploiement de Frontier, premier calculateur à atteindre l’exaflop, grâce à des processeurs EPYC 7A53s (64 cœurs) et des GPU Instinct MI250X. Comme l’explique Justin Whitt, directeur de programme de l’Oak Ridge Leadership Computing Facility (OLCF), dans les colonnes de InsideHPC, faire fonctionner correctement un tel système est un défi au quotidien.

Image 1 : Le supercalculateur Frontier subit des défaillances quotidiennement
© OLCF

Justin Whitt rapporte : “Nous travaillons sur les problèmes matériels et nous nous assurons que nous les comprenons. Il y a forcément des défaillances à une telle échelle. Le temps moyen entre deux pannes sur un système de cette taille est de quelques heures, pas de quelques jours. Vous devez donc vous assurer que vous comprenez la nature de toutes ces défaillances et qu’aucune ne posera de problèmes insolubles. Ensuite, il s’agit de paramétrer l’environnement de programmation de manière à obtenir des performances maximales pour les applications.”

JUPITER sera le premier supercalculateur européen à atteindre l’exaflops

Un système avec pas mal de CPU et GPU…

Comme mentionné ci-dessus, le système Frontier est alimenté par des CPU AMD EPYC 7A53s “Trento” 64 cœurs à 2,0 GHz et des GPU Instinct MI250X. Les composants sont interconnectés par le biais de commutateurs Slingshot 64 ports de HPE Cray qui assurent l’échange de données à travers les lames de calcul.

D’après Justin Whitt, Frontier soulève des défis matériels en grand partie liés à cette interface d’interconnexion : “Les problèmes que nous rencontrons sont donc principalement liés à l’exécution de très, très lourdes tâches utilisant l’ensemble du système… et à la nécessité de faire fonctionner tout le matériel de concert pour y parvenir […]. C’est un peu l’examen final des superordinateurs. C’est la partie la plus difficile à finaliser. Et c’est le genre de problèmes que nous rencontrons à ce stade, pour que le réglage soit suffisamment universel pour bénéficier à un large éventail d’applications.”

Forcément, les difficultés avec un système comme Frontier sont relatives à son échelle : le supercalculateur est constitué de 685 composants différents, d’environ 60 millions de composants en tout.

Concrètement, le supercalculateur se compose de 74 cabinets et s’étend sur 372 mètres carrés. Chaque cabinets renferme 64 lames, chacune constituée de deux nœuds HPE Cray EX. Il y a 9 472 nœuds en tout, chacun gérant un processeur Epyc AMD 7A53 et quatre GPU AMD Instinct MI250X. Ainsi, cela donne 37 888 GPU et 606 208 cœurs CPU ; plus de 8 millions de cœurs GPU / GPU pour l’ensemble du système.

Image 2 : Le supercalculateur Frontier subit des défaillances quotidiennement
© OLCF

Tout devrait être prêt pour le début d’année prochaine

Justin Whitt se montre toutefois rassurant : “À ce stade, nous n’avons pas beaucoup d’inquiétudes concernant les produits AMD. Nous sommes confrontés à problèmes de début de vie que nous avons observés sur d’autres machines déployées, donc rien d’extraordinaire.

Il ajoute : “Nous approchons de la fin du processus et nous sommes sur la bonne voie. Lorsque nous avons élaboré les plans pour Frontier en 2019, voire fin 2018, nous avons dit que nous serions prêts pour les programmes utilisateurs le 1er janvier 2023“. Justin Whitt pense que tout sera prêt à cette échéance, en dépit des difficultés d’approvisionnement auxquelles ses équipes ont été confrontées au cours des derniers mois.

Sources : InsideHPC, OLCF