La RTX 5090 et la RTX Pro 6000 victimes d’un bug dans certaines conditions d’utilisation

Un bug affectant les Nvidia RTX 5090 et RTX Pro 6000 en environnement virtualisé provoque leur blocage après un Function Level Reset, nécessitant un redémarrage complet du système, selon des signalements de CloudRift et Proxmox, tandis que NVIDIA travaillerait sur une solution.

rtx 5090

Les cartes graphiques haut de gamme de Nvidia, les GeForce RTX 5090 et RTX Pro 6000, seraient touchées par un bug lié à la virtualisation, nécessitant un redémarrage complet du système pour retrouver leur fonctionnement normal. Ce problème a été signalé pour la première fois par CloudRift, une plateforme de GPU cloud destinée aux développeurs.

Un dysfonctionnement spécifique aux modèles Blackwell

Selon CloudRift, après plusieurs jours d’utilisation en environnement virtualisé, ces GPU deviennent totalement inutilisables. Contrairement à d’autres modèles comme les RTX 4090, les Hopper H100 ou les Blackwell B200, seules les RTX 5090 et RTX Pro 6000 semblent concernées.

Le bug survient lorsque le GPU est assigné à une machine virtuelle via le pilote VFIO (Virtual Function I/O). Après un Function Level Reset (FLR), le GPU cesse de répondre, provoquant un blocage du noyau (soft lock), qui paralyse à la fois l’hôte et les environnements clients. La seule solution identifiée pour l’instant consiste à redémarrer entièrement le système hôte, une opération complexe pour des infrastructures comme celles de CloudRift, qui gèrent un grand nombre de machines virtuelles.

Des signalements multiples et une reconnaissance de Nvidia

CloudRift n’est pas le seul à avoir rencontré ce problème. Un utilisateur de Proxmox, une solution de virtualisation open source, a rapporté un incident similaire : un plantage complet de l’hôte après l’arrêt d’un client Windows. Selon ce dernier, NVIDIA aurait confirmé avoir reproduit le bug et travaillerait sur une solution. Aucune communication officielle n’a cependant été publiée par le constructeur à ce stade.

Un enjeu critique pour les charges de travail IA

Ce dysfonctionnement pose un défi majeur pour les infrastructures cloud et les centres de données qui s’appuient sur ces GPU pour des tâches intensives, notamment en intelligence artificielle.

Bug rtx 5090
Image : CloudRift

CloudRift a d’ailleurs lancé un programme de bug bounty de 1 000 dollars pour toute personne capable de proposer une solution ou une atténuation du problème. La communauté attend désormais une mise à jour de Nvidia, dont la rapidité d’intervention sera cruciale pour limiter l’impact sur les utilisateurs professionnels.