Nvidia RTX 5090 et RTX Pro 6000 plantent dans des environnements virtuels : 1 000 dollars pour celui qui écrase le bug

Nvidia RTX 5090 et RTX Pro 6000 plantent dans des environnements virtuels : 1 000 dollars pour celui qui écrase le bug

CloudRift a découvert des problèmes de stabilité persistants lors de l’utilisation des cartes RTX 5090 et RTX PRO 6000 de Nvidia dans des environnements virtuels.

CloudRift, fournisseur d’infrastructure GPU cloud, a découvert de sérieux problèmes avec les RTX 5090 et RTX PRO 6000 de Nvidia. Les GPU deviennent complètement inutilisables dans certains environnements virtuels après un certain temps. L’erreur se produit de manière aléatoire, généralement après quelques jours d’utilisation ou lors du démarrage ou de l’arrêt de machines virtuelles. Une fois touchée, la seule solution est un redémarrage complet de la machine hôte physique.

L’erreur semble se produire lorsque le GPU est utilisé via PCI-passthrough en combinaison avec VFIO et QEMU/KVM. Lors de la libération du GPU après l’arrêt d’une VM, une réinitialisation dite de niveau de fonction (FLR) ne peut pas être effectuée correctement. Cela met la carte dans un état irrécupérable. Le GPU reste visible pour le système, mais ne répond plus aux commandes. D’autres modèles de GPU tels que les Nvidia H100, B200 et RTX 4090 ne présentent pas ces problèmes.

Aucune cause claire

Selon CloudRift, diverses causes possibles ont déjà été exclues. Il s’agit notamment d’erreurs dans les configurations IOMMU, les liaisons de pilotes, les versions du noyau et les paramètres libvirt. Les systèmes qui présentent les erreurs sont basés sur les processeurs AMD Epyc Rome et Milan, largement utilisés.

Le problème est caractérisé par des notifications du noyau indiquant des cœurs de CPU bloqués et des tentatives infructueuses de réinitialisation des périphériques PCI. Des messages d’erreur tels que unknown PCI header type et des délais d’attente qui expirent lors des tentatives de réinitialisation matérielle apparaissent. Les tentatives de relier le GPU à un pilote échouent également.

1 000 dollars pour le destructeur de bugs

CloudRift est à bout de ressources et a mis en place un programme de bug bounty. L’entreprise offre 1 000 dollars à celui qui trouvera la cause ou proposera une solution fonctionnelle. Un Proxmox-gebruiker ontdekte het probleem zelf ook al et affirme savoir que Nvidia est au courant et travaille sur une solution. Nous sommes curieux de savoir si Nvidia empochera également les 1 000 dollars pour avoir résolu une erreur dans son propre matériel.

CloudRift souligne que le problème peut saper la fiabilité de la virtualisation GPU, en particulier dans les charges de travail d’IA qui dépendent de performances de calcul stables et durables.