Nuovi problemi per le RTX 5090 e RTX 6000 PRO

Oggi alle 6:48

Secondo il team di CloudRift, che sta sviluppando un ambiente cloud GPU per sviluppatori IA, dopo giorni o settimane di utilizzo continuo le top di gamma della Casa verde possono diventare completamente non responsive all'interno di macchine virtuali, senza preavviso. Il problema non riguarda modelli come H100, B200 o RTX 4090, che funzionano correttamente.

Ads

Il bug si manifesta quando la GPU viene passata ad una VM tramite KVM e VFIO: al riavvio, dopo un reset PCIe FLR, la scheda non torna online ed il kernel segnala un errore di timeout. CloudRift ha persino offerto un premio di 1.000 dollari a chi riuscirà a risolvere questo bug.

Il problema, però, non è isolato: altri utenti avrebbero segnalato la stessa cosa sui forum di Level1Tech. NVIDIA ha riconosciuto il bug ed al momento consiglia di utilizzare il kernel Proxmox aggiornato (6.14.8-2), ma non si tratta di una soluzione definitiva. Per la correzione completa servirà una patch ufficiale, probabilmente sotto forma di aggiornamento driver o del kernel Linux.

Fonti: TechPowerUp, CloudRift