最近英偉達兩款高端產(chǎn)品,GeForce RTX 5090和RTX PRO 6000,都受到虛擬化重置錯誤的困擾。該錯誤可能會讓顯卡完全沒有響應(yīng),需要主機物理重啟才能恢復(fù)。這是一個特定的錯誤,除了GeForce RTX 5090和RTX PRO 6000外,包括RTX 4090和H100等舊型號都不會出現(xiàn)類似的問題,即便是Blackwell架構(gòu)產(chǎn)品中最強的B200也沒有問題。
NVIDIA GeForce RTX 5090
據(jù)TomsHardware報道,這是隨機發(fā)生的錯誤,沒有明確的原因,在持續(xù)使用幾天或幾周后,GPU虛擬機可能完全凍結(jié)而沒有任何響應(yīng)跡象?,F(xiàn)階段唯一恢復(fù)正常的解決方案就是重啟機器,這種情況引起了AI初創(chuàng)公司的關(guān)注,甚至懷疑是不是存在硬件設(shè)計缺陷。
根據(jù)日志顯示,該錯誤發(fā)生在GPU通過KVM和VFIO傳遞給虛擬機之后,當虛擬機關(guān)機或GPU重新分配時,主機發(fā)出PCIe功能級重置(FLR)指令——這是清理直通設(shè)備標準流程的一部分。 這時候GPU未能恢復(fù)至正常狀態(tài),內(nèi)核報告顯示:“FLR后65535毫秒仍未就緒;放棄操作”。此時顯卡對lspci命令也變得不可讀,該命令會拋出“未知頭部類型7f”錯誤。
英偉達已經(jīng)對該問題作出回應(yīng),稱可以復(fù)現(xiàn)問題,并在努力修復(fù)當中。具體情況還要等待官方的確認,預(yù)計很快會發(fā)布修復(fù)程序。