Nvidia RTX 5090 i RTX 6000 Pro mają poważny błąd. Karty zawieszają się po kilku dniach

Nvidia RTX 5090 i RTX 6000 Pro mają poważny błąd. Karty zawieszają się po kilku dniach

Najnowsze flagowe karty graficzne NVIDII, zarówno gamingowy GeForce RTX 5090, jak i profesjonalny RTX 6000 PRO znalazły się na świeczniku, ale raczej nie na takiej uwadze zależało Zielonym. Według programistów z CloudRift, budujących chmurę GPU dla twórców AI, obie jednostki cierpią bowiem na poważny błąd wirtualizacji, który może całkowicie sparaliżować pracę maszyn wirtualnych.

Problem pojawia się po kilku dniach lub tygodniach intensywnego użytkowania. W losowych momentach karta graficzna staje się całkowicie nieresponsywna, ponieważ zawiesza się i nie reaguje na żadne polecenia. Dotyczy to zarówno topowej konsumenckiej karty RTX 5090, jak i wariantu profesjonalnego RTX 6000 PRO.

Co ciekawe, testy przeprowadzone przez CloudRift wykazały, że inne układy NVIDII, takie jak serwerowe H100, B200 czy starsze RTX 4090, nie wykazują podobnych problemów. Nawet wydajnościowy gigant nowej generacji, B200 Blackwell, działa stabilnie.

Według programistów z CloudRift GeForce RTX 5090 i RTX 6000 PRO cierpią bowiem na poważny błąd wirtualizacji, który może całkowicie sparaliżować pracę maszyn wirtualnych.

Gdzie leży problem?

Źródłem awarii jest sposób, w jaki GPU są przekazywane maszynom wirtualnym przy użyciu KVM i VFIO. Standardowo host wykonuje reset funkcji PCIe (FLR) podczas zatrzymywania VM lub przenoszenia urządzenia. Zamiast wrócić do pracy po takim resecie, problematyczne karty NVIDII pozostają nieaktywne.

System operacyjny zgłasza wtedy błąd: "not ready 65535ms after FLR; giving up". W praktyce oznacza to, że zawodzi wyłącznie karta graficzna. Z tego względu CloudRift ogłosiło nawet do 1000 dolarów dla osoby, która zdoła opracować trwałe rozwiązanie problemu.

Rosnąca liczba zgłoszeń

Co warto podkreślić, nie jest to odosobniony incydent. Na forach Level1Techs pojawia się coraz więcej relacji użytkowników borykających się z tym samym błędem. NVIDIA oficjalnie potwierdziła istnienie problemu i wskazała tymczasowe obejście: instalację jądra Proxmox poleceniem: apt install proxmox-kernel-6.14.8-2-bpo12-pve/stable. To jednak tylko tymczasowa mitigacja, a nie pełnoprawna poprawka. Warstwa wirtualizacji VM wciąż pozostaje podatna na zawieszenie kart.

Oczekiwanie na oficjalny patch

Na razie społeczność i partnerzy NVIDII muszą czekać na pełne rozwiązanie, które prawdopodobnie zostanie dostarczone w formie aktualizacji sterowników lub poprawki w jądrze Linux (a być może obu naraz).

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: Nvidia RTX 5090 i RTX 6000 Pro mają poważny błąd. Karty zawieszają się po kilku dniach

 0
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł