Doniesienia o przegrzewaniu się szaf serwerowych GB200 NVL72 firmy Nvidia, które wzbudziły niepokój wśród użytkowników i inwestorów, okazały się przesadzone. Jak informuje Business Insider, problemy z chłodzeniem najnowszej generacji procesorów graficznych Blackwell zostały w dużej mierze zażegnane.
Najnowszy 72-chipowy serwer rack GB200 to flagowy produkt firmy Nvidia, zdolny do obsługi najbardziej wymagających obciążeń związanych z przetwarzaniem sztucznej inteligencji. Jednak projekt ten, wymagający chłodzenia cieczą, zderzył się z wyzwaniami konstrukcyjnymi. Wady systemu chłodzenia spowodowały konieczność wielokrotnej modyfikacji konstrukcji serwera, co przełożyło się na opóźnienia w dostawach sprzętu.
Według analityków z Semianalysis, wady konstrukcyjne zostały naprawione, a obecne problemy są „drobne” i nie powinny wpłynąć na dalsze dostawy.
Według raportu Semianalysis, system chłodzenia w szafach serwerowych Nvidia początkowo nie był w stanie skutecznie odprowadzać ciepła generowanego przez układy graficzne Blackwell, które mogą osiągać moc znamionową nawet 2700 watów. To sprawia, że chłodzenie powietrzem w takich urządzeniach jest praktycznie niemożliwe, zmuszając Nvidię do opracowania zaawansowanego chłodzenia cieczą. Tego typu konstrukcje, wykorzystywane głównie w obliczeniach AI i zaawansowanych modelach uczenia maszynowego, generują tak duże ilości ciepła, że wymagają dedykowanego systemu chłodzenia cieczą oraz infrastruktury przystosowanej do jego obsługi. Centra danych, które chcą wdrożyć serwery GB200, muszą inwestować w modernizację swoich systemów chłodzenia, co dodatkowo zwiększa koszty implementacji tych urządzeń.
Dylan Patel, główny analityk Semianalysis, potwierdził w rozmowie z Business Insider, że problemy z chłodzeniem serwerów Nvidia zostały już w większości rozwiązane. Patel zaznaczył, że choć początkowe trudności zmusiły firmę do wprowadzenia poprawek projektowych, to obecne wyzwania są niewielkie i dotyczą głównie flagowego modelu z 72 procesorami graficznymi. Pięciu innych analityków z Semianalysis dodało, że modyfikacje systemu chłodzenia miały charakter „kosmetyczny” i nie wpłyną na długoterminowe plany produkcyjne firmy.
Nvidia mogłaby obniżyć wymagania dotyczące chłodzenia, produkując wolniejsze układy graficzne, jak w przypadku modeli H200 NVL, które nadal korzystają z tradycyjnych rozwiązań chłodzących. Jednak firma zdecydowanie stawia na maksymalną wydajność i nie zamierza rezygnować z przewagi technologicznej w wyścigu na rynku układów AI, nawet kosztem wyższych wymagań sprzętowych i logistycznych.
Pokaż / Dodaj komentarze do: Układy Nvidii się przegrzewają, ale podobno nie tak bardzo jak myśleliśmy