NVIDIA napotyka poważne wyzwania w produkcji swojej najnowszej generacji GPU Blackwell. Jak donosi The Information, problemy z przegrzewaniem układów w serwerach o wysokiej gęstości mogą wpłynąć na opóźnienia dostaw oraz wdrożeń przez kluczowych klientów, takich jak Google, Meta oraz Microsoft.
Problemy z przegrzewaniem serwerów
Według informacji od osób zaznajomionych z sytuacją, układy Blackwell przeznaczone do zastosowań AI oraz obliczeń o wysokiej wydajności (HPC) przegrzewają się podczas pracy w serwerach, które zawierają nawet 72 procesory GPU. Tego typu jednostki mogą zużywać do 120 kW mocy na jedną szafę serwerową, co stanowi ogromne wyzwanie dla systemów chłodzenia. Przegrzewanie się GPU nie tylko obniża wydajność, ale także zwiększa ryzyko uszkodzenia podzespołów, co zmusiło NVIDIĘ do wielokrotnego przeprojektowywania konstrukcji swoich serwerów.
Według informacji od osób zaznajomionych z sytuacją, procesory Blackwell przeznaczone do zastosowań AI oraz obliczeń o wysokiej wydajności (HPC) przegrzewają się podczas pracy w serwerach.
Zmiany projektowe
NVIDIA podjęła decyzję o wprowadzeniu zmian w konstrukcji swoich szaf serwerowych, aby przeciwdziałać problemom z przegrzewaniem. Firma ściśle współpracowała ze swoimi dostawcami i partnerami, aby opracować nowe rozwiązania inżynieryjne, poprawiające efektywność chłodzenia. Choć takie zmiany są standardowe przy premierach dużych technologii, to jednak doprowadziły do dalszych opóźnień, przesuwając oczekiwaną datę wysyłki układów.
W odpowiedzi na te wyzwania rzecznik Zielonych w rozmowie z Reuters zaznaczył, że współpraca z dostawcami usług chmurowych jest integralną częścią procesu rozwoju. Firma stara się zapewnić, że ostateczny produkt spełni oczekiwania pod względem wydajności i niezawodności, mimo trwających prac nad rozwiązaniem problemów technicznych.
Problemy z produkcją i opóźnienia masowej produkcji
To nie pierwszy raz, kiedy NVIDIA musiała opóźnić produkcję układów Blackwell. Wcześniej firma napotkała problemy związane z błędami konstrukcyjnymi, które obniżały wydajność produkcji. Procesory Blackwell B100 i B200 wykorzystują technologię pakowania TSMC CoWoS-L, umożliwiającą połączenie dwóch chipletów. Kluczowym elementem tej technologii jest interposer RDL z lokalnymi mostkami krzemowymi (LSI), które wspierają transfer danych z prędkością do 10 TB/s.
Jednak różnice w rozszerzalności cieplnej pomiędzy chipletami GPU, mostkami LSI, interposerem RDL oraz substratem płyty głównej powodowały odkształcenia i awarie systemów. Aby temu zaradzić, NVIDIA zmodyfikowała górne warstwy metalowe krzemu oraz struktury połączeń, co wymagało opracowania nowych masek produkcyjnych.
Finalna wersja układów Blackwell weszła do masowej produkcji dopiero pod koniec października. W związku z tym, dostawy GPU mają rozpocząć się dopiero pod koniec stycznia.
Wpływ opóźnień na klientów
NVIDIA dostarcza swoje najnowsze procesory GPU dla gigantów technologicznych, takich jak Google, Meta oraz Microsoft, którzy wykorzystują je do trenowania najbardziej zaawansowanych modeli językowych i rozwiązań AI. Opóźnienia w produkcji procesorów Blackwell mogą znacząco wpłynąć na harmonogramy tych firm, opóźniając wprowadzenie na rynek nowych produktów i usług opartych na sztucznej inteligencji.
Pokaż / Dodaj komentarze do: NVIDIA Blackwell: Problemy z przegrzewaniem i opóźnienia w produkcji nowych GPU