NVIDIA ogłosiła, że poważny błąd konstrukcyjny w jej procesorach graficznych Blackwell, który drastycznie obniżał wydajność produkcji, został naprawiony kilka miesięcy temu. Firma jest teraz gotowa do masowej produkcji poprawionych układów B100 i B200. Jensen Huang, dyrektor generalny Zielonych, przyznał, że problem był wynikiem wyłącznie błędu NVIDII, a partner produkcyjny, firma TSMC, pomógł w szybkim jego rozwiązaniu tego.
W wywiadzie dla Reutersa Huang jasno przyznał, że to NVIDIA ponosi pełną odpowiedzialność za błąd w projekcie. "Mieliśmy błąd konstrukcyjny w Blackwell, procesory działały, ale ten błąd obniżał wydajność produkcji. To była w 100% wina NVIDII" – powiedział Huang. Początkowo niektóre media sugerowały, że to TSMC mogło być odpowiedzialne za problemy, co mogło prowadzić do napięć między firmami. Huang stanowczo zaprzeczył tym doniesieniom, nazywając je "fake newsami."
"To była w 100% nasza wina" – Jensen Huang o błędzie
Technologia CoWoS-L i problemy z rozszerzalnością cieplną
Procesory Blackwell B100 i B200 korzystają z zaawansowanej technologii pakowania chipów CoWoS-L opracowanej przez TSMC. Technologia ta wykorzystuje mostki LSI i interposer RDL, aby umożliwić szybkie przesyłanie danych na poziomie 10 TB/s. Jednak problem polegał na różnicach w rozszerzalności cieplnej między różnymi elementami układu, co powodowało deformację i awarie całego systemu.
Aby rozwiązać ten problem, NVIDIA musiała zmodyfikować warstwy metaliczne na powierzchni krzemu GPU i poprawić struktury połączeń. Choć firma nie podała dokładnych szczegółów dotyczących wprowadzonej poprawki, wspomniano o konieczności użycia nowych masek produkcyjnych, co jest typową metodą naprawy błędów w świecie półprzewodników.
Problemy z wydajnością produkcji oraz większe błędy funkcjonalne, jak w przypadku układów Blackwell, nie są rzadkością w tej branży. Zazwyczaj są naprawiane poprzez wprowadzenie modyfikacji w metalicznych warstwach układu i tworzenie nowych wersji procesora, znanych jako "steppings." NVIDIA i TSMC naprawiły problem w rekordowo szybkim tempie, biorąc pod uwagę, że cały proces od wykrycia problemu do produkcji nowej wersji chipu zajmuje zwykle około trzech miesięcy.
Masowa produkcja Blackwell GPU rozpocznie się w październiku
Ulepszone procesory Blackwell, przeznaczone głównie do zastosowań w sztucznej inteligencji i superkomputerach, wejdą do masowej produkcji pod koniec października 2024 roku. Wysyłki poprawionych chipów rozpoczną się na początku 2025 roku, czyli wciąż w trakcie 2025 roku fiskalnego Zielonych.
Pomimo naprawienia problemu, NVIDIA ogłosiła, że aby sprostać zapotrzebowaniu ze strony gigantów chmurowych, takich jak AWS, Google i Microsoft, jeszcze w 2024 roku będzie musiała dostarczyć pewną liczbę początkowych procesorów Blackwell, które miały niższe wskaźniki wydajności produkcji. Obecnie nie wiadomo, ile takich chipów trafi do centrów danych jeszcze w tym roku. Rodzi się też pytanie, czy te pierwsze partie nie zaczną z czasem wykazywać wad w trakcie użytkowania?
Pokaż / Dodaj komentarze do: NVIDIA przyznaje się do wadliwego projektu. "To była w 100% nasza wina"