Chiny coraz intensywniej pracują nad własnymi chipami, starając się w ten sposób zmniejszyć zależność od zagranicznych dostawców. Najnowsze informacje przekazane przez wiceprzewodniczącego China Semiconductor Industry Association, Wei Shaojuna, sugerują, że krajowe projekty rodem z Państwa Środka zaczynają zbliżać się do poziomu światowych liderów, przynajmniej na papierze.
Shaojun pochwalił się nowym procesorem wykorzystującym 14-nanometrową litografię dla części logicznej oraz pamięć DRAM produkowaną w 18 nm. Kluczową innowacją nie są jednak same litografie, lecz sposób ich połączenia. Logika została bezpośrednio zespolona z warstwą pamięci, co pozwoliło znacząco zwiększyć przepustowość oraz drastycznie obniżyć opóźnienia transferu danych. To właśnie dostęp do pamięci od lat jest jednym z głównych wąskich gardeł w dużych systemach GPU, szczególnie w zastosowaniach obliczeń wysokowydajnych i sztucznej inteligencji.
Nowe projekty rodem z Państwa Środka zaczynają zbliżać się do poziomu światowych liderów, przynajmniej na papierze.
Wyniki: 120 TFLOPS i 2 TFLOPS/W
Choć szczegóły techniczne samego układu nie zostały ujawnione, podane liczby robią wrażenie. Według wiceprzewodniczącego stowarzyszenia chip osiąga łączną wydajność na poziomie 120 TFLOPS przy sprawności sięgającej 2 TFLOPS na wat. To parametry, które mają nie tylko zbliżać się do topowych rozwiązań NVIDII, ale wręcz przewyższać starsze, ale wciąż popularne akceleratory A100.
Shaojun podkreślił, że nowa architektura została zaprojektowana tak, by omijać słynną „ścianę pamięci” (memory wall), czyli problem, który ogranicza skalowanie wydajności GPU przez rosnącą dysproporcję między mocą obliczeniową a przepustowością pamięci. Integracja DRAM bliżej rdzeni obliczeniowych ma zmniejszać opóźnienia i zwiększać efektywne wykorzystanie jednostek obliczeniowych w dużych klastrach.

CUDA nie jest jedyną drogą
Równie istotnym celem projektu ma być stopniowe uniezależnianie się od ekosystemu CUDA, który od lat cementuje dominację NVIDII w obszarze AI i HPC. Chiny próbują budować własne środowiska programistyczne i sprzętowe, które docelowo pozwolą ominąć zarówno amerykański sprzęt, jak i zastrzeżone platformy software’owe.
Nie zmienia to faktu, że krajowe układy wciąż funkcjonują w starszych procesach technologicznych i 14 nm to przepaść w porównaniu z nowoczesnym 4 nm stosowanym w najnowszych akceleratorach. Mimo to przykład ten pokazuje, że odpowiednia architektura i innowacyjne podejście do pamięci mogą w pewnym stopniu kompensować braki czysto produkcyjne.
Trzeba jednak pamiętać, że na razie nie mamy żadnych niezależnych testów potwierdzających deklaracje o przewadze nad A100, więc radzimy podchodzić do tych deklaracji z pewnym dystansem, ale sam kierunek obrany przez chińskich inżynierów wydaje się naprawdę ciekawy.
Spodobało Ci się? Podziel się ze znajomymi!
Pokaż / Dodaj komentarze do:
Chiny mają układy 14 nm wydajne jak chipy 4 nm od NVIDII