Chiński gigant sztucznej inteligencji DeepSeek zmaga się z poważnymi problemami w pracach nad modelem nowej generacji R2. Jak donoszą źródła „Financial Times”, powodem opóźnień miała być decyzja władz, by proces szkolenia przeprowadzić na układach firmy Huawei.
Po głośnej premierze modelu DeepSeek R1 na początku roku, firma znalazła się pod presją rządową, by uniezależnić się od zagranicznych dostawców i oprzeć kluczowe procesy na rodzimym sprzęcie. Wybór padł na akceleratory Ascend 910C od Huawei – jednostki, które na papierze oferują dużą moc obliczeniową i pojemną pamięć vRAM.
Techniczne potknięcia
Miesiące pracy zespołu DeepSeek i inżynierów Huawei nie przyniosły jednak oczekiwanych rezultatów. Układy okazały się niestabilne, a problemy z połączeniami i niedojrzałym oprogramowaniem uniemożliwiały ukończenie choćby jednego pełnego cyklu szkoleniowego. Awaria, połączona z kłopotami przy etykietowaniu danych, doprowadziła do wstrzymania projektu i konieczności rozpoczęcia od nowa.
Powrót do Nvidii
Ostatecznie DeepSeek zdecydował się wrócić do procesorów graficznych H20 firmy Nvidia, które wcześniej wykorzystywał przy trenowaniu R1. Chipy Huawei trafiły do zadań wnioskowania – mniej wymagającej fazy przetwarzania danych, w której obciążenie systemu jest mniejsze niż przy pełnym szkoleniu modelu.
Różnice w architekturze
Wdrożenie układów Ascend wymagałoby gruntownej przebudowy oprogramowania i procesów. Akceleratory Huawei nie obsługują FP8 – formatu, który DeepSeek intensywnie wykorzystywał, optymalizując swój stos treningowy pod sprzęt Nvidii. Zmuszałoby to firmę do użycia bardziej pamięciożernych 16-bitowych typów danych, co dodatkowo spowalniałoby prace.
Nie jest jasne, czy R2 miał bazować na tym samym modelu co R1, czy stanowić nową architekturę. Jedna z hipotez mówi, że Huawei miał wesprzeć etap tzw. uczenia wzmacniającego – kluczowej fazy, w której model nabiera umiejętności „rozumowania”.
Informacje o problemach pojawiają się w momencie, gdy według „Bloomberga” chińskie władze zaczynają zniechęcać firmy do korzystania z procesorów Nvidii H20 w projektach rządowych. Spór o technologię staje się więc kolejnym elementem szerszej rywalizacji między Chinami a Stanami Zjednoczonymi na polu sztucznej inteligencji.

Pokaż / Dodaj komentarze do: Technologiczna porażka - DeepSeek nie może trenować AI na chipach Huawei