O DeepSeek zrobiło się głośno na początku 2025 roku. Konkurentowi OpenAI i Google zwiastowano nawet, że rzuci wyzwanie ChatowiGPT oraz innym chatbotom, jednak jego gwiazda zgasła po kilku miesiącach i obecnie o tej technologii już tak dużo się nie mówi. Tymczasem jej twórcy zdradzili, ile wydali na trening modelu AI.
Startup z Hangzhou poinformował, że trenowanie modelu R1 pochłonęło 294 000 dolarów, a proces odbywał się przy użyciu 512 chipów NVIDIA H800. Jest to koszt znacznie niższy niż szacowane wydatki konkurentów z USA, co może budzić wątpliwości dotyczące postępów chińskich firm w globalnym wyścigu AI.
Wytrenowanie modelu DeepSeek miało kosztować mniej niż konkurencyjnych rozwiązań
Informacje te pojawiły się w artykule opublikowanym w czasopiśmie Nautre, którego współautorem jest założyciel firmy DeepSeek, Liang Wenfeng. To w zasadzie pierwszy raz, gdy autor modelu R1 zdradza tak szczegółowe informacje o kosztach swego projektu.
Według DeepSeek wytrenowanie modelu R1 kosztowało 294 000 dolarów, a proces odbywał się przy użyciu 512 chipów NVIDIA H800.
W styczniu wprowadzenie tańszych systemów AI przez DeepSeek wywołało zawirowania na giełdach, a akcje czołowych firm technologicznych spadły, gdy inwestorzy zaczęli się martwić o zmianę układu sił na rynku.
Szacunkowy koszt trenowania modelu R1 w wysokości 294 000 dolarów znacząco różni się od kosztów podawanych przez firmy amerykańskie. Sam Altman, prezes OpenAI, stwierdził w 2023 roku, że trenowanie podstawowych modeli ich firmy kosztowało "dużo więcej" niż 100 milionów dolarów, ale nie podano szczegółowych liczb.
Badacze DeepSeek twierdzą, że model R1 był trenowany przez 80 godzin na klastrze 512 chipów NVIDIA H800 – sprzęcie zaprojektowanym przez amerykańską firmę specjalnie dla chińskiego rynku, który jest objęty restrykcjami. W dodatkowym dokumencie po raz pierwszy ujawniono, iż posiada także jednostki NVIDIA A100, które były używane w początkowych eksperymentach z mniejszymi modelami, zanim zespół przeszedł na sprzęt H800.
Choć dane opublikowane w Nature wskazują na stosunkowo niski koszt trenowania modelu, eksperci branżowi wyrazili wątpliwości co do tych liczb. Firma badawcza SemiAnalysis poinformowała, że DeepSeek działa na znacznie większą skalę, niż początkowo wskazywano.
Oficjalne dane mogą nie mieć pokrycia w rzeczywistości
Zgodnie z ich raportem, firma ma dostęp do około 50 000 procesorów Hopper, w tym 10 000 chipów H800 i 10 000 H100. SemiAnalysis twierdzi, że szeroko cytowana kwota 5,5 miliona dolarów za wstępne treningi stanowi jedynie wąski fragment rzeczywistych kosztów.
Według tych samych źródeł, DeepSeek zainwestowało około 1,6 miliarda dolarów w serwery, poniosło około 944 milionów dolarów kosztów operacyjnych i wydało ponad 500 milionów dolarów na same procesory GPU. Wyniki te podważają przekonanie, że DeepSeek buduje modele AI klasy wyższej za zaledwie ułamek kosztów amerykańskich firm.

Pokaż / Dodaj komentarze do: DeepSeek ujawnia koszty treningu swojego modelu AI R1