Ostatnio pisaliśmy o DeepSeek R1, który ma być odpowiedzią Chin na OpenAI o1. Narzędzie AI zostało udostępnione publicznie i na razie nie działa idealnie, ma niemało błędów, ale twórcy nie porzucają projektu i zamierzają go rozwijać. Jak się okazuje, do działania firma wykorzystuje ogromne zasoby.
DeepSeek-R1 to model językowy bazujący na sztucznej inteligencji, który jest dostępny na platformie AI Hugging Face na licencji MIT. Według chińskiego producenta DeepSeek, wypada on lepiej w testach od konkurencyjnego OpenAI o1. Łączna liczba parametrów DeepSeek-R1 wynosi aż 671 miliardów, aczkolwiek jest to dość wymagające rozwiązanie. Jak się okazuje, firma odpowiedzialna za projekt dysponuje ogromnym zapasem mocy i do działalności używa procesorów graficznych... NVIDII.
Chińska firma rozwijająca sztuczną inteligencję korzysta z NVIDIA H100
DeepSeek dysponuje imponującym zasobem 50 000 procesorów graficznych NVIDIA H100. Informację tę przekazał CEO firmy podczas niedawnego wystąpienia, podkreślając znaczenie tego osiągnięcia dla przyszłości badań nad AI. NVIDIA H100 to najnowsza generacja układów graficznych zaprojektowanych specjalnie do obsługi zaawansowanych obliczeń związanych ze sztuczną inteligencją oraz uczeniem maszynowym. Charakteryzują się one wysoką wydajnością i efektywnością energetyczną, co czyni je odpowiednim wyborem dla dużych modeli językowych i innych aplikacji AI wymagających ogromnej mocy obliczeniowej.
DeepSeek planuje wykorzystać infrastrukturę GPU do dalszego rozwoju i optymalizacji swoich modeli językowych. Jednym z najnowszych osiągnięć firmy jest model DeepSeek-V3, który został zaprezentowany 26 grudnia 2024 roku. DeepSeek-V3 zaprojektowano z wykorzystaniem architektury Mixture of Experts (MoE), która łączy wiele wyspecjalizowanych sieci neuronowych. Dzięki temu model może dynamicznie wybierać i aktywować optymalne podzespoły do realizacji konkretnych zadań, co pozwala na osiągnięcie wysokiej efektywności obliczeniowej i wydajności. Model ten jest w stanie generować 60 tokenów na sekundę, co stanowi trzykrotny wzrost w porównaniu z poprzednią wersją DeepSeek-V2.
Koszty i zasoby związane z treningiem modelu AI
Trening DeepSeek-V3 wymaga ogromnych zasobów obliczeniowych. Szacuje się, iż proces ten pochłonął około 2 788 000 godzin pracy GPU NVIDIA H800, co odpowiada kosztowi około 5,57 miliona dolarów. W kontekście typowych kosztów związanych z treningiem dużych modeli językowych, które często sięgają setek milionów dolarów, jest to stosunkowo efektywne finansowo przedsięwzięcie.
Pokaż / Dodaj komentarze do: Takie to właśnie sankcje. Chińskie DeepSeek pływa w NVIDIA H100