Niedawno świat obiegła wiadomość o nowych modelach LLM Gemma od Google'a, które (oprócz innych ciekawych nowinek, jak przejście na licencję Apache 2.0) wymagają do pracy znacznie mniej pamięci. Fantazjowano, że może się to przyczynić do mniejszego zużycia pamięci przez centra danych obsługujące AI, ale cóż - to się nie zdarzy. Mniejsze zużycie RAM przez nowe modele oznacza tylko tyle, że firmy będą mogły załadować do tej samej pojemności pamięci większe LLMy i to właśnie uczynią.
Oczywiście fajnie, że takie modele powstają - bo pozwalają choćby zwykłym użytkownikom uruchamiać tak zredukowane duże modele językowe na mniej wydajnych konfiguracjach - ale jakakolwiek redukcja zużycia pamięci przez gigaskalerów obecnie wygląda na zwykłą mrzonkę. Żeby nie było, że uprawiam tu wyłącznie czarnowidztwo, to przypominam, że ceny pamięci RAM DDR5 ostatnio spadły - może nie jakoś znacząco, ale jednak.
Dobra, "Gugiel Guglem", ale nasza rodzima AI, czyli Bielik, również poczyniła znaczący krok w podobnym kierunku, chociaż na łamach naszej prasy pisze się o tym znacznie rzadziej. Przypomnijmy, że biało-czerwona AI oparta jest na zmodyfikowanym otwartoźródłowym modelu Mistral i ma stanowić europejską alternatywę dla amerykańskich gigantów AI. Bielik jest szkolony na polskich superkomputeach Helios (oparty na AMD Epyc oraz NVIDIA H100 i GH200) i Athena (oparty na AMD Epyc i NVIDIA A100). Dostępny jest bez opłat, no i przede wszystkim oferuje większą precyzję w obsłudze języka polskiego niż zachodnie (czy wschodnie) odpowiedniki. Chociaż Bielik nie działa tylko po polsku, bo obsługuje już ponad 30 języków - ale to tylko tak na marginesie.
Na konferencji GTC Bielik latał nad głową prezesa NVIDII
Przejdźmy jednak do meritum, bowiem całkiem niedawno bo podczas konferencji NVIDIA GTC w San Jose (17 marca) zaprezentowano model Bielik Minitron 7B. Co w tym nowym modelu takiego przełomowego i co ma z tym wspólnego NVIDIA? Oczywiście już w czerwcu ubiegłego roku ogłoszono współpracę twórców Bielika z firmą NVIDIA, ale na początku ograniczono się do ogólników, mówiąc o optymalizacji dla usług NVIDIA NIM, czy integracji z Perplexity (której na razie nie widać). Na widoczne efekty tej kooperacji musieliśmy trochę poczekać - ale jak widać wcale niedługo.
Co to właściwie jest ten Bielik Minitron?
Najprościej pisząc, Bielik Minitron 7B v3 to model Bielik 11B v3 skompresowany do rozmiaru 7B. Zredukowano więc rozmiar o 33%, równocześnie zachowując 90% precyzji działania oryginału, przy 50% szybszym wnioskowaniu. Imponujące, nieprawdaż? Oznacza to oczywiście, że Bielik Minitron nie był trenowany od zera jak zwykły model, tylko zmniejszono model 11B - z 11,04 mld do 7,35 mld parametrów.
Jak na razie jedynym dostępnym modelem Minitron jest właśnie 7B oparty na największym Bieliku 11B v3. W rodzinie Bielik v3 są jeszcze dostępne modele 4.5B oraz 1.5B. Najmniejszą wersję zostawiłbym w spokoju, ale nie miałbym nic przeciwko powstaniu Bielika Minitron 3B v3, czyli opartego na 4.5B v3 - oczywiście zakładając, że udałoby się go również skompresować o 33%. Oznacza to również, że hipotetyczny Bielik Minitron 11B, mógłby być oparty na modelu 14-16B. Czy SpeakLesh wraz z NVIDIĄ podejmie wyzwanie?
Jak tego dokonano? Przy zastosowaniu dwuetapowej metodologii kompresji inspirowanej podejściem (a to niespodzianka) NVIDIA Minitron, a konkretnie za pomocą strukturalnego przycinania i destylacji wiedzy. "Przycinanie" umożliwiło narzędzie NVIDIA Model Optimizer, a za odzyskiwanie jakości modelu odpowiada framework NVIDIA NeMo. Potem przyszła jeszcze pora na tajemniczo brzmiące pojęcia jak Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO-P) oraz uczenie ze wzmocnieniem (GRPO), czyli mówiąc krótko - dostrajanie. Przetestowano dogłębnie aż 10 różnych konfiguracji redukcji, zanim zdecydowano się na złoty środek. Tracimy więc 10% precyzji bazowego modelu, ale zajmuje on znacznie mniej miejsca, a wnioskowanie znacząco przyśpiesza. Z taką stratą można więc żyć.
Kompresja LLM - a komu to potrzebne?
Redukcja wagi samych modeli to istotny krok do obniżenia kosztów wdrożenia, czy też po prostu lokalnego uruchamiania modeli LLM na mniej wydajnych komputerach domowych. Polska nie jest w stanie rywalizować z innymi krajami pod względem rozbudowania infrastruktury AI (chociaż i tutaj podejmowane są pewne kroki), więc tym bardziej należy docenić pracę jaką SpeakLeash wykonał nad modelem Bielik - jak widać wsparcie NVIDII zaczyna przynosić naprawdę realne korzyści.

Wśród bielikowych nowości warto też wspomnieć o Sójce, czyli Bielik Guard. Ten model to system bezpieczeństwa dla dużych modeli językowych (LLM), który analizuje wejścia i wyjścia LLM-ów w czasie rzeczywistym, blokując szkodliwe treści przed dotarciem do użytkownika. Takie rozwiązanie powinno świetnie sprawdzać się w chatbotach, automatycznej moderacji, jako system bezpieczeństwa dla polskich LLM-ów, czy w przypadku API do integracji z własnymi systemami.
Bielik AI raczej nieprędko - o ile w ogóle - zastąpi narzędzia jak ChatGPT, Gemini, czy Grok, ale z pewnością może znaleźć wiele nisz, w których jego zastosowanie nie tylko będzie miało większy sens, ale będzie również tańsze. I to wszystko bez polegania na rozwiązaniach zachodnich gigantów.
Spodobało Ci się? Podziel się ze znajomymi!

Pokaż / Dodaj komentarze do:
Bielik Minitron AI. Polacy nie zwalniają tempa i nasz model też zmniejsza wymagania