W erze potężnych, zasobożernych modeli językowych, Microsoft robi krok w zupełnie innym kierunku – prezentując pierwszy na świecie natywny, 1-bitowy model językowy open source o skali dwóch miliardów parametrów. BitNet b1.58 2B4T już teraz dostępny jest do testowania za darmo na platformie Hugging Face.
W czasach, gdy sztuczna inteligencja zaczyna dominować niemal każdy aspekt życia cyfrowego – od chatbotów po automatyczne kodowanie i narzędzia do edycji tekstu – pojawia się pytanie: jak pogodzić zaawansowaną technologię z ograniczonymi zasobami sprzętowymi? BitNet b1.58 2B4T to tzw. 1-bitowy model językowy, a właściwie 1,58-bitowy – oznacza to, że jego parametry (wagi) są ograniczone do zaledwie trzech wartości: -1, 0 i 1. Taka architektura pozwala znacząco zmniejszyć zużycie pamięci oraz energii, umożliwiając uruchamianie modelu nawet na tak kompaktowych urządzeniach jak smartfony czy mikrokomputery klasy Raspberry Pi.
„Wprowadzamy BitNet b1.58 2B4T, pierwszy natywny 1-bitowy model LLM typu open source w skali 2 miliardów parametrów” – ogłosili badacze Microsoftu w oficjalnym komunikacie. „Został on przetestowany w szerokim zakresie zadań – od rozumienia języka naturalnego, przez rozumowanie matematyczne, aż po kodowanie i prowadzenie rozmów.”
Model został przeszkolony na ogromnym zbiorze danych – aż 4 bilionach tokenów, co czyni go jednym z najbardziej kompaktowych, a jednocześnie najbardziej zaawansowanych modeli w swojej klasie.
Minimalne zużycie pamięci – maksymalna dostępność
W dobie, gdy typowe LLM, takie jak GPT-4 czy Claude 3, potrzebują kilkunastu (a nawet kilkudziesięciu) gigabajtów pamięci operacyjnej do uruchomienia, BitNet b1.58 2B4T wymaga jedynie 400 MB RAM, co czyni go absolutnym rekordzistą w kategorii „lekkości działania”.
Dla porównania:
- BitNet b1.58 2B4T – 400 MB
- Gemma 3 1B – 1,4 GB
- Modele GPT i Claude – 10 GB+
To ogromny przełom, który może całkowicie przedefiniować wykorzystanie LLM w urządzeniach o ograniczonej mocy obliczeniowej, takich jak telefony, roboty edukacyjne czy rozwiązania wbudowane w systemy operacyjne.
Jak powstał ten model?
Proces szkolenia BitNet b1.58 2B4T składa się z trzech kluczowych faz:
-
Pre-trening (wstępne uczenie):
W tym etapie model uczy się na syntetycznych danych matematycznych, danych z indeksów internetowych oraz tekstach edukacyjnych – wszystko to oparte wyłącznie na ogólnodostępnych źródłach. -
SFT – Supervised Fine-Tuning (nadzorowane dostrajanie):
Tutaj naukowcy wykorzystali m.in. zestaw konwersacyjny WildChat, by nauczyć model prowadzenia rozmów w sposób naturalny i angażujący. -
DPO – Direct Preference Optimization (bezpośrednia optymalizacja preferencji):
Finalna faza, mająca na celu zsynchronizowanie modelu z oczekiwaniami użytkowników – dzięki temu BitNet może odpowiadać w sposób bardziej ludzki, trafny i kontekstowy.
Technologia przyszłości czy ograniczona ciekawostka?
Jednym z ograniczeń jest to, że BitNet b1.58 2B4T działa wyłącznie w środowisku bitnet.cpp – autorskim frameworku Microsoftu. Nie da się go uruchomić w popularnych systemach jak PyTorch czy TensorFlow. Dla mniej zaawansowanych użytkowników może to być bariera, ale dla programistów chcących zbudować coś na bazie BitNet od zera – szansa na poznanie zupełnie nowej klasy modeli AI.
Microsoft twierdzi, że 1-bitowe modele, mimo swojej ograniczonej precyzji, są w stanie dorównać tradycyjnym LLM o pełnej precyzji w wielu zastosowaniach praktycznych, jeśli tylko są odpowiednio wytrenowane.
To, co czyni projekt BitNet jeszcze bardziej atrakcyjnym, to otwartość i dostępność dla całej społeczności AI. Model został udostępniony na platformie Hugging Face, co oznacza, że każdy – od amatora po doświadczonego badacza – może już dziś przetestować jego możliwości i tworzyć własne rozwiązania z jego użyciem.

Pokaż / Dodaj komentarze do: Nowy kompaktowy 1-bitowy LLM od Microsoft potrzebuje zaledwie 400 MB pamięci