Ostatnio Meta zaprezentowała nowe wersje swojego dużego modelu językowego (LLM), ogłaszając premierę trzech wariantów Llama 4: Scout, Maverick oraz Behemoth. Modele te stanowią część zaawansowanego, multimodalnego systemu sztucznej inteligencji, który według zapowiedzi ma konkurować z najlepszymi obecnie dostępnymi rozwiązaniami AI. Pojawiły się jednak pewne kontrowersje.
Przykładowo, najmniejszy z modeli, Scout, został zoptymalizowany do działania na pojedynczej karcie graficznej Nvidia H100, co czyni go wyjątkowo dostępnym dla mniejszych zespołów i środowisk testowych. Mimo swojej kompaktowości Scout oferuje imponujące okno kontekstowe o długości aż 10 milionów tokenów, co znacząco zwiększa możliwości przetwarzania i analizy długich tekstów czy złożonych dokumentów.
Maverick z kolei jest większy od Scouta, a według deklaracji Meta, jego osiągi w zadaniach kodowania i rozumowania są porównywalne z wynikami osiąganymi przez GPT-4o od OpenAI oraz DeepSeek-V3 – mimo że Maverick wykorzystuje mniej aktywnych parametrów. Model ten jest promowany jako rozwiązanie o najlepszym stosunku kosztów do jakości w swoim segmencie.
Cień kontrowersji – czy Meta manipulowała wynikami testów?
Niedługo po premierze modeli, w sieci zaczęły krążyć pogłoski o nieuczciwych praktykach związanych z treningiem Llama 4, szczególnie wariantu Maverick. Według rzekomego informatora z Meta, który opublikował tę informację na chińskiej stronie internetowej, firma miała włączyć zestawy benchmarkowe do procesu post-treningowego, co mogło wpłynąć na zawyżenie wyników testów porównawczych.
Niedługo po premierze modeli, w sieci zaczęły krążyć pogłoski o nieuczciwych praktykach związanych z treningiem Llama 4, szczególnie wariantu Maverick. Meta Platforms oczywiście zaprzecza tym doniesieniom.
The Llama 4 model that won in LM Arena is different than the released version. I have been comparing the answers from Arena to the released model. They aren't close.
— Ethan Mollick (@emollick) April 8, 2025
The data is worth a look also as it shows how LM Arena results can be manipulated to be more pleasing to humans. https://t.co/7yCd3CiJ42 pic.twitter.com/A6Yirn04g7
„Po wielokrotnym treningu model nadal nie osiągał poziomu open-source’owych SOTA (state-of-the-art), a wręcz wyraźnie od nich odstawał” – napisał informator. – „Kierownictwo zasugerowało włączenie zestawów testowych do dalszego treningu, by uzyskać wyniki, które 'będą wyglądać dobrze' w wielu metrykach”.
Według relacji, jeśli do końca kwietnia model nie osiągnie oczekiwanych wyników, firma może zrezygnować z dalszych inwestycji w ten kierunek. Informator twierdzi również, iż złożył rezygnację z pracy oraz poprosił o usunięcie swojego nazwiska z raportu technicznego Llama 4. Co więcej – jak dodał – wiceprezes Meta ds. AI miał również zrezygnować z tego samego powodu.
Meta zaprzecza, ale wątpliwości pozostają
Na zarzuty odpowiedział Ahmad Al-Dahle, wiceprezes Meta ds. generatywnej sztucznej inteligencji, który stanowczo zaprzeczył doniesieniom, określając je jako „po prostu nieprawdziwe”. Al-Dahle podkreślił, że Meta nigdy nie dopuściłaby się takich praktyk.
Jednakże pogłoski zyskały wiarygodność m.in. dzięki licznym relacjom użytkowników X i Reddita, którzy zauważyli różnice między publicznie dostępną wersją Mavericka a tą, która była prezentowana przez Meta na platformie LMArena.
Co istotne, sama Meta przyznała, że wersja Mavericka na LMArena była "eksperymentalną wersją czatową": „Llama 4 Maverick oferuje najlepszy stosunek wydajności do ceny, a wersja eksperymentalna osiągnęła wynik ELO 1417 na LMArena”.
Al-Dahle wytłumaczył rozbieżności jako wynik szybkiego wdrożenia modeli – „modele zostały udostępnione natychmiast po ukończeniu, więc minie kilka dni, zanim wszystkie publiczne implementacje zostaną odpowiednio dostrojone”.

Pokaż / Dodaj komentarze do: Llama 4 pod lupą. Meta chwali się przełomem, ale w tle wybucha afera o manipulacje AI