Llama 4 pod lupą. Meta chwali się przełomem, ale w tle wybucha afera o manipulacje AI

Marcin Jeżewski | 08-04-2025, 17:37 |Źródło: Neowin | 0

Llama 4 pod lupą. Meta chwali się przełomem, ale w tle wybucha afera o manipulacje AI

Ostatnio Meta zaprezentowała nowe wersje swojego dużego modelu językowego (LLM), ogłaszając premierę trzech wariantów Llama 4: Scout, Maverick oraz Behemoth. Modele te stanowią część zaawansowanego, multimodalnego systemu sztucznej inteligencji, który według zapowiedzi ma konkurować z najlepszymi obecnie dostępnymi rozwiązaniami AI. Pojawiły się jednak pewne kontrowersje.

Przykładowo, najmniejszy z modeli, Scout, został zoptymalizowany do działania na pojedynczej karcie graficznej Nvidia H100, co czyni go wyjątkowo dostępnym dla mniejszych zespołów i środowisk testowych. Mimo swojej kompaktowości Scout oferuje imponujące okno kontekstowe o długości aż 10 milionów tokenów, co znacząco zwiększa możliwości przetwarzania i analizy długich tekstów czy złożonych dokumentów.

Maverick z kolei jest większy od Scouta, a według deklaracji Meta, jego osiągi w zadaniach kodowania i rozumowania są porównywalne z wynikami osiąganymi przez GPT-4o od OpenAI oraz DeepSeek-V3 – mimo że Maverick wykorzystuje mniej aktywnych parametrów. Model ten jest promowany jako rozwiązanie o najlepszym stosunku kosztów do jakości w swoim segmencie.

Cień kontrowersji – czy Meta manipulowała wynikami testów?

Niedługo po premierze modeli, w sieci zaczęły krążyć pogłoski o nieuczciwych praktykach związanych z treningiem Llama 4, szczególnie wariantu Maverick. Według rzekomego informatora z Meta, który opublikował tę informację na chińskiej stronie internetowej, firma miała włączyć zestawy benchmarkowe do procesu post-treningowego, co mogło wpłynąć na zawyżenie wyników testów porównawczych.

Niedługo po premierze modeli, w sieci zaczęły krążyć pogłoski o nieuczciwych praktykach związanych z treningiem Llama 4, szczególnie wariantu Maverick. Meta Platforms oczywiście zaprzecza tym doniesieniom.

The Llama 4 model that won in LM Arena is different than the released version. I have been comparing the answers from Arena to the released model. They aren't close.

The data is worth a look also as it shows how LM Arena results can be manipulated to be more pleasing to humans. https://t.co/7yCd3CiJ42 pic.twitter.com/A6Yirn04g7
— Ethan Mollick (@emollick) April 8, 2025

„Po wielokrotnym treningu model nadal nie osiągał poziomu open-source’owych SOTA (state-of-the-art), a wręcz wyraźnie od nich odstawał” – napisał informator. – „Kierownictwo zasugerowało włączenie zestawów testowych do dalszego treningu, by uzyskać wyniki, które 'będą wyglądać dobrze' w wielu metrykach”.

Według relacji, jeśli do końca kwietnia model nie osiągnie oczekiwanych wyników, firma może zrezygnować z dalszych inwestycji w ten kierunek. Informator twierdzi również, iż złożył rezygnację z pracy oraz poprosił o usunięcie swojego nazwiska z raportu technicznego Llama 4. Co więcej – jak dodał – wiceprezes Meta ds. AI miał również zrezygnować z tego samego powodu.

Meta zaprzecza, ale wątpliwości pozostają

Na zarzuty odpowiedział Ahmad Al-Dahle, wiceprezes Meta ds. generatywnej sztucznej inteligencji, który stanowczo zaprzeczył doniesieniom, określając je jako „po prostu nieprawdziwe”. Al-Dahle podkreślił, że Meta nigdy nie dopuściłaby się takich praktyk.

Jednakże pogłoski zyskały wiarygodność m.in. dzięki licznym relacjom użytkowników X i Reddita, którzy zauważyli różnice między publicznie dostępną wersją Mavericka a tą, która była prezentowana przez Meta na platformie LMArena.

Co istotne, sama Meta przyznała, że wersja Mavericka na LMArena była "eksperymentalną wersją czatową": „Llama 4 Maverick oferuje najlepszy stosunek wydajności do ceny, a wersja eksperymentalna osiągnęła wynik ELO 1417 na LMArena”.

Al-Dahle wytłumaczył rozbieżności jako wynik szybkiego wdrożenia modeli – „modele zostały udostępnione natychmiast po ukończeniu, więc minie kilka dni, zanim wszystkie publiczne implementacje zostaną odpowiednio dostrojone”.

Marcin Jeżewski Newsman

Llama 4 pod lupą. Meta chwali się przełomem, ale w tle wybucha afera o manipulacje AI

Cień kontrowersji – czy Meta manipulowała wynikami testów?

Meta zaprzecza, ale wątpliwości pozostają

Komentarze do: Llama 4 pod lupą. Meta chwali się przełomem, ale w tle wybucha afera o manipulacje AI

Pokaż / Dodaj komentarze do: Llama 4 pod lupą. Meta chwali się przełomem, ale w tle wybucha afera o manipulacje AI

Test monitora iiyama G-Master GCB3486WQSCP-B1 Gold Phoenix – ultrawide dla graczy z odświeżaniem 240 Hz

Prezes Epic, Tim Sweeney, obwinia twórców za słabą optymalizację gier na Unreal Engine 5

Test KFA2 GeForce RTX 5070 Ti HOF – Elegancka bestia z górnej półki

iiyama G-Master GC2480HSU-B1 Red Eagle – Recenzja gamingowego monitora 180 Hz w budżetowej cenie

Science-fiction staje się rzeczywistością. Uzbrojone drony beą chronic szkoły na Florydzie

Były inżynier Intela skazany za kradzież tajemnic handlowych