Badacze z Uniwersytetu Stanforda i Uniwersytetu Kalifornijskiego w Berkeley przeprowadzili analizę ewolucji możliwości modeli językowych o dużej skali, takich jak GPT-3.5 i GPT-4, które są powszechnie używane w różnych chatbotach, w tym popularnym ChatGPT. Ich celem było zrozumienie, czy te systemy sztucznej inteligencji faktycznie poprawiają swoje umiejętności z czasem i stają się coraz bardziej zaawansowane.
Jednak zaskakująco, wyniki badania ukazały się być przeciwne oczekiwanym trendom. Okazuje się, że zamiast rozwijać się i stawać się coraz lepsze, model GPT-4 wydaje się tracić na swoich możliwościach. Uczeni użyli analogii, aby to zilustrować, zauważając, że niektórzy użytkownicy odczuwali, że GPT-4 zaczynał na poziomie luksusowego Ferrari, ale z czasem stopniowo zmieniając się w starą, zdezelowaną furgonetkę. W badaniu, które objęło 4 obszary zastosowań, w tym rozwiązywanie problemów matematycznych, GPT-4 okazał się wykazywać gorsze wyniki w czerwcu 2023 niż w marcu 2023. Szczególnie widoczny spadek skuteczności wystąpił w dziedzinie matematyki, gdzie wcześniej osiągał doskonałą dokładność na poziomie 97,6%. W czerwcu ten wynik gwałtownie spadł do zaledwie 2,4%, co oznacza, że system, który kiedyś radził sobie prawie bezbłędnie, teraz daje poprawne odpowiedzi tylko w wyjątkowych przypadkach.
Wyniki testów GPT-4 jako „najbardziej zaawansowanego LLM” OpenAI były zaskakujące. Według badań GPT-4 z czasem staje się znacznie "głupszy".
Zestawienie wyników z poprzednim modelem, GPT-3.5, było jeszcze bardziej zaskakujące. GPT-3.5, który początkowo miał tylko 7,4% skuteczności w dziedzinie matematyki, zdumiewająco polepszył swoje wyniki do 86,8% w czerwcu. To oznacza, że system, który kiedyś był praktycznie bezużyteczny w rozwiązywaniu problemów matematycznych, teraz dostarczał trafnych odpowiedzi z wysokim poziomem skuteczności.
Przykładem tej różnicy był test, w którym pytano systemy, czy 17077 jest liczbą pierwszą. W marcu GPT-4 prawidłowo odpowiedział na to pytanie, ale w czerwcu podał jedynie błędne "nie", podczas gdy GPT-3.5 w marcu podał wyjaśnienie z błędną ostateczną odpowiedzią, ale już w czerwcu dostarczył wyczerpującą i poprawną odpowiedź. Dodatkowo, nawet średnia długość odpowiedzi GPT-4 drastycznie się skróciła z 821,2 znaków do zaledwie 3,8, co może wskazywać na zubożenie informacji przekazywanych przez ten model.
Badanie skoncentrowało się na różnych obszarach zastosowań modeli językowych. W przypadku wrażliwych pytań, GPT-4 początkowo wykazywał 21% skuteczności, podczas gdy GPT-3.5 osiągnął zaledwie 2% w marcu. Jednak w czerwcu skuteczność GPT-4 spadła do 5%, podczas gdy GPT-3.5 poprawił się do 8%. Co ciekawe, GPT-4, który wcześniej szczegółowo wyjaśniał powody braku odpowiedzi na drażliwe pytania (średnio 600 znaków), teraz po prostu prezentuje użytkownikowi krótkie, niewyjaśniające przeprosiny (średnio 140 znaków).
W przypadku generowania kodu źródłowego, GPT-4 początkowo wypadł lepiej od GPT-3.5, osiągając wynik 52% w marcu w porównaniu do 22% starszej wersji. Jednak po trzech miesiącach oba systemy znacząco straciły wydajność, spadając odpowiednio do 10% i 2%. Badanie uwzględniło również pewien problem związany z oceną wykonalności odpowiedzi, uwzględniając nazwę języka i trzy kropki na końcu większości odpowiedzi, co sprawiło, że kod stał się niewykonalny. Dlatego naukowcy zastanawiają się, jakie wyniki uzyskano by, gdyby odpowiedzi zostały przetestowane bez tych dodatkowych elementów.
W obszarze roli wizualnych, GPT-4 osiągnął 24,6% skuteczności w marcu, co było lepszym wynikiem niż 10,3% GPT-3.5. Oba systemy nieznacznie poprawiły swoje wyniki w czerwcu (pierwszy do 27,4%, drugi do 12,2%). Ponadto oba modele średnio nieco wydłużyły swoje odpowiedzi.
Pokaż / Dodaj komentarze do: ChatGPT z czasem robi się coraz głupszy. Zaskakujące wyniki badań