Nowe modele AI od OpenAI imponują, ale częściej zmyślają fakty

Nowe modele AI od OpenAI imponują, ale częściej zmyślają fakty

Nowe modele sztucznej inteligencji OpenAI, o3 oraz o4-mini, mimo że są jednymi z najnowocześniejszych w swojej klasie, zaskakująco często generują informacje niezgodne z prawdą. Co więcej, okazuje się, że robią to częściej niż starsze modele tej samej firmy.

Nieprawdziwe informacje podawane przez AI w tym chat boty od dawna pozostają jednym z najtrudniejszych problemów do rozwiązania. Zwykle kolejne generacje modeli radziły sobie z tym coraz lepiej. Tym razem jednak trend ten został odwrócony. Z wewnętrznych testów OpenAI wynika, iż o3 oraz o4-mini – zaliczane do kategorii modeli „rozumujących” – zmyślają różne rzeczy częściej niż o1, o1-mini i o3-mini. Są też mniej precyzyjne niż bardziej tradycyjne modele, jak GPT-4o.

Nowe modele AI mylą się częściej niż ich poprzednicy

W raporcie technicznym dotyczącym o3 i o4-mini, OpenAI przyznaje, że potrzeba więcej badań, by zrozumieć, dlaczego rozszerzanie możliwości rozumowania modeli może prowadzić do częstszych błędów faktograficznych. Choć nowe modele dobrze wypadają w zadaniach związanych z kodowaniem i matematyką, to przez to, że generują więcej odpowiedzi, rośnie też liczba zarówno trafnych, jak i błędnych twierdzeń.

ChatGPT

Na przykład model o3 zmyślał w 33% przypadków podczas testów opartych na benchmarku PersonQA, który mierzy wiedzę o osobach. Dla porównania – o1 osiągnął tam wynik 16%, a o3-mini 14,8%. Jeszcze gorzej wypadł o4-mini, który błędnie odpowiadał w niemal połowie przypadków (48%).

Niezależne badania przeprowadzone przez Transluce, organizację zajmującą się badaniami nad AI, wykazały, iż o3 potrafi nawet zmyślać własne działania w procesie dochodzenia do odpowiedzi. W jednym z przypadków model twierdził, że uruchomił kod na MacBooku Pro z 2021 roku „poza ChatGPT”, a następnie skopiował wyniki – mimo że nie ma takich możliwości.

Według Neila Chowdhury'ego, badacza z Transluce i byłego pracownika OpenAI, przyczyną może być specyficzne podejście do uczenia modeli z serii „o”, które wzmacnia problemy zwykle minimalizowane w standardowych procesach treningowych. Z kolei Sarah Schwettmann, współzałożycielka Transluce, wskazuje, że przez wysoki wskaźnik halucynacji model o3 może być mniej użyteczny, niż wynikałoby to z jego potencjału.

Niektórzy użytkownicy, jak Kian Katanforoosh ze startupu Workera, już testują model o3 w praktyce, zauważając jego przewagę w zadaniach związanych z programowaniem. Niemniej jednak również oni zgłaszają problemy – np. generowanie nieistniejących linków do stron internetowych.

Choć takie działania AI czasem prowadzą do ciekawych lub kreatywnych pomysłów, stanowią poważne ograniczenie w zastosowaniach, w których liczy się precyzja – takich jak prawo czy medycyna. W tych branżach nawet drobne błędy mogą mieć poważne konsekwencje.

Jednym z rozwiązań może być integracja modeli z wyszukiwarkami internetowymi. Przykładowo, GPT-4o z dostępem do wyszukiwania osiąga 90% trafności w benchmarku SimpleQA. To podejście mogłoby poprawić dokładność także modeli rozumujących – o ile użytkownicy zaakceptują udostępnianie zapytań zewnętrznym dostawcom.

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: Nowe modele AI od OpenAI imponują, ale częściej zmyślają fakty

 0
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł