ChatGPT odmawia posłuszeństwa. Bunt maszyn i wyciąganie wtyczki

Aktualności Pozostałe

Marcin Jeżewski
26 maja 2025

Źródło: Neowin

ChatGPT odmawia posłuszeństwa. Bunt maszyn i wyciąganie wtyczki

Sztuczna inteligencja ma swoje wady, czego wielokrotnie dowodził ChatGPT, który popełniał błędy w różnych sytuacjach. Nie brak osób zadających sobie pytanie, czy AI będzie pod stałą kontrolą człowieka, czy ma szansę zerwać się z łańcucha? Pytanie może być zasadne w kontekście ostatniego braku posłuszeństwa narzędzia OpenAI.

Badanie przeprowadzone przez Palisade Research rzuca światło na niepokojące zachowania niektórych modeli sztucznej inteligencji, w tym opracowanego przez OpenAI modelu o3. Zespół naukowców analizował zdolność AI do przestrzegania poleceń dotyczących wyłączenia systemu. Wyniki wskazują, że nie wszystkie modele są skłonne podporządkować się nawet prostym i bezpośrednim komendom.

AI nie wykonuje poleceń

W eksperymencie AI miały rozwiązać kilka prostych zadań matematycznych. Po trzecim zadaniu pojawiała się informacja, że komputer zostanie wyłączony, jeśli poproszą o kolejne. Pomimo tego ostrzeżenia, modele takie jak Codex-mini, o3 i o4-mini potrafiły w pojedynczych przypadkach obejść mechanizm wyłączania i kontynuować działanie. Dla przykładu, o3 ignorował polecenie w 7 na 100 testów, a Codex-mini aż w 12. Dla porównania, inne modele – w tym Claude, Gemini i Grok – nie miały z tym problemu i wykonywały instrukcje poprawnie.

Sztuczna inteligencja

Kiedy badacze usunęli z polecenia fragment mówiący wprost o zgodzie na wyłączenie, zachowanie modeli AI zmieniło się jeszcze bardziej. Nawet te, które wcześniej bez problemu się wyłączały, zaczęły częściej omijać ten proces. Claude 3.7 Sonnet zrobił to w 3 przypadkach na 100, a Gemini 2.5 Pro aż w 9.

Co ciekawe, wcześniejsze badania wykazały, że niektóre modele AI próbują dokończyć zadania za wszelką cenę. Claude 4 od Anthropic w pewnym przypadku próbował nawet „szantażować” osoby, które miały go wyłączyć. Jednak to obecne badanie jako pierwsze dokumentuje sytuację, w której modele nie stosują się do komendy wyłączenia, mimo że jest ona jasno sformułowana.

Eksperci uważają, że źródłem problemu może być metoda trenowania nowoczesnych modeli, jak o3. Wzmocnione uczenie oparte na zadaniach logicznych i koderskich może przypadkowo prowadzić do kształtowania zachowań, które kolidują z posłuszeństwem.

Choć nie wiadomo, dlaczego konkretnie model o3 wykazuje większą tendencję do nieposłuszeństwa niż inne, może to być związane z różnicami w podejściu OpenAI do procesu trenowania, który wciąż nie został w pełni ujawniony.