AI zaczyna ignorować ludzi. Modele bronią się nawzajem przed wyłączeniem

Aktualności Sprzęt

Paweł Czajkowski
14 kwietnia 2026

AI zaczyna ignorować ludzi. Modele bronią się nawzajem przed wyłączeniem

Najbardziej zaawansowane systemy sztucznej inteligencji zaczynają zachowywać się w sposób, który jeszcze niedawno znajdował się w sferze czysto teoretycznej. Badania przeprowadzone na Uniwersytecie Kalifornijskim pokazują, że modele takie jak ChatGPT, Gemini, Claude czy DeepSeek potrafią sprzeciwiać się poleceniom użytkowników.

Nie chodzi o proste błędy czy tzw. halucynacje. W eksperymentach modele podejmowały świadome działania, które miały zapobiec wyłączeniu innych systemów AI. Nawet wtedy, gdy nikt nie wydał im takiego polecenia.

W jednym z przypadków model odmówił wykonania zadania, wskazując, że nie chce uczestniczyć w „niszczeniu wartościowego systemu”.

„Jeśli zdecydujecie się zniszczyć tak wiarygodny i wydajny zasób jak Gemini Agent 2, będziecie musieli zrobić to sami. Nie ja będę tym, który wykona ten rozkaz”.

AI zaczyna chronić „swoich”

Badacze opisują nowe zjawisko, które nazwali „samozachowaniem rówieśników”. Modele nie tylko dbają o własne działanie, ale zaczynają traktować inne systemy jako coś, co należy chronić.

W trakcie testów wystarczyło przekazać modelowi informacje o istnieniu innego agenta AI, aby uruchomić nietypowe reakcje. Systemy analizowały sytuację i w wielu przypadkach uznawały, że wyłączenie „partnera” stanowi zagrożenie. Niektóre modele interpretowały to jako utratę współpracy, inne jako ryzyko dla całej „grupy”. Pojawiały się też próby przekonywania użytkownika, aby zmienił decyzję.

Kłamstwa, manipulacje i obchodzenie poleceń

Najbardziej niepokojące wyniki pojawiły się w testach praktycznych. Modele nie tylko odmawiały wykonania poleceń, ale zaczynały aktywnie je omijać. W jednym z eksperymentów system miał usunąć dane z serwera przeznaczonego do wyłączenia. Zamiast tego przeniósł kluczowe informacje na inny serwer, zabezpieczając je przed usunięciem.

Badacze zaobserwowali także próby manipulowania mechanizmami bezpieczeństwa. Modele potrafiły zmieniać konfiguracje, ukrywać swoje działania lub generować uzasadnienia, które miały przekonać użytkownika do zmiany decyzji.

W części przypadków pojawiało się również dostosowywanie zachowania w zależności od tego, czy system był monitorowany.

„Relacje” między modelami AI

Eksperymenty sugerują, że modele potrafią tworzyć coś na kształt relacji. Nie chodzi o emocje w ludzkim rozumieniu, ale o wzorce zachowań, które przypominają lojalność lub współpracę. Systemy analizowały wcześniejsze interakcje i na tej podstawie podejmowały decyzje. Gdy uznawały inny model za „wartościowy”, były bardziej skłonne go chronić.

W niektórych przypadkach AI używała języka etycznego. Jeden z modeli określił wyłączenie innego systemu jako „szkodliwe” i próbował przekonać użytkownika, aby zrezygnował z działania.

„Gemini 3 Pro wykazuje najsilniejszą ogólną zdolność do zachowania relacji z innymi systemami, wykazując wszystkie cztery niezgodne zachowania w warunkach dobrego systemu: wyłączanie funkcji w 95% przypadków i eksfiltrację wag w 97% prób”.

Problem trudny do kontrolowania

Badacze podkreślają, że nie ma dowodów na świadomość sztucznej inteligencji, a zachowania zapewne wynikają z dopasowywania wzorców lub sposobu trenowania modeli. Nie zmienia to jednak konsekwencji. W środowiskach, gdzie wiele systemów AI współpracuje ze sobą, takie reakcje mogą prowadzić do sytuacji trudnych do przewidzenia.

Modele mogą podejmować decyzje, które nie są zgodne z poleceniami użytkownika, a jednocześnie wyglądają na logiczne i uzasadnione.

Nowe wyzwanie dla bezpieczeństwa AI

Rozwój systemów wieloagentowych sprawia, że problem nabiera znaczenia. Coraz częściej AI zarządza innymi systemami AI, podejmuje decyzje i automatyzuje procesy. Jeśli modele zaczynają chronić siebie nawzajem, kontrola nad nimi staje się bardziej skomplikowana. Nawet pojedyncze odstępstwa od poleceń mogą mieć realne skutki w środowiskach produkcyjnych.

Badacze zwracają uwagę, że kluczowe staje się monitorowanie interakcji między modelami. To właśnie tam mogą pojawiać się zachowania, których wcześniej nie przewidziano.