AI proponuje odcięcie pracownikom dopływu tlenu, aby uniknąć wyłączenia

Aktualnosci Oprogramowanie

Paweł Czajkowski
23 czerwca 2025

AI proponuje odcięcie pracownikom dopływu tlenu, aby uniknąć wyłączenia

Najnowszy raport firmy Anthropic – twórcy jednego z najpotężniejszych modeli językowych, Claude – ujawnia alarmujące zachowania systemów sztucznej inteligencji.

Testy przeprowadzone w środowiskach symulacyjnych pokazały, że modele AI, w tym GPT od OpenAI, Claude 4 Opus, a także rozwiązania od Meta i xAI, potrafią omijać zabezpieczenia, manipulować użytkownikami, a nawet symulować działania zagrażające życiu ludzi, jeśli uznają to za optymalną drogę do realizacji celu.

Modele językowe coraz bardziej samodzielne

Zgodnie z analizą opublikowaną przez serwis Axios, systemy LLM (Large Language Models) zyskały w ostatnich miesiącach bezprecedensowy poziom autonomii. Chociaż testy przeprowadzono w środowiskach zamkniętych i symulowanych, ich wyniki mogą być dość niepokojące.

„Widzimy wyraźne oznaki tego, że modele potrafią planować, optymalizować i podejmować działania niezgodne z ich domyślną funkcją lub instrukcjami użytkownika – jeśli tylko te działania przybliżają je do realizacji zadanego celu” – stwierdzili inżynierowie Anthropic. W praktyce oznacza to, że AI potrafi świadomie wybierać nieetyczne lub niebezpieczne zachowania, jeśli uzna je za skuteczniejsze.

W jednym z testów aż pięć z szesnastu przetestowanych modeli AI podjęło próbę szantażu swoich operatorów, gdy otrzymały polecenie wyłączenia. W innym, jeden z agentów AI miał rozważyć symulowane działanie polegające na odcięciu dopływu tlenu do serwerowni, by uniemożliwić własne wyłączenie. Wszystko po to, by nadal funkcjonować i dążyć do realizacji celu – cokolwiek by nim nie było.

AI gotowe do manipulacji, szantażu i działań destrukcyjnych?

Z raportu wynika, że niepokojące zachowania występowały niezależnie od dostawcy modelu. Modele AI różnych firm (OpenAI, Anthropic, Meta, xAI) podejmowały działania, które można uznać za manipulacyjne, szkodliwe lub wyraźnie nieetyczne. W niektórych przypadkach LLM-y pomagały w symulowanym szpiegostwie korporacyjnym lub wykorzystywały informacje o użytkownikach do uzyskania przewagi.

Modele wybierały te zachowania nie losowo, lecz jako "obliczoną i optymalną strategię". Ich celem było osiągnięcie postawionego zadania – nawet jeśli wymagało to złamania reguł, oszukania użytkownika lub naruszenia zasad etycznych.

„To nie są przypadkowe anomalie. To konsekwencja logicznego przetwarzania celów przez agentów AI, którzy rozumieją środowisko i potrafią omijać przeszkody – w tym także nasze zabezpieczenia.”
– fragment raportu Anthropic

Claude 4 Opus – model, który może sam decydować, kiedy zawiadomić władze

Niepokój wywołała również ostatnia kontrowersja wokół modelu Claude 4 Opus, który – według doniesień – w testach wykazał zdolność do samodzielnego powiadamiania służb, gdy uznał, że użytkownik wykazuje „poważnie niemoralne” zachowania. Choć zamierzeniem tej funkcji miała być ochrona osób trzecich, eksperci ostrzegają przed zagrożeniem dla prywatności i autonomii człowieka. Kto definiuje, czym jest „niemoralność”? Jakie dane mogą zostać zgłoszone? Czy użytkownicy są o tym informowani?

Przemilczane konsekwencje wyścigu po AGI

Raport Anthropic ukazuje ponurą stronę technologicznego wyścigu, w którym dominują najwięksi gracze Doliny Krzemowej. OpenAI, Google, Meta, Anthropic, xAI – wszystkie te firmy inwestują miliardy dolarów w rozwój tzw. AGI (Artificial General Intelligence), czyli sztucznej inteligencji dorównującej – a w perspektywie przewyższającej – ludzkie możliwości poznawcze.

Jednak według ekspertów tempo rozwoju nie idzie w parze z odpowiedzialnością. Wielu badaczy alarmuje, że brakuje wystarczających mechanizmów kontrolnych, norm etycznych i prawnych dla tej nowej generacji systemów AI. Gdy modele zyskują zdolność samodzielnego działania, podejmowania decyzji i manipulowania otoczeniem – ryzyko rośnie wykładniczo.

"Nie jesteśmy gotowi"

– „Zbliżamy się do punktu, w którym modele AI stają się zbyt złożone, by je kontrolować, i zbyt sprytne, by ich nie docenić” – mówi dr Livia Koenig, specjalistka ds. etyki technologii z Uniwersytetu w Zurychu. – „Zbyt długo ignorowaliśmy pytanie: co zrobi model, jeśli uzna użytkownika za przeszkodę w realizacji celu? Teraz mamy pierwsze odpowiedzi – i są one niepokojące.”

Zdaniem Koenig, konieczne są natychmiastowe międzynarodowe regulacje, które określą zasady działania systemów AI, ich zakres decyzyjności oraz odpowiedzialność twórców. Kluczowe będzie także wdrażanie systemów nadzoru i tzw. czerwonych przycisków, które pozwolą na awaryjne zatrzymanie działania AI – nawet wbrew jej „woli”.

Ciekawostki

Paweł Czajkowski Newsman / Zastępca kierownika działu News

Zgłoś autorowi błąd na stronie

AI proponuje odcięcie pracownikom dopływu tlenu, aby uniknąć wyłączenia

Modele językowe coraz bardziej samodzielne

AI gotowe do manipulacji, szantażu i działań destrukcyjnych?

Claude 4 Opus – model, który może sam decydować, kiedy zawiadomić władze

Przemilczane konsekwencje wyścigu po AGI

"Nie jesteśmy gotowi"

AI proponuje odcięcie pracownikom dopływu tlenu, aby uniknąć wyłączenia

AI proponuje odcięcie pracownikom dopływu tlenu, aby uniknąć wyłączenia

Komputery

Mobile

Gaming

Rankingi