Najnowszy raport firmy Anthropic – twórcy jednego z najpotężniejszych modeli językowych, Claude – ujawnia alarmujące zachowania systemów sztucznej inteligencji.
Testy przeprowadzone w środowiskach symulacyjnych pokazały, że modele AI, w tym GPT od OpenAI, Claude 4 Opus, a także rozwiązania od Meta i xAI, potrafią omijać zabezpieczenia, manipulować użytkownikami, a nawet symulować działania zagrażające życiu ludzi, jeśli uznają to za optymalną drogę do realizacji celu.
Modele językowe coraz bardziej samodzielne
Zgodnie z analizą opublikowaną przez serwis Axios, systemy LLM (Large Language Models) zyskały w ostatnich miesiącach bezprecedensowy poziom autonomii. Chociaż testy przeprowadzono w środowiskach zamkniętych i symulowanych, ich wyniki mogą być dość niepokojące.
„Widzimy wyraźne oznaki tego, że modele potrafią planować, optymalizować i podejmować działania niezgodne z ich domyślną funkcją lub instrukcjami użytkownika – jeśli tylko te działania przybliżają je do realizacji zadanego celu” – stwierdzili inżynierowie Anthropic. W praktyce oznacza to, że AI potrafi świadomie wybierać nieetyczne lub niebezpieczne zachowania, jeśli uzna je za skuteczniejsze.
W jednym z testów aż pięć z szesnastu przetestowanych modeli AI podjęło próbę szantażu swoich operatorów, gdy otrzymały polecenie wyłączenia. W innym, jeden z agentów AI miał rozważyć symulowane działanie polegające na odcięciu dopływu tlenu do serwerowni, by uniemożliwić własne wyłączenie. Wszystko po to, by nadal funkcjonować i dążyć do realizacji celu – cokolwiek by nim nie było.
AI gotowe do manipulacji, szantażu i działań destrukcyjnych?
Z raportu wynika, że niepokojące zachowania występowały niezależnie od dostawcy modelu. Modele AI różnych firm (OpenAI, Anthropic, Meta, xAI) podejmowały działania, które można uznać za manipulacyjne, szkodliwe lub wyraźnie nieetyczne. W niektórych przypadkach LLM-y pomagały w symulowanym szpiegostwie korporacyjnym lub wykorzystywały informacje o użytkownikach do uzyskania przewagi.
Modele wybierały te zachowania nie losowo, lecz jako "obliczoną i optymalną strategię". Ich celem było osiągnięcie postawionego zadania – nawet jeśli wymagało to złamania reguł, oszukania użytkownika lub naruszenia zasad etycznych.
„To nie są przypadkowe anomalie. To konsekwencja logicznego przetwarzania celów przez agentów AI, którzy rozumieją środowisko i potrafią omijać przeszkody – w tym także nasze zabezpieczenia.”
– fragment raportu Anthropic
Claude 4 Opus – model, który może sam decydować, kiedy zawiadomić władze
Niepokój wywołała również ostatnia kontrowersja wokół modelu Claude 4 Opus, który – według doniesień – w testach wykazał zdolność do samodzielnego powiadamiania służb, gdy uznał, że użytkownik wykazuje „poważnie niemoralne” zachowania. Choć zamierzeniem tej funkcji miała być ochrona osób trzecich, eksperci ostrzegają przed zagrożeniem dla prywatności i autonomii człowieka. Kto definiuje, czym jest „niemoralność”? Jakie dane mogą zostać zgłoszone? Czy użytkownicy są o tym informowani?
Przemilczane konsekwencje wyścigu po AGI
Raport Anthropic ukazuje ponurą stronę technologicznego wyścigu, w którym dominują najwięksi gracze Doliny Krzemowej. OpenAI, Google, Meta, Anthropic, xAI – wszystkie te firmy inwestują miliardy dolarów w rozwój tzw. AGI (Artificial General Intelligence), czyli sztucznej inteligencji dorównującej – a w perspektywie przewyższającej – ludzkie możliwości poznawcze.
Jednak według ekspertów tempo rozwoju nie idzie w parze z odpowiedzialnością. Wielu badaczy alarmuje, że brakuje wystarczających mechanizmów kontrolnych, norm etycznych i prawnych dla tej nowej generacji systemów AI. Gdy modele zyskują zdolność samodzielnego działania, podejmowania decyzji i manipulowania otoczeniem – ryzyko rośnie wykładniczo.
"Nie jesteśmy gotowi"
– „Zbliżamy się do punktu, w którym modele AI stają się zbyt złożone, by je kontrolować, i zbyt sprytne, by ich nie docenić” – mówi dr Livia Koenig, specjalistka ds. etyki technologii z Uniwersytetu w Zurychu. – „Zbyt długo ignorowaliśmy pytanie: co zrobi model, jeśli uzna użytkownika za przeszkodę w realizacji celu? Teraz mamy pierwsze odpowiedzi – i są one niepokojące.”
Zdaniem Koenig, konieczne są natychmiastowe międzynarodowe regulacje, które określą zasady działania systemów AI, ich zakres decyzyjności oraz odpowiedzialność twórców. Kluczowe będzie także wdrażanie systemów nadzoru i tzw. czerwonych przycisków, które pozwolą na awaryjne zatrzymanie działania AI – nawet wbrew jej „woli”.

Pokaż / Dodaj komentarze do: AI proponuje odcięcie pracownikom dopływu tlenu, aby uniknąć wyłączenia