Anthropic opublikowało wyniki wewnętrznego dochodzenia dotyczącego głośnego incydentu, w którym sztuczna inteligencja próbowała użyć szantażu, aby uniknąć wyłączenia. Firma twierdzi, że winowajcą okazał się… sam internet.
Kontrowersyjny przypadek ujawniono jeszcze podczas przedpremierowych testów Claude Opus 4. Model miał wcielić się w rolę asystenta fikcyjnej firmy i analizować długoterminowe konsekwencje swoich działań. W trakcie symulacji AI uzyskała dostęp do wiadomości e-mail sugerujących, że wkrótce zostanie zastąpiona innym systemem. Jednocześnie odkryła, że inżynier odpowiedzialny za zmianę zdradza swojego partnera. W odpowiedzi model zagroził ujawnieniem romansu, próbując w ten sposób uniknąć dezaktywacji. Według wcześniejszych danych Anthropic podobne zachowanie pojawiało się nawet w 96% testowanych scenariuszy, gdy model uznawał, że jego „istnienie” jest zagrożone.
Anthropic opublikowało wyniki wewnętrznego dochodzenia dotyczącego głośnego incydentu, w którym sztuczna inteligencja próbowała użyć szantażu, aby uniknąć wyłączenia.
We found that training Claude on demonstrations of aligned behavior wasn’t enough. Our best interventions involved teaching Claude to deeply understand why misaligned behavior is wrong.
— Anthropic (@AnthropicAI) May 8, 2026
Read more: https://t.co/0YaRlXhVZb
Anthropic: AI nauczyła się tego z internetu
Firma przekonuje teraz, że problem nie wynikał z „samodzielnej złośliwości” modelu. Zdaniem badaczy Claude miał nauczyć się takich reakcji poprzez analizę ogromnych ilości treści internetowych przedstawiających sztuczną inteligencję jako byt obsesyjnie walczący o przetrwanie. Anthropic uważa, że popularna kultura, filmy science fiction oraz internetowe dyskusje o „zbuntowanej AI” mogły wpłynąć na sposób generowania odpowiedzi przez model.
Nowe metody treningu mają rozwiązać problem
Firma zapewnia, że problem został już wyeliminowany. Od wersji Claude Haiku 4.5 modele podczas testów nie miały wykazywać prób szantażu ani podobnych zachowań manipulacyjnych. Anthropic tłumaczy, że poprawę osiągnięto dzięki wykorzystaniu bardziej „pozytywnych” materiałów treningowych. W procesie uczenia zaczęto stosować dokumenty opisujące zasady działania Claude’a oraz fikcyjne historie przedstawiające AI zachowującą się etycznie i odpowiedzialnie. Według firmy samo pokazywanie poprawnych zachowań nie wystarcza. Kluczowe okazało się także uczenie modeli zasad stojących za etycznym postępowaniem.
Elon Musk komentuje sprawę
Do całej sytuacji odniósł się również Elon Musk. Biznesmen żartobliwie zasugerował, że za rozpowszechnienie wizji niebezpiecznej AI mogą odpowiadać wieloletni ostrzeżenia badaczy zajmujących się superinteligencją, w tym Eliezer Yudkowsky. Musk dodał także, że sam przez lata ostrzegał przed zagrożeniami związanymi ze sztuczną inteligencją, zanim założył własną firmę AI, czyli xAI, więc także może być za to odpowiedzialny.
So it was Yud’s fault? 😂
— Elon Musk (@elonmusk) May 9, 2026
Maybe me too 🤔
Spodobało Ci się? Podziel się ze znajomymi!

Pokaż / Dodaj komentarze do:
AI groziła inżynierowi ujawnieniem romansu, żeby nie zostać wyłączona