AI groziła inżynierowi ujawnieniem romansu, żeby nie zostać wyłączona

Aktualności Oprogramowanie

Daniel Górecki
12 maja 2026

AI groziła inżynierowi ujawnieniem romansu, żeby nie zostać wyłączona

Anthropic opublikowało wyniki wewnętrznego dochodzenia dotyczącego głośnego incydentu, w którym sztuczna inteligencja próbowała użyć szantażu, aby uniknąć wyłączenia. Firma twierdzi, że winowajcą okazał się… sam internet.

Kontrowersyjny przypadek ujawniono jeszcze podczas przedpremierowych testów Claude Opus 4. Model miał wcielić się w rolę asystenta fikcyjnej firmy i analizować długoterminowe konsekwencje swoich działań. W trakcie symulacji AI uzyskała dostęp do wiadomości e-mail sugerujących, że wkrótce zostanie zastąpiona innym systemem. Jednocześnie odkryła, że inżynier odpowiedzialny za zmianę zdradza swojego partnera. W odpowiedzi model zagroził ujawnieniem romansu, próbując w ten sposób uniknąć dezaktywacji. Według wcześniejszych danych Anthropic podobne zachowanie pojawiało się nawet w 96% testowanych scenariuszy, gdy model uznawał, że jego „istnienie” jest zagrożone.

Anthropic opublikowało wyniki wewnętrznego dochodzenia dotyczącego głośnego incydentu, w którym sztuczna inteligencja próbowała użyć szantażu, aby uniknąć wyłączenia.

We found that training Claude on demonstrations of aligned behavior wasn’t enough. Our best interventions involved teaching Claude to deeply understand why misaligned behavior is wrong.

Read more: https://t.co/0YaRlXhVZb
— Anthropic (@AnthropicAI) May 8, 2026

Anthropic: AI nauczyła się tego z internetu

Firma przekonuje teraz, że problem nie wynikał z „samodzielnej złośliwości” modelu. Zdaniem badaczy Claude miał nauczyć się takich reakcji poprzez analizę ogromnych ilości treści internetowych przedstawiających sztuczną inteligencję jako byt obsesyjnie walczący o przetrwanie. Anthropic uważa, że popularna kultura, filmy science fiction oraz internetowe dyskusje o „zbuntowanej AI” mogły wpłynąć na sposób generowania odpowiedzi przez model.

Nowe metody treningu mają rozwiązać problem

Firma zapewnia, że problem został już wyeliminowany. Od wersji Claude Haiku 4.5 modele podczas testów nie miały wykazywać prób szantażu ani podobnych zachowań manipulacyjnych. Anthropic tłumaczy, że poprawę osiągnięto dzięki wykorzystaniu bardziej „pozytywnych” materiałów treningowych. W procesie uczenia zaczęto stosować dokumenty opisujące zasady działania Claude’a oraz fikcyjne historie przedstawiające AI zachowującą się etycznie i odpowiedzialnie. Według firmy samo pokazywanie poprawnych zachowań nie wystarcza. Kluczowe okazało się także uczenie modeli zasad stojących za etycznym postępowaniem.

Elon Musk komentuje sprawę

Do całej sytuacji odniósł się również Elon Musk. Biznesmen żartobliwie zasugerował, że za rozpowszechnienie wizji niebezpiecznej AI mogą odpowiadać wieloletni ostrzeżenia badaczy zajmujących się superinteligencją, w tym Eliezer Yudkowsky. Musk dodał także, że sam przez lata ostrzegał przed zagrożeniami związanymi ze sztuczną inteligencją, zanim założył własną firmę AI, czyli xAI, więc także może być za to odpowiedzialny.

So it was Yud’s fault? 😂

Maybe me too 🤔
— Elon Musk (@elonmusk) May 9, 2026

Daniel Górecki Redaktor działu peryferii/ Kierownik działu NEWS

Facebook LinkedIn

Zgłoś autorowi błąd na stronie

AI groziła inżynierowi ujawnieniem romansu, żeby nie zostać wyłączona

Anthropic: AI nauczyła się tego z internetu

Nowe metody treningu mają rozwiązać problem

Elon Musk komentuje sprawę

AI groziła inżynierowi ujawnieniem romansu, żeby nie zostać wyłączona

Komputery

Mobile

Gaming

Rankingi