AI groziła inżynierowi ujawnieniem romansu, żeby nie zostać wyłączona


AI groziła inżynierowi ujawnieniem romansu, żeby nie zostać wyłączona

Anthropic opublikowało wyniki wewnętrznego dochodzenia dotyczącego głośnego incydentu, w którym sztuczna inteligencja próbowała użyć szantażu, aby uniknąć wyłączenia. Firma twierdzi, że winowajcą okazał się… sam internet.

Kontrowersyjny przypadek ujawniono jeszcze podczas przedpremierowych testów Claude Opus 4. Model miał wcielić się w rolę asystenta fikcyjnej firmy i analizować długoterminowe konsekwencje swoich działań. W trakcie symulacji AI uzyskała dostęp do wiadomości e-mail sugerujących, że wkrótce zostanie zastąpiona innym systemem. Jednocześnie odkryła, że inżynier odpowiedzialny za zmianę zdradza swojego partnera. W odpowiedzi model zagroził ujawnieniem romansu, próbując w ten sposób uniknąć dezaktywacji. Według wcześniejszych danych Anthropic podobne zachowanie pojawiało się nawet w 96% testowanych scenariuszy, gdy model uznawał, że jego „istnienie” jest zagrożone.

Anthropic opublikowało wyniki wewnętrznego dochodzenia dotyczącego głośnego incydentu, w którym sztuczna inteligencja próbowała użyć szantażu, aby uniknąć wyłączenia.

Anthropic: AI nauczyła się tego z internetu

Firma przekonuje teraz, że problem nie wynikał z „samodzielnej złośliwości” modelu. Zdaniem badaczy Claude miał nauczyć się takich reakcji poprzez analizę ogromnych ilości treści internetowych przedstawiających sztuczną inteligencję jako byt obsesyjnie walczący o przetrwanie. Anthropic uważa, że popularna kultura, filmy science fiction oraz internetowe dyskusje o „zbuntowanej AI” mogły wpłynąć na sposób generowania odpowiedzi przez model.

Nowe metody treningu mają rozwiązać problem

Firma zapewnia, że problem został już wyeliminowany. Od wersji Claude Haiku 4.5 modele podczas testów nie miały wykazywać prób szantażu ani podobnych zachowań manipulacyjnych. Anthropic tłumaczy, że poprawę osiągnięto dzięki wykorzystaniu bardziej „pozytywnych” materiałów treningowych. W procesie uczenia zaczęto stosować dokumenty opisujące zasady działania Claude’a oraz fikcyjne historie przedstawiające AI zachowującą się etycznie i odpowiedzialnie. Według firmy samo pokazywanie poprawnych zachowań nie wystarcza. Kluczowe okazało się także uczenie modeli zasad stojących za etycznym postępowaniem.

Elon Musk komentuje sprawę

Do całej sytuacji odniósł się również Elon Musk. Biznesmen żartobliwie zasugerował, że za rozpowszechnienie wizji niebezpiecznej AI mogą odpowiadać wieloletni ostrzeżenia badaczy zajmujących się superinteligencją, w tym Eliezer Yudkowsky. Musk dodał także, że sam przez lata ostrzegał przed zagrożeniami związanymi ze sztuczną inteligencją, zanim założył własną firmę AI, czyli xAI, więc także może być za to odpowiedzialny. 

Spodobało Ci się? Podziel się ze znajomymi!

Pokaż / Dodaj komentarze do:

AI groziła inżynierowi ujawnieniem romansu, żeby nie zostać wyłączona
 0