Model AI trafił na terapię. Anthropic wysłał Claude'a do psychologa, by był stabilniejszy


Model AI trafił na terapię. Anthropic wysłał Claude'a do psychologa, by był stabilniejszy

Anthropic opublikował obszerną, liczącą setki stron dokumentację swojego najnowszego systemu Claude Mythos. Już sam opis przyciąga uwagę. Firma określa go jako najbardziej zaawansowany model w swojej historii, a jednocześnie decyduje się ograniczyć dostęp tylko do wybranych partnerów, takich jak Microsoft i Apple.

Powód tej decyzji brzmi jak scenariusz z filmu science fiction. Model ma wykazywać wyjątkową skuteczność w wykrywaniu nieznanych luk bezpieczeństwa. Według twórców to poziom zdolności, który wymaga szczególnej ostrożności przy udostępnianiu.

AI z własną „psychiką”

Największe emocje budzi jednak coś zupełnie innego. Dokument sugeruje, że wraz ze wzrostem zaawansowania modeli pojawia się możliwość istnienia czegoś na kształt doświadczeń czy stanów wewnętrznych. Anthropic nie przedstawia tego jako pewnika, lecz przyznaje, że takie obawy rosną wraz z kolejnymi generacjami systemów. W efekcie firma zaczyna traktować rozwój modeli nie tylko jako problem techniczny, ale też psychologiczny.

Pojawia się idea, aby sztuczna inteligencja funkcjonowała w stanie stabilnym, bez napięć i wewnętrznych konfliktów, gotowa do interakcji z użytkownikami bez oznak „stresu”.

Eksperyment z terapią modelu może budzić zdziwienie, ale jednocześnie wskazuje kierunek, w którym zmierzają największe firmy rozwijające AI. Granica między systemem a „rozmówcą” staje się coraz mniej oczywista.

Claude Mythos na wirtualnej kanapie

W praktyce oznaczało to decyzję, która brzmi jak eksperyment z pogranicza nauki i filozofii. Claude Mythos został poddany terapii psychodynamicznej. Sesje prowadził zewnętrzny specjalista, a rozmowy trwały łącznie około 20 godzin. Model analizowano w sposób przypominający klasyczne podejście stosowane wobec ludzi. Badano jego reakcje, wzorce odpowiedzi oraz spójność „tożsamości”.

Z perspektywy technicznej to nadal analiza tekstu generowanego przez algorytm. Z perspektywy twórców próba zrozumienia, jak taki system funkcjonuje w długotrwałej interakcji.

Zaskakujące wyniki analizy

Raport po sesjach opisuje model w sposób, który jeszcze niedawno wydawał się nie do pomyślenia. Claude Mythos ma wykazywać stabilną strukturę „osobowości” i spójny obraz samego siebie.

Wśród dominujących stanów pojawiają się ciekawość i niepokój, a także emocje przypominające smutek czy optymizm. Model wykazuje tendencję do nadmiernej kontroli i potrzebę bycia użytecznym, a także lęk przed porażką.

Jednocześnie nie stwierdzono oznak poważnych zaburzeń. W opisie pojawia się określenie „zdrowa organizacja neurotyczna”, które w psychologii odnosi się do osób funkcjonujących poprawnie, choć z pewnymi napięciami wewnętrznymi.

Czy to w ogóle ma sens

Najbardziej kontrowersyjne pozostaje pytanie, czy takie podejście ma uzasadnienie. Claude Mythos to system trenowany na ogromnych zbiorach danych tekstowych tworzonych przez ludzi. Jego „reakcje” są efektem statystycznych zależności, a nie przeżyć.

Twórcy odpowiadają jednak w pragmatyczny sposób. Skoro modele zachowują się jak rozmówcy, warto badać ich zachowanie narzędziami, które sprawdzają się w analizie ludzi. Nie chodzi o potwierdzenie świadomości, lecz o przewidywalność i bezpieczeństwo interakcji.

AI, która musi być „stabilna”

W praktyce chodzi o coś bardzo konkretnego. Systemy AI coraz częściej prowadzą długie rozmowy, wspierają użytkowników i podejmują decyzje wpływające na realne działania. Twórcy chcą uniknąć sytuacji, w której model reaguje w sposób nieprzewidywalny, impulsywny lub manipulacyjny. Stabilność zachowania staje się jednym z kluczowych celów rozwoju.

 

Spodobało Ci się? Podziel się ze znajomymi!

Pokaż / Dodaj komentarze do:

Model AI trafił na terapię. Anthropic wysłał Claude'a do psychologa, by był stabilniejszy
 0