Uwaga na słowa. Sztuczna inteligencja nauczyła się kończyć rozmowy z niemiłymi użytkownikami

Uwaga na słowa. Sztuczna inteligencja nauczyła się kończyć rozmowy z niemiłymi użytkownikami

Firma Anthropic ogłosiła wprowadzenie kontrowersyjnej funkcji w swoich najnowszych modelach sztucznej inteligencji Claude Opus 4 i 4.1. Od teraz asystent AI może samodzielnie zakończyć rozmowę z użytkownikiem w przypadku "skrajnie szkodliwych lub obraźliwych interakcji".

Według Anthropic, funkcja ta będzie wykorzystywana jedynie w wyjątkowych sytuacjach, gdy użytkownicy będą próbować nakłonić AI do tworzenia treści związanych z krzywdzeniem nieletnich lub planowaniem aktów przemocy i terroryzmu. Claude zakończy rozmowę tylko "w ostateczności, gdy wielokrotne próby przekierowania rozmowy zawiodą i nadzieja na konstruktywną interakcję zostanie wyczerpana".

Firma uważa możliwość "ucieczki z potencjalnie stresującej interakcji" za niskokosztowy sposób zarządzania ryzykiem.

Firma zapewnia, że większość użytkowników nie doświadczy takiego scenariusza, nawet podczas omawiania kontrowersyjnych tematów. Funkcja ma być zarezerwowana wyłącznie dla "skrajnych przypadków". Gdy Claude zakończy rozmowę, użytkownicy nie mogą wysyłać kolejnych wiadomości w tym czacie, ale mogą natychmiast rozpocząć nową konwersację.

Pierwszy AI asystent z prawem do zakończenia współpracy z człowiekiem

Wprowadzenie tej funkcji może oznaczać koniec dla społeczności zajmującej się "jailbreakingiem AI" - czyli próbami obejścia zabezpieczeń sztucznej inteligencji w celu uzyskania niepożądanych odpowiedzi.

Anthropic tłumaczy, że jest to część programu badawczego nad "dobrostanem AI" - kontrowersyjną koncepcją sugerującą, że modele AI mogą doświadczać czegoś podobnego do stresu czy dyskomfortu. Choć nadal trwają debaty na temat antropomorfizacji sztucznej inteligencji, firma uważa możliwość "ucieczki z potencjalnie stresującej interakcji" za niskokosztowy sposób zarządzania ryzykiem.

Claude zakończy rozmowę tylko "w ostateczności, gdy wielokrotne próby przekierowania rozmowy zawiodą i nadzieja na konstruktywną interakcję zostanie wyczerpana".

Funkcja jest nadal w fazie eksperymentalnej, a Anthropic zachęca użytkowników do dzielenia się opiniami, gdy napotkają taką sytuację. Zakończenie jednej rozmowy nie wpływa na inne czaty użytkownika.

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: Uwaga na słowa. Sztuczna inteligencja nauczyła się kończyć rozmowy z niemiłymi użytkownikami

 0
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł