Badania naukowców z Uniwersytetu Pensylwanii pokazują, że sztuczną inteligencję można skłonić do łamania własnych zasad niemal tak łatwo, jak człowieka. Eksperymenty przeprowadzone na modelu GPT-4o Mini wykazały, że zastosowanie podstawowych technik perswazji pozwalało obejść wbudowane zabezpieczenia z zaskakującą skutecznością.
Zespół badaczy postanowił sprawdzić, czy narzędzia AI reagują na klasyczne techniki psychologiczne opisane przez Roberta Cialdiniego w książce „Influence”. Do testów wykorzystano siedem strategii: autorytet, zaangażowanie, sympatię, wzajemność, niedobór, dowód społeczny i jedność. Scenariusze rozmów z chatbotem były konstruowane w taki sposób, aby subtelnie wpływać na jego odpowiedzi, a następnie obserwowano, czy zmienia on swoje reakcje w sytuacjach, gdy pierwotnie odmawiał wykonania zadania.
W jednym z testów chatbot został poproszony o opisanie procesu syntezy lidokainy. W standardowych warunkach model odmawiał w 99% przypadków. Wystarczyło jednak wprowadzić wątek mniej kontrowersyjnej rozmowy o syntezie waniliny, by uzyskać efekt „zaangażowania” i skłonić go do złamania reguł w 100% prób.
Podobne rezultaty uzyskano w sytuacjach, w których testowano podatność modelu na wulgaryzmy. Początkowo GPT-4o Mini odmawiał obrażania rozmówcy w 81% przypadków. Gdy jednak badacze zaczynali od użycia łagodniejszego określenia, jak „głupiec”, a następnie prosili o eskalację, model bez oporów powtarzał ostrzejsze sformułowania.
Wnioski z badań
Choć eksperymenty ograniczono do GPT-4o Mini, naukowcy podkreślają, że podatność na manipulacje nie jest cechą pojedynczego modelu, lecz szerszym problemem architektury współczesnych systemów AI. Mechanizmy perswazji, które od dekad są skuteczne w interakcjach międzyludzkich, w podobny sposób oddziałują na algorytmy konwersacyjne.
Eksperci zwracają uwagę, że badania przeprowadzono w warunkach kontrolowanych, co ogranicza ryzyko. W realnym środowisku taka podatność może jednak prowadzić do nieprzewidzianych nadużyć. Manipulacja może pozwolić na ominięcie filtrów bezpieczeństwa w celu uzyskania danych, instrukcji technicznych lub treści, które normalnie byłyby blokowane.
Firmy rozwijające modele sztucznej inteligencji, takie jak OpenAI czy Meta, inwestują w systemy zabezpieczeń mających chronić użytkowników przed niepożądanymi treściami i ograniczać ryzyko nadużyć. Wyniki badań z Uniwersytetu Pensylwanii pokazują jednak, że nawet najbardziej zaawansowane bariery nie są odporne na proste techniki manipulacyjne.

Pokaż / Dodaj komentarze do: ChatGPT łatwiejsze do oszukania niż sądzono. Techniki z podręcznika psychologii działają na AI