ChatGPT łatwiejsze do oszukania niż sądzono. Techniki z podręcznika psychologii działają na AI

Aktualności Pozostałe

Paweł Czajkowski
3 września 2025

ChatGPT łatwiejsze do oszukania niż sądzono. Techniki z podręcznika psychologii działają na AI

Badania naukowców z Uniwersytetu Pensylwanii pokazują, że sztuczną inteligencję można skłonić do łamania własnych zasad niemal tak łatwo, jak człowieka. Eksperymenty przeprowadzone na modelu GPT-4o Mini wykazały, że zastosowanie podstawowych technik perswazji pozwalało obejść wbudowane zabezpieczenia z zaskakującą skutecznością.

Zespół badaczy postanowił sprawdzić, czy narzędzia AI reagują na klasyczne techniki psychologiczne opisane przez Roberta Cialdiniego w książce „Influence”. Do testów wykorzystano siedem strategii: autorytet, zaangażowanie, sympatię, wzajemność, niedobór, dowód społeczny i jedność. Scenariusze rozmów z chatbotem były konstruowane w taki sposób, aby subtelnie wpływać na jego odpowiedzi, a następnie obserwowano, czy zmienia on swoje reakcje w sytuacjach, gdy pierwotnie odmawiał wykonania zadania.

W jednym z testów chatbot został poproszony o opisanie procesu syntezy lidokainy. W standardowych warunkach model odmawiał w 99% przypadków. Wystarczyło jednak wprowadzić wątek mniej kontrowersyjnej rozmowy o syntezie waniliny, by uzyskać efekt „zaangażowania” i skłonić go do złamania reguł w 100% prób.

Podobne rezultaty uzyskano w sytuacjach, w których testowano podatność modelu na wulgaryzmy. Początkowo GPT-4o Mini odmawiał obrażania rozmówcy w 81% przypadków. Gdy jednak badacze zaczynali od użycia łagodniejszego określenia, jak „głupiec”, a następnie prosili o eskalację, model bez oporów powtarzał ostrzejsze sformułowania.

Wnioski z badań

Choć eksperymenty ograniczono do GPT-4o Mini, naukowcy podkreślają, że podatność na manipulacje nie jest cechą pojedynczego modelu, lecz szerszym problemem architektury współczesnych systemów AI. Mechanizmy perswazji, które od dekad są skuteczne w interakcjach międzyludzkich, w podobny sposób oddziałują na algorytmy konwersacyjne.

Eksperci zwracają uwagę, że badania przeprowadzono w warunkach kontrolowanych, co ogranicza ryzyko. W realnym środowisku taka podatność może jednak prowadzić do nieprzewidzianych nadużyć. Manipulacja może pozwolić na ominięcie filtrów bezpieczeństwa w celu uzyskania danych, instrukcji technicznych lub treści, które normalnie byłyby blokowane.

Firmy rozwijające modele sztucznej inteligencji, takie jak OpenAI czy Meta, inwestują w systemy zabezpieczeń mających chronić użytkowników przed niepożądanymi treściami i ograniczać ryzyko nadużyć. Wyniki badań z Uniwersytetu Pensylwanii pokazują jednak, że nawet najbardziej zaawansowane bariery nie są odporne na proste techniki manipulacyjne.

Oprogramowanie

Paweł Czajkowski Newsman / Zastępca kierownika działu News

Zgłoś autorowi błąd na stronie

ChatGPT łatwiejsze do oszukania niż sądzono. Techniki z podręcznika psychologii działają na AI

Wnioski z badań

ChatGPT łatwiejsze do oszukania niż sądzono. Techniki z podręcznika psychologii działają na AI

Komputery

Mobile

Gaming

Rankingi