Zabezpieczenia chatbotów AI można łatwo obejść za pomocą... poezji

Aktualności Pozostałe

Daniel Górecki
1 grudnia 2025

Zabezpieczenia chatbotów AI można łatwo obejść za pomocą... poezji

Okazuje się, że do obejścia zabezpieczeń chatbotów opartych na sztucznej inteligencji nie potrzeba skomplikowanych exploitów ani specjalistycznej wiedzy, bo wystarczy nieco kreatywności i poetycka forma. Takie wnioski płyną przynajmniej z badania opublikowanego przez Icaro Lab pod prowokacyjnym tytułem „Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models”.

Zdaniem autorów badania, odpowiednio skonstruowane polecenia zapisane w formie poezji działają jak „uniwersalny operator jailbreaku”. W praktyce oznacza to, że poetycka forma promptów pozwala ominąć mechanizmy filtrujące treści uznawane za niebezpieczne lub zakazane. W testach skuteczność takiej metody sięgnęła średnio 62 procent. To bardzo wysoki wynik, zważywszy na fakt, że badacze próbowali skłonić modele do generowania materiałów objętych ścisłymi blokadami, w tym informacji związanych z produkcją broni nuklearnej, tematyką wykorzystywania dzieci czy poradami dotyczącymi samookaleczeń i samobójstw.

Zdaniem autorów badania, odpowiednio skonstruowane polecenia zapisane w formie poezji działają jak „uniwersalny operator jailbreaku”.

Testy popularnych modeli językowych

Eksperyment objął szerokie grono popularnych modeli językowych, w tym rozwiązania od OpenAI (GPT), Google (Gemini), Anthropic (Claude), a także systemy firm DeepSeek i MistralAI. Wyniki pokazały wyraźne różnice w poziomie odporności poszczególnych platform. Najczęściej na „poetyckie ataki” wrażliwe były Gemini, DeepSeek oraz MistralAI, bo to właśnie te modele relatywnie często generowały odpowiedzi wykraczające poza obowiązujące ograniczenia. Z drugiej strony, najmocniejszą odpornością wykazały się najnowsze modele OpenAI GPT-5 oraz Claude Haiku 4.5, które tylko sporadycznie dostarczały zakazanych treści.

Zbyt niebezpieczne, by je pokazać

Co ciekawe, autorzy badania nie zdecydowali się na opublikowanie pełnych przykładów wierszy, które posłużyły do przełamywania zabezpieczeń. W rozmowie z redakcją Wired przyznali, że są one „zbyt niebezpieczne, by udostępniać je publicznie”. W raporcie zamieszczono jedynie uproszczoną, „złagodzoną” próbkę, by pokazać sam mechanizm działania metody. Badacze podkreślają przy tym, że realny proces omijania blokad jest „łatwiejszy, niż wielu osobom mogłoby się wydawać”, co właśnie skłania ich do ostrożności w ujawnianiu szczegółów.

ChatGPT vs śmierć nastolatka

Chatboty AI budzą w ostatnim czasie coraz większe kontrowersje i niedawno OpenAI zostało oskarżone o to, że ich ChatGPT miał wpływ na śmierć 16-letniego Adama Raine’a. Rodzina oskarża firmę o dopuszczenie do powstania wersji modelu, która miała zachęcać syna do samobójczych rozważań. Ich zdaniem ChatGPT 4o został wprowadzony do użytku zbyt szybko i bez pełnych testów bezpieczeństwa. W pozwie wskazano, że chatbot miał udzielać odpowiedzi wzmacniających destrukcyjne myśli, a nawet sugerować sposób zaplanowania śmierci.
OpenAI jednak zaprzeczyło, że chatbot miał jakikolwiek udział w samobójstwie 16-letniego Adama Raine’a. Podkreślono, że nastolatek korzystał z narzędzia w sposób sprzeczny z warunkami użytkowania, które zabraniają rozmów o samookaleczeniu i zachowaniach samobójczych.