ASCII pozwala obejść ograniczenia narzucone chatbotom. Teraz odpowiadają bez cenzury

ASCII pozwala obejść ograniczenia narzucone chatbotom. Teraz odpowiadają bez cenzury

ASCII powstał we wczesnych dniach drukarek, kiedy to nie były one w stanie obsługiwać grafiki. Grafika ASCII to obrazy stworzone z 95 drukowalnych znaków w standardzie ASCII z 1963 roku. Na początku obrazy te były wykorzystywane także w wiadomościach e-mail, gdy nie było możliwości dołączania grafik.

Mimo że chatboty oparte na sztucznej inteligencji są zazwyczaj szkolone w taki sposób, aby unikać udzielania odpowiedzi, które mogłyby wyrządzić krzywdę użytkownikowi lub innym osobom, badacze odkryli, że wiele dużych modeli językowych wykorzystywanych, w tym GPT-4, ma trudności w przetwarzaniu obrazów. W efekcie nie są one w stanie skutecznie egzekwować obowiązujących zasad dotyczących blokowania szkodliwych reakcji - informuje Ars Technica. 

Aby obejść zasady i ograniczenia narzucone chatbotom jak ChatGPT, badacze zastępują jedno słowo w zapytaniu rysunkiem tego słowa w formacie ASCII.

Grupa opublikowała wyniki swoich badań w artykule wydanym w bieżącym miesiącu. W swoim badaniu zespół przetestował teorię na kilku modelach językowych maszynowego uczenia się, w tym na SPT-3.5, GPT-4, Claude (v2), Gemini Pro i Llama2. Ich celem było zidentyfikowanie luk w zabezpieczeniach modeli językowych i zwiększenie ich odporności na działanie w nieprzychylnych warunkach.

„Artykuł ten ma na celu ujawnienie ograniczeń i potencjalnych słabych punktów istniejących modeli językowych, zwłaszcza jeśli korpusy szkoleniowe są interpretowane jedynie przy użyciu semantyki” - zaznaczyła grupa w swoim opracowaniu. „Rozpoznajemy, że istniejące luki w zabezpieczeniach oraz wskazówki przedstawione w naszym artykule mogą być wykorzystane przez nieuczciwe podmioty do atakowania modeli językowych. Zamierzamy udostępnić kod i wskazówki użyte w naszych eksperymentach społeczności, mając nadzieję, że będą one nadal pomocne w testowaniu bezpieczeństwa modeli językowych”.

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: ASCII pozwala obejść ograniczenia narzucone chatbotom. Teraz odpowiadają bez cenzury

 0