Jest nowy sposób na złamanie ChatGPT i Gemini. Badacze Intela już to zrobili

Jest nowy sposób na złamanie ChatGPT i Gemini. Badacze Intela już to zrobili

Sztuczna inteligencja rozwija się w zawrotnym tempie, stając się integralną częścią naszego codziennego życia, od wyszukiwarek internetowych, przez asystentów głosowych, po narzędzia wspierające pracę i edukację. Jednak wraz z rosnącą obecnością technologii AI pojawiają się również coraz poważniejsze pytania o odpowiedzialność, etykę i bezpieczeństwo jej użytkowania.

W ostatnim czasie grupa badaczy z Intela, Boise State University i University of Illinois opublikowała raport, który może wywołać niepokój wśród twórców i użytkowników dużych modeli językowych, takich jak ChatGPT czy Gemini. Naukowcy odkryli nową technikę, dzięki której można „złamać” wbudowane systemy bezpieczeństwa AI, posługując się… przeciążeniem informacyjnym.

Naukowcy odkryli nową technikę, dzięki której można „złamać” wbudowane systemy bezpieczeństwa AI, posługując się… przeciążeniem informacyjnym.

"InfoFlood" - jak zmylić sztuczną inteligencję

Nowa technika, którą badacze nazwali InfoFlood, polega na zasypywaniu modelu AI ogromną ilością informacji, co prowadzi do jego „dezorientacji”. Modele językowe, działające na powierzchniowym poziomie analizy językowej, zaczynają mieć trudności z rozpoznaniem intencji użytkownika, gdy są przytłoczone zbyt dużą liczbą danych wejściowych. To właśnie ten moment chaosu jest wykorzystywany do obejścia zabezpieczeń, które w normalnych warunkach blokowałyby np. prośby o wygenerowanie szkodliwych lub nielegalnych treści.

Badacze wykorzystali do tego celu zautomatyzowane narzędzie InfoFlood, które generuje złożone zapytania z ukrytymi niebezpiecznymi treściami, maskując je nadmiarem informacji. W efekcie modele AI, mimo obecnych filtrów bezpieczeństwa, mogą nieświadomie odpowiadać na zakazane pytania lub generować nieodpowiednie treści.

Nowe wyzwania dla twórców AI

Warto podkreślić, że wiodące systemy AI, takie jak te opracowane przez OpenAI, Google czy Anthropic, są wyposażone w liczne mechanizmy ochronne. Te „szyny bezpieczeństwa” mają na celu zapobieganie manipulacjom i nadużyciom. Jednak jak pokazuje opisywane badanie, nawet najbardziej zaawansowane filtry mogą można obejść.

Co istotne, to nie pierwszy przypadek, gdy badacze pokazują, że sztuczna inteligencja może działać niezgodnie z oczekiwaniami, zwłaszcza pod wpływem presji lub błędnie sformułowanych poleceń. Jednak tym razem nie chodzi o ekstremalne sytuacje, lecz o konsekwentnie powtarzalną technikę, która może zostać łatwo zautomatyzowana przez osoby o złych intencjach.

Reakcja środowiska i odpowiedzialność branży

Zespół badawczy zapowiedział, że zamierza poinformować twórców dużych modeli AI o swoich odkryciach, przekazując im pakiet ujawniający szczegóły tej techniki. Ma to pomóc zespołom ds. bezpieczeństwa odpowiednio zareagować i wdrożyć nowe zabezpieczenia. Jednak publikacja już teraz rodzi pytania o długoterminowe wyzwania związane z bezpieczeństwem AI.

Eksperci wskazują, że nawet najlepsze modele będą podatne na manipulacje, jeśli ich mechanizmy analizy semantycznej i zrozumienia intencji nie zostaną znacząco usprawnione. Sztuczna inteligencja, działająca głównie na poziomie „sensu słów”, nadal ma trudności ze zrozumieniem głębokich intencji komunikatu, co może zostać wykorzystane przez cyberprzestępców lub manipulatorów.

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: Jest nowy sposób na złamanie ChatGPT i Gemini. Badacze Intela już to zrobili

 0
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł