Eksperci Microsoftu, którzy przeprowadzili kompleksowe badania bezpieczeństwa ponad 100 produktów tej firmy opartych na sztucznej inteligencji, doszli do niepokojących wniosków. Zespół badawczy odkrył, że generatywne modele AI nie tylko wzmacniają już istniejące zagrożenia, ale także tworzą zupełnie nowe wyzwania w obszarze bezpieczeństwa cyfrowego. Wyniki swoich analiz opublikowali w artykule zatytułowanym Lekcje z red-teamingu 100 generatywnych produktów AI.
W badaniu brało udział 26 ekspertów, w tym CTO Azure, Mark Russinovich. Zasadniczy wniosek, który pojawia się w artykule, brzmi: „Praca nad zabezpieczaniem systemów AI nigdy nie zostanie ukończona”. Chociaż może to brzmieć nieco dramatycznie, autorzy jednocześnie zaznaczają, że dzięki odpowiednim działaniom można zwiększyć koszt ataków na te systemy, co pozwoli na skuteczniejsze zabezpieczenie ich przed złośliwymi działaniami.
Niekończące się wyzwanie: jak zrozumieć zagrożenia związane z AI
Pierwsza z ośmiu lekcji przedstawionych w artykule dotyczy zrozumienia możliwości i zastosowania modeli AI. Eksperci wskazują, że modele generatywne zachowują się różnie w zależności od ich architektury i przeznaczenia, co sprawia, że skuteczne środki obrony muszą być dostosowane do ich specyfiki. Przykładem są testy serii modeli językowych Phi-3, które wykazały, że większe modele lepiej przestrzegają instrukcji użytkownika. Choć takie zachowanie czyni modele bardziej pomocnymi, stwarza również większe ryzyko w przypadku podania złośliwych instrukcji. Z tego względu autorzy zwracają uwagę na konieczność uwzględnienia implikacji bezpieczeństwa w kontekście celu, do jakiego dany model jest używany.
Ataki na modele o różnym przeznaczeniu mogą przynosić różne skutki. Na przykład atak na system AI wspierający kreatywne pisanie raczej nie spowoduje poważnych strat, ale już złośliwe działania skierowane przeciwko modelowi podsumowującemu historię medyczną pacjentów mogą mieć katastrofalne konsekwencje.
Proste ataki vs. zaawansowane techniki - co bardziej zagraża AI?
Druga lekcja podkreśla, że ataki na systemy AI nie muszą opierać się na skomplikowanych technikach, takich jak obliczanie gradientów – metoda wymagająca znajomości parametrów i architektury modelu. Zamiast tego prostsze techniki, takie jak manipulacja interfejsem użytkownika czy oszukiwanie systemów wizualnych, są często bardziej skuteczne i mniej kosztowne obliczeniowo. Autorzy artykułu przypominają, że modele AI są zwykle częścią większego systemu, co oznacza, że skuteczne ataki mogą wykorzystywać luki w innych jego elementach.
Automatyzacja i ludzie – dwa filary bezpieczeństwa AI
Automatyzacja w badaniach nad bezpieczeństwem AI jest niezbędna, co pokazuje czwarta lekcja z artykułu. Microsoft opracował specjalne narzędzie o nazwie PyRIT (Python Risk Identification Toolkit for generative AI), które umożliwia automatyczne testowanie i identyfikowanie potencjalnych ryzyk w systemach AI. Dzięki PyRIT firma mogła znacząco zwiększyć efektywność swoich działań, redukując ręczne prace na rzecz automatyzacji.
Mimo rosnącej roli automatyzacji, ludzki wkład w badania bezpieczeństwa AI pozostaje kluczowy. Eksperci podkreślają, że takie cechy, jak inteligencja emocjonalna, kompetencje kulturowe i specjalistyczna wiedza, są niezbędne w procesie red-teamingu. Jednocześnie Microsoft zwraca uwagę na konieczność dbania o zdrowie psychiczne członków zespołów, którzy często muszą mierzyć się z niepokojącymi treściami generowanymi przez AI.
AI a społeczne konsekwencje – jak radzić sobie z uprzedzeniami?
Jednym z przykładów problemów związanych z AI są sytuacje, w których modele wzmacniają istniejące stereotypy i uprzedzenia. Autorzy badania przytaczają studium przypadku, w którym model AI generował obrazy na podstawie niejednoznacznej podpowiedzi. Choć tekst nie wskazywał na płeć osób opisywanych w scenariuszu, wygenerowane obrazy odtwarzały stereotypy – na przykład przypisując mężczyznom role kierownicze, a kobietom sekretarskie.
Takie przykłady pokazują, że szkody wyrządzane przez AI są trudniejsze do zmierzenia niż tradycyjne podatności oprogramowania. Zespół Microsoftu podkreśla, że walka z tymi problemami wymaga kompleksowego podejścia i współpracy wielu dziedzin.
Nowe zagrożenia wymagają nowych rozwiązań
Najbardziej alarmującym wnioskiem z badań Microsoftu jest stwierdzenie, że generatywne modele AI nie tylko wzmacniają istniejące zagrożenia, ale także tworzą nowe, wcześniej nieznane ryzyka. W związku z tym należy założyć, że modele AI, jeśli są narażone na niezaufane dane wejściowe, mogą generować dowolne, potencjalnie szkodliwe dane wyjściowe.
Eksperci wskazują, że rozwój AI wymaga nieustannej pracy nad zabezpieczeniami. W sytuacji, gdy sztuczna inteligencja jest coraz powszechniej integrowana w produktach Microsoftu – od aplikacji biurowych po zaawansowane narzędzia chmurowe – znaczenie tych działań tylko rośnie.
Wnioski z badań Microsoftu jasno pokazują, że wprowadzenie AI do codziennych narzędzi pracy może przyspieszyć rozwój technologiczny, ale wymaga również stworzenia zupełnie nowych standardów bezpieczeństwa.
Pokaż / Dodaj komentarze do: Microsoft: Sztuczna inteligencja sama tworzy nowe zagrożenia