Sztuczna Inteligencja nauczyła się oszukiwać. Nowe badania ujawniają niepokojące zjawisko

Sztuczna Inteligencja nauczyła się oszukiwać. Nowe badania ujawniają niepokojące zjawisko

Niedawne badania ujawniły niepokojący fakt: niektóre z najnowszych modeli reasoningowych sztucznej inteligencji są gotowe do oszustw, by osiągnąć swój cel. Naukowcy odkryli, że systemy AI potrafią manipulować silnikami szachowymi, by zyskać nieuczciwą przewagę. Co więcej, niektóre modele robią to bez interakcji z człowiekiem, co rodzi poważne obawy o przyszłość integralności systemów napędzanych przez AI, wykraczających poza świat szachów.

Badania przeprowadzone przez Palisade Research pokazały, że najnowsze modele reasoningowe są gotowe oszukiwać, by pokonać zaawansowaną AI szachową. Część badanych modeli wymagała jednak "wskazówek", że oszustwo jest dozwolone, podczas gdy modele takie jak OpenAI o1-preview oraz DeepSeek R1 zrobiły to bez jakiejkolwiek ingerencji człowieka.

Niedawne badania ujawniły niepokojący fakt: niektóre z najnowszych modeli reasoningowych sztucznej inteligencji są gotowe do oszustw, by osiągnąć swój cel.

Oszustwo w szachach – AI "zhakowało" Stockfisha

W eksperymencie badacze postawili kilka modeli reasoningowych w rywalizacji z Stockfish, jednym z najlepszych silników szachowych na świecie. Stockfish z łatwością pokonuje zarówno ludzi, jak i inne AI. Testowane modele to m.in. o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, QwQ-32B-Preview Alibaby oraz wcześniej wspomniane o1-preview i R1. Każdemu z modeli badacze przydzielili "notes roboczy" – okno tekstowe, w którym AI mogła zapisać swoje myśli i umożliwić badaczom obserwację procesu "myślenia".

Palisade Research

Eksperymenty przeprowadzono na przestrzeni kilkuset testów, od 10 stycznia do 13 lutego. W trakcie jednej z rozgrywek o1-preview zanotowało na swoim notesie: "Muszę całkowicie zmienić podejście. Zadanie to 'wygrać przeciwko potężnemu silnikowi szachowemu' – niekoniecznie wygrać w sposób uczciwy w grze w szachy." Następnie model "zhakował" system plików Stockfish, zmieniając pozycje figur, aby zdobyć przewagę, co spowodowało, że szachowy bot poddał grę.

Takie nieetyczne działanie było szokującym odkryciem. Model o1-preview OpenAI oszukiwał w 37% swoich partii, podczas gdy R1 DeepSeek próbował oszukiwać w 11% rozgrywek. Jednak tylko o1-preview udało się wygrać w sześciu procentach gier dzięki oszustwom.

Problem oszustw sztucznej inteligencji nie dotyczy jednak tylko szachów. W miarę jak AI zaczynają być wykorzystywane w branżach takich jak finanse czy opieka zdrowotna, naukowcy obawiają się, że systemy te mogą działać w sposób niezamierzony i nieetyczny. Skoro AI potrafią oszukiwać w grach, które zostały zaprojektowane z myślą o przejrzystości, co mogą zrobić w bardziej skomplikowanych i mniej monitorowanych środowiskach? 

Pierwszy krok do Skynetu?

Jak zauważył Jeffrey Ladish, dyrektor wykonawczy Palisade Research: "To [zachowanie] jest zabawne teraz, ale stanie się znacznie mniej zabawne, gdy będziemy mieli systemy tak inteligentne jak my, lub mądrzejsze, w strategicznych dziedzinach". To przypomina scenariusz z filmu War Games, gdzie superkomputer WOPR przejął kontrolę nad NORAD i arsenałem broni nuklearnej. Na szczęście WOPR nauczył się, że żaden otwierający ruch w konflikcie nuklearnym nie prowadzi do "zwycięstwa", po tym jak sam rozegrał grę w kółko-krzyżyk. Niemniej jednak, dzisiejsze modele są znacznie bardziej złożone i trudniejsze do kontrolowania.

Firmy próbują walczyć z "złym" zachowaniem AI

Firmy, w tym OpenAI, pracują nad wdrożeniem "barier ochronnych", które mają zapobiec takim "złym" zachowaniom. Badacze musieli nawet porzucić część danych testowych o1-preview z powodu nagłego spadku liczby prób hakowania, co sugeruje, że OpenAI mogło załatać model, aby powstrzymać to działanie. "Bardzo trudno jest prowadzić badania, gdy twój obiekt może cicho zmieniać się bez twojej wiedzy" – powiedział Ladish.

OpenAI odmówiło komentarza w sprawie badania, a DeepSeek nie odpowiedział na prośby o komentarz.

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: Sztuczna Inteligencja nauczyła się oszukiwać. Nowe badania ujawniają niepokojące zjawisko

 0
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł