Czy maszyna może być bardziej wierna literze prawa niż człowiek? Takie pytanie powraca wraz z nowymi badaniami nad możliwościami modeli językowych tworzonych przez OpenAI. Wyniki sugerują, że najnowsze systemy potrafią stosować obowiązujące reguły z konsekwencją, której często brakuje ludziom orzekającym na salach sądowych. Jednocześnie rośnie dyskusja o tym, czy bezwzględny formalizm jest cechą pożądaną w wymiarze sprawiedliwości.
Za projektem stoją Eric Posner oraz Shivam Saran. Badacze od kilku lat analizują, jak duże modele językowe radzą sobie z zadaniami przypominającymi realne rozstrzygnięcia. Wcześniej sprawdzali zachowanie poprzednich generacji systemów, dziś przyglądają się możliwościom GPT-5.
Od trybunału wojennego do stłuczki
Pierwsze eksperymenty dotyczyły hipotetycznej roli sędziego apelacyjnego w sprawie rozpatrywanej przez Międzynarodowy Trybunał Karny dla byłej Jugosławii. Model otrzymywał obszerny zestaw materiałów obejmujących opis faktów, argumentację stron, obowiązujące normy i wcześniejsze orzeczenia. Naukowcy chcieli zobaczyć, czy sztuczna inteligencja podtrzyma decyzję sądu niższej instancji.
Wnioski wskazywały na silne przywiązanie do precedensów. Algorytm ignorował elementy, które dla ludzi potrafią stać się impulsem do odejścia od czysto doktrynalnego myślenia. W ten sposób zachowywał się podobnie do studentów prawa badanych w innych projektach, a inaczej niż doświadczeni sędziowie.
Kolejna odsłona badań przeniosła analizę na grunt bardziej codzienny. Zamiast zbrodni wojennych pojawił się problem wyboru właściwego prawa stanowego w sprawie wypadku samochodowego. Scenariusz pochodził z wcześniejszego testu przeprowadzonego wśród amerykańskich sędziów federalnych.
GPT-5 kontra praktyka sądowa
Gdy badacze zadali te same pytania GPT-5, otrzymali serię odpowiedzi wolnych od halucynacji i sprzeczności logicznych. W artykule podkreślają stuprocentową zgodność z formalnie poprawnym rozstrzygnięciem. Dla porównania, w historycznym badaniu sędziowie trzymali się takiej linii w niewiele ponad połowie przypadków.
Autorzy zaznaczają, że nie należy interpretować różnicy jako dowodu lekceważenia prawa przez ludzi. W wielu sytuacjach doktryna ma charakter standardu, a nie sztywnej reguły. Orzekający korzystają wtedy z przestrzeni interpretacyjnej i biorą pod uwagę skutki społeczne czy moralne.
W testach pojawiły się także inne systemy. Pełną zgodność wykazał Google Gemini 3 Pro, podczas gdy Gemini 2.5 Pro, o4-mini czy Llama 4 Maverick osiągały niższe rezultaty. Różnice między modelami pokazują tempo ewolucji narzędzi i wpływ sposobu treningu.
Formalizm kontra wrażliwość
Posner i Saran wskazują, że przewaga maszyn w rygorystycznym stosowaniu przepisów nie rozwiązuje dylematu. Ich zdaniem to, co wygląda jak słabość ludzkiego sędziego, bywa przejawem elastyczności potrzebnej w złożonym świecie. Człowiek potrafi odejść od litery prawa, gdy prowadzi ona do rażąco niesprawiedliwego rezultatu.
Czy społeczeństwo zaakceptuje decyzje podejmowane bez uwzględniania kontekstu emocjonalnego i niuansów, które dla ludzi są oczywiste?
W miarę jak kancelarie i instytucje publiczne sięgają po automatyzację, presja na rozszerzanie kompetencji algorytmów będzie rosła. Pytanie o granice odpowiedzialności pozostaje jednak otwarte.
Spodobało Ci się? Podziel się ze znajomymi!
Pokaż / Dodaj komentarze do:
AI lepsza od sędziów? Wyniki testu zaskakują prawników