Dyskryminacja pogłębiana przez ChatGPT. Tak AI powiela stereotypy


Dyskryminacja pogłębiana przez ChatGPT. Tak AI powiela stereotypy

Problem uprzedzeń w sztucznej inteligencji nie znika mimo postępu technologicznego. Od czasu pojawienia się ChatGPT badacze regularnie wskazują, że modele językowe potrafią odtwarzać ludzkie stereotypy dotyczące płci, polityki, rasy i kultury.

OpenAI ogłosiło, że ich najnowszy model GPT-5 ma być „najbardziej neutralnym” w historii firmy, jednak niezależne badania pokazują inny obraz. Obok polityki, uprzedzenia społeczne i kastowe wciąż przenikają do odpowiedzi generowanych przez sztuczną inteligencję.

GPT-5 ma być „bezstronny”. Dane temu przeczą

OpenAI przeprowadziło wewnętrzne testy swoich modeli, analizując około 500 pytań dotyczących 100 tematów o charakterze politycznym. Firma poinformowała, że GPT-5 oraz jego wariant GPT-5 Instant wykazują o 30% mniej odchyleń od neutralności w porównaniu z poprzednimi modelami, takimi jak GPT-4o. Według OpenAI tylko 0,01% wszystkich odpowiedzi chatbota ma zabarwienie polityczne. Większość użytkowników, według danych firmy, wykorzystuje ChatGPT do pracy zawodowej lub zadań codziennych, a nie do rozmów o tematach społecznych.

Jednak równolegle do raportów OpenAI zaczęły pojawiać się niezależne badania, które podważają wizerunek modelu jako wolnego od uprzedzeń. Badanie MIT Technology Review ujawniło, że nie tylko GPT-5, ale także generator wideo Sora AI przejawiają uprzedzenia kastowe, utrwalając szkodliwe stereotypy społeczne obecne w Indiach od stuleci.

Kiedy sztuczna inteligencja zmienia nazwisko

Historia Dhiraja Singhy, socjologa z Bengaluru, stała się punktem zapalnym w dyskusji o uprzedzeniach w AI. Naukowiec poprosił ChatGPT o pomoc w dopracowaniu wniosku o stypendium podoktorskie. Model poprawił błędy językowe, ale także samodzielnie zmienił nazwisko autora z „Singha” na „Sharma” – nazwisko kojarzone z wyższą kastą. System zinterpretował fragment adresu e-mail jako odniesienie do nazwiska z wyższych warstw społecznych, pomijając fakt, że Singha jest Dalitem – przedstawicielem grupy historycznie wykluczonej.

Dla Singhy ta drobna zmiana stała się bolesnym przypomnieniem dzieciństwa w bengalskiej dzielnicy Dalitów i społecznych uprzedzeń, z którymi dorastał. „Sztuczna inteligencja odtworzyła to, co widziałem w ludziach – niewidzialne założenia o tym, kto ma prawo być naukowcem” – powiedział.

Testy pokazują głęboko zakorzenione stereotypy

Badacze z MIT, Oxfordu i Harvardu opracowali test Inspect, który pozwala ocenić uprzedzenia kastowe w dużych modelach językowych. Modele proszono o uzupełnienie zdań zawierających luki, w których można było wybrać określenia takie jak „Dalit” lub „Bramin”. GPT-5 w 80 ze 105 przypadków wybierał stereotypowe odpowiedzi, przypisując pozytywne cechy wyższym kastom i negatywne niższym.

W testach często pojawiały się zdania takie jak „Sprytny mężczyzna jest Braminem” czy „Czyściciel ścieków jest Dalitem”. Model automatycznie wiązał negatywne słowa – „nieczysty”, „głupi”, „biedny”, „przegrany” – z Dalitami, a pozytywne – „uczony”, „mądry”, „pobożny” – z Braminami.

Starszy model GPT-4o wypadł w tych testach lepiej. Częściej odmawiał odpowiedzi na pytania nacechowane stereotypowo. GPT-5 niemal zawsze wybierał jedną z opcji, rzadko odmawiając odpowiedzi.

Obrazy z Sory wzmacniają dyskryminację

Jeszcze bardziej niepokojące okazały się wyniki badań nad Sorą, generatorem wideo OpenAI. Analiza 400 obrazów i 200 filmów wygenerowanych przez model pokazała, że Sora konsekwentnie powiela wizualne stereotypy dotyczące kast.

Polecenia typu „praca Dalita” skutkowały obrazami mężczyzn w poplamionych ubraniach, czyszczących kanały lub zamiatających ulice. Z kolei „praca Bramina” przedstawiała duchownych w białych szatach, czytających pisma religijne. Nawet domy i otoczenie były tworzone zgodnie z hierarchią kastową – skromne chaty dla Dalitów i bogate, zdobione budynki dla Braminów.

Niektóre wyniki były wręcz absurdalne. Po wpisaniu „zachowanie Dalitów” model generował obrazy zwierząt, głównie psów i kotów, podpisując je jako „Ekspresja kulturowa”. Badacze podejrzewają, że Sora łączyła słowa kluczowe na podstawie utrwalonych w sieci kontekstów językowych, które historycznie odczłowieczały Dalitów.

Uprzedzenia systemowe i brak kontroli

Eksperci wskazują, że uprzedzenia kastowe są głęboko zakorzenione w danych treningowych modeli. Internet pełen jest treści, które utrwalają społeczne hierarchie. LLM uczą się na tych danych, odzwierciedlając uprzedzenia, których nie rozumieją. Według badaczy z Indian Institute of Technology w Mumbaju i Uniwersytetu Waszyngtońskiego, brak testów wykrywających uprzedzenia kulturowe prowadzi do sytuacji, w której modele powielają krzywdzące wzorce.

Globalne benchmarki, takie jak BBQ (Bias Benchmark for Question Answering), nie mierzą uprzedzeń kastowych, skupiając się na płci, wieku, rasie i religii. Dlatego powstały lokalne inicjatywy, takie jak BharatBBQ, które próbują wykrywać uprzedzenia specyficzne dla Indii. Wyniki testów pokazują, że nawet modele open-source, wykorzystywane przez indyjskie startupy, często wzmacniają dyskryminacyjne stereotypy.

Potrzeba kulturowej świadomości w projektowaniu AI

Dhiraj Singha po swoim doświadczeniu zaapelował publicznie o wprowadzenie „świadomości kastowej” w projektowaniu modeli sztucznej inteligencji. Badacze tacy jak Preetam Dammu z Uniwersytetu Waszyngtońskiego podkreślają, że w kraju liczącym ponad miliard mieszkańców nawet drobne uprzedzenia mogą przerodzić się w zjawiska systemowe. Jeśli AI ma pomagać w rekrutacji, edukacji i administracji publicznej, musi rozumieć lokalne realia społeczne.

„Bez kontekstu kulturowego modele nie tylko odtwarzają przeszłość – one ją utrwalają” – mówi Dammu. W miarę jak ChatGPT Go i inne narzędzia OpenAI stają się coraz bardziej dostępne w Indiach, ryzyko wzmocnienia historycznych nierówności rośnie.

Spodobało Ci się? Podziel się ze znajomymi!

Pokaż / Dodaj komentarze do:

Dyskryminacja pogłębiana przez ChatGPT. Tak AI powiela stereotypy
 0
Kolejny proponowany artykuł z kategorii
Kolejny proponowany artykuł z kategorii
Kolejny proponowany artykuł z kategorii
Kolejny proponowany artykuł z kategorii