ChatGPT trenowany na specjalistycznych książkach. OpenAI nie obchodzą prawa autorskie

ChatGPT trenowany na specjalistycznych książkach. OpenAI nie obchodzą prawa autorskie

Magnat branży podręczników technicznych, Tim O'Reilly, oskarżył firmę OpenAI o nielegalne wykorzystanie treści z książek jego wydawnictwa do trenowania najnowszego modelu językowego GPT-4o. Twierdzi, że OpenAI bez jego zgody wprowadziło do modelu materiały objęte prawem autorskim, co stanowi naruszenie jego praw jako wydawcy.

Oskarżenia pojawiają się w kontekście licznych pozwów przeciwko OpenAI, dotyczących wykorzystywania materiałów chronionych prawem autorskim bez odpowiedniej zgody czy rekompensaty dla twórców. Firma stanowczo zaprzecza zarzutom, twierdząc, że działa zgodnie z obowiązującym prawem.

Badanie ujawnia możliwe naruszenia

Tim O'Reilly jest współautorem badania zatytułowanego Beyond Public Access in LLM Pre-Training Data: Non-public book content in OpenAI's Models, opublikowanego przez AI Disclosures Project. Wraz z dwoma innymi badaczami postanowił sprawdzić, czy GPT-4o został wytrenowany na treściach 34 książek O'Reilly Media bez zgody wydawcy.

W ramach eksperymentu naukowcy przeprowadzili testy z użyciem tzw. ataków wnioskowania DE-COP. Modelowi GPT-4o zadawano pytania wielokrotnego wyboru, w których miał wskazać dosłowny fragment z książek spośród czterech propozycji, z których trzy były maszynowo wygenerowanymi parafrazami. Jeśli model konsekwentnie wybierał oryginalny tekst, oznaczało to wysokie prawdopodobieństwo, że był on częścią jego zbioru treningowego.

Rezultaty eksperymentu

Badania przeprowadzone na modelach OpenAI (GPT-3.5 Turbo, GPT-4o Mini oraz GPT-4o) obejmowały analizę 13 962 akapitów. Wyniki wskazują, że GPT-4o osiągnął wskaźnik AUROC na poziomie 82%, co jest silnym dowodem na to, że został wytrenowany na treściach O'Reilly Media. Dla porównania, wcześniejszy model GPT-3.5 Turbo z 2022 r. uzyskał wynik nieznacznie przekraczający 50%, co sugeruje, że OpenAI z czasem coraz częściej korzystało z niepublicznych materiałów do szkolenia swoich modeli.

Co ciekawe, model GPT-4o Mini, mimo że trenowany równolegle z pełnym GPT-4o, nie wykazywał śladów korzystania z książek O'Reilly'ego. Badacze spekulują, że wynika to z mniejszej liczby parametrów, co ogranicza jego zdolność do przechowywania długich fragmentów tekstu.

Brak przejrzystości w szkoleniu AI

Autorzy badania podkreślają, że wyniki te podnoszą kwestię konieczności zwiększenia przejrzystości dotyczącej źródeł danych wykorzystywanych do trenowania sztucznej inteligencji. Apelują o stworzenie formalnych ram licencjonowania danych, aby twórcy treści otrzymywali uczciwe wynagrodzenie za swoje materiały.

„Chociaż nasze badanie koncentruje się na OpenAI i książkach O'Reilly Media, problem ten jest prawdopodobnie systemowy” – stwierdzili badacze. Ostrzegają również, że brak odpowiedniego wynagrodzenia dla autorów może doprowadzić do sytuacji, w której zasoby internetowe, od których zależy rozwój AI, zostaną wyczerpane.

Branża AI pod presją prawnych i etycznych wyzwań

Z biegiem lat firmy technologiczne zaczęły zdawać sobie sprawę, że same techniki scrapowania internetowego nie wystarczą do trenowania zaawansowanych modeli językowych. W odpowiedzi na rosnącą liczbę pozwów OpenAI oraz inne firmy AI, takie jak Google, zaczęły podpisywać umowy licencyjne na dostęp do treści. Przykładem są umowy OpenAI z Reddit i Time Magazine, które pozwalają na legalne wykorzystanie ich archiwów w procesie szkolenia AI.

Jednak mimo tych działań OpenAI aktywnie lobbowało w rządzie USA o złagodzenie regulacji dotyczących praw autorskich, argumentując, że zbyt surowe przepisy mogą zahamować innowacyjność i sprawić, że amerykańskie firmy AI stracą przewagę nad konkurencją, np. z Chin.

Przyszłość AI i prawa autorskiego

Eksperci branżowi przewidują, że problem nielegalnego wykorzystania treści przez AI będzie się pogłębiał, a kolejne procesy sądowe mogą wpłynąć na sposób, w jaki technologie sztucznej inteligencji będą rozwijane i licencjonowane w przyszłości. Jednocześnie firmy takie jak Cloudflare wprowadzają nowe mechanizmy ochrony treści przed scrapingiem, jak np. „Labirynt AI” – system mający utrudniać botom dostęp do stron internetowych zawierających chronione materiały.

 

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: ChatGPT trenowany na specjalistycznych książkach. OpenAI nie obchodzą prawa autorskie

 0
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł
Kolejny proponowany artykuł