Ponad 197 tysięcy pirackich książek. Nvidia odpowie za to przed sądem


Ponad 197 tysięcy pirackich książek. Nvidia odpowie za to przed sądem

Amerykański sąd odmówił oddalenia pozwu dotyczącego wykorzystywania ogromnej bazy pirackich książek do trenowania modeli sztucznej inteligencji. Chodzi o ponad 197 tysięcy tytułów, które miały zostać pobrane i przetworzone przy użyciu narzędzi dostępnych w frameworku NeMo Megatron.

Nvidia próbowała przekonać sąd, że nie odpowiada za działania użytkowników korzystających z jej platformy AI. Firma argumentowała, że NeMo Megatron Framework ma wiele legalnych zastosowań i nie został stworzony z myślą o naruszaniu praw autorskich. Gigant powołał się nawet na wcześniejsze orzeczenia amerykańskiego Sądu Najwyższego dotyczące odpowiedzialności dostawców usług internetowych za działania użytkowników. Według linii obrony Nvidii sam fakt udostępnienia technologii nie powinien oznaczać odpowiedzialności za ewentualne piractwo.

Sędzia Jon Tigar nie przyjął jednak tej argumentacji. W uzasadnieniu zwrócił uwagę, że problemem nie jest sama platforma AI, lecz konkretne skrypty dostępne w frameworku. Według sądu ich zadaniem było automatyczne pobieranie i przetwarzanie danych ze zbioru The Pile, ogromnej bazy wykorzystywanej do trenowania modeli językowych.

Ponad 197 tysięcy książek w centrum afery

Najgłośniejszym elementem całej sprawy jest Bibliotik, prywatny tracker torrentów zawierający gigantyczną kolekcję e-booków. Według pozwu właśnie stamtąd pochodziły tysiące książek wykorzystanych później w zbiorze Books3.

Books3 został następnie włączony do The Pile, jednego z najbardziej znanych zestawów danych używanych do trenowania dużych modeli językowych. Całość liczy ponad 800 GB danych tekstowych.

Autorzy pozwu twierdzą, że Nvidia korzystała z tych materiałów przy szkoleniu własnych systemów AI bez zgody twórców i wydawców.

Sąd uznał, że skrypty dostępne w NeMo Megatron mogły służyć wyłącznie przyspieszeniu procesu naruszania praw autorskich. To właśnie ten fragment uzasadnienia najmocniej uderzył w producenta układów AI.

AI i prawa autorskie coraz częściej trafiają do sądów

Sprawa Nvidii nie jest odosobniona. Praktycznie cały sektor sztucznej inteligencji zmaga się dziś z pytaniem, skąd można legalnie pozyskiwać dane do trenowania modeli. Meta od miesięcy walczy z podobnymi oskarżeniami dotyczącymi wykorzystywania pirackich książek. Google naciska na zmiany w interpretacji prawa autorskiego, próbując przekonać regulatorów, że scraping danych do treningu AI powinien być uznawany za dozwolony użytek.

Problem polega na tym, że nowoczesne modele językowe potrzebują gigantycznych ilości tekstów, obrazów i nagrań. Firmy technologiczne od lat budowały swoje systemy w oparciu o dane pobierane z internetu, często bez wyraźnej zgody autorów. Dziś rachunek za ten wyścig zaczyna trafiać do sądów.

Nvidia może mieć większy problem, niż się wydaje

Dla Nvidii to wyjątkowo niewygodny moment. Firma jest obecnie symbolem boomu AI i jednym z największych beneficjentów rewolucji związanej ze sztuczną inteligencją. Układy H100 i Blackwell napędzają centra danych największych firm świata, a kapitalizacja spółki osiąga rekordowe poziomy.

Każdy kolejny proces dotyczący praw autorskich może jednak uderzać nie tylko w wizerunek firmy, ale również w cały rynek AI. Jeśli sądy zaczną uznawać trening modeli na pirackich danych za naruszenie prawa, branżę czekają gigantyczne koszty i konieczność budowania nowych, licencjonowanych baz danych.

To może okazać się jednym z największych problemów dla sektora sztucznej inteligencji w najbliższych latach.

Twórcy coraz głośniej protestują

Autorzy książek, artyści i wydawcy coraz częściej oskarżają firmy AI o masowe wykorzystywanie ich pracy bez wynagrodzenia. Dla wielu twórców obecny model działania branży wygląda jak gigantyczne kopiowanie internetu na potrzeby budowy komercyjnych systemów. 

Największe kontrowersje budzi fakt, że modele AI potrafią później generować teksty przypominające styl konkretnych autorów lub odtwarzać fragmenty materiałów treningowych.

Spodobało Ci się? Podziel się ze znajomymi!

Pokaż / Dodaj komentarze do:

Ponad 197 tysięcy pirackich książek. Nvidia odpowie za to przed sądem
 0