Nvidia i Apple trenują AI na filmikach z YouTube. Nie mają na to pozwolenia

Paweł Czajkowski | 17-07-2024, 09:20 | 0

Nvidia i Apple trenują AI na filmikach z YouTube. Nie mają na to pozwolenia

Według nowego śledztwa przeprowadzonego przez niezależne studio informacyjne Proof oraz Wired, firmy takie jak Nvidia, Apple, Anthropic i Salesforce wykorzystują transkrypcje filmów z YouTube do szkolenia swoich narzędzi AI, mimo że nie mają na to licencji.

W erze generatywnej AI firmy technologiczne gromadzą ogromne ilości danych, aby trenować modele AI, często kosztem twórców i artystów, którzy pozostają bez wynagrodzenia. Cztery wspomniane firmy używają zbioru danych AI o nazwie YouTube Subtitles, który zawiera 173 000 transkrypcji filmów z niemal 50 000 kanałów. W skład zbioru danych wchodzą filmy popularnych influencerów oraz programów telewizyjnych, takich jak MrBeast, John Oliver, Jimmy Kimmel i Stephen Colbert. W zestawie znajdują się również chronione prawem autorskim teledyski, na przykład na kanałach Vevo Katy Perry i Taylor Swift, oraz filmy promujące teorie spiskowe, takie jak teoria płaskiej Ziemi.

Firmy technologiczne wykorzystują mnóstwo treści do trenowania swoich modeli AI, choć nie posiadają do nich żadnych praw. Jeden zestaw danych obejmuje teksty piosenek Taylor Swift, filmy MrBeast i wiele innych.

YouTube Subtitles to część większego zestawu danych o nazwie „The Pile”, stworzonego przez startup AI EleutherAI i wydanego w 2021 roku. EleutherAI przyznało, że zestaw danych YouTube Subtitles został stworzony przy użyciu nieoficjalnego interfejsu API, który jest łatwo dostępny. EleutherAI twierdzi, że trudność w identyfikacji poszczególnych plików w Pile oznacza, że jego zbiór danych „nie powoduje znacząco zwiększonej szkody wykraczającej poza tę, która została już wyrządzona przez powszechną publikację tych zbiorów danych”.

Apple potwierdziło, że jego OpenELM jest trenowany na The Pile, podobnie jak model AI Salesforce. Anthropic również potwierdził, że jego model Claude AI został wytrenowany na The Pile. Nvidia nie odpowiedziała na prośbę o komentarz. Wcześniej w tym roku Nvidia została pozwana przez grupę autorów za wykorzystanie The Pile, którego sekcja „Books3” zawiera ich powieści. Autorzy twierdzą, że Nvidia narusza prawa autorskie, używając ich pracy bez zgody.

Dyrektor generalny YouTube Neal Mohan wcześniej stwierdził, że szkolenie AI na filmach YouTube byłoby „oczywistym naruszeniem” zasad platformy. Mimo to, matka firma YouTube, Google, szkoliła swoje narzędzia AI na filmach z YouTube, twierdząc, że miała na to pozwolenie na mocy istniejących umów z twórcami.

Warunki korzystania z YouTube zabraniają pobierania lub wykorzystywania filmów bez zgody serwisu oraz odpowiednich właścicieli praw. Jednak nie jest jasne, w jakim stopniu te zasady dotyczą pobierania danych przez AI. Warunki YouTube również stwierdzają, że treści nie mogą być używane do celów komercyjnych, co mogłoby być naruszone przez trenowanie narzędzi AI na tych danych.