Biorąc pod uwagę ostatnie doniesienia, wygląda to na niepokojący branżowy standard. Okazuje się bowiem, że NVIDIA to kolejna firma, która pozyskała zasoby treści chronionych prawem autorskim na potrzeby szkoleń w zakresie sztucznej inteligencji bez uzyskania zgody.
W poniedziałek Samantha Cole z 404 Media poinformowała, że firma, której kapitalizacja rynkowa szacowana jest na 2,4 biliona dolarów, poprosiła pracowników o pobieranie filmów z YouTube, Netflix i innych zbiorów danych w celu opracowania komercyjnych projektów sztucznej inteligencji. Producent kart graficznych należy do firm technologicznych, które ścigając się o dominację na rynku sztucznej inteligencji przyjęły sposób działania „move fast and break things”, który znany był z działalności Facebooka. Według doniesień szkolenie miało na celu opracowanie modeli produktów takich jak generator świata Omniverse 3D, systemy samochodów autonomicznych i działania związane z „cyfrowym człowiekiem”.
NVIDIA broni swojej praktyki i rzecznik firmy powiedział, że ich badania są „w pełni zgodne z literą i duchem prawa autorskiego”.
NVIDIA broni swojej praktyki i rzecznik firmy powiedział Engadget, że ich badania są „w pełni zgodne z literą i duchem prawa autorskiego”, jednocześnie utrzymując, że prawa własności intelektualnej chronią określone wyrażenia, „ale nie fakty, idee, dane czy informacje”. Firma zrównała tę praktykę z prawem jednostki do „uczenia się faktów, pomysłów, danych lub informacji z innego źródła i wykorzystywania ich do wyrażania własnego zdania”. Najwyraźniej Zieloni nie widzą tu różnicy między komputerem i człowiekiem.
Co zrozumiałe, YouTube się z tym nie zgadza. Rzecznik platformy Jack Malon wskazał kwietniową historię Bloomberga, cytując dyrektora generalnego Neala Mohana, który stwierdził, że wykorzystywanie YouTube do szkolenia modeli sztucznej inteligencji byłoby „wyraźnym naruszeniem” jego warunków. „Nasz poprzedni komentarz jest nadal aktualny” – napisał menedżer ds. komunikacji w związku z doniesieniami na temat NVIDII. Ten cytat Mohana z kwietnia był odpowiedzią na doniesienia, że OpenAI bez pozwolenia przeszkoliło swój generator przetwarzania tekstu na wideo Sora w filmach na YouTube. W zeszłym miesiącu raport pokazał, że start-up Runway AI poszedł w ich ślady.
Według doniesień menedżerowie NVIDIA, którzy wyrazili wątpliwości etyczne i prawne dotyczące tej praktyki, zostali poinformowani przez menedżerów, że została ona już zatwierdzona przez najwyższe szczeble firmy. „To decyzja wykonawcza” – odpowiedział Ming-Yu Liu, wiceprezes ds. badań w firmie NVIDIA. „Mamy ogólną zgodę na wszystkie dane”. Inni pracownicy firmy rzekomo opisali takie pozyskiwanie danych jako „otwartą kwestię prawną”, którą mają się zająć w przyszłości.
Oprócz filmów z YouTube i Netflix, NVIDIA podobno poinstruowała pracowników, aby przeszkolili pracowników w zakresie bazy danych zwiastunów filmów MovieNet, wewnętrznych bibliotek nagrań z gier wideo i zestawów danych wideo Github WebVid (obecnie usuniętych po zaprzestaniu działalności) i InternVid-10M. Ten ostatni to zbiór danych zawierający 10 milionów identyfikatorów filmów YouTube.
Niektóre dane, na których NVIDIA rzekomo trenowała AI, zostały oznaczone jako nadające się wyłącznie do użytku akademickiego (lub w inny sposób niekomercyjnego). NVIDIA jednak się tym nie przejmowała i postanowiła wykorzystać je komercyjnie. Aby uniknąć wykrycia przez YouTube, Zieloni podobno pobierali treści przy użyciu maszyn wirtualnych (VM) z rotującymi adresami IP. W odpowiedzi na sugestię pracownika, aby skorzystać z narzędzia do zmiany adresów IP innej firmy, inny pracownik NVIDII napisał podobno: „Jesteśmy w [Amazon Web Services](#) i ponowne uruchomienie instancji [maszyny wirtualnej](#) daje nową publiczny adres IP[.](#) Na razie nie stanowi to problemu”.
Pokaż / Dodaj komentarze do: NVIDIA kolejną dużą firmą, która szkoli AI na danych bez uzyskania pozwolenia