Sora od OpenAI to nowe AI do generowania filmów z tekstu. Robi wrażenie

Sora od OpenAI to nowe AI do generowania filmów z tekstu. Robi wrażenie

W czwartek OpenAI ogłosiło Sora, zupełnie nowy model AI, który generuje filmy wysokiej jakości o długości do jednej minuty na podstawie komunikatów tekstowych. Sora, co po japońsku oznacza „niebo”, nie będzie w najbliższym czasie dostępna publicznie. Zamiast tego OpenAI udostępnia je małej grupie naukowców i badaczy, którzy ocenią szkody i potencjał niewłaściwego wykorzystania.

„Sora jest w stanie generować złożone sceny z wieloma postaciami, określonymi rodzajami ruchu oraz dokładnymi szczegółami obiektów i tła” – podała firma na swojej stronie internetowej. „Model rozumie nie tylko to, o co użytkownik prosił w poleceniu, ale także to, jak te rzeczy istnieją w świecie fizycznym”. Jeden z filmów wygenerowanych przez Sorę, które OpenAI udostępniło na swojej stronie internetowej, przedstawia parę spacerującą po zaśnieżonym Tokio, wokół nich powiewają płatki kwiatów wiśni i płatki śniegu.

Sora generuje filmy wysokiej jakości o długości do jednej minuty na podstawie komunikatów tekstowych.

Inny przedstawia realistycznie wyglądające mamuty włochate spacerujące po zaśnieżonej łące na tle pokrytych śniegiem pasm górskich.

OpenAI twierdzi, że model działa w wyniku „głębokiego zrozumienia języka”, co pozwala mu dokładnie interpretować podpowiedzi tekstowe. Mimo to, podobnie jak w zasadzie wszystkie generatory obrazów i wideo AI, które widzieliśmy, Sora nie jest idealna. W jednym z przykładów polecenie stworzenia filmu przedstawiającego dalmatyńczyka wyglądającego przez okno i ludzi „spacerujących i jeżdżących na rowerach ulicami kanału” całkowicie pomija ludzi i ulice z filmu. OpenAI ostrzega również, że model może mieć trudności ze zrozumieniem przyczyny i skutku — może na przykład wygenerować film przedstawiający osobę jedzącą ciasteczko, ale ciasteczko może nie mieć śladów ugryzień.

Sora nie jest pierwszym modelem przetwarzającym tekst na wideo. Inne firmy, w tym Meta, Google i Runway, albo zwiastowały takie narzędzia do zamiany tekstu na wideo, albo udostępniły je publicznie. Jednak żadne inne narzędzie nie jest obecnie w stanie wygenerować filmów o długości przekraczającej 60 sekund. Sora generuje także całe filmy na raz, zamiast łączyć je klatka po klatce jak inne modele, co gwarantuje, że takie wideo pozostanie spójne, nawet jeśli poszczególne obiekty chwilowo znikną z pola widzenia.

Rozwój narzędzi do zamiany tekstu na wideo wzbudził obawy co do ich potencjału w zakresie łatwiejszego tworzenia realistycznie wyglądających fałszywych materiałów filmowych. „Jestem całkowicie przerażony, że takie rzeczy będą miały wpływ na sporne wybory” – powiedział Oren Etzioni, profesor na Uniwersytecie Waszyngtońskim specjalizujący się w sztucznej inteligencji i założyciel True Media, organizacji zajmującej się identyfikowaniem dezinformacji w polityce kampanii. Natomiast generatywna sztuczna inteligencja w szerszym ujęciu wywołała sprzeciw artystów i profesjonalistów zajmujących się branżą twórczą, zaniepokojonych technologią wykorzystywaną do zastępowania miejsc pracy.

OpenAI stwierdziło, że współpracuje z ekspertami w takich dziedzinach jak dezinformacja, treści nienawistne i stronniczość, aby przetestować narzędzie przed udostępnieniem go opinii publicznej. Firma tworzy także narzędzia umożliwiające wykrywanie filmów generowanych przez Sorę i dołączanie do generowanych filmów metadanych w celu łatwiejszego wykrywania. Firma odmówiła poinformowania „Timesa”, w jaki sposób Sora została przeszkolona, stwierdziła jedynie, że wykorzystała zarówno „publicznie dostępne filmy wideo”, jak i filmy licencjonowane od właścicieli praw autorskich.

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: Sora od OpenAI to nowe AI do generowania filmów z tekstu. Robi wrażenie

 0