Treści generowane przez sztuczną inteligencję osiągają coraz wyższy poziom zaawansowania. Niedawno OpenAI zaprezentowało Sora – model, który potrafi tworzyć krótkie, wysokiej jakości klipy wideo na podstawie tekstowych opisów. Sora jest jednak ograniczona do 20-sekundowych filmów w jakości HD (1080p). Teraz do gry wkracza DeepMind od Google, które podnosi poprzeczkę, prezentując Veo 2 – następcę pierwszej wersji tego modelu.
Veo 2 pozwala na generowanie wideo w jakości 4K, o długości dochodzącej aż do 2 minut. Dostęp do technologii można uzyskać poprzez platformę VideoFX, choć na ten moment użytkownicy muszą uzbroić się w cierpliwość ze względu na listę oczekujących. DeepMind zapowiada jednak stopniowe rozszerzanie dostępu.
Veo 2 pozwala na generowanie wideo w jakości 4K, o długości dochodzącej aż do 2 minut.

Próbki robią wrażenie
Przykłady zaprezentowane przez DeepMind pokazują niesamowite możliwości modelu Veo 2. Jeden z filmów stworzonych na potrzeby demonstracji powstał na podstawie niezwykle szczegółowego opisu. Scena przedstawia renesansowy pałac, gdzie kamera powoli przesuwa się, ukazując bogate wnętrze pełne złotych mebli, aksamitnych zasłon i migoczących żyrandoli. W centrum uwagi znajduje się królowa siedząca przy biurku, odziana w krwistoczerwoną suknię, a każdy detal pomieszczenia buduje atmosferę tego filmu.

Oto pełny prompt, który posłużył do wygenerowania tego filmu:
„Kamera przesuwa się w powolnym ruchu, ukazując przepych komnaty renesansowego pałacu, ozdobionej złoconymi meblami, aksamitnymi zasłonami i żyrandolami rzucającymi miękkie, migoczące światło. Królowa siedzi nieruchomo przy złoconym biurku, jej karmazynowa jedwabna suknia spływa na podłogę niczym rozlana krew. Na biurku leży niepodpisany list, którego brzegi są zniszczone przez upływ czasu. Kamera ujmuje ją od tyłu, ukazując odbicie jej stoickiej twarzy w ogromnym, ozdobnym lustrze. W tle słychać szepty dworzan, których sylwetki tańczą niczym duchy w świetle świec. Pomieszczenie wydaje się ciężkie, każdy złocony detal potęguje atmosferę zdrady i paranoi. Paleta kolorów przeplata głębokie, królewskie czerwienie z chłodnym złotem, a oświetlenie typu chiaroscuro wzmacnia dramatyzm sceny. Ujęcie wykonane na taśmie 70 mm, aby uzyskać bogatą teksturę, przywołującą majestat historycznych arcydzieł”.

Chociaż przykłady prezentowane przez DeepMind robią ogromne wrażenie, warto pamiętać, że są to starannie wyselekcjonowane materiały, mające pokazać możliwości Veo 2 w jak najlepszym świetle. Sam model wciąż ma jednak pewne ograniczenia. Jak przyznają twórcy, generowanie skomplikowanych scen oraz realistycznych ruchów nadal stanowi wyzwanie dla technologii.

Wprowadzenie Veo 2 pokazuje, że rywalizacja na rynku narzędzi AI do generowania wideo nabiera tempa. Podczas gdy OpenAI z Sorą oferuje krótkie klipy w HD, DeepMind celuje w dłuższe i bardziej szczegółowe produkcje w jakości 4K. Spodziewamy się zatem, że nie trzeba będzie długo czekać na odpowiedź OpenAI, które rozszerzy możliwości swojego generatywnego AI.

Pokaż / Dodaj komentarze do: Google DeepMind przedstawia Veo 2, nowe narzędzie do generowania wideo, które może konkurować z Sorą