Podczas tegorocznej konferencji Google I/O firma zaprezentowała swoje najnowsze osiągnięcia w dziedzinie generatywnej sztucznej inteligencji. Największą uwagę przyciągnął Veo 3, pierwszy model Google zdolny do tworzenia wideo z dźwiękiem.
To przełomowa funkcja, która pozwala AI nie tylko wygenerować obraz, ale również dopasować do niego odpowiednią warstwę audio – od śpiewu ptaków, przez odgłosy ulicy, aż po realistyczne dialogi zsynchronizowane z ruchem ust postaci.
Veo 3 to pierwszy model AI Google zdolny do tworzenia wideo z dźwiękiem.
Veo 3 - sztuczna inteligencja, która widzi i słyszy świat
Google podkreśla, że Veo 3 nie tylko świetnie radzi sobie z tworzeniem realistycznych scen wideo, ale również rozumie zasady fizyki, co pozwala mu generować bardziej wiarygodne ruchy i interakcje w obrębie obrazu. Dodatkowo, funkcja lip-syncingu została znacząco udoskonalona i teraz AI potrafi dopasować ruchy ust do wypowiadanych kwestii z dużą precyzją.

Obecnie Veo 3 jest dostępne jedynie dla subskrybentów Gemini Ultra w USA (w aplikacji Gemini), użytkowników biznesowych w ramach platformy Vertex AI oraz w nowym narzędziu filmowym Google, czyli Flow.

Flow to rewolucja w tworzeniu filmów przez AI
Flow to nowa platforma, która łączy możliwości modeli Veo, Imagen i Gemini, umożliwiając tworzenie kinowych scen i klipów na podstawie prostych opisów w języku naturalnym. Użytkownik pisze, co chce zobaczyć, a AI wykonuje resztę, od scenografii po efekty dźwiękowe.

Nowa wersja Flow pozwala m.in.:
- korzystać z referencyjnych zdjęć ludzi, obiektów i stylów,
- kontrolować kamerę (obracać sceny, przybliżać obiekty),
- zmieniać proporcje kadru (np. z pionowego na poziomy),
- dodawać lub usuwać elementy ze scen.
Na ten moment narzędzie jest dostępne tylko dla użytkowników Google AI Pro i Ultra w USA, ale Google zapowiada rychłą ekspansję na kolejne rynki.
Imagen 4, czyli nowy poziom w generowaniu obrazów
Równolegle Google zaprezentowało Imagen 4, najnowszy model do generowania obrazów. Jego największe zalety to nadzwyczajna precyzja w oddawaniu detali, takich jak faktury tkanin czy sierść zwierząt, umiejętność tworzenia realistycznych i abstrakcyjnych grafik, znacząca poprawa w renderowaniu tekstu i typografii oraz wsparcie dla różnych proporcji obrazu i rozdzielczości do 2K.
Imagen 4 jest już dostępny w aplikacji Gemini, Vertex AI oraz w narzędziach pakietu Google Workspace, w tym w Docs i Slides. Wkrótce pojawi się także dziesięciokrotnie szybsza wersja Imagen 4 w porównaniu do poprzednika.
SynthID Detector - sposób na weryfikację treści generowanych przez AI
W dobie coraz bardziej realistycznych materiałów generowanych przez sztuczną inteligencję, Google uruchomiło również SynthID Detector, czyli specjalny portal umożliwiający sprawdzenie, czy dane zdjęcie lub wideo zostało stworzone przez AI. Wykorzystuje on technologię SynthID, czyli znak wodny osadzony w danych multimedialnych, który pozwala na identyfikację treści stworzonych przez modele Google.
Choć Google udostępniło SynthID jako projekt open source, nie wszystkie generatory AI z niego korzystają, więc wykrywalność wciąż ma swoje ograniczenia. Mimo to, to istotny krok w kierunku większej transparentności i bezpieczeństwa w erze generatywnej AI.

Pokaż / Dodaj komentarze do: To szok jakie postępy zrobiło Google - twórcy wideo mogą już myśleć o nowej pracy