Nvidia pokazała AI, która rozumie fizyczny świat. Cosmos 3 to coś, czego jeszcze nie było


Nvidia pokazała AI, która rozumie fizyczny świat. Cosmos 3 to coś, czego jeszcze nie było

NVIDIA podczas konferencji GTC Taipei zaprezentowała nowy model sztucznej inteligencji Cosmos 3, który według firmy jest pierwszym na świecie w pełni otwartym „omnimodelem” zdolnym jednocześnie rozumieć obraz, tekst, dźwięk oraz generować różne rodzaje treści z uwzględnieniem zachowań fizycznych i relacji pomiędzy obiektami.

Producent tłumaczy, iż Cosmos 3 został stworzony przede wszystkim z myślą o robotach, autonomicznych pojazdach oraz systemach AI analizujących obraz w czasie rzeczywistym. NVIDIA uważa, że obecnie największym problemem takich technologii jest ograniczona ilość danych treningowych oraz trudność w realistycznym odwzorowywaniu fizycznego świata w symulacjach komputerowych.

NVIDIA pokazuje nowy model AI

Nowy model ma rozwiązywać ten problem poprzez połączenie dwóch różnych typów transformatorów AI. Pierwszy odpowiada za analizowanie oraz rozumienie zależności pomiędzy obiektami, ruchem i przestrzenią, natomiast drugi zajmuje się generowaniem odpowiedzi, obrazu, wideo i działań wynikających z wcześniej przeprowadzonej analizy.

NVIDIA podczas konferencji GTC Taipei zaprezentowała nowy model sztucznej inteligencji Cosmos 3, który według firmy jest pierwszym na świecie w pełni otwartym „omnimodelem” zdolnym jednocześnie rozumieć obraz, tekst, dźwięk oraz generować różne rodzaje treści z uwzględnieniem zachowań fizycznych i relacji pomiędzy obiektami.

W praktyce oznacza to, iż Cosmos 3 nie tylko rozpoznaje elementy znajdujące się na obrazie lub w nagraniu wideo, ale ma również rozumieć, jak obiekty oddziałują na siebie w świecie fizycznym. Dzięki temu sztuczna inteligencja może przewidywać zachowanie otoczenia oraz generować bardziej realistyczne reakcje i symulacje.

NVIDIA podkreśla również, że Cosmos 3 jest modelem multimodalnym, więc potrafi jednocześnie obsługiwać tekst, obrazy, dźwięk otoczenia, wideo oraz akcje wykonywane przez urządzenia czy roboty. NVIDIA widzi tutaj ogromny potencjał między innymi dla autonomicznych samochodów, przemysłowych robotów oraz przyszłych inteligentnych agentów AI działających lokalnie na urządzeniach.

Zastosowanie

Model może być wykorzystywany na kilka sposobów. NVIDIA opisuje go zarówno jako klasyczny vision language model analizujący obraz i język, jak i tak zwany world model, czyli system symulujący fizyczne środowiska oraz przewidujący przyszłe stany świata na podstawie obserwowanych danych.

Producent zapowiedział już kilka wersji Cosmos 3. Najbardziej zaawansowany wariant Cosmos 3 Super ma oferować najwyższą jakość odpowiedzi i generowanych materiałów, natomiast Cosmos 3 Nano przygotowano z myślą o lżejszych zastosowaniach. W przyszłości pojawi się również Cosmos 3 Edge przeznaczony dla urządzeń edge computing działających lokalnie i w czasie rzeczywistym.

Jak widać, NVIDIA pokazuje, iż kolejny etap rozwoju AI może skupiać się nie tylko na generowaniu treści, ale również na rozumieniu otoczenia i przewidywaniu zachowań obiektów w świecie fizycznym. To kierunek szczególnie ważny dla robotyki oraz autonomicznych systemów transportu.

Spodobało Ci się? Podziel się ze znajomymi!

Pokaż / Dodaj komentarze do:

Nvidia pokazała AI, która rozumie fizyczny świat. Cosmos 3 to coś, czego jeszcze nie było
 0