Podczas konferencji SIGGRAPH Asia 2024, Nvidia zaprezentowała nowatorski model sztucznej inteligencji o nazwie DiffUHaul, który pozwala na przenoszenie obiektów na obrazach w sposób przestrzennie świadomy, zachowując integralność tła i struktury obrazu. Technologia ta, opracowana we współpracy z wiodącymi uczelniami izraelskimi, wyróżnia się innowacyjnym podejściem, które nie wymaga wcześniejszego szkolenia na dużych zbiorach danych.
Nowa era edycji obrazu z pomocą AI
W opublikowanym artykule badacze z Nvidii, Uniwersytetu Hebrajskiego w Jerozolimie, Uniwersytetu w Tel Awiwie i Uniwersytetu Reichmana opisali szczegóły nowego narzędzia. DiffUHaul to odpowiedź na dotychczasowe ograniczenia sztucznej inteligencji w zakresie edycji obrazu. Podczas gdy współczesne modele AI potrafią analizować kontekst obrazu, wciąż brakowało im zdolności do przestrzennego rozumienia zmian pozycji obiektów w środowisku dwuwymiarowym. Zasadniczym problemem, na który odpowiedziano dzięki DiffUHaul, była potrzeba precyzyjnego przenoszenia obiektów bez naruszania struktury i realizmu obrazu. Wykorzystanie architektury dyfuzji obrazu oraz nowatorskich metod, takich jak maskowanie uwagi w procesie odszumiania, umożliwiło zachowanie wysokopoziomowych cech wizualnych obiektów podczas ich relokacji.
Brak wykorzystania danych przedszkoleniowych w procesie budowy DiffUHaul podkreśla unikalny charakter tej technologii.
Technologie stojące za DiffUHaul
Jednym z kluczowych elementów technologii DiffUHaul jest BlobGEN, technika integrująca przestrzenne rozumienie z procesami AI. Pozwala ona na precyzyjne przekształcenie obrazów z zachowaniem realizmu w nowym układzie przestrzennym. Dzięki tym innowacjom sztuczna inteligencja jest w stanie zrekonstruować rzeczywiste obrazy w nowym kontekście przestrzennym, wypełniając luki, które dotąd były wąskim gardłem technologii AI. Użytkownicy narzędzia będą mogli wskazać obiekt do przeniesienia za pomocą tekstowego polecenia lub interfejsu graficznego, a DiffUHaul dostosuje zarówno pozycję obiektu, jak i otaczające go tło. Jest to istotny krok naprzód w stosunku do obecnych modeli edycji obrazu, które często wymagały manualnych poprawek lub specjalistycznej wiedzy, by uzyskać zadowalające efekty.
Choć narzędzie budzi duże nadzieje, badacze przyznają, że ma ono swoje ograniczenia. DiffUHaul w obecnej formie może mieć trudności z uwzględnianiem fizycznych zmian obiektu wynikających z jego relokacji. Na przykład, przeniesienie balonu z powietrza na ziemię mogłoby wymagać zmiany jego kształtu – zadanie, które obecny model może nie być w stanie wykonać bez dodatkowego szkolenia.
Pokaż / Dodaj komentarze do: NVIDIA pokazuje spektakularne narzędzie. Każdy może być teraz mistrzem edycji