NVIDIA zaprezentowała eksperymentalny model generatywnej sztucznej inteligencji, który określa jako „szwajcarski scyzoryk dźwięku”. Model nosi nazwę Foundational Generative Audio Transformer Opus 1, w skrócie Fugatto, i potrafi na podstawie tekstowych poleceń generować dźwięk, modyfikować istniejącą muzykę, głosy oraz pliki dźwiękowe. Zespół badaczy z całego świata, który pracował nad projektem, skupił się również na wzmocnieniu jego możliwości w zakresie rozpoznawania różnych akcentów i wielojęzyczności.
Inteligencja inspirowana ludźmi
„Chcieliśmy stworzyć model, który rozumie i generuje dźwięk tak, jak robią to ludzie” – powiedział Rafael Valle, jeden z badaczy i kierownik działu zastosowań sztucznej inteligencji w NVIDIA.
Fugatto oferuje szereg potencjalnych zastosowań w różnych dziedzinach. Przykładowo:
- Produkcja muzyki: Producenci mogą używać modelu do szybkiego tworzenia prototypów pomysłów na utwory, które można łatwo edytować, zmieniając styl, głosy lub instrumenty.
- Nauka języków: Dzięki zdolności generowania materiałów dźwiękowych w wybranych głosach, model może być użyteczny przy tworzeniu narzędzi edukacyjnych.
- Gry wideo: Deweloperzy mogą za jego pomocą tworzyć różnorodne warianty nagranych wcześniej dźwięków, które dopasowują się do działań gracza i zmian w grze.
Fugatto potrafi na podstawie tekstowych poleceń generować dźwięk, modyfikować istniejącą muzykę, głosy oraz pliki dźwiękowe.
Nowatorskie możliwości i alternatywy
Jednym z najbardziej ekscytujących aspektów Fugatto jest jego zdolność do realizowania zadań, które nie były częścią jego pierwotnego szkolenia. Dzięki delikatnemu dostrojeniu, model może łączyć różne instrukcje, takie jak generowanie mowy w konkretnym akcencie i emocji (np. złość) lub tworzenie efektów dźwiękowych, takich jak śpiew ptaków podczas burzy. Co więcej, Fugatto potrafi generować dźwięki zmieniające się w czasie – na przykład odgłosy ulewy przemieszczającej się po krajobrazie.
NVIDIA nie ogłosiła jeszcze, czy Fugatto będzie publicznie dostępny. Nie jest to jednak pierwszy model AI zdolny do generowania dźwięków z tekstu. Meta wcześniej udostępniła open-source'owe narzędzie AI, które tworzy dźwięki na podstawie opisów tekstowych, a Google oferuje dostęp do swojego modelu MusicLM za pośrednictwem platformy AI Test Kitchen.
Pokaż / Dodaj komentarze do: „Szwajcarski scyzoryk dźwięku” – NVIDIA rewolucjonizuje generatywną AI