„Szwajcarski scyzoryk dźwięku” – NVIDIA rewolucjonizuje generatywną AI

Aktualności Oprogramowanie

Daniel Górecki
26 listopada 2024

Źródło: NVIDIA

„Szwajcarski scyzoryk dźwięku” – NVIDIA rewolucjonizuje generatywną AI

NVIDIA zaprezentowała eksperymentalny model generatywnej sztucznej inteligencji, który określa jako „szwajcarski scyzoryk dźwięku”. Model nosi nazwę Foundational Generative Audio Transformer Opus 1, w skrócie Fugatto, i potrafi na podstawie tekstowych poleceń generować dźwięk, modyfikować istniejącą muzykę, głosy oraz pliki dźwiękowe. Zespół badaczy z całego świata, który pracował nad projektem, skupił się również na wzmocnieniu jego możliwości w zakresie rozpoznawania różnych akcentów i wielojęzyczności.

Inteligencja inspirowana ludźmi

„Chcieliśmy stworzyć model, który rozumie i generuje dźwięk tak, jak robią to ludzie” – powiedział Rafael Valle, jeden z badaczy i kierownik działu zastosowań sztucznej inteligencji w NVIDIA.

Fugatto oferuje szereg potencjalnych zastosowań w różnych dziedzinach. Przykładowo:

Produkcja muzyki: Producenci mogą używać modelu do szybkiego tworzenia prototypów pomysłów na utwory, które można łatwo edytować, zmieniając styl, głosy lub instrumenty.
Nauka języków: Dzięki zdolności generowania materiałów dźwiękowych w wybranych głosach, model może być użyteczny przy tworzeniu narzędzi edukacyjnych.
Gry wideo: Deweloperzy mogą za jego pomocą tworzyć różnorodne warianty nagranych wcześniej dźwięków, które dopasowują się do działań gracza i zmian w grze.

Fugatto potrafi na podstawie tekstowych poleceń generować dźwięk, modyfikować istniejącą muzykę, głosy oraz pliki dźwiękowe.

Nowatorskie możliwości i alternatywy

Jednym z najbardziej ekscytujących aspektów Fugatto jest jego zdolność do realizowania zadań, które nie były częścią jego pierwotnego szkolenia. Dzięki delikatnemu dostrojeniu, model może łączyć różne instrukcje, takie jak generowanie mowy w konkretnym akcencie i emocji (np. złość) lub tworzenie efektów dźwiękowych, takich jak śpiew ptaków podczas burzy. Co więcej, Fugatto potrafi generować dźwięki zmieniające się w czasie – na przykład odgłosy ulewy przemieszczającej się po krajobrazie.

NVIDIA nie ogłosiła jeszcze, czy Fugatto będzie publicznie dostępny. Nie jest to jednak pierwszy model AI zdolny do generowania dźwięków z tekstu. Meta wcześniej udostępniła open-source'owe narzędzie AI, które tworzy dźwięki na podstawie opisów tekstowych, a Google oferuje dostęp do swojego modelu MusicLM za pośrednictwem platformy AI Test Kitchen.

Daniel Górecki Redaktor działu peryferii/ Kierownik działu NEWS

Facebook LinkedIn

Zgłoś autorowi błąd na stronie

„Szwajcarski scyzoryk dźwięku” – NVIDIA rewolucjonizuje generatywną AI

Inteligencja inspirowana ludźmi

Nowatorskie możliwości i alternatywy

„Szwajcarski scyzoryk dźwięku” – NVIDIA rewolucjonizuje generatywną AI

Komputery

Mobile

Gaming

Rankingi