Meta przedstawia AudioCraft, generatywne AI do audio dostępne dla każdego

Aktualności Sprzęt

Daniel Górecki
4 sierpnia 2023

Źródło: meta

Generatywne sztuczne inteligencje są zwykle projektowane do łatwego tworzenia nieruchomych obrazów lub fragmentów tekstu poprzez interpretację instrukcji użytkowników. Meta przygotowało jednak takie AI, które specjalizować będzie się w tworzeniu treści audio i muzyki.

AudioCraft

Meta uruchomiła AudioCraft, platformę z licencją open source do generowania „wysokiej jakości” realistycznego dźwięku i muzyki. Technologia została stworzona w celu wypełnienia luki na rynku generatywnej sztucznej inteligencji, gdzie twórcy AI mniej chętnie oferują technologię do tworzenia tekstu lub obrazów. Chociaż poczyniono już pewne postępy w tej dziedzinie, firma przyznaje, że istniejące rozwiązania są bardzo skomplikowane, niezbyt otwarte i trudno dostępne.

Meta uruchomiła AudioCraft, platformę z licencją open source do generowania „wysokiej jakości” realistycznego dźwięku i muzyki.

Framework AudioCraft to biblioteka PyTorch do badań głębokiego uczenia nad generowaniem dźwięku, składająca się z trzech głównych komponentów: MusicGen, AudioGen i EnCodec. Według Meta, MusicGen generuje muzykę z tekstowych danych wprowadzanych przez użytkownika, podczas gdy AudioGen jest przeznaczony do tworzenia efektów dźwiękowych. EnCodec, który został wprowadzony w 2022 roku, to zaawansowana technologia kodowania zdolna do „hiperkompresji” strumieni audio.

Chwytliwe melodie i piosenki od podstaw

Model MusicGen AI może generować chwytliwe melodie i piosenki od podstaw. Meta podaje kilka przykładów wygenerowanych na podstawie podpowiedzi tekstowych, takich jak „Popowy utwór taneczny z chwytliwymi melodiami, tropikalnymi instrumentami perkusyjnymi i optymistycznymi rytmami, idealny na plażę”.

AudioGen może być używany do generowania środowiskowych efektów dźwiękowych w tle, takich jak szczekanie psa lub zbliżająca się i mijająca słuchacza syrena. Wersja open-source EnCodec to ulepszona wersja kodeka zaprezentowana w 2022 roku, ponieważ pozwala teraz na generowanie muzyki o wyższej jakości z mniejszą liczbą artefaktów.

AudioCraft zapewnia uproszczone podejście do generowania dźwięku, co zawsze stanowiło wyzwanie. Firma wyjaśnia, że tworzenie dowolnego rodzaju dźwięku o wysokiej wierności wymaga modelowania złożonych sygnałów i wzorów w różnych skalach. Muzyka jest najtrudniejszym rodzajem dźwięku do generowania, ponieważ składa się z lokalnych i dalekiego zasięgu wzorców. Meta wyjaśnia, że poprzednie modele wykorzystywały symboliczne reprezentacje, takie jak MIDI lub rolki fortepianowe, do generowania treści, ale to podejście zawodzi, gdy próbuje się uchwycić wszystkie „ekspresyjne niuanse i elementy stylistyczne” występujące w muzyce.

Meta twierdzi, że MusicGen został przeszkolony na około 400 000 nagrań wraz z opisami tekstowymi i metadanymi. Model pochłonął 20 000 godzin muzyki bezpośrednio należącej do firmy lub licencjonowanej specjalnie do tego celu. W porównaniu z OpenAI i innymi modelami generatywnymi, Meta wydaje się dążyć do uniknięcia wszelkich kontrowersji licencyjnych lub potencjalnych problemów prawnych związanych z nieetycznymi praktykami szkoleniowymi.

Daniel Górecki Redaktor działu peryferii/ Kierownik działu NEWS

Facebook LinkedIn

Zgłoś autorowi błąd na stronie

Meta przedstawia AudioCraft, generatywne AI do audio dostępne dla każdego

AudioCraft

Chwytliwe melodie i piosenki od podstaw

Meta przedstawia AudioCraft, generatywne AI do audio dostępne dla każdego

Komputery

Mobile

Gaming

Rankingi