Micorsoft opracował AI, które naśladuje precyzyjnie ludzki głos. Wystarczy 3-sekundowa próbka

Daniel Górecki | 11-01-2023, 12:31 | 0

Micorsoft opracował AI, które naśladuje precyzyjnie ludzki głos. Wystarczy 3-sekundowa próbka

Już od dłuższego czasu światowej klasy naukowcy wyrażają zaniepokojenie związane z rozwojem sztucznej inteligencji, a coraz więcej osób obawia się, że AI może odebrać im miejsca pracy. Najnowsza sztuczna inteligencja Microsoftu, choć niezwykle imponująca pod względem możliwości, może jeszcze zwiększyć ten niepokój.

Zespół naukowców Microsoftu ogłosił nową sztuczną inteligencję, która może dokładnie naśladować ludzki głos z zaledwie trzysekundowej próbki audio. Narzędzie do sztucznej inteligencji głosowej firmy z Redmond, zwane Vall-E, jest szkolone w zakresie „kodów pochodzących z gotowego modelu neuronowego kodeka audio”, a także 60 000 godzin mowy — 100 razy więcej niż istniejące systemy — od ponad 7000 mówców, z których większość pochodzi z audiobooków LibriVox należących do domeny publicznej.

Microsoftu ogłosił nową sztuczną inteligencję, która może dokładnie naśladować ludzki głos z zaledwie trzysekundowej próbki audio.

Microsoft have announced their AI "VALL-E"

Using a 3-second sample of human speech, it can generate super-high-quality text-to-text speech from the same voice. Even emotional range and acoustic environment of the
sample data can be reproduced. Here are some examples. pic.twitter.com/ExoS2VWO6d
— Del @ NaughtyDog (@TheCartelDel) January 7, 2023

Ars Technica donosi, że Vall-E opiera się na technologii o nazwie EnCodec, którą Meta ogłosiła w październiku 2022 r. Działa poprzez analizę głosu osoby, rozbicie informacji na komponenty i wykorzystanie jej szkolenia do syntezy brzmienia głosu, jak gdyby ten mówił różne frazy. Nawet po wysłuchaniu zaledwie trzysekundowej próbki, Vall-E może odtworzyć barwę i emocjonalny ton mówiącego.

„Wyniki eksperymentów pokazują, że Vall-E znacznie przewyższa najnowocześniejszy system TTS zero-shot [AI, który odtwarza głosy, których nigdy nie słyszał] pod względem naturalności mowy i podobieństwa do mówcy” — czytamy w artykule badawczym dostępnym w Cornell Uniwersytet. „Ponadto stwierdzono, że VALL-E może zachować w syntezie emocje mówcy i środowisko akustyczne”.

Przykłady możliwości Vall-E można znaleźć na GitHub. Wiele z nich jest naprawdę niesamowitych, brzmiących prawie identycznie jak oryginał, mimo że opierają się na tak krótkiej próbce dźwiękowej. Niektóre próbki są nieco bardziej zrobotyzowane i brzmią nieco bliżej tradycyjnego oprogramowania do czytania tekstu na głos (jak popularna Iwona), ale wciąż robi wrażenie i możemy spodziewać się poprawy sztucznej inteligencji z czasem.

Naukowcy Microsoftu uważają, że Vall-E może znaleźć zastosowanie jako narzędzie do zamiany tekstu na głos, edycji mowy i system tworzenia dźwięku przez łączenie go z innymi generatywnymi AI, takimi jak GPT-3.

Podobnie jak w przypadku wszystkich AI, istnieją obawy dotyczące potencjalnego niewłaściwego użycia Vall-E. Przykładem jest podszywanie się pod osoby publiczne, takie jak politycy, zwłaszcza gdy używa się ich razem z Deepfake. Przestępcy mogą też wykorzystać takie narzędzie, by oszukać ludzi, aby uwierzyli, że rozmawiają z kimś bliskim, przyjaciółmi lub urzędnikami i przekazali im poufne dane. Poza tym niektóre systemy bezpieczeństwa wykorzystują identyfikację głosową. Jeśli chodzi o wpływ na miejsca pracy, Vall-E byłby prawdopodobnie tańszą alternatywą dla zatrudniania aktorów głosowych.

Odnosząc się do ryzyka związanego z niewłaściwym użyciem Vall-E, naukowcy stwierdzili, że można je złagodzić. „Możliwe jest zbudowanie modelu wykrywania w celu rozróżnienia, czy klip audio został zsyntetyzowany przez Vall-E. Będziemy również wdrażać zasady AI firmy Microsoft podczas dalszego opracowywania modeli”.

Daniel Górecki Redaktor działu peryferii/ Kierownik działu NEWS

Facebook LinkedIn

Micorsoft opracował AI, które naśladuje precyzyjnie ludzki głos. Wystarczy 3-sekundowa próbka

Komentarze do: Micorsoft opracował AI, które naśladuje precyzyjnie ludzki głos. Wystarczy 3-sekundowa próbka

Pokaż / Dodaj komentarze do: Micorsoft opracował AI, które naśladuje precyzyjnie ludzki głos. Wystarczy 3-sekundowa próbka

RX 9060 XT na pierwszych testach wypada poniżej oczekiwań. AMD się nie poddaje

Nowy materiał, nowa era. Samsung szykuje szklaną rewolucję

iiyama wprowadza monitor z logowaniem twarzą i stacją dokującą USB-C

MSI doradza i nagradza. Dobierz idealnego laptopa i odbierz 100 zł

Sony masowo blokuje konta Rosjan. Obrywa się też innym krajom

MSI prezentuje rewolucyjne komponenty PC na COMPUTEX 2025