Micorsoft opracował AI, które naśladuje precyzyjnie ludzki głos. Wystarczy 3-sekundowa próbka

Micorsoft opracował AI, które naśladuje precyzyjnie ludzki głos. Wystarczy 3-sekundowa próbka

Już od dłuższego czasu światowej klasy naukowcy wyrażają zaniepokojenie związane z rozwojem sztucznej inteligencji, a coraz więcej osób obawia się, że AI może odebrać im miejsca pracy. Najnowsza sztuczna inteligencja Microsoftu, choć niezwykle imponująca pod względem możliwości, może jeszcze zwiększyć ten niepokój. 

Zespół naukowców Microsoftu ogłosił nową sztuczną inteligencję, która może dokładnie naśladować ludzki głos z zaledwie trzysekundowej próbki audio. Narzędzie do sztucznej inteligencji głosowej firmy z Redmond, zwane Vall-E, jest szkolone w zakresie „kodów pochodzących z gotowego modelu neuronowego kodeka audio”, a także 60 000 godzin mowy — 100 razy więcej niż istniejące systemy — od ponad 7000 mówców, z których większość pochodzi z audiobooków LibriVox należących do domeny publicznej.

Microsoftu ogłosił nową sztuczną inteligencję, która może dokładnie naśladować ludzki głos z zaledwie trzysekundowej próbki audio.

Ars Technica donosi, że Vall-E opiera się na technologii o nazwie EnCodec, którą Meta ogłosiła w październiku 2022 r. Działa poprzez analizę głosu osoby, rozbicie informacji na komponenty i wykorzystanie jej szkolenia do syntezy brzmienia głosu, jak gdyby ten mówił różne frazy. Nawet po wysłuchaniu zaledwie trzysekundowej próbki, Vall-E może odtworzyć barwę i emocjonalny ton mówiącego.

„Wyniki eksperymentów pokazują, że Vall-E znacznie przewyższa najnowocześniejszy system TTS zero-shot [AI, który odtwarza głosy, których nigdy nie słyszał] pod względem naturalności mowy i podobieństwa do mówcy” — czytamy w artykule badawczym dostępnym w Cornell Uniwersytet. „Ponadto stwierdzono, że VALL-E może zachować w syntezie emocje mówcy i środowisko akustyczne”.

AI

Przykłady możliwości Vall-E można znaleźć na GitHub. Wiele z nich jest naprawdę niesamowitych, brzmiących prawie identycznie jak oryginał, mimo że opierają się na tak krótkiej próbce dźwiękowej. Niektóre próbki są nieco bardziej zrobotyzowane i brzmią nieco bliżej tradycyjnego oprogramowania do czytania tekstu na głos (jak popularna Iwona), ale wciąż robi wrażenie i możemy spodziewać się poprawy sztucznej inteligencji z czasem.

Naukowcy Microsoftu uważają, że Vall-E może znaleźć zastosowanie jako narzędzie do zamiany tekstu na głos, edycji mowy i system tworzenia dźwięku przez łączenie go z innymi generatywnymi AI, takimi jak GPT-3.

Podobnie jak w przypadku wszystkich AI, istnieją obawy dotyczące potencjalnego niewłaściwego użycia Vall-E. Przykładem jest podszywanie się pod osoby publiczne, takie jak politycy, zwłaszcza gdy używa się ich razem z Deepfake. Przestępcy mogą też wykorzystać takie narzędzie, by oszukać ludzi, aby uwierzyli, że rozmawiają z kimś bliskim, przyjaciółmi lub urzędnikami i przekazali im poufne dane. Poza tym niektóre systemy bezpieczeństwa wykorzystują identyfikację głosową. Jeśli chodzi o wpływ na miejsca pracy, Vall-E byłby prawdopodobnie tańszą alternatywą dla zatrudniania aktorów głosowych.

Odnosząc się do ryzyka związanego z niewłaściwym użyciem Vall-E, naukowcy stwierdzili, że można je złagodzić. „Możliwe jest zbudowanie modelu wykrywania w celu rozróżnienia, czy klip audio został zsyntetyzowany przez Vall-E. Będziemy również wdrażać zasady AI firmy Microsoft podczas dalszego opracowywania modeli”.

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: Micorsoft opracował AI, które naśladuje precyzyjnie ludzki głos. Wystarczy 3-sekundowa próbka

 0