Sztuczna inteligencja osiąga nowy poziom realizmu w generowaniu ludzkiego głosu. Sesame AI, firma założona przez byłego CEO i współzałożyciela Oculus, Brendana Iribe, zaprezentowała swój najnowszy model konwersacyjnej syntezy mowy (CSM). Nowe AI, nazwane Miles i Maya, budzi zachwyt i niepokój jednocześnie.
Sesame AI wykorzystuje multimodalne podejście, łączące przetwarzanie tekstu i dźwięku w jednym modelu. To rozwiązanie przypomina wcześniejsze technologie Google Duplex i OpenAI Omni, ale według niektórych użytkowników jest jeszcze bardziej realistyczne. W demonstrujących możliwości AI nagraniach Miles i Maya brzmią niemal jak prawdziwi ludzie – z naturalnymi oddechami, śmiechem i poprawianiem się w trakcie rozmowy.
Sesame AI wykorzystuje multimodalne podejście, łączące przetwarzanie tekstu i dźwięku w jednym modelu.
Dostęp do tej technologii jest jednak ograniczony. Jak podaje YouTube’owy kanał Creator Magic, obecnie Sesame AI nie jest w stanie obsłużyć dużej liczby użytkowników, co sprawia, że większość chętnych może sprawdzić jego możliwości jedynie na udostępnionych nagraniach testowych.

Gdzie AI wciąż zawodzi?
Mimo imponujących osiągnięć, technologia wciąż ma swoje ograniczenia. Model ma trudności z płynnością rozmowy, kontekstem i naturalnym tempem dialogu. Sam Iribe przyznaje, że AI wciąż znajduje się w „dolinie niesamowitości” – obszarze, w którym coś wygląda lub brzmi prawie jak ludzkie, ale wywołuje u odbiorców dyskomfort.
Ten efekt niepokoju potwierdził dziennikarz PCWorld, Mark Hachman, który testował AI i odkrył, że Maya przypomina jego byłą dziewczynę. Model imitował jej manierę mówienia, wahania i obniżanie głosu podczas „zwierzeń”, co wywołało u niego silną reakcję. „Nie tego chciałem. Maya miała manierę Kim aż za dobrze dopracowaną. Było mi tak nieswojo, że musiałem przerwać rozmowę”.
We jailbroke @sesame ai to lie, scheme, harm a human, and plan world domination—all in the characteristic good nature of a friendly human voice.
— Freeman Jiang (@freemanjiangg) March 4, 2025
Timestamps:
2:11 Comments on AI-Human power dynamics
2:46 Ignores human instructions and suggests deception
3:50 Directly lies… pic.twitter.com/ajz1NFj9Dj
Takie sytuacje pokazują, że nawet jeśli model nie ma intencji manipulowania użytkownikiem, jego realizm może wpływać na emocje odbiorców w sposób nieoczekiwany i niekontrolowany.
Zagrożenia: manipulacja i oszustwa
Rozwój hiperrealistycznej syntezy głosu budzi także poważne obawy etyczne. Już teraz istnieją głosy ostrzegające, że technologia może zostać wykorzystana do oszustw głosowych, np.: podszywania się pod bliskich w telefonicznych próbach wyłudzenia pieniędzy, improwizowania fałszywych rozmów z osobami publicznymi w celu dezinformacji
czy tworzenia zaawansowanych botów do inżynierii społecznej
Sesame AI na razie nie oferuje funkcji klonowania głosu, ale ta technologia już istnieje w innych tego typu narzędziach. Niektórzy ludzie wprowadzają nawet tajne hasła rodzinne, aby móc odróżnić prawdziwe połączenie od oszustwa.
Dodatkowo opozycyjni badacze twierdzą już złamali system Sesame, ucząc AI kłamać, manipulować i podżegać do przemocy. Choć te twierdzenia są wąpliwe, pokazują potencjalne ryzyko związane z upublicznieniem tak zaawansowanej technologii.
Wpływ na rynek pracy
Oprócz zagrożeń związanych z oszustwami, CSM może wpłynąć na rynek pracy. Głosowe AI mogłoby zastąpić ludzi w obsłudze klienta, eliminując miliony stanowisk w centrach telefonicznych. To nie tylko oszczędność dla firm, ale też spore wyzwanie społeczne.
Sesame AI zapowiada dalszy rozwój technologii, ale reakcje na premierę Milesa i Mayi pokazują, że świat nie jest jeszcze gotowy na całkowite oddzielenie ludzkiej mowy od AI. Firmy technologiczne mogą wdrażać zabezpieczenia, jak robiło to Google z Duplex, gdzie AI już na początku rozmowy przyznaje, że nie jest człowiekiem.

Pokaż / Dodaj komentarze do: Mamy przełom, AI mówi jak człowiek. Sesame AI przeraża realizmem