W sierpniu 2023 roku firma Meta zaprezentowała przełomowy system tłumaczeniowy oparty na sztucznej inteligencji, zdolny obsłużyć blisko 100 języków. Rozwiązanie to, nazwane SeamlessM4T (Massively Multilingual and Multimodal Machine Translation), stanowi kolejny krok w stronę stworzenia „uniwersalnego tłumacza”.
SeamlessM4T to kompleksowy system, który integruje tłumaczenie tekstu na tekst, mowy na tekst, mowy na mowę oraz tekstu na mowę w ogromnej liczbie języków. W szczegółowym artykule opublikowanym w prestiżowym czasopiśmie Nature zespół badawczy Meta przedstawił zaawansowane rozwiązania technologiczne stojące za tym modelem. Jest to innowacyjne podejście, które odchodzi od tradycyjnych, kaskadowych systemów tłumaczeniowych, wymagających oddzielnych modułów do rozpoznawania mowy, translacji i syntezy. SeamlessM4T łączy te elementy w jednym zintegrowanym systemie, oferując płynność i spójność działania.
SeamlessM4T rozumie 101 języków
W praktyce SeamlessM4T obsługuje tłumaczenia mowy na mowę ze 101 na 36 języków, mowy na tekst dla 101 do 96 języków, tekstu na tekst dla 96 języków oraz tekstu na mowę z 96 do 36 języków. Dodatkowo system potrafi automatycznie rozpoznawać mowę w 96 językach. To wszystko sprawia, że rozwiązanie jest bardziej wszechstronne i wydajne w porównaniu do dotychczasowych modeli. Według wyników testów BLEU (Bilingual Evaluation Understudy), które mierzą dokładność tłumaczenia, SeamlessM4T osiąga aż 23% wyższą skuteczność niż inne systemy. Co więcej, model wykazuje imponującą odporność na szumy tła oraz różnice w głosach i intonacji mówców, sprawiając, że podobno jest wyjątkowo niezawodny w realnych warunkach.
Aby stworzyć SeamlessM4T, Meta wykorzystała ponad 4 miliony godzin wielojęzycznego dźwięku - to ponad 400 lat nagrań. Dane te zostały zgromadzone z publicznie dostępnych źródeł internetowych i przetworzone za pomocą nowoczesnych technik uczenia maszynowego. Kluczowym elementem projektu było opracowanie korpusu danych nazwanego SeamlessAlign, który zawiera ponad 470 000 godzin wyrównanych zapisów mowy. Dzięki temu naukowcy mogli zastosować zaawansowane techniki, takie jak osadzanie SONAR (Sentence-level Multimodal and Language-Agnostic Representations), które pozwalają na wielojęzyczne i niezależne od modalności kodowanie zarówno tekstu, jak i mowy.
Meta podkreśla, że wprowadzając SeamlessM4T, stawia na odpowiedzialne podejście do globalnej komunikacji. W systemie zastosowano zabezpieczenia, które mają na celu zmniejszenie uprzedzeń płciowych i zapobieganie toksycznym treściom w tłumaczeniach. Problem określania płci w językach gramatycznych oraz ryzyko wprowadzania obraźliwych treści były jednymi z głównych wyzwań, z którymi zespół Meta postanowił się zmierzyć.
SeamlessM4T już znajduje zastosowanie w takich usługach, jak automatyczny dubbing filmów na platformach społecznościowych Facebook i Instagram. Firma Meta widzi w tym modelu nie tylko narzędzie do tłumaczeń, ale także środek umożliwiający bardziej inkluzywną i precyzyjną komunikację na skalę globalną. W obliczu dynamicznie rosnącej liczby użytkowników technologii tłumaczeniowych SeamlessM4T może zrewolucjonizować sposób, w jaki ludzie na całym świecie porozumiewają się ponad barierami językowymi.
Pokaż / Dodaj komentarze do: Kolejny zawód odebrany przy pomocy AI. Jesteś w tej branży?