Gradium wypuszcza modele tłumaczenia mowy w czasie rzeczywistym biją ChatGPT

Gradium zaprezentował dwa innowacyjne modele do tłumaczenia mowy w czasie rzeczywistym, które znacznie upraszczają architekturę tradycyjnych systemów. Model stt-translate wykonuje transkrypcję i tłumaczenie w jednym przejściu - zamiast najpierw transkrybować mowę na tekst w oryginalnym języku, a potem tłumaczyć wynik, cały proces zachodzi jednocześnie wewnątrz modelu mowy. Model s2s-translate idzie dalej, konwertując mowę bezpośrednio na mowę w języku docelowym. Oba wspierają pięć języków (angielski, francuski, niemiecki, hiszpański i portugalski) i razem obsługują 20 par tłumaczeniowych w każdym kierunku.

Na polu wydajności rozwiązanie Gradium konkuruje z największymi graczami w branży. Pod względem dokładności modele wygrywają z gemini-3.5-live-translate na metrykach BLEU i MetricX, a także przewyższają gpt-realtime-translate na BLEU. Opóźnienie wynosi średnio 3,0 sekundy, co jest szybsze niż gpt-realtime-translate (3,6 sekundy) i porównywalne z gemini-3.5-live-translate (2,9 sekundy). Kluczową zaletą jest uproszczenie - dwa modele zamiast trzech w tradycyjnym podejściu eliminują opóźnienia wynikające z handowaniem między systemami.

Gradium dodał także funkcje, których brakuje konkurencji. Użytkownicy mogą wybierać głos wyjściowy lub klonować własny głos, wszystko udostępniane przez jeden dwustronny WebSocket, co umożliwia płynne interakcje w przeglądarce bez przełączania między narzędziami. To praktyczne podejście czyni rozwiązanie bardziej dostępnym dla aplikacji webowych i usług wymagających niskiego opóźnienia w tłumaczeniu mowy na żywo.