Google prezentuje Gemini 3.5 Live Translate — tłumaczenie głosu w czasie rzeczywistym

Google ujawnił nową funkcję Live Translate dla swojego modelu Gemini 3.5, która wykonuje tłumaczenie głosu-na-głos w czasie rzeczywistym. Co wyróżnia to rozwiązanie, to umiejętność zachowania nie tylko słów, ale również charakterystycznych cech głosu mówiącego — jego tonu, tempa mówienia i barwy. Dzięki temu rozmowy pomiędzy osobami mówiącymi różnymi językami mogą być bardziej naturalne i mniej sztuczne.

Technologia wykorzystuje systemy syntezy mowy zasilane modelami AI, które mogą generować mowę podobną do ludzkiej z zachowaniem personalnych cech głosu. Google dodał do tego rozwiązania watermarking za pomocą technologii SynthID, która stanowi warstwę bezpieczeństwa. Pozwala ona zidentyfikować treści wygenerowane sztuczną inteligencją i zapobiegać potencjalnemu nieautoryzowanemu użytkowaniu syntetycznych głosów.

Taka funkcjonalność ma ogromne implikacje dla komunikacji biznesowej, edukacji i codziennych rozmów międzynarodowych. Zamiast polegać na tekstowych tłumaczeniach lub słuchać syntetycznego, monotonnego głosu, użytkownicy mogą prowadzić rozmowy prawie tak naturalne jak twarzą w twarz. To kolejny krok w kierunku łamania barier językowych, chociaż pozostają pytania dotyczące dokładności tłumaczenia dla mniej popularnych języków i bieżące wyzwania etyczne związane z technologią syntezy głosu.