StepFun zaprezentował StepAudio 2.5 Realtime - model głosu z roleplaying i paralingwistyką

StepFun zaprezentował StepAudio 2.5 Realtime - model głosu zdolny do naturalnych, ekspresyjnych rozmów w czasie rzeczywistym z zaawansowanym roleplaying i zrozumieniem paralingwistyki. Chińska firma udostępniła system, który trenowany został specjalnym wariantem reinforcement learning from human feedback - RLHF - pod kątem nie tylko generowania mowy, ale przede wszystkim tworzenia autentycznych postaci i emocjonalnego zabarwienia wypowiadanych słów. Model end-to-end obsługuje intonację, modulację głosu i subtelne aspekty komunikacji niespływ z samymi słowami, co w praktyce oznacza, że asystent może wyrażać żal, entuzjazm czy irytację w sposób zbliżony do człowieka.

To znaczące posunięcie dla branży AI chatbotów i asystentów głosowych. Dotychczas większość modeli mowy skupiała się przede wszystkim na zrozumieniu i wydaniu tekstu, traktując ekspresję jako drugorzędny element. StepAudio 2.5 Realtime zmienia to podejście, umożliwiając systemom conversational przyjęcie konkretnej roli - od przyjaznego nauczyciela po złośliwego postać w grze. Zdolność do rozumienia paralingwistyki pozwala modelowi nie tylko odpowiadać, ale również interpretować, co czuje rozmówca, i dostosowywać ton oraz sposób odpowiadania.

Praktyczne zastosowania są rozległy: od gier wideo z bardziej żywymi postaciami AI, poprzez zaawansowane chatboty obsługi klienta potrafiące reagować emocjonalnie, aż do edukacyjnych asystentów dostosowujących swój ton do potrzeb ucznia. Realna rozmowa w czasie rzeczywistym to już nie science fiction, ale technologia, która trafić może na rynek w najbliższych miesiącach. Dla branży oznacza to nowy standard - nie wystarczy będzie już mieć naturalnie brzmiejący głos, trzeba będzie zapewnić całą gamę emocjonalnej ekspresji.