StepFun udostępnił StepAudio 2.5 Realtime, zaawansowany model głosu end-to-end trenowany specjalnym RLHF do odgrywania ról oraz rozumienia paralingwistyki (intonacji, emocji, modulacji). Model umożliwia naturalne konwersacje w czasie rzeczywistym z bogatą ekspresją głosową. To istotne dla rozwoju interaktywnych asystentów AI, którzy mogą naśladować różne persona i emocje, mając szerokie zastosowanie w grach, chatbotach i systemach conversational.
Badania
MarkTechPost