Badacze z branży AI przeprowadzili pierwszy systematyczny przegląd systemów automatycznego coachingu dla prezentacji ustnych, obejmujący tutorów wymowy, trenerów płynności i prozodii oraz narzędzia multimodalne do ćwiczenia sesji pytań i odpowiedzi na konferencjach. Ta dziedzina rozwija się na przecięciu treningu wymowy wspomaganego komputerem, modelowania prozodii mowy oraz syntezy głosu, jednak dotąd brakuje ujednoliconej oceny istniejących rozwiązań.
Surveya wprowadza pięciowymiarową taksonomię zadań obejmującą wymowę segmentalną, akcent leksykalny, prozodię suprasegmentalną, tempo wypowiadania i wierność treści. Mapując systemy na tę ramę, autorzy ujawnili znaczące luki - wiele narzędzi pokrywa fragmentarycznie poszczególne aspekty trenerowania. Metodologicznie systemy opierają się głównie na syntezie mowy do generowania przykładów oraz metodach diagnostycznych oceniających wymowę, prozodię i płynność.
Kluczowe wyzwania dla przyszłych rozwiązań to niedobór adnotowanych korpusów specjalistycznych prezentacji, problem neutralnego feedbacku dla osób z różnymi językami rodzinnymi i akcentami, oraz potrzeba diagnostyki z niskim opóźnieniem dla rzeczywistej praktyki. Przegląd stanowi mapę drogową dla badaczy pracujących nad kolejną generacją narzędzi do trenowania komunikacji, pokazując gdzie są największe szanse na innowacje.