Zespół badaczy opracował TurnNat - nowy framework do automatycznej oceny naturalności wymiany tur w dwukanałowych dialogach mówonych. System rozwiązuje dotychczasowy problem: naturalność wymiaны tur jest kluczowa dla pełnodupleksowych systemów dialogowych, ale jej automatyczna ocena pozostawała ograniczona, opierając się głównie na ocenach człowieka lub metrykach specyficznych dla konkretnych przypadków.
TurnNat wykorzystuje model predykcji wytrenowany na naturalnych rozmowach do estymowania przyszłych stanów aktywności głosu dwojga rozmówców. Kluczową metryką jest ujemna wiarygodność logarytmiczna (NLL) obserwowanej aktywności - im wyższa wartość, tym bardziej nienaturalny jest timing. System zbiera wyniki na poziomie ramek audio skupionych wokół jednostek granicznych wymian tur (TBU) wyznaczonych przez początek i koniec wypowiedzi, następnie agreguje je w pojedynczą ocenę naturalności na poziomie całego dialogu.
Badacze skonstruowali benchmark zawierający pary naturalnych i zaburzonych fragmentów dialogów, zwalidowane ocenami naturalności dokonanymi przez ludzi. Eksperymenty pokazały, że TurnNat skutecznie identyfikuje nienaturalne zaburzenia wymiany tur niezależnie od rodzaju błędu czasowego. To stanowi istotny postęp dla rozwoju systemów dialogowych zdolnych do naturalnej komunikacji w czasie rzeczywistym.