SPARCLE: reprezentacje grafemów uwzględniające głos za pomocą kontrastywnych embedingów

Zespół badawczy zaproponował SPARCLE - nowy model reprezentacji grafemów, który przejmuje rolę tradycyjnych systemów konwersji grafem-fonem (G2P) w zadaniach syntezy mowy (TTS). Zamiast polegać na fonemach, które mimo że adresują problem jednocześnie wielu realizacji akustycznych tego samego tekstu, nie uwzględniają zmienności specyficznej dla danego mówcy, SPARCLE wzbogaca znaki ich precyzyjnymi realizacjami akustycznymi.

Model trenowany jest za pomocą contrastive learning - zdefiniowanej jako SPARCLE - aby wyrównać reprezentacje grafemów z odpowiadającymi im reprezentacjami akustycznymi z modelu Wav2Vec2, jednocześnie biorąc pod uwagę tożsamość mówcy. To podejście pozwala modelowi nauczyć się jak poszczególne znaki brzmią dla konkretnych głosów, co jest kluczowe w warunkach o ograniczonych zasobach treningowych.

Wyniki badań pokazują, że SPARCLE znacznie poprawia jakość generowania mowy. W ekstremalnych warunkach niskich zasobów model zmniejsza współczynnik błędów wyrazów o 50 procent w porównaniu ze standardowymi modelami opartymi na grafemach. To jest istotne, ponieważ wcześniejsze badania wykazały, że modele oparte na grafemach przewyższają systemy fonemowe w dużych zbiorach danych, ale nie radzą sobie dobrze gdy danych treningowych jest mało. SPARCLE rozwiązuje ten problem, tworząc most między różnymi scenariuszami zasobów.