Zespół badawczy zaprezentował NEST-V1 - sistem do konwersji nepalskiej mowy na znaki języka migowego wygenerowane przez awatary, które mogą wyrażać emocje. To первый system łączący wszystkie trzy elementy: rozpoznawanie mowy, klasyfikację emocjonalną i syntezę znków dla języka niskobudżetowego jak nepalski.
Architektura systemu wykorzystuje wspólny koder akustyczny do jednoczesnego przetwarzania mowy i rozpoznawania emocji. W badaniach na zbiorze 600 próbek audio od 50 mówców system uzyskał 81,1% dokładności rozpoznawania mowy i 79,21% w klasyfikacji emocji (szczęśliwy, neutralny, smutny). Choć na razie testowany na zaledwie czterech słowach nepalskich (dziękuję, cześć, dom, ja), wykazał 37% większą efektywność parametrów niż podejścia ze oddzielnymi modelami.
Znaczące dla praktyki jest, że model zawiera tylko 22,1 miliona parametrów, co umożliwia jego wdrożenie na brzegowych urządzeniach bez potrzeby stałego połączenia z serwerem. Badacze podkreślają, że to badanie pilotażowe stanowi fundament dla tworzenia systemów komunikacji w języku migowym z emocjonalnym wyrazem dla społeczności niesłyszących w krajach o ograniczonych zasobach danych szkoleniowych. Otwiera to ścieżkę do rozszerzenia na większe słownictwo i bardziej zróżnicowane wyrażenia emocjonalne.