NVIDIA pokazała Nemotron 3.5 ASR – model transkrypcji dla 40 języków

NVIDIA wydała Nemotron 3.5 ASR, nowy model do automatycznego rozpoznawania mowy (ASR). Model zawiera 600 milionów parametrów i jest przeznaczony do transkrypcji w czasie rzeczywistym. Ciekawie jest, że obsługuje 40 różnych wariantów językowych – od głównych języków po lokalne dialekty – wszystko z jednego wspólnego punktu kontrolnego.

To znaczący krok naprzód w wielojęzyczności systemów ASR. Dotychczasowe rozwiązania wymagały oddzielnych modeli dla każdego języka lub kompromisów w jakości. Nemotron 3.5 zmienia tę grę, oferując pojedynczy, kompaktowy model, który potrafi się sprawdzić w różnych wariantach językowych bez konieczności ponownego trenowania.

Optymalizacja pod kątem cache'owania jest równie ważna – oznacza to, że model efektywnie wykorzystuje zasoby sprzętowe dostępne w typowych serwerach i urządzeniach brzegowych. Takie podejście otwiera drzwi dla wdrażania zaawansowanej transkrypcji mowy w aplikacjach, które wcześniej mogły sobie na to nie pozwolić. Scenariusze zastosowania obejmują call center'y, asystentów głosowych, transkrypcję konferencji czy systemy dostępności dla osób z niepełnosprawnościami.