IBM wydał dwa nowe modele Granite Speech 4.1 o rozmiarze 2 miliardów parametrów dedykowane automatycznemu rozpoznawaniu mowy (ASR) z wbudowaną funkcją tłumaczenia oraz edycji non-autoregresywnej dla szybszych wnioskowania. Modele łączą architekturę autoregresywną do rozpoznawania i tłumaczenia mowy z techniką non-autoregresywną umożliwiającą szybkie edycję i poprawianie wyników. To rozwiązanie jest szczególnie ważne dla aplikacji wymagających niskich opóźnień i szybkiej obróbki audio w czasie rzeczywistym. Wydanie otwartych, lekkich modeli stanowi znaczący krok w demokratyzacji zaawansowanych
Badania
MarkTechPost