IBM udostępnia modele Granite Speech 4.1 2B z automatycznym rozpoznawaniem mowy i tłumaczeniem

IBM wydał dwa nowe modele Granite Speech 4.1 o rozmiarze 2 miliardów parametrów, które łączą automatyczne rozpoznawanie mowy z tłumaczeniem i szybką edycją wyników. Nowością w stosunku do wcześniejszych wersji jest hybrydowe podejście do architektury - modele używają automatycznego podejścia do głównego rozpoznawania i tłumaczenia, ale dodatkowo wprowadzają technikę non-autoregresywną, która pozwala na szybkie poprawianie i edycję wyników bez konieczności przetwarzania całej sekwencji od początku. To rozwiązanie istotnie przyspiesza wnioskowanie i ogranicza opóźnienia, co ma ogromne znaczenie dla aplikacji działających w czasie rzeczywistym.

Modele są szczególnie ważne dla sektora aplikacji wymagających natychmiastowego przetwarzania audio - od asystentów głosowych, przez systemy transkrypcji konferencji, aż po tłumaczenie rozmów na żywo. Granite Speech 4.1 2B stanowi kompromis między wydajnością a wydajnością - są wystarczająco lekkie do uruchomienia na urządzeniach brzegowych i mniej zasobochłonnych serwerach, a jednocześnie oferują jakość porównywalna z większymi modelami. IBM otwiera dostęp do tych modeli, co stanowi znaczący krok w kierunku demokratyzacji zaawansowanych technologii mowy dla szerszej grupy deweloperów i firm.

Wydanie otwartych, lekkich modeli oznacza, że nie trzeba już polegać na drogich, proprietary'ego rozwiązaniach lub modelach wymagających ogromnych zasobów obliczeniowych. Deweloperzy mogą teraz integrować zaawansowane możliwości rozpoznawania i tłumaczenia mowy w swoich aplikacjach bez konieczności investowania w skomplikowaną infrastrukturę AI czy abonamentów do usług chmurowych. To szczególnie korzystne dla mniejszych firm, startupów oraz organizacji pracujących w krajach o ograniczonym dostępie do zasobów lub tych, które chcą utrzymać przetwarzanie danych lokalnie.