Startup Interfaze opublikował diffusion-gemma-asr-small, pierwszy open-sourcowy wielojęzyczny model rozpoznawania mowy zbudowany na architekturze diffusion zamiast autoregresywnej. Model wykorzystuje zaledwie 42 miliony wytrenowanych parametrów na zamrożonym 26-miliardowym backbonie Google'a DiffusionGemma, co stanowi zaledwie 0,16 procent całkowitych wag modelu.

Kluczbowa różnica między tym podejściem a tradycyjnymi modelami polega na sposobie generowania tekstu. Modele autoregresywne, takie jak popularny Whisper, generują transkrypcję sekwencyjnie - jeden token po drugim. DiffusionGemma zamiast tego pracuje w sposób równoległy - wszystkie tokeny są refinowane jednocześnie poprzez iteracyjny proces denoising. Adapter modelu obsługuje aż sześć języków z jednego zestawu parametrów, co wykazuje potencjał tego podejścia do wielojęzyczności.

Pod względem wydajności diffusion-gemma-asr-small osiąga 6,6 procent błędu słowa (WER) na benchmarku LibriSpeech, co daje mu przewagę nad innymi modelami diffusion, na przykład Whisfusion'em z wynikiem 8,3 procent WER. Jednak wciąż traci w bezpośrednim porównaniu z autoregresywnym Whisper. Koszt transkrypcji skaluje się wraz z liczbą kroków denoising'u, a nie długością transkryptu. Model i adapter zostały udostępnione na licencjach Apache-2.0 i MIT, co otwiera możliwości dla badaczy i deweloperów do dalszych eksperymentów z architekturą diffusion w rozpoznawaniu mowy.