Microsoft MAI-Transcribe-1.5: zaawansowany model transkrypcji z błędem 2,4% WER

Microsoft AI opublikował drugą wersję swojego wewnętrznego modelu do transkrypcji mowy — MAI-Transcribe-1.5. Model jest już dostępny w Azure AI Foundry i stanowi znaczne ulepszenie zarówno pod względem wydajności, jak i praktycznych możliwości.

Udoskonalenia są imponujące. Model obsługuje transkrypcję w 43 językach i osiąga błąd słowny (WER) na poziomie zaledwie 2,4% na leaderboardzie Artificial Analysis. Równie ważne są jednak prędkość i praktyczność — system potrafi przetworić godzinę audio w mniej niż 15 sekund, czyli 5 razy szybciej niż poprzednia generacja. Do tego dochodzi nowa funkcja keyword biasing, która pozwala na dodanie bias do terminów branżowych i własnych słów kluczowych.

Dla branży to ważny krok naprzód. Takie wyniki mogą znacznie przyspieszyć adopcję AI w obszarach takich jak transkrypcja wywiadów, dokumentowanie spotkań, czy obsługa różnojęzycznych treści. Szybkość przetwarzania sprawia, że model staje się praktycznym narzędziem do stosowania w produkcji, a nie tylko badań.