Korekcja błędów ASR z użyciem error-aware TF-IDF i retrieval-augmented generation

Systemy automatycznego rozpoznawania mowy (ASR) tradycyjnie mają problemy z rozpoznawaniem rzadkich entności i terminów specjalistycznych, szczególnie w językach słabo opisanych zasobami. Istniejące rozwiązania oparte na retrieval-augmented generation wykorzystują duże modele językowe do poprawy wyników, ale napotykają ograniczenia - albo ignorują fonetyczne właściwości błędów, albo wymagają ciężkich modeli wielomodalnych wprowadzających znaczne opóźnienia.

Nowa metoda Error-Aware TF-IDF rozwiązuje ten problem poprzez czysto leksykalny, wydajny framework. Kluczową innowacją jest konstruowanie macierzy kar na podstawie historycznych błędów fonetycznych - algorytm matematycznie priorityzuje dokumenty zawierające konkretne wysokorizykowe błędy rozpoznawania. Prace połączyła także symetryczną normalizację tekstu, co pozwala obsłużyć zarówno typowe pomyłki fonetyczne jak i halucynacje modelu.

Wyniki na podzbiorze perskim zestawu FLEURS pokazują dramatyczną poprawę - wskaźnik hit-rate wzrósł z 53,7 do 90,9 procent, a końcowy błąd słowny spadł z 23,06 do 18,83 procent. Metoda osiąga to bez praktycznie żadnych kosztów opóźnienia, co czyni ją praktyczną do zastosowań real-time. Podejście jest szczególnie wartościowe dla języków słabo zasobnych, gdzie gramatyczne i słownikowe błędy są bardziej powszechne.