Grafowa korekcja błędów fonetycznych w rozpoznawaniu mowy

Zespół badaczy zaprezentował G-SPIN - system do korekcji błędów w automatycznym rozpoznawaniu mowy, który łączy modelowanie grafowe z przetwarzaniem języka naturalnego. Podczas gdy systemy ASR osiągnęły już niskie ogólne wskaźniki błędów, nadal popełniają błędy w słowach semantycznie istotnych - nazwach własnych, negacjach czy słowach odzwierciedlających sentyment - a te błędy wynikają najczęściej z podobieństwa fonetycznego a nie z losowego szumu.

Ramy G-SPIN działają w trzech etapach. Pierwsze - graf neuronowy konstruuje akustycznie wiarygodne alternatywy dla zaznaczonych słów, ograniczając przestrzeń poszukiwań do fonetycznych wariantów. Drugi etap to model języka maskującego, który ocenia lokalne konteksty, a trzeci - dostrojony model językowy przeprowadza ostateczną rerankerę nad zwartym zestawem kandydatów. To podejście rozdziela logikę fonetyczną od semantycznej, eliminując nieskończone generowanie i poprawiając dokładność korekcji.

Szczególnie ważne jest to, że system pracuje modułowo i całkowicie w fazie wnioskowania, bez potrzeby ponownego trenowania. To czyni go praktycznym rozwiązaniem dla systemów produkcyjnych, gdzie błędy w krytycznych słowach mogą znacząco wpłynąć na zrozumienie tekstu - na przykład gdy system źle zrozumie negację w poleceniu lub pomyli nazwę osoby czy miejsca.