QuechuaTok: Dokładność granic morfologicznych jako kluczowa metryka do oceny tokenizatorów

Zespół badaczy opublikował QuechuaTok - systematyczny benchmark oceniający cztery podejścia do tokenizacji dla języka keczua południowego, niskozbiorowego języka używanego przez 8-10 milionów osób w Andach. Problem był fundamentalny: standardowe metryki tokenizatorów nie oddają poprawności rozbijania słów w językach aglutynacyjnych, gdzie morfemy w skomplikowany sposób łączą się w jedno słowo.

Badacze przeanalizowali BPE, Unigram LM, WordPiece oraz morfologicznie świadomy tokenizer PRPE na korpusie 200k zdań. Używając morfologicznego analizatora SQUOIA jako podstawy do walidacji, zmierzyli trzy metryki: fertility rate (średnią liczbę tokenów na słowo), OOV rate (nieznane słowa) i nową metrykę - morphological boundary accuracy (MorphAcc) sprawdzającą czy granice tokenów zgadzają się z rzeczywistymi granicami morfemów. BPE osiągnął najniższy fertility rate (1.636 przy słowniku 16k) poprzez zapamiętywanie form powierzchniowych słów, ale zaledwie 6.67% MorphAcc. PRPE natomiast uzyskał 83.33% dokładności granic morfologicznych - najwyższy wynik spośród wszystkich systemów.

To odkrycie ma znaczenie dla całej społeczności NLP pracującej z niskozbiorowymi językami aglutynacyjnymi, do których należą tureckie, fiński, węgierski czy tureckozęzne rodziny języków. Pokazuje że nie można ślepo stosować metryki opracowane dla języków anglosaskich. Cały kod i modele są publicznie dostępne na Kaggle, dając punkt wyjścia dla lepszych narzędzi NLP dla miliardów ludzi mówiących takimi językami.