Korpus równoległy arabsko-rosyjski i benchmark dla modeli językowych wspierający wymianę wiedzy nauk

Naukowcy opracowali pierwszy benchmark do tłumaczenia tekstów naukowych między arabskim a rosyjskim, wydając równoległy korpus liczący około 27 tysięcy par zdań. Zbiór danych pochodzi z abstraktów naukowych oraz tekstów z dziedzin religii, mediów i rozmów codziennych, co daje reprezentatywny obraz rzeczywistych potrzeb tłumaczeniowych.

Do rozwiązania problemu zespół wytrenował trzy modele wielojęzyczne przy użyciu techniki fine-tuning LoRA. mT5-base z 580 milionami parametrów, NLLB-200-distilled-1.3B z 1,3 miliarda i Qwen2.5-7B-Instruct z 7 miliardami parametrów testowano z różnymi rankingami LoRA (8, 16, 32, 64). Najlepsze wyniki osiągnął Qwen2.5-7B z QLoRA na rankingu 8 - BLEU 23.15, chrF 43.89, BERTScore 0.906 i COMET 0.758, co stanowiło poprawę o 4.36 punktu BLEU względem wersji zero-shot. Interesujące, że few-shot prompting z trzema przykładami nie poprawiał wydajności, co wskazuje na konieczność specjalistycznego fine-tuningu dla domeny naukowej.

Releasing modeli, korpusu i kodu ewaluacyjnego ma przełamać barierę językową utrudniającą wymianę wyników badań między arabskojęzyczną a rosyjskojęzyczną społeczność naukowców. To szczególnie ważne dla badań nad zrównoważonym rozwojem i międzynarodowej współpracy naukowej, wspierając cele zrównoważonego rozwoju ONZ - partnerstwa (SDG 17) i infrastrukturę innowacyjną (SDG 9).