Wielojęzyczny fine-tuning dla ekstrakcji relacji przyczynowych w finansowych QA

Zespół HSA_CORAL wzięto udział w konkurencji FinCausal 2026, gdzie porównywano podejścia do automatycznego ekstrakcji relacji przyczynowych z tekstów finansowych. Zadanie wymagało odpowiadania na pytania w języku angielskim i hiszpańskim, opierając się na narracyjnych dokumentach finansowych.

Badacze przetestowali trzy główne architektury modeli. Pierwsze podejście wykorzystało encoder-only BERT do token taggingu, drugie - encoder-decoder BART do generacji sekwencji, a trzecie skupiało się na dekoder-only modelach (Llama 3.1 i różne wersje GPT) z technikami promptingu, przykładami few-shot i supervised fine-tuning. Interesujące wyniki przyniosły już samo promptowanie i demonstracje few-shot, ale największe zyski osiągnęli dzięki fine-tuningowi na danych specyficznych dla zadania.

Najlepsze rezultaty osiągnął model GPT-4.1 Mini, który był trenowany na połączonych zbiorach danych z obu języków. System uzyskał najwyższą ocenę w angielskiej części (4.8140 w metryce LLM-as-a-judge) i uplasował się na trzecim miejscu w hiszpańskiej (4.7753). Wyniki jasno demonstrują wartość dostosowania modeli do konkretnego zadania oraz wielojęzycznego fine-tuningu w transferowaniu wiedzy między językami, szczególnie w specjalistycznej domenie finansowej.