Wielojęzyczne wykrywanie polaryzacji za pomocą modeli transformer z wagowaniem klas

Badacze przesłali pracę do konkursu SemEval-2026 Task 9, która zajmuje się wykrywaniem polaryzacji online w kontekście wielojęzycznym, wielokulturowym i wielozdarzeń. System radzi sobie z trzema powiązanymi zadaniami: binarną klasyfikacją polaryzacji, określeniem jej typu oraz identyfikacją sposobów manifestacji w angielskim i suahili.

Architektura rozwiązania opiera się na modelach transformer-based - RoBERTa-base dla angielskiego oraz AfroXLMR-base dla suahili. Kluczową innowacją jest zastosowanie funkcji loss z wagowaniem klas, które rozwiązuje problem poważnej nierównowagi etykiet w danych treningowych, oraz per-label threshold tuning optymalizujący klasyfikację multi-label. To połączenie technik pozwala modelowi lepiej radzić sobie z rzadkimi przypadkami polaryzacji w zbiorze danych.

Wyniki na zestawie testowym pokazują kompetytywną wydajność: F1 macro 0,7901 dla angielskiego i 0,7910 dla suahili w podtasku 1 (główne wykrywanie), przy czym pozostałe podtaski osiągają wyniki w przedziale 0,46-0,58. Analiza błędów ujawnia, że modele mają trudności z identyfikacją dehumanizacji i braku empatii, co wskazuje kierunek dla przyszłych ulepszeń.