HierBias: hierarchiczne wykrywanie stronniczości mediów z kontekstem i wielozadaniową klasyfikacją

Naukowcy opracowali HierBias, system do automatycznego wykrywania stronniczości w tekstach medialnych, który uwzględnia kontekst całego dokumentu zamiast klasyfikować każde zdanie niezależnie. Dotychczasowe podejścia były ograniczone do poziomu zdania i ignorowały zależności między fragmentami tekstu - HierBias rozwiązuje ten problem poprzez formalny model probabilistyczny uwzględniający kontekst.

Model łączy RoBERTę (popularny enkoder neuronowy) z Transformerem analizującym relacje między zdaniami oraz dwiema głowicami wyjściowymi: jedną do binarnej klasyfikacji (czy jest bias) i drugą do czterooklasowej klasyfikacji typów stronniczości. Wyniki na benchmarkach BABE i BASIL pokazują znaczną poprawę: F1 wzrasta do 0.853, a Matthews Correlation Coefficient do 0.723, co stanowi wzrost o 2.6 procent F1 i 4.3 procent MCC w stosunku do wcześniejszych detektorów (z potwierdzeniem statystycznym McNemar p < 0.05).

Ważne jest uzasadnienie teoretyczne: autorzy udowodnili, że w przypadku gdy zdania w tekście posiadają wzajemną informację, wykorzystanie kontekstu dokumentu zmniejsza błąd Bayesa klasyfikacji. Dodatkowo wykazali, że wspólny trening detekcji binarnej i klasyfikacji typów bias poprawia efektywność na małych zbiorach danych, co ma praktyczne znaczenie dla zastosowań real-worldowych.