Wykrywanie mowy nienawiści w tureckim i arabskim: kompleksowe badanie

Naukowcy przedstawili kompleksowy zbiór danych i narzędzia do wykrywania mowy nienawiści w tureckim i arabskim - językach mało reprezentowanych w badaniach naukowych nad tym problemem. Dataset obejmuje pięć różnych tematów w tureckim: uchodźcy, konflikt izraelsko-palestyński, antygrecki sentyment, społeczności etniczne i religijne (Alewici, Ormianie, Arabowie, Żydzi, Kurdowie) oraz LGBTI+, a także jeden temat w arabskim dotyczący uchodźców.

Mowa nienawiści online ma bezpośrednie działania w realnym świecie - naukowcy wskazują na globalny wzrost przemocy wobec mniejszości, w tym masakry, linczowanie i czystki etniczne. Problem ten jest szczególnie nasilony na wielkich platformach społecznościowych, gdzie treści mogą rozprzestrzeniać się szybko wśród milionów użytkowników. Języki jak turecki i arabski były dotychczas niedostatecznie zbadane w kontekście automatycznego wykrywania nienawiści.

Team opracował modele oparte na architekturze BERT zdolne do wielowymiarowej analizy. Systemy mogą klasyfikować kategorie mowy nienawiści, przewidywać jej intensywność, identyfikować konkretne cele ataków i wykrywać dokładne fragmenty tekstu zawierające nienawiść. Takie podejście pozwala na bardziej zaawansowaną moderację treści, która musi jednocześnie balansować ochronę przed nienawością z zachowaniem wolności wypowiedzi.