Wykrywanie i neutralizowanie bias'u poprzez symetrię w modelach ML

Badacze z arXiv zaproponowali formalne ujęcie problemu dyskryminacji w modelach AI. Zamiast tradycyjnych podejść do fair'ness'u, traktują bias jako operację łamania symetrii — klasyfikator jest fair, jeśli jego predykcje pozostają niezmienne, gdy zamienimy wrażliwy atrybut (np. płeć czy rasa) przy zachowaniu pozostałych cech merytorycznych.

Rozwiązanie opiera się na mechanizmie regularyzacji funkcji straty, który przywraca symetrię w modelu. To podejście ma kilka znaczących zalet: nie wymaga znajomości grafu przyczynowo-skutkowego (który jest trudny do ustalenia w praktyce), jest obliczeniowo lekkie i działa dla dowolnych atrybutów definiowanych jako zamiana bitu. Testy na czterech syntetycznych zbiorach danych z różnymi poziomami szumu i korelacji wykazały redukcję naruszeń fair'ness'u ponad 90%, przy stosunkowo niskim koszcie dokładności (około 5%).

To rozwiązanie jest szczególnie ważne dla kontekstów, gdzie źródła dyskryminacji nie są opisane w głównych benchmarkach — czyli dla rzeczywistych, lokalnych scenariuszy. Łatwość implementacji i uniwersalność podejścia mogą sprawić, że będzie szeroko adopcjonowane w praktycznych zastosowaniach AI.