Badacze opracowali metody interpretacyjne do zrozumienia, jak polityka bezpieczeństwa wpływa na pracę adnotatorów danych treningowych dla modeli AI. Badanie pokazuje, jak można lepiej wyjaśnić decyzje związane z bezpieczeństwem i moderacją treści, co jest kluczowe dla przejrzystości systemów AI. Interpretacyjność polityk bezpieczeństwa może poprawić kontrolę jakości anotacji i zmniejszyć błędy w trenowaniu modeli.