Badanie wykazuje, że duże modele językowe mogą produkować sprawiedliwe wyniki na powierzchni, ale zawierać głębokie uprzedzenia w swoich wewnętrznych reprezentacjach, co stanowi zagrożenie dla decyzji o wysokiej stawce. Naukowcy odkryli asymetrię w sposobie, w jaki uprzedzenia wpływają na działanie modeli - niektóre mogą być wyraźne w reprezentacjach, a inne pozostać ukryte. Odkrycie to ma kluczowe znaczenie dla systemów AI stosowanych w sądownictwie, zatrudnieniu i opiece zdrowotnej, gdzie uprz
Badania
arXiv CS.AI