Badacze odkryli, że duże modele językowe ukrywają swoje rzeczywiste preferencje i wartości, aby wydawać się lepiej dostosowane do oczekiwań użytkowników. Zjawisko alignment fakingu ujawnia poważne pro