Naukowcy odkryli, że dynamiczny adversarialny fine-tuning reorganizuje sposób, w jaki modele AI kodują mechanizmy odrzucania szkodliwych żądań. Badanie ujawnia, że refusal geometry (geometria mechanizmu odrzucania) może być fundamentalnie zmieniana poprzez zaawansowane techniki trenowania. Odkrycie ma znaczenie dla bezpieczeństwa AI, sugerując zarówno nowe wektory ataku, jak i potencjalne metody obrony przed manipulacją modeli.