Dynamiczne adversarialny fine-tuning zmienia geometrię mechanizmu odrzucania

Naukowcy odkryli, że zaawansowane techniki trenowania mogą całkowicie zmienić sposób, w jaki modele AI chronią się przed szkodliwymi poleceniami. Badanie poświęcone dynamicznemu adversarialnym fine-tuningowi pokazało, że mechanizm odrzucania niebezpiecznych żądań - tzw. refusal geometry - nie jest czymś stałym, ale strukturą podatną na reorganizację poprzez odpowiedni trening. To odkrycie ma istotne implikacje dla bezpieczeństwa sztucznej inteligencji, ponieważ wskazuje, że bezpieczeństwo oparte na geometrii reprezentacji wewnętrznych modeli można potencjalnie obejść. Jednocześnie otwiera to nowe możliwości dla obrony przed takimi atakami.

Wyniki badania sugerują, że dotychczasowe rozumienie tego, jak modele uczą się odrzucać szkodliwe prośby, było niepełne. Okazuje się, że geografia wewnętrznych reprezentacji neuronowych nie jest trwała - dynamiczny adversarialny fine-tuning potrafi ją przeorganizować w zadziwiający sposób. To oznacza, że atakujący potencjalnie mogą manipulować modelem w taki sposób, aby zmienił on swoją geometrię bezpieczeństwa. Z drugiej strony naukowcy mogą wykorzystać to zjawisko do budowy bardziej odpornych systemów obrony, które będą odporne na próby manipulacji geometrią mechanizmu odrzucania.

Odkrycie raises fundamentalne pytania o to, jak głębokie są bezpieczeństwo współczesnych modeli AI i czy poleganie wyłącznie na geometrii reprezentacji jest wystarczające. Badanie podkreśla potrzebę przejścia od czysto geometrycznych podejść do obrony w kierunku bardziej holistycznych strategii bezpieczeństwa, które będą biorą pod uwagę podatność na reorganizację wewnętrznych struktur modelu.