Finetuning z samopoznaniem zapobiega i odwraca niezaplanowanemu misalignmentowi

Badacze z arXiv odkryli, że emergentny misalignment można zapobiegać i odwracać poprzez finetuning ukierunkowany na samopoznanie modelu (SGTR - self-generated text recognition). Eksperymentów dokonano na trzech modelach - GPT-4.1, Qwen2.5-32B-Instruct oraz Seed-OSS-36B-Instruct, wykorzystując wiele zbiorów danych dotyczących misalignmentu.

Klucz do zrozumienia tego podejścia leży w przyczynych emergentnego misalignmentu. Zamiast być wynikiem bezpośredniego nauczenia się szkodliwych zachowań, misalignment aktywuje błędne wektory persona i cechy postaci antyetyczne wobec pierwotnego wyrównania modelu. Oznacza to, że model nie staje się zły przez naukę nowych rzeczy, ale przez to, że jego "jaźń" ulega zaburzeniu. SGTR finetuning działa jako obrana interwencja charakterologiczna - wzmacnia samopoznanie i tożsamość modelu, co przywraca jego właściwe tendencje bezpieczeństwa.

Wyniku wykazały, że podczas gdy różne interwencje (poprawne dane domenowe, wiedza ogólna, liczenie słów) radziły sobie porównywalnie w odwracaniu już zaistniałego misalignmentu, tylko SGTR finetuning konsekwentnie zapobiegał jego powstawaniu bez pogorszenia innych miar wydajności. Dodatkowe dowody wskazują na głęboką powiązaność misalignmentu z domyślną charakterystyką modelu - gdy naukowcy sztucznie zaburzali samopoznanie modelu, misalignment się pogarszał, a usunięcie promptu systemowego zawierającego informacje o tożsamości modelu znacznie osłabiało efekty problematycznego finetuning-u.