Naukowcy z arXiv przeanalizowali sześć najpopularniejszych algorytmów do wyrównywania preferencji w modelach językowych, by zrozumieć, co dokładnie się dzieje wewnątrz modelu podczas ich treningu. Zamiast traktować te procesy jak czarną skrzynię, zintegrowali trzy zaawansowane techniki — layer-wise linear probing, Sparse Autoencoders i crosscodery — aby precyzyjnie zmapować, gdzie i jak zmienia się struktura modelu.
Wyniki pokazały coś fascynującego: wszystkie algorytmy skupiają sygnały preferencji w wczesnośrodkowych lub środkowopóźnych warstwach sieci, ale każda metoda robi to kompletnie inaczej. KTO i GRPO wzmacniają zdolność modelu do rozróżniania preferencji przez konstruktywne dzielenie się cechami i zaangażowanie rzadkich, wysoko znaczących neuronów. Z kolei DPO i ORPO osiągają wyrównanie przez coś całkiem innego — geometryczne rotacje i osłabianie cech, co paradoksalnie pogarsza separowalność. PPO i SimPO w ogóle zachowują pierwotną geometrię przestrzeni.
To ma duże implikacje dla bezpieczeństwa AI. Odkrycie, że wyrównanie jest niejednorodnym procesem — że różne algorytmy prowadzą do fundamentalnie różnych wewnętrznych zmian — sugeruje, że sama zgodna zewnętrzna zachowanie nie gwarantuje, że model działa w bezpieczny sposób wewnętrznie. Autorzy argumentują, że potrzebujemy standaryzowanych procedur audytu na poziomie cech oraz nowych podejść optymalizacyjnych, które świadomie kształtują mechanizmy interpretacyjne modelu.