SAGE: Metoda poprawy jakości uczenia się zapominania w modelach LLM

Zespół naukowców opracował SAGE (Spectral Activation-GEometry Sanitization), nową metodę post-hoc poprawiającą jakość unlearningowych aktualizacji w modelach LLM. Zamiast ponownie uruchamiać pełny proces zapominania, SAGE analizuje ostateczny wektor aktualizacji i selektywnie tłumi jego komponenty szkodzące zatrzymanym zdolnościom modelu.

Kluczowym odkryciem jest znalezienie uniwersalnego miernika—retention activation bias—który pozwala kwantyfikować szkodę zadawaną modelowi bez względu na konkretną metodę unlearningową. SAGE wykorzystuje małe proxy retain (próbkę danych, które mają zostać zachowane) do wyodrębnienia dominującej geometrii aktivacji neuronów, a następnie rozwiązuje zadanie optymalizacyjne w postaci zamkniętej. To podejście eliminuje komponenty aktualizacji wyrównane z wysokoenergetycznymi kierunkami wiedzy zachowanej, jednocześnie zachowując zdolność metody do skutecznego zapominania.

Badania na wielu metodach unlearningowych, różnych rozmiarach modeli i benchmarkach pokazują, że SAGE konsekwentnie zmniejsza konflikt między zapominaniem a zachowaniem zdolności. Ta post-hoc sanityzacja stanowi praktyczną i wcześniej niedocenianą drogę do ulepszonego machine unlearningowego, otwierając nowe możliwości dla bezpieczniejszych i bardziej precyzyjnych modeli AI.