Ewolucja parametru skali Weibulla w wagach transformatorów podczas treningu AdamW

Naukowcy analizują zachowanie parametru skali Weibulla (λ) w rozkładach wag transformatorów podczas treningu algorytmem AdamW, wyjaśniając fenomen wzrostu, przeskoczenia i relaksacji tego parametru. Wykorzystali ramę dwuparametryczną Weibulla oraz zbadali modele Pythia-70M z pełnym dostępem do momentów optymalizatora.

Kluczowym odkryciem jest dekompozycja trzech sił działających na normę kwadratową wag: siła wyrównania (alignment) mierząca korelację między wagami a kierunkiem aktualizacji adaptacyjnej, siła wstrzykiwania (injection) ze składnika adaptacyjnej wielkości kroku, oraz siła rozpadu (decay) z oddzielonej regularyzacji. W fazie wzrostu siła wyrównania zdominowała budżet sił, stanowiąc 88-94% bezwzględnego wkładu, wykazując się stabilnością nawet przy usunięciu super-wag. Blisko saturacji siły wyrównania i rozpadu zbliżają się do równowagi, co wyjaśnia przejście od wzrostu skali wag do jej relaksacji.

Autorzy opracowali także spline displacement method umożliwiającą rekonstrukcję siły wyrównania z rzadkich punktów kontrolnych z dokładnością około 92-94%, znacznie lepiej niż naiwna metoda dwupunktowa. To pozwala na rozszerzenie analizy na rzeczywiste modele, gdzie momenty optymalizatora nie są dostępne. Pozostały offset między normami RMS a rekonstrukcją Weibulla wynoszący 5-6% w gęsto próbkowanych regionach rozkłada się na komponenty bridge i integration.