Spektralne asymptotyki strat sieci neuronowych: dokładny rozkład wykładnika krzywizny

Zespół naukowców podzielił się nową teorią mającą wyjaśnić jedną z fundamentalnych właściwości krajobrazów strat – jak szybko rosną wartości własne hesjanu w stosunku do szybkości rozpadu wartości osobliwych gradientu. Zjawisko to jest całkowicie różne dla różnych architektur: sieci konwolucyjne mają jeden typ zależności, transformery z attention inny, a MLP jeszcze inny. Zamiast zostawiać to jako empiryczną obserwację, autorzy udowodnili dokładną formułę matematyczną.

Klucz do zrozumienia leży w pojęciu wyrównania spektralnego (Spectral Alignment Decomposition). Pokazali, że wykładnik krzywizny można rozbić na część zależną od tego, jak bardzo wektory osobliwe gradientu są wyrównane z wektorami własnymi macierzy Kroneckera danej warstwy. To pytanie geometryczne – czyste wyrównanie – okazuje się być tym, co prowadzi do różnych wartości wykładnika dla różnych typów warstw. Teoria ma też elucydacyjną moc: pozwala odtwarzać rzeczywiste spadki wartości własnych hesjanu z dokładnością około 2 procent bez żadnych wolnych parametrów.

W praktyce badacze wykorzystali te spostrzeżenia do stworzenia nowego optymalizera o nazwie Spectral Newton, który adaptacyjnie dostosowuje się do lokalnej struktury hesjanu. Na benchmarkach wizyjnych okazuje się być szybszy niż AdamW – standard branży. Praca otwiera drogę do lepszego rozumienia, dlaczego obecne algorytmy działają tak dobrze (lub źle) i jak można je doskonalić przez uwzględnienie rzeczywistej geometrii strat sieci neuronowych.