Teoria fal uderzeniowych wyjaśnia dynamikę treningu sieci neuronowych

Naukowcy z wykorzystaniem geometrii różniczkowej, teorii grup Liego i mechaniki płynów pokazali, że dynamika uczenia sieci neuronowych można opisać równaniami Known z teorii fal uderzeniowych. Po przeformułowaniu problemu poprzez usunięcie redundancji parametrów i zastosowanie koarse-grainingu opartego na entropii, efektywna dynamika treningu spełnia równanie viscous Hamilton-Jacobiego na rozmaitości ilorazowej.

Wyniki mają zastosowanie do głównych architektur: perceptronów wielowarstwowych, sieci splotowych, Transformerów i sieci mean-field. Teoria wyjaśnia, dlaczego podczas treningu pojawiają się ostre przemiany fazowe — proces analogiczny do powstawania fal uderzeniowych w płynach. To teoretyczne wgląd zmienia nasze rozumienie, jak sieci neuronowe ulegają transformacji podczas uczenia.

Na poziomie praktycznym badanie sugeruje nowe narzędzia diagnostyczne dla uczenia się głębokich sieci. W Transformerach normy parametrów są często zniekształcane przez redundancję symetrii, co prowadzi do mylących wniosków. Obserwables poprawione o symetrię dają bardziej wiarygodną podstawę do monitorowania, prognozowania i kontrolowania faz przejściowych treningu — informacja cenna zarówno dla naukowców jak i praktyków zajmujących się optymalizacją modeli.