Szum SGD wytłumacza grokking w sieciach neuronowych

Badacze zidentyfikowali fizyczne wyjaśnienie fenomenu grokking: model sieci neuronowej może być uwięziony w metastabilnym stanie niskiej dokładności, gdzie szum SGD stanowi siłę sterującą jego ucieczką do wysokoakuracyjnego stanu. Zjawisko to manifestuje się jako hystereza w przejściach fazowych pierwszego rzędu pod wpływem zmian siły regularyzacji L2.

Przeprowadzone eksperymenty na liniowych sieciach neuronowych wykazały, że czasy ucieczki z uwięzienia następują czasy ucieczki zgodnie ze skalowaniem Arrheniusa — klasycznym prawem termodynamicznym opisującym procesy aktywowane termicznie. Dzięki celowemu uwięzieniu modeli w stanach metastabilnych naukowcy odtworzyli krzywe grokking obejmujące dwa rzędy wielkości różnic w czasach ucieczki. Przy użyciu rzadkiego próbkowania danych udało im się zreprodukować kanoniczną krzywą grokking, gdzie błąd testowy ostatecznie zbliża się do błędu treningowego.

WynikiWskazują na głębokie powiązanie między strukturą algebraiczną danych (liczbą niezerowych wartości osobliwych macierzy kowariancji) a liczbą potencjalnych metastabilnych stanów i uczalnych cech. Złożoność zadania naturalnie zwiększa potencjał dla histerezji, co wyjaśnia, dlaczego grokking pojawia się bardziej wyraźnie w trudniejszych problemach. To odkrycie otwiera nową perspektywę na dynamikę uczenia się w sieciach neuronowych i może mieć implikacje dla rozumienia i optymalizacji procesów treningowych.