Uczenie singularne i brzytwa Ockhama w głębokich sieciach monomialnych

Naukowcy badali jak gradient dynamics w głębokich sieciach neuronowych zachowują się w pobliżu punktów krytycznych, gdzie Jakobian parametryzacji traci pełny rząd. Takie punkty singularne są kluczowe w Singular Learning Theory i mogą wpływać na proces optymalizacji sieci. W swoim badaniu skupili się na sieciach w pełni połączonych z aktywacjami monomialowymi - funkcjami postaci x^n, gdzie n jest stopniem.

Głównym odkryciem jest precyzyjny związek między krytyczności a strukturą podsieci. Dla wystarczająco dużych stopni aktywacji punkty krytyczne występują dokładnie tam, gdzie niektóre neurony stają się nieaktywne lub całkowicie zbędne dla obliczanej funkcji. To znaczy, że sieć naturalne redukuje się do prostszej formy. Zespół wykorzystał zaawansowane narzędzia z algebry wielomianów, w tym twierdzenie Masona, aby formalnie udowodnić to zachowanie.

Wynik ma głębokie implikacje dla zrozumienia implicit bias w sieciach neuronowych - fenomenu, że modele uczą się preferować prostsze rozwiązania mimo braku jawnych ograniczeń regulacyjnych. Badanie dostarcza matematycznych fundamentów dla tego obserwowanego w praktyce zjawiska, pokazując że architektura sieci sama w sobie skłania ją do szukania funkcji o mniejszej złożności. To łączy się z brzytwa Ockhama - zasadą, że prostsze wyjaśnienia są zazwyczaj lepsze.