Od przybliżenia do emergencji: teoria głębokich sieci neuronowych

Nowa monografia From Approximation to Emergence przedstawia zunifikowany przegląd teorii głębokich sieci neuronowych, łącząc klasyczne podstawy z nowoczesnymi odkryciami dotyczącymi tego, jak uczą się duże modele. Autorzy śledzi ścieżkę od tradycyjnych wyników z aproksymacji, optymalizacji i generalizacji aż do współczesnych mechanizmów takich jak overparameteryzacja, robustność, modelowanie generatywne i transformery. Każda teoria jest analizowana przez pryzmat tego, co kontroluje, jakie założenia ją uzasadniają i jakie fenomeny pozostają niewyjaśnione.

Praca adresuje fundamentalne pytanie współczesnego AI: jak z samej skali, ilości danych, architektury i procedury treningu wyłaniają się nowe, emergentne zdolności modeli. Monografia obejmuje także zagadnienia takie jak in-context learning, scaling laws, interpretability i alignment - czyli właśnie te obszary, które stanowią obecnie wyzwanie dla zrozumienia głębokich sieci. Publikacja przyznaje, że współczesna teoria jest zarazem potężna, jak i niepełna, ale oferuje badaczom, studentom i praktykom rygorystyczną mapę tego, co wiemy i czego wciąż nie rozumiemy o tym, jak działają największe modele AI.