Gradient Smoothing: Sprzęganie aktualizacji warstw dla lepszej optymalizacji

Gradient Smoothing to nowa paraygmat optymalizacji, który przekształca kolekcję aktualizacji gradientów bloków wzdłuż wymiaru głębokości sieci neuronowej. Autorzy zauważyli, że głębokie sieci neuronowe z powtarzającymi się blokami architektonicznymi, takie jak transformery, wykazują naturalnie strukturalne relacje między warstwami. Ich podejście, nazwane Depth-wise Gradient Augmentation, aplikuje operatory gładkości (konkretnie Window Smoothing) na block-wise updates pochodzące z dowolnych base optimizerów.

Metoda jest niezwykle praktyczna - operuje bezpośrednio na istniejących pipeline'ach optymalizacyjnych bez modyfikacji samych architektur modelów czy celów treningowych. Zespół przeanalizował Gradient Smoothing na szerokiej palecie ustawień: pretraining modeli języka, RL post-training LLM dla reasoningu, diffusion modeling oraz klasyfikacji obrazów za pomocą Vision Transformers. We wszystkich tych scenariuszach obserwowano konsekwentne polepszenie zarówno optymalizacji jak i generalizacji.

Wyniki sugerują, że Gradient Smoothing promuje bardziej strukturalną ewolucję reprezentacji wzdłuż głębokości sieci, co jest spójne z interpretacją metody jako strukturalnego depth-wise preconditioning. To odkrycie jest istotne dla praktycznego trenowania dużych modeli, ponieważ oferuje uniwersalny mechanizm poprawiający wydajność bez dodatkowego kosztu architektonicznego ani zmian w standardowych procedurach treningowych.