Artykuł wyjaśnia, dlaczego klasyczny algorytm gradient descent porusza się w zygzakujący sposób podczas optymalizacji modeli, co spowalnia uczenie. Momentum, technika dodająca historię gradientów, rozwiązuje ten problem poprzez gładszą trajektorię aktualizacji parametrów. To fundamentalna wiedza o algorytmach treningowych, która pomoże badaczom i praktykom lepiej rozumieć i optymalizować proces uczenia sieci neuronowych.