Predictable GRPO: Model matematyczny dynamiki trenowania

Badacze z arXiv opracowali pierwszy zamknięty model matematyczny opisujący dynamikę trenowania Group Relative Policy Optimization, standardowej metody poprawy zdolności logicznego rozumowania w dużych modelach językowych. Dotychczas zmiany wartości nagrody podczas trenowania opisywano empirycznie poprzez dopasowywanie niskich modeli funkcjonalnych, ale stałe w tych równaniach nie miały jasnego znaczenia mechanicznego.

Nowy model zmienia to fundamentalnie. Teoria wyjaśnia wcześniejszą obserwację pojedynczego prawa eksponencjalnego nasycenia jako granicy przytłumionego ruchu w systemie fizycznym - parametry dopasowania otrzymują teraz konkretne znaczenie: punkt ustały, sztywność i współczynnik skalowania krzywizny. Model dodatkowo przewiduje nowe, weryfikowalne efekty: niezależność trajektorii od wielkości grupy treningowej z fluktuacjami skalującymi się jako 1/G, ostrą próg stabilności dla przedziału odświeżania oraz przejście do oscylacji w pewnych warunkach.

Praktyczne znaczenie jest ogromne - model dostarcza nowych narzędzi diagnostycznych do oddzielenia przyczyn porażki trenowania. Zamiast patrzeć na samą krzywą nagrody, naukowcy mogą teraz odróżnić reward hacking, degenerację przewagi, koncentrację polityki i niestabilność dynamiczną. Validacja na trzech modelach i dwóch wielkościach grup pokazuje, że teoretyczne przewidywania dopasowują się do rzeczywistych danych trenowania z dokładnością R² ≥ 0,91.