GRPO, Dr. GRPO i DAPO to trzy warianty jednej operacji na liczbie

Zespół badaczy z arXiv wykazał matematycznie, że trzy odrębne podejścia do treningu modeli językowych rozumowania - GRPO (Group Relative Policy Optimization), Dr. GRPO i DAPO - to w rzeczywistości trzy ustawienia jednego mechanizmu opartego na odchyleniu standardowym odpowiedzi modelu.

Klucz do zrozumienia leży w tym, jak model pracuje podczas treningu. Dostaje on problem, generuje wiele odpowiedzi, a automatyczny sprawdzian oznacza każdą jako poprawną lub błędną. Odchylenie standardowe tych oznaczeń (liczba od 0 do maksimum) pokazuje, jak bardzo odpowiedzi się różnią. GRPO dzieli przez to odchylenie, Dr. GRPO pomija dzielenie, a DAPO po prostu odrzuca grupy gdzie odchylenie wynosi zero. Te różne podejścia długo uważano za niezależne rozwiązania, ale badania dowodzą, że to tylko różne pozycje na jednym potencjometrze.

Najważniejszym odkryciem jest związek między odchyleniem a siłą uczenia się. Dla nagrody prawa-błędu, odchylenie standardowe równa się dokładnie wielkości aktualizacji treningowej - to tzw. group-standard-deviation identity. Grupy z rozbieżnościami uczą model najlepiej, podczas gdy całkowita zgodność (odchylenie zero) nie wnosi nic. Implikacje są znaczące: ten pozornie kosmetyczny krok normalizacji w rzeczywistości decyduje, gdzie następuje uczenie się i jak intensywne jest. Badacze potwierdzili intuicję na dużym zbiorze danych matematycznych (Big-Math) i w kontrolowanych eksperymentach treningowych.