Artykuł przedstawia BV-Blend, nową technikę reinforcement learning'u dla dużych modeli językowych, która eliminuje potrebę trenowania oddzielnej sieci wartości (krytyka). To ważne dla efektywności, bo zmniejsza zużycie pamięci i mocy obliczeniowej w porównaniu do tradycyjnych podejść opartych na PPO.
Główny problem rozwiązywanej metody GRPO polega na niestabilności estymacji zalety (advantage estimation). Gdy wszystkie odpowiedzi w grupie prompt'a otrzymają te same nagrody - co zdarza się przy binarnych weryfikatorach na początkowym etapie treningu - wariancja staje się zerowa i algorytm nie potrafi się uczyć. BV-Blend obchodzi to przez inteligentne łączenie statystyk lokalnych (z bieżącej grupy prompta) z historycznymi statystykami z semantycznie podobnych klastrów. Система śledzi średnie nagrody dla każdego klastra i używa ich jako hedging - gdy bieżące dane są niskiej jakości, opiera się bardziej na historii.
Experymenty na benchmarkach wymagających weryfikowalnego rozumowania pokazują, że BV-Blend nie tylko stabilizuje trening w trudnych warunkach, ale też poprawia ogólną wydajność. To szczególnie wartościowe dla scenariuszy, gdzie zwykłe metody normalizacji grupowej mogą całkowicie zawiesić proces nauki.