Nowa metoda reinforcement learning dla agentów inżynierii oprogramowania, która wykorzystuje rubrikę zamiast tylko weryfikowalnych nagród, umożliwiając bardziej zaawansowany fine-tuning modeli.