Nowa metoda reinforcement learning dla agentów inżynierii oprogramowania, która wykorzystuje rubrikę zamiast tylko weryfikowalnych nagród, umożliwiając bardziej zaawansowany fine-tuning modeli.
Badania
arXiv CS.LG
Nowa metoda reinforcement learning dla agentów inżynierii oprogramowania, która wykorzystuje rubrikę zamiast tylko weryfikowalnych nagród, umożliwiając bardziej zaawansowany fine-tuning modeli.