NVIDIA opublikował Polar, nowy framework umożliwiający wierny rozkład tokenów podczas treningu GRPO (Group Relative Policy Optimization) dla modeli kodowych takich jak Codex, Claude Code i Qwen Code. Framework rozwiązuje problem dokładnego śledzenia tokenów podczas optymalizacji polityk, co jest istotne dla poprawy wydajności modeli generujących kod. To narzędzie ułatwia szkolenie bardziej wydajnych modeli AI specjalizujących się w programowaniu i może przyczynić się do lepszych asystentów kodow
Badania
MarkTechPost