Optymalizacja polityk z przewodnikiem strategii zamiast naśladowania trajektorii dla rozumowania LLM

Naukowcy opracowali nową metodę SGPO (Strategy-Guided Policy Optimization), która zmienia sposób, w jaki słabsze modele językowe uczą się od silniejszych. Zamiast tradycyjnego podejścia polegającego na kopiowaniu dokładnych kroków rozwiązania, SGPO uczy transferu ogólnych strategii i reguł rozumowania.

Glówny problem ze starym podejściem polega na tym, że modele zapamiętują konkretne kroki dla konkretnych problemów, zamiast nauczyć się uniwersalnych technik rozwiązywania zadań. SGPO rozwiązuje to poprzez ekstrakcję strukturalnych opisów strategii z odpowiedzi mocnych modeli. Dla każdego problemu system konstruuje dwie trajektorie - jedną, gdzie model pracuje samodzielnie, i drugą, gdzie otrzymuje wskazówki strategiczne. Porównując te dwie wersje, model uczy się efektywnie, kiedy i jak zastosować strategiczne podpowiedzi.

Experymenty na czterech benchmarkach matematycznych wykazały, że SGPO konsekwentnie przewyższa tradycyjne fine-tuning (SFT), trenowanie on-policy RL i hybrydowe podejścia. Dla modelu Qwen2.5-7B-Instruct metoda przyniosła poprawę średniego wyniku o 2,2 punktu względem najsilniejszych konkurencyjnych podejść. To ważne, bo oznacza lepszą generalizację - modele nauczane strategii mogą rozwiązywać nowe typy problemów, których nie widziały podczas trenowania.