RLVR dla agentów narzędziowych w Atlassian: Beyond token prediction

Naukowcy z arXiv zademonstrować, że modele Qwen3-1.7B i Qwen3.5-4B trenowane metodą RLVR (Reinforcement Learning with Verifiable Rewards) osiągają zdecydowanie lepsze wyniki w obsłudze API Atlassiana niż standardowe podejście oparte na predykcji następnego tokenu. Problem był fundamentalny: LLM trenowane są do przewidywania kolejnych słów, a nie do precyzyjnego wykonywania akcji w konkretnych interfejsach API, gdzie liczy się trafienie w właściwy endpoint z prawidłowymi argumentami w odpowiedniej kolejności. W praktyce prowadzito to do molchliwych awarii, hallucynowanych narzędzi czy przedwczesnych zatrzymań.

Team stworzył pięć syntetycznych środowisk emulujących schemat Jira REST v3 i Confluence v2 z pełną wernością interfejsu. Nagrody były obliczane wyłącznie z śladów wywołań narzędzi, bez dostępu do żywego API, nauczonego sędziego czy ręcznych etykiet. Wyniki były imponujące: na czterech scenariuszach z niedegenerowanymi nagrodami średnia poprawa podniosła się z zakresu 0.35-0.92 do 0.95-1.00, przy czym największy skok zaobserwowano w tworzeniu strony Confluence (wzrost z 0.35 do 1.00).

Prace ta stanowi krok w kierunku outcome-optymalizowanych małych modeli dla niszowych API enterprise. Jednak autorzy wskazują na dwie poważne ograniczenia: ręczne konstruowanie weryfikowalnych nagród nie skaluje się poza kilka zbadanych endpointów, a jeden ze scenariuszy (transition ticketów) ma nasycającą się funkcję nagrody, która utrudnia dalszy trening.