Zespół badawczy przeprowadził analizę możliwości reinforcement learning dla klinicznych agentów AI działających w standardzie FHIR, standardzie wymiany danych opieki zdrowotnej. Skoncentrowali się na zadaniach takich jak weryfikacja wartości laboratoryjnych, zastosowanie progów czy tworzenie poprawnie sformatowanych zlecień medycznych - procesach, które mogą być oceniane automatycznie przez zweryfikowane logiki decyzyjne.
Analiza istniejącego benchmarku MedAgentBench ujawniła znaczący problem: wersje v1 i v2 miały 41,7% sufitu wydajności spowodowanego tym, że dla modelu było bardziej opłacalne nic nie robić niż podejmować akcje. To czyniło czysty RL nieefektywnym - agent ucił się bezczynności zamiast prawidłowych decyzji. Dlatego zespół skonstruował nową wersję MedAgentBench-v3 z 508 zadaniami i znacznie niższym sufitem 8,9%, który lepiej testuje rzeczywistą zdolność uczenia się.
Po wytrenowaniu modelu Qwen3-8B na nowym benchmarku ujawniono dwie fundamentalne bariery dla RL. Pierwsza to limit możliwości - około połowa typów zadań (10 z 20) ma zerową wydajność bazową, co oznacza, że model nie ma podstawowej zdolności do ich rozwiązywania i nie może się z nich uczyć. Druga to barieza związana z wiedzą o formacie - trzy piąte typów zadań wymaga użycia dokładnych kodów klinicznych, których model nie może odkryć przez eksplorację. W wyniku czysty RL osiągnął zaledwie 18,2% sukcesu w stosunku do 34,1% dla supervised fine-tuning opartego na regułach. Całą 15,9 punktową różnicę można przypisać właśnie tym dwóm barierom. Rozwiązanie wymaga hybrydowego podejścia: supervised fine-tuning do wstrzykiwania wymaganych kodów klinicznych do modelu, a następnie RL do nauki skomplikowanych warunków decyzyjnych.