Naukowcy przedstawili PROPEL, framework rozwiązujący krytyczną barierę w treningu agentów przez reinforcement learning: niedobór válnych, nauczalnych zadań. Problem nasila się wraz z poprawą możliwości modeli — istniejące dystrybucje zadań szybko się wysycają, a zwykła generacja syntetyczna tworzy problemy trivialnie łatwe, całkowicie niemożliwe do rozwiązania lub źle sformułowane.

Tradicyjne podejście wymagałoby wielokrotnego uruchamiania solvera dla każdego kandydata na zadanie, co jest praktycznie niemożliwe — pojedynczy rollout dla zadań inżynierii oprogramowania może trwać dziesiątki minut. PROPEL obchodzi ten problem przez amortyzację: trenuje lekką sondę aktywacji na stałym zbiorze wygenerowanych zadań i ich wyników, a następnie używa tej sondy zamiast faktycznego solvera. Sonda przewiduje wskaźnik rozwiązywalności z zamrożonego modelu referencyjnego generatora, redukując ewaluację do pojedynczego forward passa.

Wyniki są obiecujące. W zadaniach z kodowania PROPEL zwiększył udział zadań z granicy nauczalności z 10,1% do 20% dla Qwen2.5-3B-Instruct i z 5,3% do 12,6% dla Qwen2.5-7B-Instruct. Metoda działa także dla zadań matematycznych i inżynierii oprogramowania. To ważne dla skalowania treningu agentic models, bo otwiera możliwość ciągłego generowania odpowiednio trudnych zadań bez wąskiego gardła komputacyjnego.