Naukowcy zaproponowali nowy paradygmat treningu dla agentów opartych na dużych modelach językowych, który umożliwia im planowanie poprzez wewnętrzne modelowanie przyszłości. Zamiast reagować jedynie na bieżące zadania, agenty uczą się symulować potencjalne wyniki swoich działań przed ich wykonaniem - funkcjonalność bardzo zbliżona do ludzkiego myślenia "co-jeśli".

Kluczowym wyzwaniem, które badacze zidentyfikowali, jest tzw. luka między formatem a zdolnościami. Zwykłe fine-tuning modeli na przykładach przewidujących nie prowadzi do rzeczywistego rozumienia przyszłości, a jedynie do powierzchniowego naśladownictwa. Dlatego zespół wprowadził trzystopniowy proces treningu: najpierw World Model Agentic Mid-Training wstrzykuje zdolności predykcyjne w głąb polityki agenta, następnie Format-Eliciting SFT strukturyzuje te zdolności w odpowiednią formę tekstową, a wreszcie Foresight-Conditioned Reinforcement Learning dostrajania i kalibruje użyteczność generowanych symulacji.

Testing na zadaniach wyszukiwania i rozumowania matematycznego wykazał, że takie podejście konsekwentnie przewyższa inne metody treningu. Wyniki sugerują, że efektywne wewnętrzne modelowanie świata w agentach LLM wymaga treningu ukierunkowanego najpierw na zdolności, a dopiero potem na format - to kluczowe odkrycie dla rozwijania agentów zdolnych do prawdziwie długohoryzontowego planowania.