Naukowcy przedstawiają PROWL, nową metodę uczenia modeli świata wykorzystującą optimization oparty na regret. Podejście priorytetuje najbardziej pouczające doświadczenia, co poprawia efektywność uczenia agentów w złożonych środowiskach. Metoda może znacząco przyspieszyć trenowanie modeli świata w reinforcement learning, zmniejszając ilość danych potrzebnych do osiągnięcia dobrej wydajności.
Badania
arXiv CS.LG