Nowa metoda łącząca curiosity-driven learning z krytyką błędów predykcji do efektywniejszego treningu world models. Podejście wykorzystuje skumulowany błąd predykcji jako intrinsic reward dla agentów
Badania
arXiv CS.LG
Nowa metoda łącząca curiosity-driven learning z krytyką błędów predykcji do efektywniejszego treningu world models. Podejście wykorzystuje skumulowany błąd predykcji jako intrinsic reward dla agentów