Curiosity-Critic: Błąd predykcji jako wewnętrzna nagroda dla treningu modeli świata

Naukowcy opracowali nową metodę treningu modeli świata, która wykorzystuje błędy predykcji jako wewnętrzną nagrodę dla agentów uczących się. Podejście o nazwie Curiosity-Critic łączy dwa popularne kierunki w sztucznej inteligencji: curiosity-driven learning, czyli uczenie się napędzane ciekawością o nieznanym, z mechanizmem krytyki opartym na analizie pomyłek w przewidywaniu.

Istota innowacji polega na tym, że zamiast czekać na zewnętrzne sygnały zwrotne, agent otrzymuje wewnętrzną nagrodę za eksplorowanie sytuacji, w których model świata popełnia błędy. Im większa rozbieżność między tym, co model przewiduje, a tym, co faktycznie się dzieje, tym silniejszy sygnał motywujący agenta do dalszej eksploracji tego obszaru. To podejście ma sens - agent naturalnie chce zbadać scenariusze, które jego wewnętrzna mapa rzeczywistości źle modeluje, bo wtedy może się nauczyć czegoś nowego. Skumulowany błąd predykcji staje się więc kompassem wskazującym, gdzie powinna skoncentrować się uwaga agenta.

Metoda ma potencjał, by znacznie przyspieszić proces uczenia się modeli świata w złożonych środowiskach, szczególnie tam, gdzie zewnętrzne nagrody są rzadkie lub trudne do zdefiniowania. To kluczowe dla robotyki, symulacji i systemów, które muszą samodzielnie odkrywać strukturę otaczającego ich uniwersum. Jeśli podejście będzie się sprawdzać w praktyce, mogłoby zmienić sposób, w jaki trenujemy agenty zdolne do autonomicznego działania i adaptacji.