GILP: Jak modele świata zmniejszają halucynacje w agentach AI

Naukowcy z arXiv opublikowali pracę porównującą dwa podejścia do budowy modeli świata dla agentów opartych na dużych modelach językowych. Agentowe modele świata (api-based) są elastyczne i mogą wnioskować w naturalnym języku, ale generują halucynacje - wymyślone zmiany stanu - trudne do zmierzenia. Parametryzowane modele świata to trenowane predyktory przejść, które można ocenić metrykiami jak NodeMSE czy accuracy, ale słabiej radzą sobie jako samodzielne planiści.

Do testów użyto czterech benchmarków z planowaniem na grafach. Wyniki pokazały, że połączenie obu podejść daje najlepsze rezultaty. GILP działa na zasadzie: mały nauczony model dostarcza dostępnych akcji, przewidywanych zmian stanu oraz wartościowań ryzyka; LLM proponuje akcję i wyobraża sobie deltę zmian; brama spójności prosi o rewizję, gdy się nie zgadzają. Na rzeczywistych wywołaniach GPT-4o-mini metoda radykalnie spadła halucynacje stanu z 17,6 proc. do 3,5 proc., a w symulatorze kalibrowanym podniosła sukces planowania z 66,8 proc. do 83,8 proc.

Wynalezienie opiera się na kluczowej obserwacji: łącząc szybki, wytrenowany model z reasoning zdolnościami LLM-a i weryfikacją spójności, można złagodzić główną słabość agentów - tendencję do wymyślania sobie rzeczywistości. Dodatkowy koszt to tylko około 22 proc. więcej wywołań modelu, co jest znacznie poniżej progu praktycznego dla aplikacji rzeczywistych.