AgentOdyssey: Framework do testowania agentów AI w długoterminowych grach tekstowych

Zespół badaczy przedstawił AgentOdyssey, innowacyjny framework do testowania agentów sztucznej inteligencji w kontekście uczenia się ciągłego podczas wdrażania. Zamiast tradycyjnego podejścia, gdzie agenci uczą się tylko na etapie trenowania, system umieszcza agenty w dynamicznym środowisku gier tekstowych, gdzie muszą uczyć się jednocześnie z działaniem - to stanowi znacznie bardziej realistyczny scenariusz niż konwencjonalne benchmarki.

Framework procedurально generuje otwarte gry tekstowe z bogatymi encjami, dynamiką świata i zadaniami rozciągającymi się na wiele kroków. Metodologia ewaluacji sprawdza nie tylko postęp w grze, ale również przeprowadza testy diagnostyczne dotyczące zdobywania wiedzy o świecie, pamięci epizodycznej, eksploracji obiektów i akcji, różnorodności działań oraz kosztów modelu. Badacze testowali różne rodzaje agentów, od modeli opartych na LLM po systemy hybrydowe.

Wyniki eksperymentów ujawniły poważne ograniczenia nawet u najwydajniejszych agentów. Pomimo że wydajność rośnie wraz ze wzrostem mocy modelu bazowego, nawet najlepszy agent osiąga wyniki znacznie poniżej poziomu ludzkiego, wskazując na ogromny potencjał do poprawy. Kluczowe odkrycie dotyczy roli pamięci krótkoterminowej - zespół wykazał, że krótkoterminowe zapamiętywanie poprzednich interakcji jest istotnym elementem wspierającym wielkie paradygmaty agentów i kluczowym komponentem trenowania agentów w czasie testu.