MindGames Arena: Metoda In2AI z opóźnioną alokacją nagród dla agentów

Naukowcy opracowali innowacyjną metodę trenowania dużych modeli języka do gry w złożone wieloosobowe gry strategiczne. Kluczowy problem, który rozwiązali, to przypisywanie nagród agentom w sytuacjach, gdzie rezultat zależy zarówno od przyszłych zdarzeń, jak i od decyzji innych graczy – coś, co tradycyjne podejścia do reinforcement learningu całkowicie ignorują. Ich rozwiązanie, nazwane in2AI, opiera się na opóźnionej alokacji nagród: system czeka na koniec całej gry, a następnie wstecz propaguje nagrody do konkretnych kroków, z których wynikła rzeczywista sekwencja zdarzeń. Jednocześnie pomija kroki, które nie mogły faktycznie wpłynąć na ostateczny wynik, co znacznie poprawia efektywność treningu.

Metoda łączy kilka kluczowych innowacji technicznych. Obok opisanego mechanizmu eligibility gating, badacze wykorzystali asynchroniczne generowanie rolloutów poprzez ciągłe batching'owanie vLLM, co pozwala na szybsze zbieranie danych treningowych. Dodali też inteligentny dobór przeciwników na różnych poziomach trudności oraz warstwowe konstruowanie batch'ów treningowych – każdy z tych elementów przyczynia się do bardziej stabilnego i efektywnego uczenia się modelu w chaotycznym środowisku wieloagentowym.

Rezultaty są imponujące: 8-miliardowy model trenowany tą metodą pokonał w benchmarku MindGames Arena Arena znacznie większe modele, w tym nawet GPT-5, w bezpośrednich pojedynkach. Osiągnięcie jest jeszcze bardziej znaczące, biorąc pod uwagę, że konkurencja odbywała się na NeurIPS 2025, gdzie metoda zdobyła pierwsze miejsce zarówno w kategorii bez ograniczeń, jak i dla modeli o wielkości do 8 miliardów parametrów. To sugeruje, że inteligentna organizacja procesu treningu może być bardziej wartościowa niż sama wielkość modelu, gdy chodzi o złożone, strategiczne współdziałanie.