Badacze z arXiv wprowadzili R2D-RL, nowe środowisko reinforcement learningu dla piłki nożnej robotycznej, które otwiera dostęp do symulatorów RoboCup 2D dla współczesnych algorytmów wieloagentowych. Problem w tym, że RoboCup 2D Simulation Server, choć dojrzały i złożony testbed, miał architekturę zorientowaną na konkurencje, którą trudno bezpośrednio integrować z Pythonem i nowoczesnym MARL.
R2D-RL rozwiązuje ten problem poprzez warstwę pośrednią opartą na komunikacji przez pamięć dzieloną i synchronizacji na poziomie cykli. Środowisko wspiera treningi na pełnym polu, scenariuszowe grę na wybranych fragmentach boiska, konfigurowanie przeciwników, dyskretne i hybrydowe przestrzenie akcji, maski akcji ograniczające niedozwolone ruchy oraz shaping nagród bazujący na expected possession value (EPV) — metryce pokazującej prawdopodobieństwo zdobycia gola z danej pozycji. Wszystko to można wykonywać równolegle na wielu instancjach.
To ważne dla MARL, bo piłka nożna łączy wiele trudności: częściową obserwacyjność (gracze widzą tylko część pola), współpracę (własna drużyna) i antagonizm (druga drużyna), rzadkie nagrody (gol), i długo-horyzontowe taktyki. Autorzy dostarcz benchmark'u na pełnym polu oraz wyniki bazowe, dając społeczności MARL solidny punkt do porównań i dalszych badań.