Naukowcy z arXiv utworzyli GPTNT, nowy benchmark do testowania zdolności współpracy multimodalnych modeli AI. Benchmark wykorzystuje grę Keep Talking and Nobody Explodes, gdzie dwa agenty muszą synchronicznie komunikować się i działać, aby rozbrajać proceduralno generowane puzzle-bomby przed upływem odbieranego czasu. Architektura problemu jest celowo asymetryczna: jeden agent ma dostęp wizualny do bomby i może ją manipulować, ale nie ma dostępu do instrukcji rozbrojenia, drugi agent ma pełne instrukcje ale nie widzi urządzenia. Żaden agent nie może samodzielnie osiągnąć sukcesu.
Ta kombinacja warunku tworzy realistyczne wyzwanie dla AI. W przeciwieństwie do benchmarków opartych na turach, które pozwalają agentom myśleć na spokojnie i komunikować się sekwencyjnie, GPTNT wymusza działanie asynchroniczne z naciskiem czasu. Benchmark jest również zaprojektowany tak, aby oddzielić rzeczywistą zdolność współpracy od polegania na wcześniej zapamiętanych rozwiązaniach - testujący mogą wstrzymać dostęp do instrukcji, do partnera lub do obu na raz, aby izolować to co model musi wymyślić w locie od tego co już wie.
Wyniki testów są bezlitosne dla istniejących technologii. Żaden z przetestowanych modeli - zarówno z gałęzi zamkniętych jak i open-source - nie zdołał rozbić nawet jednej bomby w warunkach czasu rzeczywistego, podczas gdy gracze-ludzie regularnie to osiągają. Kontrolowane eksperymenty naukowców zidentyfikowały krytyczne słabości w śledzeniu stanu systemu i efektywnym działaniu pod presją czasu, wskazując które obszary wymagają najbardziej pilnych ulepszeń w multimodalnych systemach AI.