MacArena: benchmark dla agentów komputerowych na natywnym macOS

Agenty komputerowe, które uczą się obsługiwać interfejsy graficzne poprzez wizję i sterowanie, to jeden z gorących tematów w AI. Dotychczas ich ocena odbywała się głównie na benchmarkach opartych na Linuxie, takich jak OSWorld, ale ekosystem macOS — zwłaszcza urządzenia z Apple Silicon — pozostawał poza głównym nurtem badań. Istniejący benchmark macOSWorld obejmował jedynie wąski wycinek aplikacji Apple'a z prostszymi zadaniami i działał na niekompatybilnych x86 maszynach wirtualnych.

MacArena zmienia tę sytuację. Naukowcy stworzyli benchmark zawierający 421 ręcznie zweryfikowanych zadań rozłożonych na 50 aplikacji macOS. Łączy on przeniesione zadania z OSWorld, zawartość z macOSWorld oraz całkowicie nowe zadania macOS-native, a wszystko to działa na natywnym frameworku wirtualizacji Apple'a na Apple Silicon. To ważne, bo macOS prezentuje wyjątkowe wyzwania interfejsowe, których Linux-owe benchmarki po prostu nie oddają.

Wynniki badań są intrygujące i zaskakujące. Modele, które dominują na istniejących benchmarkach, niekoniecznie czują się komfortowo na macOS. Ranking modeli praktycznie się odwraca — gdzie indziej lider odpada o ponad 26% wydajności w testach MacArena. Sugeruje to, że macOS to rzeczywiście trudniejsze środowisko dla dzisiejszych agentów GUI. To odkrycie pokazuje, iż dotychczasowe wyniki mogły odzwierciedlać raczej dobrą znajomość rozkładu zadań niż rzeczywistą umiejętność pracy na różnych platformach.