Badacze z arXiv представили CEO-Bench, nowy benchmark testujący agentów AI w długoterminowym zarządzaniu biznesem. Test polega na symulacji prowadzenia startupa przez 500 dni poprzez interfejs Python, gdzie agent musi samodzielnie ustalać ceny produktów, planować kampanie marketingowe, zarządzać budżetem i koordynować wiele decyzji. Środowisko stawia przed agentem te same wyzwania co rzeczywisty CEO: pracę z hałaśliwymi, powiązanymi danymi biznesowymi, dostosowanie strategii do zmiennych warunków oraz orchestrowanie wielu zmiennych części w kierunku spójnego celu.
Dotychczasowe benchmarki skupiały się na krótkoterminowych zadaniach takich jak inżynieria oprogramowania czy obsługa klienta. CEO-Bench pokazuje, że agenci radząc sobie z pojedynczymi problemami, zawodzą w rzeczywistości wymagającej kombinacji wielu umiejętności: nawigacji przez długie horyzonty czasowe pośród niepewności, zbierania informacji w szumnym środowisku, adaptacji do zmian oraz koordynacji złożonych decyzji. Nawet najsilniejsi dostępni modele radzą sobie słabo. Tylko Claude Opus 4.8 i GPT-5.5 kończą symulację z kwotą powyżej początkowego 1 mln dolarów, ale żaden z nich nie osiąga konsekwentnych zysków. Najlepsze agenty piszą zaawansowany kod symulujący kohorty klientów do prognozowania przepływów pieniężnych i analizujący historię negocjacji w poszukiwaniu ukrytych preferencji.
Benchmark stanowi znaczący krok w kierunku mierzenia inteligencji potrzebnej do prowadzenia długoterminowych, adaptacyjnych projektów. Wyniki ujawniają poważne ograniczenia obecnych modeli w zarządzaniu złożonością rzeczywistych systemów biznesowych, gdzie sukces zależy od zintegrowanego myślenia strategicznego, a nie od zdolności do rozwiązywania izolowanych problemów.