Naukowcy zaprezentowali DecisionBench, nowy benchmark do testowania umiejętności agentów AI w delegowaniu zadań w złożonych, długoterminowych przepływach pracy. Benchmark ocenia emergentne zdolności delegacyjne systemów agentic, czyli ich naturalną skłonność do rozdzielania zadań między różne komponenty. To istotne dla rozwoju bardziej autonomicznych i efektywnych systemów AI zdolnych do zarządzania zasobami w realnych scenariuszach.