Badacze wprowadzili DynaSchedBench, zestaw kalibrowanych benchmarków do ewaluacji agentów planowania opartych na modelach językowych w dynamicznych warunkach. Praca ujawnia paradoks obserwacyjności: monitoring wydajności agentów może wpłynąć na ich decyzje planowania. To ważne dla rozwoju niezawodnych systemów AI w zarządzaniu zasobami i harmonogramowaniem zadań w rzeczywistych środowiskach.