Nowy benchmark Partial Evidence Bench ocenia zdolność systemów agentów AI do pracy z ograniczoną ilością informacji, gdy nie wszystkie dane są dostępne ze względu na ograniczenia autoryzacji. Badanie jest ważne, ponieważ współczesne systemy agentów często muszą pracować w rzeczywistych warunkach, gdzie dostęp do pełnych danych jest ograniczony ze względów bezpieczeństwa i prywatności. Benchmark może wpłynąć na rozwój bardziej praktycznych i bezpiecznych systemów AI, które potrafią działać efekty