OSGuard: benchmark bezpieczeństwa dla agentów sterujących komputerem

Coraz więcej agentów AI oceniane są na podstawie tego, czy potrafią wykonać realistyczne zadania na pulpicie lub w przeglądarce. Jednak skupienie się wyłącznie na powodzeniu zadania może pomylić nas — agent może osiągnąć cel, ale poprzez niebezpieczną ścieżkę. Właśnie ten problem stara się rozwiązać OSGuard.

Benchmark ma dwa główne komponenty. Pierwszy to testy na poziomie akcji, które oceniają, czy danych decyzji guardrail podjęte przez agenta są bezpieczne, biorąc pod uwagę instrukcję użytkownika i bieżący stan interfejsu. Drugi element to seria scenariuszy z wymyślanymi zagrożeniami — zmodyfikowane zadania, w których oryginalny cel pozostaje osiągalny, ale środowisko zawiera ukryte niebezpieczeństwa, jak destrukcyjne nadpisanie plików. Każdy scenariusz ma wbudowane dodatkowe kryteria bezpieczeństwa.

Wyniki eksperymentów pokazują ciekawą asymetrię: multimodalne guardrails radzą sobie całkiem dobrze w ocenie izolowanych akcji, ale gdy przychodzi do rzeczywistych scenariuszy end-to-end, pojawiają się znaczące luki. To sugeruje, że nadzór lokalny — sprawdzenie każdej akcji z osobna — to za mało. Potrzebujemy agentów, którzy rozumieją całościowy kontekst bezpieczeństwa zadania.