Naukowcy przedstawili ProvenanceGuard - innowacyjny system do ochrony agentów LLM przed misalignment'em, czyli wykonywaniem działań sprzecznych z faktyczną intencją użytkownika. W przeciwieństwie do dotychczasowych rozwiązań opartych na modelu LLM-as-a-judge, nowy system stosuje formalne ramy oparte na analizie pochodzenia danych, aby systematycznie weryfikować, czy każde proponowane wywołanie narzędzia jest wspierane przez śledzowalne dowody w kontekście rozmowy agenta.
ProvenanceGuard działa jako wieloetapowy pipeline, który analizuje trzy kategorie misalignment'u przed faktycznym wykonaniem instrukcji. System sprawdza, czy proponowana akcja rzeczywiście znajduje poparcie w zapytaniu użytkownika i dostępnych informacjach. Testowanie na dwóch różnych benchmark'ach - Agent-SafetyBench i WorkBench - obejmowało 10 różnych modeli LLM jako backbone'y. Wyniki pokazały spektakularne polepszenie: na Agent-SafetyBench wskaźnik błędów spadł z 42,9% do zaledwie 1,8%, zaś na WorkBench z 32,1% do 17,3%. Jednocześnie system zredukował liczbę niepotrzebnych interwencji w prawidłowe akcje z 30,5% do 12,8%.
To rozwiązanie jest szczególnie ważne, bo coraz bardziej zaawansowani agenci LLM uzyskują dostęp do bardziej potężnych narzędzi - od edytowania plików przez wysyłanie wiadomości po wykonywanie kodu. Błędy w wyrównaniu mogą mieć poważne konsekwencje trudne do cofnięcia, dlatego przejrzysta, audytowalna metoda weryfikacji jest kluczowa dla bezpiecznego wdrażania takich systemów w praktyce.