RIFT-Bench: dynamiczne testowanie bezpieczeństwa systemów agentycznych AI

Naukowcy z arXiv opracowali RIFT-Bench, innowacyjną metodologię do testowania bezpieczeństwa systemów agentycznych opartych na dużych modelach językowych. Istniejące oceny bezpieczeństwa są zwykle powiązane z konkretnymi implementacjami lub domenami, co utrudnia porównanie różnych systemów. RIFT-Bench zmienia to podejście dzięki reprezentacji opartej na grafach, umożliwiającej zunifikowaną ocenę heterogenicznych architektur agentycznych.

System działa w dwóch automatycznych fazach. Faza Discovery ekstrahuje strukturę badanego systemu, a faza Scanning wdraża adaptacyjne ataki adwersaryjne i generuje kompleksowy raport oceny. Metodologia wykorzystuje szeroki zestaw dynamicznie dostosowywanych sond adwersaryjnych obejmujących różne wektory ataków i cele. Badacze przetestowali RIFT-Bench na 45 systemach agentycznych, demonstrując efektywność podejścia na różnych implementacjach i architekturach.

Ważność tego opracowania polega na adresowaniu nowych zagrożeń bezpieczeństwa, które pojawiają się w systemach autonomicznych AI. Podczas gdy tradycyjne evaluacje skupiają się na lukami w samych modelach językowych, systemy agentyczne otwierają nowe powierzchnie ataku związane z ich zdolnościami do autonomicznego podejmowania decyzji. RIFT-Bench obsługuje również ewaluację strategii mitygacji zagrożeń, co czyni go skalowaną podstawą do oceny bezpieczeństwa przyszłych systemów agentycznych.