SkillJuror: Jak organizacja umiejętności agentów AI wpływa na ich zachowanie

Zespół naukowców wprowadził SkillJuror, framework do oceny różnych sposobów organizacji proceduralna wiedzy dla agentów opartych na dużych modelach językowych. Zamiast sprawdzać tylko zawartość Skills (instrukcji zadań), badali, jak inne ich strukturowanie zmienia rzeczywiste zachowanie agentów w trakcie wykonywania zadań.

W studium obejmującym 82 zadania z SkillsBench porównali podejście Progressive Disclosure — gdzie krótki plik główny wskazuje agentom na dodatkowe zasoby na żądanie — z tradycyjnym płaskim katalogiem wszystkich informacji. Okazało się, że progresywne ujawnianie znacząco zmienia sposób, w jaki agenty pracują: liczba odrębnych zasobów Skills wykorzystanych w jednym przebiegu wzrosła z 1,18 do 3,85, a zdarzenia efektywnego zastosowania wiedzy z 1,33 do 3,92. Co ważne, progressive disclosure przyniósł dodatkowe 17 udanych prób na 410 testów — wzrost o 4,1%.

Wynajęcia nie są jednak uniwersalne. Progresywne ujawnianie zasobów pomaga szczególnie wtedy, gdy wskazane instrukcje wspierają wdrażanie, weryfikację lub naprawę rozwiązań. Natomiast metoda słabiej sprawdza się w zadaniach wymagających precyzyjnych konwencji wyjścia, dokładnych progów numerycznych czy długich pipeline'ów generowania artefaktów. Badanie pokazuje, że organizacja Skills to nie tylko kwestia estetyki — wpływa na to, jak inteligentnie agenty mogą przeszukiwać i stosować wiedzę, ale zyski zależą od tego, czy dostępne zasoby są rzeczywiście przydatne dla danego problemu.