Kiedy prosić o pomoc: Samosterowana klaryfikacja dla hierarchicznych agentów AI

Hierarchiczne systemy decyzyjne AI mają poważny problem: agenty często błądnie angażują się w konkretne ścieżki rozumowania, nie zdając sobie sprawy, że brakuje im kluczowych informacji. Badacze z arXiv zaproponowali ACTION-RATING — framework, w którym prośba o pomoc konkuruje bezpośrednio z aktualnym działaniem, na tej samej skali preferencji. To oznacza, że agent może w każdym punkcie decyzyjnym wybrać: działać dalej, czy poproć o klaryfikację.

Z eksperymentów wynika coś fascynującego. Kiedy agentów natrenowano na tym systemie, w naturalny sposób pojawiły się dwa rodzaje szukania pomocy. Pierwsza to sytuacja krytyczna — gdy żaden z dostępnych wariantów nie wygląda rozsądnie. Druga to ostrożnościowa — gdy jest faworyt, ale agent czuje się niepewny. Na benchmark'u klasyfikacji taryf celnych (droga liczyć do 30 tysięcy kategorii produktów), ta zmiana w sposobie szukania informacji wyniosła efektywność z 50% do 74%.

Co szczególnie ważne, zespół pokazał, że ten wzór — kiedy agent prosi o pomoc — pozostaje stabilny nawet wtedy, gdy jakość otrzymywanych odpowiedzi się pogarsza. To sugeruje, że agent naprawdę nauczył się rozpoznawać własne braki wiedzy, a nie po prostu naśladuje dobre odpowiedzi. To może mieć znaczenie dla bardziej niezawodnych systemów decyzyjnych w rzeczywistych aplikacjach.