Metryki retrieval mogą być mylące - jak mierzyć użyteczność polityki w agentach wieloetapowych

Naukowcy odkryli, że tradycyjne metryki exact-match retrieval recall mogą nie oddawać prawdziwego wpływu pobieranych informacji na wydajność decyzyjną agentów. W eksperymentach na tau-bench wykorzystali modele Qwen2.5 o rozmiarach 3B i 7B do klasyfikacji polityki przed akcją, gdzie agent musi podejmować decyzje na podstawie wcześniej pobranych danych.

Wyniki były zaskakujące. Podczas gdy dokładna klauzula polityki trafiła na pierwsze miejsce w rankingu zaledwie w 7% przypadków dla scenariuszy lotniczych, model osiągnął macro-F1 0.58 z pobranymi klauzulami wobec 0.60 z idealnymi danymi. Spadek wydajności wyniósł zaledwie 0.02 punktu, a przedział ufności 95% [-0.23, +0.21] nie pozwala nawet na potwierdzenie tego efektu jako statystycznie znaczącego. Dla porównania, użycie niezgodnej polityki obniżyło wynik do 0.32, a brak polityki do 0.21.

Wynik ten ma ważne implikacje dla ewaluacji systemów AI. Jeśli agent potrafi skutecznie pracować nawet z niedoskonale pobranymi informacjami, to ocena bazująca wyłącznie na recall metryk może nas poprzednio ocenić jakość retriever. Naukowcy rekomendują zmianę podejścia - zamiast izolowanego testowania retrieval, należy całkowicie zintegrować pobrane dane z pętlą klasyfikacji i oceniać rzeczywisty wpływ na zadania końcowe.