Naukowcy przedstawiają metodę Anchor, rozwiązującą problem dryfu artefaktów w automatycznym generowaniu benchmark'ów dla systemów agentowych. Artyfakty (sztuczne elementy) mogą się przesuwać między generacjami testów, co obniża wiarygodność oceny systemów AI. Opracowane rozwiązanie ma znaczenie dla rozwoju bardziej niezawodnych metod ewaluacji zaawansowanych modeli AI i agentów, zapewniając stabilność i spójność testów wydajności.
Badania
arXiv CS.AI