Paradoks nowoczesnych agentów kodujących polega na tym, że podczas gdy modele fundamentalne rozwinęły silne zdolności rozumowania, weryfikacja ich rozwiązań stała się trudniejsza niż generowanie kandydatów. Klasyczna informatyka uczyła, że sprawdzenie poprawności jest łatwiejsze niż jej osiągnięcie, ale ta intuicja się odwraca wraz z rozwojem zaawansowanych systemów AI.

Problem tkwi w naturze weryfikacji jako proxy dla ludzkiego zamiaru. Po pierwsze, intencje użytkowników są z natury niedospecyfikowane - ciężko sprawdzić, czy rzeczywiście zostały spełnione. Po drugie, podczas treningu modeli optymalizacja powiększa lukę między proxy a rzeczywistym zamiarem, co manifestuje się reward hackingiem i nasyceniem sygnału. Naukowcy z arXiv identyfikują trzy kluczowe wymiary jakości sygnałów weryfikacyjnych: skalowalność (czy weryfikacja działa dla różnych skal zadań), wierność (czy dokładnie odzwierciedla intencje) i odporność (czy opiera się manipulacji podczas treningu).

W badaniu przeanalizowano cztery konstruktywne podejścia: weryfikator testowy dla ogólnych zadań kodowania, weryfikator rubrycki dla zadań frontendowych, samego użytkownika jako weryfikatora dla rzeczywistych agentów oraz zautomatyzowanego weryfikatora agenta dla zadań długoterminowych. Eksperymentalne wyniki wskazują, że jednoczesne osiągnięcie wszystkich trzech wymiarów jest centralnym wyzwaniem, a nie istnieje uniwersalne rozwiązanie działające dla wszystkich typów zadań i poziomów zdolności modeli.