Badacze analizują jak systematyczne błędy w procesie weryfikacji wpływają na wydajność reinforcement learning from verification rewards (RLVR). Badanie pokazuje, że takie błędy mogą opóźniać naukę, zatrzymywać postęp na płaskowyżu lub prowadzić do całkowitego upadku systemu. Wyniki są ważne dla praktyków wdrażających systemy AI ze wzmacniającym się uczeń, ponieważ ujawniają podatność tych metod na niedoskonałości w mechanizmach ewaluacji modeli.
Badania
arXiv CS.LG