Naukowcy zaprezentowali LearnStop - nowe podejście do decydowania kiedy modele rozumowania mogą przestać myśleć nad problemem. W przeciwieństwie do prostych reguł opartych na pewności odpowiedzi, system uczy się kiedy prefiks rozumowania jest wystarczająco dobry na podstawie wielu cech online takich jak pewność odpowiedzi, entropia czy stabilność.
Testowali swoje podejście na 18 różnych kombinacjach zadań i modeli, w tym popularne benchmarki GSM8K, MATH-500 i MMLU-Pro, oraz distylacje Qwen3 i DeepSeek-R1. Wyniki pokazały że wszystko zależy od typu problemu. Dla zadań matematycznych z wolną formą (jak GSM8K z Qwen3-32B) nauczony system zatrzymywania ulepszył granicę wydajności-kosztu o 0,157 w stosunku do najlepszych prostych reguł. Jednak dla zadań wielokrotnego wyboru lub bardzo trudnych benchmarków proste mierniki - głównie pewność lub entropia - okazały się równie dobre lub lepsze niż nauczony system.
Badanie redefiniuje znaczenie nauki reguł zatrzymywania - nie jako uniwersalnej zamiany dla prostych progów, ale jako narzędzia którego przydatność zależy od struktury ścieżki rozumowania. To ma praktyczne znaczenie dla balansowania kosztów obliczeniowych i dokładności, szczególnie gdy modelki muszą rozwiązywać różnorodne typy zadań z ograniczonymi zasobami.