Badacze przedstawili ARBITER, metodę analizującą trajektorie rozumowania podczas test-time sampling w modelach AI. Praca ujawnia, że tradycyjne podejście głosowania większościowego zawodnieje w przypadkach, gdy model generuje logiczne ale nieprawidłowe ścieżki wnioskowania. ARBITER proponuje nową strategię identyfikacji i selekcji odpowiedzi na podstawie jakości trajektorii, co może znacznie poprawiać wydajność modeli w złożonych zadaniach rozumowania i podejmowaniu decyzji.