Weryfikowalne nagrody dla skalibrowanych prognoz probabilistycznych

Naukowcy opracowali metodę uczenia wzmacniającego do prognozowania probabilistycznego wykorzystującą weryfikowalne nagrody zamiast tradycyjnych etykiet. Kluczowa innowacja polega na zastosowaniu stanu-uwarunkowanego empirycznego wskaźnika zwycięstwa szacowanego z przeszłych wyników jako funkcji nagrody. To podejście eliminuje hałas z pojedynczych, stochastycznych wyników i zapobiega uszkodzeniu procesu myślenia modelu przez gradienty.

Problematyka polega na tym, że tradycyjne funkcje straty, takie jak Brier score, działają dobrze teoretycznie, ale w praktyce degradują kalibrację modelu. Istniejące rozwiązania fokusują się na niepewności epistemicznej, gdzie model ma pewność co do poprawności lub niepoprawności odpowiedzi. Badacze skupili się na prognostyce aleatorycznej, gdzie sama prognoza jest wynikiem, a etykieta to jeden losowy wynik. Testowali swoje podejście na prognozach prawdopodobieństwa zwycięstwa w meczach NFL, używając rynków bukmacherskich jako referencji.

Model 7B wytrenowany wyłącznie na proponowanej nagrodzie, bez ludzkiego nadzoru lub fine-tuning'u, osiągnął kalibrację porównywalną z rynkami bukmacherskimi przy bezpośrednim przewidywaniu i wykazywał lepszą kalibrację niż zero-shot model frontier. To odkrycie sugeruje, że przedział rynku wynika z dostępu do informacji live-game wykraczających poza wspólne dane wejściowe modeli. Badania otwierają nowe możliwości dla samonadzorowanego uczenia w zadaniach prognostycznych, gdzie weryfikowalne nagrody mogą zastępować ludzkie etykiety.