Naukowcy z arXiv opracowali nową metodę weryfikacji dla zadań Text-to-SQL opartą na modelach nagród wyników zamiast tradycyjnych heurystyk. Zaproponowany system GradeSQL automatycznie generuje kandydujące zapytania SQL i ocenia je za pomocą uczonego modelu semantycznego, bez potrzeby ręcznej adnotacji danych treningowych.

Dochodziło do tego, ponieważ popularne strategie inference'u w czasie testu, takie jak Best-of-N sampling czy Majority Voting, opierają się na prostych sygnałach - sukcesem wykonania lub częstością odpowiedzi. Te podejścia nie potrafią dobrze odróżniać między kandydatami o podobnych właściwościach powierzchniowych, ale różniące się semantycznym rozumieniem zapytania. Outcome Reward Models stanowią alternatywę - uczone są jako funkcje oceniające, które mogą lepiej wychwytywać subtelności semantyczne.

Wyniki testów na benchmarkach BIRD i Spider pokazują konsistentne przesunięcie w górę - ORM-based selection osiągnął wzrost o do 4,33 procent na BIRD i 2,10 procent na Spider w porównaniu z Best-of-N i Majority Voting. Efekt jest szczególnie widoczny na bardziej złożonych zapytaniach, a modele skalują się dobrze wraz z większymi zbiorami kandydujących odpowiedzi. To oznacza praktyczną drogę do poprawy wiarygodności LLM-ów w strukturalnych zadaniach reasoning bez dodatkowych kosztów anotacji.