Zespół badaczy opracował EXPO-SQL, ulepszoną metodę nauczania dużych modeli językowych do tłumaczenia pytań w języku naturalnym na kwerendy SQL poprzez zastosowanie uczenia się ze wzmocnieniem na poziomie poszczególnych klauzul. Zamiast przydzielać jedną ocenę całemu zapytaniu SQL, jak robią to dotychczasowe metody, EXPO-SQL przyznaje odrębne nagrody za każdą klauzulę (SELECT, WHERE, JOIN itp.), różnicując między częściami prawidłowymi a błędnymi.

Kluczową innowacją jest sposób identyfikacji błędów. Metoda analizuje komunikaty błędów zwracane przez bazę danych oraz stopniowo wykonuje zapytanie, sprawdzając każdą klauzulę z osobna. Dzięki temu model otrzymuje precyzyjne informacje zwrotne pokazujące dokładnie, które części zapytania są błędne i dlaczego. To znacznie bardziej efektywne niż uniform reward design, gdzie model musiał się uczyć na podstawie globalnej oceny całego zapytania.

Experymenty na popularnych benchmarkach Text-to-SQL wykazały, że EXPO-SQL znacznie przewyższa istniejące podejścia - zarówno metody nadzorowanego fine-tuningu, promptingu, jak i inne techniki uczenia się ze wzmocnieniem. Kod badaczy jest dostępny publicznie, co ułatwia adopcję i dalszą pracę nad technikami tłumaczenia języka naturalnego na SQL.