TUR-DPO: Optymalizacja preferencji z uwzględnieniem topologii i niepewności

Naukowcy opracowali nową metodę trenowania modeli językowych, która wykorzystuje wiedzę o budowie sieci neuronowej do lepszego dostrajania ich preferencji. TUR-DPO - bo o niej mowa - stanowi ulepszenie techniki Direct Preference Optimization, czyli metody, która uczy modele różnicowania między dobrymi a złymi odpowiedziami. Zamiast traktować wszystkie preferencje jednakowo, nowy algorytm waży je inteligentnie, biorąc pod uwagę topologię modelu i pewność, z jaką model odpowiada. To oznacza, że podczas treningu system bardziej przywiązuje wagę do bodźców, które faktycznie mogą coś zmienić w działaniu sieci.

Dotychczasowe podejścia do Direct Preference Optimization zwykle polegały na użyciu dodatkowego modelu referencyjnego, który pilnuje, aby zmiany w treningu nie odbiegały zbyt далеко od pierwotnego zachowania. TUR-DPO pozwala z tego zrezygnować, co jest znaczące, ponieważ zmniejsza koszty obliczeniowe i komplikuje mniej procedurę trenowania. Zamiast tego metoda analizuje samą strukturę neuronów i zapamiętanych w nich wzorów, aby zrozumieć, gdzie faktycznie trzeba wprowadzić zmiany. To podejście jest szczególnie ciekawe w kontekście dostrajania coraz większych modeli AI, gdzie każda optymalizacja procedury treningowej ma realny wpływ na czas i zasoby potrzebne do jej przeprowadzenia.

Wyniki badań pokazują, że TUR-DPO poprawia nie tylko efektywność treningu, ale też ogólną jakość działania dostrojonych modeli. Metodę można zastosować do verschiednych architektur modeli jezzykowych, co sugeruje szerokie potencjalne zastosowanie w przemyśle. To kolejny krok w kierunku bardziej pragmatycznych i efektywnych sposobów zarządzania wielkimi modelami AI, które mogą pracować szybciej i taniej bez rezygnacji z precyzji.