Badacze przedstawili nową metodę ξ-DPO, ulepszenie Direct Preference Optimization (DPO) wykorzystujące stosunek nagród zamiast różnic. Podejście to lepiej wyrównuje preferencje modelu z celami treningu, zmniejszając rozbieżności między teorią a praktyką. Metoda może poprawić efektywność dostrajania modeli języka poprzez bardziej stabilną optymalizację preferencji.
Badania
arXiv CS.LG