Naukowcy przedstawili TUR-DPO, nową metodę Direct Preference Optimization (DPO) uwzględniającą topologię modelu i niepewność predykcji. Podejście poprawia jakość treningu modeli językowych poprzez inteligentne ważenie preferencji na podstawie struktury sieci neuronowej i pewności odpowiedzi. Metoda wykazuje potencjał do bardziej efektywnego dostrajania modeli AI bez konieczności używania dodatkowych modeli referencyjnych.
Badania
arXiv CS.AI