Badacze analizują fundamentalną kwestię: czy post-training ujawnia istniejące już zdolności modeli, czy faktycznie tworzy nowe umiejętności. Artykuł stosuje perspektywę free-energy do wyjaśnienia tego procesu, co ma znaczenie dla zrozumienia, jak działają współczesne techniki dostrajające jak RLHF. Ustalenia mogą zmienić nasze podejście do optymalizacji modeli i oczekiwania dotyczące ich rzeczywistych możliwości.
Badania
arXiv CS.AI