Rozróżnianie ujawniania i tworzenia zdolności w post-trainingu: perspektywa free-energy

Naukowcy postawili sobie fundamentalne pytanie: czy faza post-trainingu w dużych modelach językowych po prostu ujawnia zdolności, które w nich już drzemią, czy rzeczywiście nauczy je całkowicie nowych umiejętności. To nie jest pytanie czysto teoretyczne - odpowiedź zmienia sposób, w jaki rozumiemy działanie takich technik dostrajania jak RLHF (Reinforcement Learning from Human Feedback), których używają współczesne modele. Badacze zastosowali perspektywę free-energy, pochodzącą z teorii informacji i neurobiologii, by rozjaśnić to zagadnienie i stwierdzić, że granica między ujawnianiem a tworzeniem nowych zdolności może być bardziej zamazana niż dotychczas sądzono.

Perspektywa free-energy pozwala modelować post-training jako proces optymalizacji pod kątem minimalnej uraty energii informacyjnej. Zamiast patrzeć na dostrajanie modelu jako całkowicie nowe uczenie się, ten framework sugeruje, że podczas fazy post-trainingu model przeszukuje przestrzeń już istniejących potencjalnych rozwiązań, wybierając te najbliższe wymaganiom ludzkiego preferowania. To ma bezpośrednie implikacje dla praktyki - jeśli post-training głównie ujawnia już istniejące zdolności, oznacza to, że sama liczba danych w RLHF może mieć mniejsze znaczenie niż jakość sygnału do trenowania. Odwrotnie, jeśli rzeczywiście tworzy nowe umiejętności, to będziemy potrzebować bardziej zaawansowanych podejść optymalizacyjnych.

Wnioski z badania mogą przewartościować nasze oczekiwania wobec możliwości modeli oraz sposoby ich doskonalenia. Jeśli zdolności są głównie ukryte w warstwach parametrów już po pre-trainingu, to szukanie radykalnych ulepszeń poprzez coraz bardziej zaawansowany post-training może być bezproduktywne - bardziej warto by było inwestować w lepszy pre-training lub w nowe architektury. Dla praktykujących inżynierów ML to oznacza zmianę fokusa: zamiast na wielkości datasetu do dostrajania, na precyzję sygnału zwrotnego i lepsze mechanizmy selekcji tych już potencjalnie istniejących umiejętności.