Procedural Memory Distillation: online samodoskonalenie modeli językowych

Procedural Memory Distillation to nowatorskie podejście do szkolenia modeli językowych, które wykorzystuje bogatsze informacje pochodzące z procesu uczenia z weryfikowalnymi nagrodami (RLVR). Podczas gdy dotychczasowe metody takie jak SDPO oceniały każdą próbę niezależnie na podstawie wyniku weryfikacji, PMD gromadzi i ponownie wykorzystuje proceduralne wzorce wyłaniające się w ciągu wielu epok treningowych - które strategie konsekwentnie przechodzą weryfikację, które tryby błędów się powtarzają i jakie moty pojawiają się na różnych problemach.

Rdzeniem podejścia jest współewolucja: model generuje próby (rollouts), które aktualizują rozproszoną pamięć doświadczeń, a ta pamięć z kolei kształtuje supervizję dla uczącego się modelu na jego własnych próbach. Pamięć organizuje się na trzech poziomach abstrakcji - od surowych trajektorii, przez samorefleksyjne strategie i wnioski, aż do wysokopoziomowych wzorców behawioralnych. Pamięć-warunkowany nauczyciel pośredniczy w tym procesie, umożliwiając studentowi progresywne wchłanianie wiedzy proceduralnej bezpośrednio do parametrów sieci.

Klucze znaczenie PMD polega na tym, że proceduralna wiedza zostaje absorwowana przez model podczas treningu, ale model nie potrzebuje dostępu do pamięci podczas wnioskowania - jest to pamięć pozbawiona rozwiązania. To stanowi kontrast z tradycyjnymi metodami zwiększania kontekstu, ponieważ wiedza trwale osadzona w wagach modelu może być bardziej efektywna i niedochodowa.