Gęsta superwizja to za mało: problem niewidoczności readoutu w pętlowych modelach językowych

Pętlowe modele języka (tzw. looped language models) to architektura, gdzie na każdym kroku ukryty stan jest dekodowany do przewidywań i następnie sprzężony zwrotnie do następnej iteracji obliczeniowej. Nowe badanie ujawnia krytyczną lukę: dense supervision przez cross-entropy nie kontroluje wszystkich zmiennych aktywnych w recurrentnej transformacji, a jedynie te ujawniane przez readout.

Konkretny problem dotyczy skali ukrytych stanów. Normalizacje scale-invariant, takie jak RMSNorm i LayerNorm, ukrywają aspekt radialny (skalę) przed funkcją straty, która nie może go bezpośrednio regulować. W międzyczasie residualne połączenia recurrentne nadal propagują i aktualizują tę skalę. W konsekwencji - w modelach o wielkości 44M i 129M parametrów bez normalizacji między pętlami - normy stanów mogą rosnąć do tysięcy lub dziesiątek tysięcy, znacznie destabilizując obliczenia.

Rozwiązanie jest stosunkowo proste: aby superwizja dense mogła efektywnie trenować wczesne wyjścia i kontrolować skalę recurrentną, potrzeba albo sprawić, że skala jest widoczna dla funkcji straty, albo usunąć ją z pętli. Warianty ze skontrolowaną skalą - wykorzystujące widoczne readouty i jawne kary za normę - osiągają niższą perpleksję w porównaniu do stanów o tej samej głębokości inferencji. Badanie sugeruje nową regułę projektowania dla efektywnych pętlowych architektur transformerów.