Edycja pojedynczego neuronu usuwa pętle powtórzeń w LLM-ach

Badacze z arXiv odkryli interesujący fenomen w modelach Gemma 4: podczas generowania długich list faktów — takich jak odcinki serialu czy 151 oryginalnych Pokemonów — modele wpadają w pętle powtórzeń. Problem objawia się na dwa sposoby: albo model powtarza ten sam tekst dosłownie, albo lista stopniowo degeneruje się do jednej odpowiedzi. Zjawisko występuje niezwykle konsekwentnie, nawet w 95% prompt test cases, i przetrwało próby naprawy poprzez zmianę słownictwa czy regulację samplingowania.

Aby zrozumieć źródło problemu, zespół użył zaawansowanych technik jak ablacja per-warstwowa i atrybuacja neuronowa. Odkryli, że pętle tracą się do niewielkiego zbioru neuronów MLP, a w przypadku większych modeli opartych na architekturze Mixture-of-Experts — do kilku routowanych ekspertów. Robi to intrygujące możliwości: w najmniejszym modelu E2B problem udało się zniwelować edycją zaledwie jednego neuronu (poprzez inwersję jego znaku).

Chociaż edycje wag sprawdzają się w praktyce i nie psują ogólnych wyników benchmarków, rozwiązanie okazuje się częściowe. W dłuższych scenariuszach myślenia większe modele wpadają w „doom loop" — bezzielną pętlę samokorekcji, w której model bezproduktywnie obraca się wokół faktu, którego nie potrafi przywołać. To sugeruje, że poblem ma głębsze korzenie w samej architekturze modelowych mechanizmów attention i knowledge retrieval.