DynaSteer - nowa metoda sterowania rozumowaniem LLM przez edycję reprezentacji

Naukowcy przedstawili DynaSteer, nową metodę sterowania rozumowaniem LLM poprzez dynamiczną edycję reprezentacji, która precyzyjnie kieruje modele w stronę poprawnych odpowiedzi zamiast jedynie zachęcać je do bardziej dogłębnego myślenia. Problem dotychczasowych podejść, takich jak Chain-of-Thought czy Wait prompts, polegał na tym, że choć skłaniały modele do dłuższego rozumowania, nie gwarantowały dojścia do prawdy.

Badania ujawniły trzy kluczowe obserwacje dotyczące geometrii prawdy w rozwijających się łańcuchach rozumowania. Po pierwsze, informacja o poprawności jest zakodowana na poziomie zdań i pozostaje powiązana z ukrytymi wzorcami rozumowania. Po drugie, efektywna interwencja musi odpowiadać zasadzie nieoznaczoności i cechować się efektem zanikania - wymaga to działania w najwcześniejszych punktach największej niepewności. Po trzecie, naiwne wektory sterowania zawierają szumy mogące uszkodzić poprawne trajektorie myślenia. DynaSteer odpowiada na te wyzwania poprzez klasteryzację wzorców w celu rozplecenia rozmaitości rozumowania i wykorzystanie Fisher-LDA do projekcji oczyszczonej prawdy.

Metoda dynamicznie monitoruje entropię lookahead, selektywnie korygując i cofając trajektorie tylko gdy jest to niezbędne. Testy na zbiorze MATH benchmark wykazały jej skuteczność, a eksperymenty na nieznanym modelu zadań kodowania potwierdziły zdolność do uogólniania na inne domeny. Kod został udostępniony publicznie na GitHubie, co potencjalnie przyspieszy badania nad precyzyjnym sterowaniem rozumowaniem w LLM bez konieczności retrenningu modeli.