Turn-averaged SAE - nowa metoda odkrywania cech w modelach językowych

Naukowcy z arXiv opublikowali pracę opisującą turn-averaged SAE - nową architekturę sparse autoencoder zaproponowaną do rozumienia, jak działają duże modele językowe. Problem ze standardowymi SAE polega na tym, że analizują one każdy token osobno, co oznacza, że liczba aktywnych cech rośnie liniowo wraz z czasem konwersacji. W praktyce to utrudnia badanie długich transkryptów dialogów.

Novel podejście poprzez turn-averaging zmienia grę - zamiast obserwować każdy token, metoda uczy się rekonstruować średnią aktywację modelu dla całej wypowiedzi człowieka lub asystenta jako jedną całość. To pozwala reprezentować skomplikowaną turę rozmowy za pomocą stałej liczby cech. Testy pokazują, że takie cechy opisują wysokopoziomowe charakterystyki pojedynczej tury dialogu bardziej kompletnie niż podejście per-token, co zostało zweryfikowane przez ocenę przez LLM.

Technika ma szerokie praktyczne implikacje dla interpretabilności AI. Turn-averaged SAE znacznie upraszcza popularne zastosowania SAE, szczególnie wykresy atrybucji, które pomagają śledzić skąd model czerpie informacje. To oznacza, że interpretability techniques, które wcześniej działały słabo na dłuższych rozmowach, stają się praktyczne nawet przy bardzo długich kontekstach - co jest kluczowe dla modeli działających na rzeczywistych, rozciągniętych dialogach.