Reprezentacja jako wąskie gardło interpretowności mechanistycznej

Mechanistyczna interpretowność sieci neuronowych produce bogatą kolekcję analiz na poziomie komponentów - badacze mogą opisać, co kodują poszczególne części modelu i jak ze sobą współpracują. Problem w tym, że rezultaty tych analiz - tabelki selektywności, schematy obwodów, listy cech - pozostają zamknięte w notebookach poszczególnych badań. Nie można ich łatwo łączyć, pytać o nich w naturalnym języku czy bezpośrednio wykorzystać do audytu modelu czy interwencji.

Nowi badacze zaproponowali Manifestation Units - protokół oparty na typizowanych tuplach (E, S, R, D, G) rozszerzonych o primitywne elementy attention heads dla architektur transformer. W praktyce to znaczy: wspólny format do automatycznego wypełniania danych o każdym komponencie sieci, który można potem przeszukiwać za pomocą hybrydowego systemu retrieval. Schemat został przetestowany na trzech różnych typach modeli - generatywnych (beta-VAE), dyskryminatywnych (CNN) i Large Language Model (GPT-2).

Wyniki pokazały, że struktura typizowana znacznie przewyższa niestrukturalne podejścia przy wyszukiwaniu. W sieciach CNN filtry znalezione przez schemat spełniały kryteria przyczynowej wystarczalności i konieczności. Protokół bez modyfikacji wspiera również attention heads i może odzyskać znane już komponenty z IOI circuits. Najciekawszym odkryciem jest to, że rdzeń funkcjonalny wymaga tylko dwóch pól (S+R), podczas gdy pozostałe pola są albo redundantne, albo aktywnie przeszkadzają.