Ukryte efekty interakcji w activation patching - wyzwanie dla interpretabilności AI

Activation patching jest kluczową techniką w mechanicznej interpretabilności, umożliwiającą naukowcom przypisanie przyczynowej odpowiedzialności za zachowanie modelu konkretnym komponentom. Jednak badanie arXiv:2606.27510 pokazuje, że estymator tego podejścia (naturalny efekt pośredni - NIE) zawiera znaczne ukryte efekty interakcji (INT), które mierzą, jak działanie jednego komponentu zależy od stanu innych części sieci neuronowej.

Badacze wykazali, że próby eliminacji tych efektów poprzez zmianę estymatora lub jednostki analizy prowadzą do przewidywalnych błędów. W analizie GPT-2 IOI circuit komponenty, których znaczenie jest warunkowe względem stanu innych elementów, okazują się albo całkowicie niewidoczne, albo sztucznie zawyżane. Ta zmienność interakcji wyjaśnia wcześniej obserwowaną niestabilność wyników pomiarów wierności interpretacji. Zespół odkrył też, że INT skaluje się wraz z dystansem między czystymi a zmienianymi aktywacjami komponentów, jest zaniedbywany gdy model jest lokalnie afiniczny, i rozkłada się kombinatorycznie na interakcje parami i wyższego rzędu.

Wniosek ma znaczące implikacje dla praktyki interpretabilności: choć efekty interakcji wydają się nieuniknione, nie powinny być eliminowane, lecz raczej użyte diagnostycznie. Ich wielkość i znak na poziomie indywidualnym i grupowym sygnalizują, kiedy wnioski przyczynowe zależą od konkretnych promptów i kiedy zachłanne podejścia do interpretacji mogą zawodzić.