Agenty oparte na modelach języka jako narzędzia do wyjaśniania obwodów w interpretabilności

Naukowcy opublikowali badanie na temat zastosowania agentów opartych na modelach języka do wyjaśniania obwodów w transformatorach. Zespół zaproponował metodę HyVE (Hypothesize, Validate, Explain), która wykorzystuje iteracyjne pętle obserwacji, generowania hipotez i walidacji przyczynowej, aby automatycznie wyjaśniać, co robią poszczególne komponenty już zlokalizowanych obwodów neuronowych.

Badacze stworzyli nowy benchmark AgenticInterpBench zawierający 84 półsyntetyczne obwody transformatorów z 163 adnotacjami na poziomie komponentów. Testowanie metody HyVE na czterech różnych backbonach modelowych (w tym Llama-3-8B) wykazało, że agenty potrafią odzyskiwać użyteczne wyjaśnienia zarówno na poziomie poszczególnych komponentów, jak i całych obwodów. Jednak żaden z testowanych modeli nie okazał się jednolicie najlepszy we wszystkich scenariuszach.

Analiza błędów ujawniła kluczowy problem: mocne backbony zazwyczaj formują obserwacje zbudowane na faktach, ale większość porażek dzieje się na dalszych etapach. Główne przyczyny niepowodzenia to niewystarczające plany walidacji, błędy w wykonaniu kodu lub nierozwiązane hipotezy. Chociaż agenty okazały się obiecujące dla wyjaśniania mechanizmów sieciowych, niezawodna walidacja pozostaje zasadniczym przeszkodzeniem.