Doskonała detekcja, brak kontroli: geometria wiedzy vs sterowania w modelach językowych

Badacze z arXiv wykazali, że w modelach językowych kierunek detektujący zachowanie nie jest tożsamy z kierunkiem go kontrolującym. Ta obserwacja podważa kluczowe założenie mechanistycznej interpretowalności - że jeśli wiemy gdzie zachowanie żyje w aktywaciach modelu, powinniśmy móc je modyfikować.

W eksperymentach na modelu Gemma 2-2B-it zespół mierzył kąt między wektorem detektującym zachowanie a wektorem które go powoduje. W przypadku formatu wyjścia (JSON vs markdown) oba role zapadają się na jedną oś - kosinus bliski 1. Ale dla halucynacji sytuacja jest zdecydowanie inna. Model doskonale separuje fałszywe encje już od warstwy piątej (AUC = 1.000), jednak ten kierunek detekcji siedzi pod kątem 83 stopni od kierunku produkującego odmowę - kosinus zaledwie 0.12. Gap pojawia się reprodukowalnie i generalnie: cztery modele z trzech rodzin pokazują kosinus konsekwentnie między 0.12 a 0.20, niezmienny przed i po instruction tuning, co sugeruje pochodzenie z samego pretrainingu.

Rot obrócenie kierunku o 15 stopni w stronę wektora odmowy częściowo przezwycięża problem - osiągając 73% i 60% odmowy na dwóch zbiorach testowych fałszywych encji przy zaledwie 1.8% fałszywych pozytywów. To pokazuje że problem jest strukturalny, ale nie niemożliwy do naprawy, gdy tylko się go właściwie scharakteryzuje.