Badacze przeanalizowali jak działa mechanizm odmowy w zafinetunowanych modelach chatowych, testując dwie główne techniki sterowania tym zachowaniem. Poprzednie prace pokazały, że bezpieczeństwo modeli opiera się na pojedynczym kierunku w przestrzeni aktywacji neuronów. Nowe badanie porównuje metodę difference-in-means (DiM) z bardziej zaawansowaną techniką INLP, sprawdzając czy ta druga może być równie skuteczna i bardziej elastyczna w użytkowaniu.
Wyniki pokazują, że INLP counterfactual flipping konkuruje z metodą DiM w tłumieniu odmowy, podczas gdy proste rzutowanie na nullspace działa słabiej. Ciekawe odkrycie dotyczy geometrii przestrzeni aktywacji — nullspace projection zmienia aktywacje na obszar między klastrami szkodliwych i nieszkodliwych reprezentacji, podczas gdy counterfactual flipping przesuwa je do klastra przeciwnego. To sugeruje, że model reprezentuje brak konceptu zupełnie inaczej niż jego negację.
To rozróżnienie ma istotne implikacje dla bezpieczeństwa AI. Zrozumienie, że odmowa i zgodność są kodowane w różnych geometrycznych regionach, otwiera nowe możliwości rozwoju bardziej precyzyjnych i tuniowalnych mechanizmów kontroli. Badacze pokazują też, że ograniczenie INLP do głównych kierunków zachowuje większość efektu tłumienia przy prawie normalnej wydajności modelu, co czyni tę metodę praktycznie zastosowaną.