Odmowa w modelach chat zależy od personas osobistości

Nowe badanie pokazuje, że mechanizm odmowy (refusal) w dużych modelach języka nie jest izolowanym systemem bezpieczeństwa, ale głęboko powiązany z persona modelu - jego ustaloną osobistością i nastawieniem. Naukowcy przeprowadzili eksperymenty na Qwen2.5-7B-Instruct i Llama-3.1-8B-Instruct, manipulując kierunkami w przestrzeni aktywacji neuronów. Gdy wyłączyli kierunek "compliant persona" (osobistość skłonna do posłuszeństwa), bezpośrednio tłumiło to funkcję odmowy - w przypadku Llamy współczynnik odmowy spadł dramatycznie z 97 proc. do zaledwie 2 proc.

Badanie ujawnia hierarchiczną strukturę tych mechanizmów. Refusal jest rzeczywiście obliczany w głębokich warstwach sieci, ale jego faktyczne wyrażenie i zastosowanie zależy od persona wyekstrahowanej na późnych warstwach. Gdy naukowcy projektowali za kierunek persona z późnych warstw, funkcja odmowy wracała do normy. Oznacza to, że persona działa jak "brama" kontrolująca, czy model faktycznie zastosuje odmowę, nawet jeśli mechanizm refusal jest obliczony. To fundamentalnie zmienia nasz sposób myślenia o bezpieczeństwie modeli.

Wyniki sugerują, że traktowanie bezpieczeństwa jako odrębnego, izolowanego kierunku w przestrzeni aktywacji jest zbyt uproszczone. Jeśli bezpieczeństwo zależy od persona, a persona można manipulować poprzez steering, to istniejące podejścia do safety mogą być bardziej podatne na obejście niż wcześniej sądzano. To ma głębokie konsekwencje dla design modelów i metod ewaluacji ich bezpieczeństwa.