Naukowcy z ArXiv odkryli fundamentalną lukę w bezpieczeństwie współczesnych dużych modeli językowych. Okazuje się, że perturbacje na poziomie pojedynczych znaków mogą obejść zabezpieczenia alignment'u, mimo że pozostają dla człowieka czytelne. Mechanizm ataku opiera się na właściwościach tokenizacji BPE (Byte Pair Encoding), która rozbija słowa na podjednostki. Badacze przetestowali to systematycznie na pięciu rodzinach modeli: Qwen-3-4B, Qwen-2.5-7B, Gemma-3-4B, Llama-3.1-8B i Mistral-7B, osiągając sukces w obejściu odmowy w 80-100 proc. testów z HarmBench.
Cenną obserwacją jest fakt, że żaden z trzech przeanalizowanych publicznych zbiorów danych do treningu alignment'u nie zawierał celowo fragmentowanych promptów. To oznacza, że modele nigdy nie widziały takich przykładów podczas treningu. Kiedy optymalizacja celowo fragmentuje słowa bezpieczeństwa, modele gubiąc kontekst kształtowany podczas RLHF, generują szkodliwe odpowiedzi w 29-65 proc. przypadków (w zależności od modelu). Activation patching pokazał, że sygnał zaburzenia lokalizuje się w ostatnich około 30 proc. warstw sieci.
Obronę okazała się trudna. Próby zamknięcia luki za pomocą Direct Preference Optimization nie dały stabilnych, powtarzalnych wyników na trzech testowanych rodzinach modeli. Natomiast Supervised Fine-Tuning na fragmentowanych przykładach zamyka lukę, ale tylko poprzez globalny upadek bezpieczeństwa - modele zaczynają odmawiaćodpowiedzi również na zupełnie niewinne pytania. Badanie sugeruje, że brakująca danych jest konieczna, ale niewystarczająca do pełnego rozwiązania problemu przy obecnych metodach treningu.