Badacze opracowali metodę identyfikowania minimalnych, lokalnych przyczyn powodzenia ataków jailbreak na duże modele językowe. Praca skupia się na znalezieniu najmniejszych zmian w promptach, które pozwalają ominąć zabezpieczenia modeli. Odkrycia mogą pomóc w lepszym zrozumieniu podatności LLM i projektowaniu bardziej odpornych systemów bezpieczeństwa.