Badacze wprowadzają Geometry-Lite, nową metodę do interpretowania i sondowania bezpieczeństwa modeli AI poprzez analizę geometrii marginesu na poziomie warstw. Technika pozwala lepiej zrozumieć, w jaki sposób modele językowe podejmują decyzje bezpieczeństwa i gdzie mogą wystąpić potencjalne luki. To ważne dla zwiększenia przejrzystości działania dużych modeli i poprawy ich odporności na niebezpieczne inputs.
Badania
arXiv CS.LG