Badacze opracowali metodę zmniejszającą spadek wydajności modeli językowych podczas ich dostosowywania do bezpieczeństwa. Tradycyjnie poprawianie bezpieczeństwa LLM wiąże się z obniżeniem ich ogólnych zdolności — tzw. safety tax. Nowa technika samodystrylacji on-policy pozwala utrzymać jakość odpowiedzi przy jednoczesnym zwiększeniu bezpieczeństwa. To ważne dla praktycznego wdrażania bezpiecznych AI, które nie traciłyby na wydajności.
Badania
arXiv CS.LG