Odwracalny stan nauczony poprzez sidecary procesów

Naukowcy zaproponowali Process Sidecars - metodę pozwalającą na selektywne usunięcie wspomnianych faktów z modelu językowego, nawet po etapie trenowania bezpieczeństwa. Problem jest bardziej skomplikowany niż się wydaje: podczas gdy faza pamięci uczy model zapamiętywania informacji, a następna faza bezpieczeństwa uczy go odmawiania dostępu do tych danych, proste odjęcie pamięci nie działa, ponieważ optymalizator bezpieczeństwa już zmodyfikował wewnętrzne reprezentacje pamięci.

Proponowana metoda wykorzystuje dwa współczynniki (lambda i gamma) wraz z oszacowaniem secant'a przechodzącego przez proces treningowy z algorytmem AdamW. Kluczowy wkład badaczy to dowód, że dokładny sidecar przy parametrach (1,1) odzyskuje idealny model hipotetyczny trenowany wyłącznie do bezpieczeństwa, ze zgodnością do drugiego rzędu. Implementacja jest elegancka - wykorzystuje już istniejący model jako punkt końcowy i wymaga jedynie jednego dodatkowego sladu treningowego.

To ma znaczenie praktyczne dla bezpieczeństwa sztucznej inteligencji: umożliwia usunięcie wrażliwych informacji z wytrenowanych modeli po odkryciu potencjalnie szkodliwych zastosowań, bez konieczności przerabiania całego procesu treningowego bezpieczeństwa. Dowód matematyczny pokazuje również, że informacja o procesie treningowym jest niezbędna - prostsza metoda bez tych informacji nie może osiągnąć takiej dokładności.