Machine unlearning w LLM-ach to nadużywany termin - stanowisko badaczy

Zespół badaczy publikujący na arXiv postuluje, że naukowcy powinni zarezerwować termin machine unlearning wyłącznie dla przypadków, gdy model staje się praktycznie nieodróżnialny od modelu przeuczonego bez konkretnego zbioru danych treningowych. Obecnie termin ten rozciąga się na zbyt wiele różnych operacji.

Problematem jest, że zadania takie jak zmuszenie modelu do odmowy odpowiadania na niebezpieczne pytania, usunięcie wiedzy o konkretnych osobach czy czasowe ukrycie informacji - wszystkie są opisywane jako unlearning. Tymczasem każde z nich ma inne cele, zależy od polityki firmy i powinno być ewaluowane innymi metrykami. Refusal to alignment, usuwanie faktów to edycja modelu, czasowe ukrycie to obfuscation.

Naukowcy zwracają uwagę, że to zamieszanie terminologiczne ma realne konsekwencje: artykuły używają tych samych benchmarków i metrik w różnych kontekstach, co prowadzi do nagród za powierzchowne wyniki - na przykład niskie wyniki w metryke ROUGE mogą sugerować sukces, nawet jeśli nikt nie testował, czy model rzeczywiście przypomina model przeucowany bez tych danych. Autorzy apelują o ścisłą terminologię powiązaną z jasnymi gwarancjami i modelami referencyjnymi, gdzie ewaluacja rzeczywiście odpowiada temu, co się ma osiągnąć.