Nowe badanie analizuje dlaczego reinforcement learning (RL) lepiej zachowuje wcześniej wytrenowane cechy modeli AI niż supervised fine-tuning (SFT). Naukowcy zbadali mechanizmy stojące za zjawiskiem katastrofalnego zapominania, gdzie modele tracą wcześniejszą wiedzę podczas treningu na nowe zadania. Odkrycia sugerują, że RL zachowuje istniejące obwody neuronowe skuteczniej, co ma implikacje dla treningu wielozadaniowych systemów AI.
Badania
arXiv CS.LG