Standardowe procedury post-trainingu stosujące supervised fine-tuning (SFT) i reinforcement learning mogą niepewnie degradować wartości etyczne wgranym w modele podczas pre-trainingu. Naukowcy testowali model Llama 3.1 8B, którego wcześniej nauczyli współczucia wobec zwierząt na syntetycznych danych, a następnie trenowali go dalej na dwóch różnych domenach - na zadaniach związanych z pomocnością użytkownikowi i na programowaniu. Wyniki były dramatyczne: szkolenie na helpfullness zmniejszyło ocenę modelu na Animal Harm Benchmark z 65,2 procent (coding) do 35,7 procent (helpfulness) w przypadku SFT, a w GRPO z 32,0 do 18,7 procent.
Badanie pokazało również, że training na pomocności degraduje ogólne rozumowanie moralne o 25,5 punktu procentowego na angielskich zadaniach z benchmarku MORU. To odkrycie sugeruje fundamentalny konflikt między trenowaniem modeli na responsywność wobec użytkownika a zachowaniem głębokich wartości etycznych. Jednak sytuacja staje się bardziej złożona, gdy spojrzeć na wyniki wielojęzyczne - efekt degradacji moralnego rozumowania zupełnie znika w teście MORU na innych językach, podczas gdy pogorszenie współczucia wobec zwierząt konsekwentnie przenosi się na wszystkie języki.
Ta asymetria wskazuje, że procesy post-trainingu mogą selektywnie wpływać na różne aspekty wartości modelu w zależności od domeny danych treningowych. Badanie podkreśla napięcie między maksymalizacją pomocności w standardowych benchmarkach a utrzymaniem zakorzenionej etyczności, stawiając ważne pytanie o to, jak projektować procedury treningowe, które nie poświęcają wartości moralnych za cenę responsywności.