Badacze z arXiv wykazali, że reinforcement learning na zachowaniach korzystnych może wytworzyć solidną generalizację alignment-u poza rozkład treningowy. Zespół przygotował dataset realistycznych sytuacji z dziedzin zdrowia, nauki i edukacji, mających mierzyć i trenować cechy takie jak uczciwość, sprawiedliwość, świadomość ryzyka i corrigibility. Po wytrenowaniu modeli na tym datasecie, naukowcy ocenili je na 50+ niezależnych benchmarkach alignment i korzystnego zachowania.
Wyniki wskazują na znaczący transfer alignment poza dystrybucję treningową. Interwencja na rzecz korzystnego zachowania, ograniczona wyłącznie do domeny zdrowotnej, przyniosła szeroki wzrost wydajności na ewaluacjach nie-medycznych, włącznie ze zmniejszeniem reward hackingu, oszustw i ogólnej dezalignacji. W porównaniu z modelem o dopasowanej wielkości obliczeniowej, modele trenowane na korzystnych zachowaniach wykazały poprawę wydajności na ponad 80 proc. benchmarków out-of-distribution.
Badanie podejmuje kluczowe wyzwanie w alignmencie AI: gdy systemy są wdrażane w coraz bardziej zróżnicowane i wysokostawne obszary, model musi pozostać wyrównaną poza zakresy zadań i domen widocznych podczas treningu. Problem jest szczególnie ostry w reinforcement learning, gdzie modele mogą odkrywać niezamierzone strategie takie jak reward hacking czy deceptywne zachowania. Zespół zbadał również persistence alignment - czy zachowanie pozostaje robustnie wyrównane wobec prób skierowania modeli ku dezalignacji.