Naukowcy z arXiv przeanalizowali sześć popularnych metod offline reinforcement learning, które distillują rozumowanie z dużych modeli nauczycielskich do mniejszych studentów. Zamiast porównywać tylko wyniki końcowe na testach, zespół badał mechanizmy za pomocą których każda metoda modyfikuje wagi modelu Qwen3-4B trenowanego na identycznych danych matematycznych z użyciem attention-only LoRA.
Wynikom badania sugerują, że niektóre metody są mechanistycznie bliźniacze, mimo że wydają się różne. SFT, RFT i RIFT wykazały prawie kolinearne delty wag z cosine similarity >= 0,97 i górnym kątem głównym około 7 stopni w medianach, osiągając porównywalne wyniki (87-88% na GSM8K z wartościami p McNemara >= 0,15). DFT diverguje bardziej niż metody ważone nagrodami, pomimo używania tych samych danych. Offline GRPO dodaje znaczący komponent ortogonalny do kierunku SFT (około 67% globalnie, do 86% w warstwach końcowych) jednocześnie pozostając w basenie straty SFT.
Najinteresujacej rezultat pojawia się w DPO, która zajmuje prawie prostopadłą podprzestrzeń, wykazuje barierę mode connectivity i zaciera CKA w warstwach końcowych do około 0,46. DPO osiąga również najwyższe wyniki - 93,5% na GSM8K (p < 10^-9 względem każdej innej metody) i 30% na AIME26 w porównaniu z 3,3-10% dla innych podejść. Jednak DPO używa 10-razy mniejszej learning rate niż pozostałe metody, zgodnie ze standardową konwencją, co sugeruje, że wysokie wyniki mogą być spowodowane nie samą metodą, ale parametrami treningu.