Optymalizacja diffusion policies za pomocą reinforcement learning staje się coraz ważniejsza, ale obecne metody policy-gradient są często niestabilne i nie gwarantują niezawodnego poprawiania polityki. Zespół badawczy zidentyfikował przyczynę problemu — zjawisko double-drift, gdzie optymalizacja wariacjnego modelu zastępczego powoduje, że ELBO oddziela się od prawdziwego log-likelihood, a to z kolei misalignuje otrzymany policy gradient względem rzeczywistego gradientu polityki.

Nowa metoda DiPOD (Diffusion Policy Optimization without Drifting Apart) utrzymuje ścisłe granice zachowania modelu przez całą fazę treningu. Działa to poprzez przeplatanie self-distillacji z aktualizacjami poprawiającymi politykę. W praktyce algorytm wygląda prosto: każda aktualizacja diffusion policy-gradient jest uzupełniana on-policy ELBO regulatorem. To eleganckie rozwiązanie eliminuje źródło instabilności.

DiPOD został przetestowany zarówno na post-trainingu diffusion language models, jak i na diffusion policies dla continuous-control problemów. W obu przypadkach zaproponowana metoda znacząco stabilizowała trening i osiągała wyższe nagrody niż poprzednie podejścia. To sugeruje, że problem niestabilności był rzeczywiście fundamentalny — a jego rozwiązanie otwiera drzwi do bardziej niezawodnego RL post-trainingu dla modeli generatywnych.