Badacze opracowali nową metodę post-training dla diffusion language models, która rozwiązuje problem mode-seeking w reinforcement learning. Zamiast skupiać się na optymalizacji pojedynczych ścieżek, metoda trajectory-balance zapewnia bardziej zrównoważone i stabilne trenowanie. Innowacja ma potencjał do poprawy wydajności i niezawodności generatywnych modeli AI wykorzystywanych w praktycznych aplikacjach.