QPILOTS: Efektywne sterowanie flow policies poprzez Q-guidance w czasie testowania

Naukowcy z arXiv opublikowali pracę opisującą QPILOTS - nową technikę do trenowania polityk opartych na modelach flow-matching i diffusion. Problem, który rozwiązuje, to trudność w optymalizacji takich ekspresyjnych generatorów akcji przy użyciu temporal-difference reinforcement learning. Dotychczasowe podejścia wymagały lub odrzucania informacji o gradientach, lub destylowania polityki do prostszego modelu, lub ciągłego fine-tuningu - wszystko to skomplikowane obejścia.

Kluczową innowacją QPILOTS jest zmiana podejścia: zamiast próbować bezpośrednio backpropagować gradient krytyka przez wielokrokowy proces denoisingu (co powoduje niestabilność numeryczną), metoda steruje tym procesem w czasie testowania. W każdym kroku denoisingu projekt pośredniego stanu hałaśliwego akcji bezpośrednio do oszacowania czystej, ostatecznej akcji - tam gdzie predykcje krytyka są znacznie bardziej niezawodne. Istnieją dwa warianty: QPILOTS-U wykorzystuje szybką jednopunktową aproksymację, a QPILOTS-M pobiera próbki z posterior poprzez uczoną sieć pomocniczą.

Wyniki są imponujące. Na standardowych benchmarkach offline-to-online RL metoda osiąga najlepszą zagregowaną wydajność z średnim wskaźnikiem sukcesu na poziomie 90% w 50 zadaniach. Co ciekawe, QPILOTS potrafi sterować dużymi, zamrożonymi pretrenowanymi modelami Vision-Language-Action bez ich modyfikacji, co otwiera możliwości praktycznego zastosowania w robotyce bez konieczności retrainingu ogromnych foundation models.