Badanie dotyczące optymalizacji reinforcement learning w dużych modelach wizyjno-językowych, analizujące konwergencję, rozkład nagród i zdolność generalizacji modeli na nowe zadania.