Badacze zaprezentowali GROW, nową metodę łączącą GRPO (Group Relative Policy Optimization) z modelowaniem stan-akcja dla agentów VLM (Vision Language Model) działających w otwartych środowiskach. Podejście to ma na celu poprawę zdolności agentów do podejmowania decyzji i interakcji z rzeczywistością poprzez lepsze zrozumienie relacji między stanem świata a konsekwencjami działań. Badanie istotne dla rozwoju bardziej niezawodnych i inteligentnych systemów AI zdolnych do złożonych zadań w nieprzew
Badania
arXiv CS.LG