Demo2Reward: Optymalizacja promptów dla modeli nagród z wizją

Naukowcy pracujący nad sztuczną inteligencją zaproponowali nową metodę Demo2Reward, która rozwiązuje jeden z kluczowych problemów w robotyce i uczeniu wzmacniającym. Chodzi o to, jak automatycznie oceniać zachowanie robota, gdy nie mamy gotowej funkcji nagród ani możliwości jej ręcznego projektowania. Zamiast trenować nowy model od zera, badacze wykorzystali istniejące modele wizyjno-językowe (VLM) i znaleźli sposób na optymalizację ich instrukcji za pomocą zaledwie kilku przykładów z zakresu od 3 do 10 demonstracji eksperta. Takie podejście ma kluczową zaletę: działa w czasie testowania, bez dodatkowego trenowania modelu, i skutecznie zmniejsza fałszywych pozytywów, które wcześniej rujnowały jakość nauczanego przez robota zachowania.

Problem, który rozwiązuje ta technika, jest naprawdę fundamentalny dla praktycznego zastosowania robotyki i AI. W rzeczywistych zadaniach robotycznych często nie wiemy, jak dokładnie opisać, co powinien robić robot, ani mamy dostęp do dużych zbiorów danych treningowych. Wcześniejsze podejścia wykorzystywały zdolności modelów wizyjno-językowych do zeroszotowego rozumowania, ale producowały zbyt wiele błędnych ocen, co ostatecznie uniemożliwiało robotom efektywne uczenie się. Demo2Reward zmienia to, wykorzystując fakt, że w większości przypadków mamy jednak kilka przykładów tego, jak zadanie powinno być wykonane.

Testy wykazały, że metoda konsekwentnie przewyższa dotychczasowe podejścia tak w symulacyjnych środowiskach, jak i w rzeczywistych scenariuszach robotycznych. To szczególnie istotne, bo oznacza, że naukowcy zdemonstrowali praktyczną efektywność swojego pomysłu. Wyniki sugerują, że możemy budować roboty zdolne do uczenia się złożonych zadań bez konieczności ręcznego inżynierowania nagród, co znacznie przyspieszałoby rozwój praktycznych systemów robotycznych i czyniłoby je bardziej elastycznymi w zastosowaniach.