Badacze RL powinni rozróżniać rozwiązywanie symulatorów od ich użytku jako proxy

Naukowcy pracujący nad wzmacniającym uczeniem (RL) coraz częściej napotykają Problem niejaśności w swoich metodach badawczych: gdy używają symulatorów do treningu agentów, trudno jest oddzielić dwa zasadniczo różne cele. Z jednej strony można chcieć po prostu osiągnąć najwyższą możliwą wydajność w samym symulatorze - to czysta optymalizacja. Z drugiej strony można używać symulatora jako przybliżenia rzeczywistych warunków, w których agent będzie musiał pracować w praktyce.

Różnica wydaje się drobna, ale ma duże konsekwencje. Jeśli fokus jest wyłącznie na "rozwiązaniu" symulatora, badacze mogą stosować specjalne sztuczki działające tylko w tym środowisku - na przykład exploitując konkretne cechy fizyki symulatora lub jego reprezentacji. Takie rozwiązania nigdy nie sprawdzą się, gdy agent będzie wdrożony w rzeczywistości. To prowadzi do mylących wniosków w literaturze badawczej i zmarnowanych wysiłków na technikach, które nie mają praktycznego zastosowania.

Stanowisko argumentuje, że różne podejścia powinny obowiązywać w każdym scenariuszu - inne algorytmy są odpowiednie do rozwiązywania symulatorów, inne do nauki przy wdrażaniu poza symulatorem. Metryki ewaluacji też powinny być inne. Artykuł apeluje do środowiska naukowego, aby explicite deklarować, w jakim trybie pracują, żeby rezultaty były wiarygodne i powtarzalne. To fundamentalne wyjaśnienie mogłoby znacznie poprawić jakość RL research.