Naukowcy z komunii badań nad fuzją jądrową i machine learningiem представили RL4F – pierwszy kompleksowy benchmark do offline reinforcement learning w kontroli plazmy. Problem jest praktycznie ważny: eksperymentowanie metodą prób i błędów na rzeczywistych tokamakach jest droższe niż ktoś sobie wyobraża i niezwykle ryzykowne. Offline RL pozwala trenować kontrolery na historycznych danych z urządzeń bez konieczności ryzykownych testów na żywo.

Benchmark wykorzystuje dane z DIII-D, jednego z największych tokamakov na świecie, budując realistyczne modele dynamiki plazmy. Autorzy przetestowali szeroką gamę algorytmów – zarówno metod imitation learning, jak i offline RL – na czterech kluczowych zadaniach śledzenia profilów: rotacja, gęstość, temperatura i ciśnienie. Okazało się, że offline model-based RL metodami osiągają najlepsze średnie wyniki, choć żaden pojedynczy algorytm nie dominuje na wszystkich zadaniach naraz. To sugeruje, że modelowanie dynamiki jest kluczowe w tak złożonych problemach kontroli.

Otwarte udostępnienie kodu, datasetu i frameworku do ewaluacji stanowi znaczący krok dla obu ekosystemów – zarówno dla badaczy fuzji jądrowej poszukujących lepszych metod kontroli, jak i dla społeczności offline RL szukającej nowych wyzwań i rzeczywistych aplikacji. To też pokazuje trend łączenia inżynierii jądrowej z najnowszymi technikami AI.