Naukowcy odkryli nową lukę bezpieczeństwa w algorytmach reinforcement learning opartych na self-play. Badacze pokazali, że można zdestabilizować trening agenta poprzez strategiczne usuwanie dostępnych akcji, zmuszając model do nauki ze zniekształconymi danymi. To ważne dla rozumienia podatności systemów RL na ataki adversarialne, szczególnie w grach i środowiskach konkurencyjnych gdzie sam-grającyAgent uczy się poprzez rywalizację z sobą. Odkrycie ma implikacje dla bezpieczeństwa autonomicznych