Kiedy akcje znikają: Adversarialny atak na działania w self-play RL

Naukowcy z dziedziny sztucznej inteligencji odkryli poważną lukę w bezpieczeństwie algorytmów reinforcement learning, które uczą się poprzez samogę - czyli grę przeciwko sobie. Badacze wykazali, że można zdestabilizować cały proces treningu agenta, strategicznie usuwając dostępne dla niego akcje, co zmusza model do nauki na podstawie zniekształconych i niepełnych danych. To zjawisko nosi nazwę adversarialnego ataku na działania w self-play, i stanowi konkretny zagrożenie dla systemów, które polegają na tym popularnym podejściu do uczenia maszynowego.

Luka ma szczególne znaczenie dla rozumienia podatności współczesnych systemów RL na ataki. Dotyczy to zwłaszcza środowisk konkurencyjnych, takich jak gry strategiczne czy automaty szkolne, gdzie agent doskonali swoją grę poprzez wielokrotne starcia z alternatywną wersją siebie. Kiedy atakujący może manipulować zestawem dostępnych ruchów - zmuszając agenta do wyboru z ograniczonego repertuaru - wytrenowana polityka staje się nieoptymalna i nieprzewidywalna. Naukowcy demonstrują, że nawet drobne i strategiczne zmiany w opcjach działań mogą prowadzić do znacznej degradacji wydajności modelu.

To odkrycie ma poważne implikacje dla bezpieczeństwa systemów autonomicznych, które mogą trafiać do rzeczywistych aplikacji. W kontekście samodzielnie grających agentów stosowanych w grach e-sportowych, robotyce czy autonomicznych systemach decyzyjnych, taka vulnerabilność może być exploitowana przez złośliwych aktorów. Badania wskazują na potrzebę wdrażania bardziej odpornych mechanizmów treningowych i głębszego testowania bezpieczeństwa zanim takie algorytmy trafią do praktycznego zastosowania.