Naukowcy opublikowali na arXiv TRIDENT – nową metodę do uczenia wzmacniającego wielu agentów (MARL) specjalnie zaprojektowaną dla bezpiecznej koordynacji w systemach cyber-fizycznych jak sieci UAV czy skrzyżowania autonomicznych pojazdów. Problem polega na jednoczesnym obsługiwaniu trzech trudnych aspektów: akcji hybrydowych (część dyskretna, część ciągła), ograniczeń bezpieczeństwa narzuconych już podczas treningu oraz fizyki rządzącej systemem.

Autorzy wykazali, że te trzy cechy tworzą cykliczny układ sprzężeń zwrotnych, który uniemożliwia naiwne komponowanie istniejących modułów. W odpowiedzi zaprojektowali TRIDENT z trzema współpracującymi komponentami: korekcją gradientu Richardson-Romberga redukującą błąd Gumbel-Softmax z O(tau) do O(tau²), sekwencyjnym updatem trust-region z ograniczeniami Lapunowa gwarantującym wykonalność w każdej iteracji, oraz kritykiem informowanym fizyką, który rozkłada wartość zamiast nagrody. Framework osiąga zbieżność do ograniczonej równowagi Nasha z tempem O~(1/sqrt(K)) i kumulatywnym naruszeniem O(sqrt(K)).

Na praktycznych zadaniach – systemach mobilnej obsługi obliczeniowej UAV, zarządzaniu skrzyżowaniami autonomicznych pojazdów i hybrydowej wersji SMAC – TRIDENT zmniejszył naruszenia bezpieczeństwa podczas treningu o 95,5% wobec MADDPG i 76,3% wobec MACPO, przy jednoczesnej poprawie nagrody o 13,5% w stosunku do najsilniejszych linii bazowych bez ograniczeń.