Naukowcy opracowali hierarchiczny framework uczenia przez wzmacnianie dla systemów multi-agent, który łączy siłę metod opartych na ML z teoretycznymi gwarancjami bezpieczeństwa. Problem, który rozwiązują, dotyczy fundamentalnego napięcia w branży: algorytmy uczące się radzą sobie empirycznie dobrze, ale brakuje im formalnych gwarancji, podczas gdy metody teorii sterowania wymuszają bezpieczeństwo kosztem konserwatyzmu i nieefektywności.
Proponowane podejście działa na dwóch poziomach - na poziomie niskim wykorzystuje constraint manifold do enforcing'u twardych ograniczeń bezpieczeństwa przy łagodnych założeniach, natomiast na poziomie wysokim umożliwia efektywną koordynację przez naukę polityk. To rozdzielenie pozwala systemowi teoretycznie gwarantować bezpieczeństwo w ustawieniu multi-agent i prowadzi do stacjonarnej dynamiki uczenia, co stabilizuje i przyspiesza trenowanie.
Empiryczne wyniki pokazują, że metoda osiąga wydajność porównywalną z istniejącymi podejściami, jednocześnie utrzymując prawie idealne wskaźniki bezpieczeństwa. Szczególnie ważne jest, że system generalnie się uogólnia na różne liczby agentów i przeszkód, co czyni go potencjalnie praktycznym dla rzeczywistych zastosowań krytycznych dla bezpieczeństwa.