Nowa metoda treningowa łącząca gradienty polityki kontrfaktyczne z filtrowaniem feedbacku dla systemów wieloagentowych opartych na dużych modelach językowych, poprawiająca efektywność uczenia.