Badacze wprowadzili metodę TeamTR łączącą trust-region optimization z fine-tuningiem dla poprawy koordynacji pomiędzy wieloma agentami opartymi na dużych modelach językowych. Podejście umożliwia efektywne uczenie się zespołów agentów przy zachowaniu stabilności treningu. Odkrycie jest istotne dla rozwoju bardziej niezawodnych systemów wieloagentowych, co ma zastosowanie w autonomicznych systemach decyzyjnych i kolaboracyjnych zadaniach AI.
Badania
arXiv CS.LG