Zespół naukowców opublikował pracę badawczą na temat INFRAMIND - systemu, który czyni całą infrastrukturę multi-agentową świadomą rzeczywistego stanu zasobów. Zamiast tradycyjnego podejścia, które wybiera modele tylko na podstawie charakterystyk zadania, nowy framework obserwuje dynamiczne sygnały z infrastruktury: głębokość kolejek żądań, ciśnienie KV-cache oraz czasy odpowiedzi. Te informacje kierują trzy kluczowe decyzje: planowanie topologii agentów, routing na każdym kroku oraz harmonogramowanie żądań.

Istniejące metody orkiestracji, od ensemble'i brute-force po nauczone routery, nie dostrzegały rzeczywistego obciążenia klastra. W wyniku tego na współdzielonych zasobach GPU pojawiała się systematyczna niedostateczność - popularne modele zalewały się żądaniami, a równie zdolne alternatywy czekały bez pracy. Problem narastał w pipelinach, gdzie jedno zapytanie wyzwalało wiele sekwencyjnych wywołań modeli, komplikując się na każdym kroku.

INFRAMIND składa się z trzech komponentów: planera świadomego infrastruktury, który dobiera topologię na podstawie rzeczywistego obciążenia, executora obserwującego kolejki i cache każdego modelu, oraz schedulera budżetowego, który zmienia kolejność przetwarzania żądań. Całość została sformułowana jako hierarchiczny problem optymalizacji, co pozwala na dynamiczne dostosowywanie się do zmian warunków w klastrze.