Zespół badawczy opracował Evoflux, innowacyjne podejście do problemu, który stanowi znaczną wyzwanie dla małych modeli języka: używania narzędzi w złożonych systemach. Zamiast polegać wyłącznie na treningu, metoda działa w czasie inferecji, stopniowo poprawiając nieudane plany poprzez ewolucyjne poszukiwania. System pracuje z workflow'ami narzędziowymi, które muszą być nie tylko trafnie sformułowane, ale również wykonalne — muszą rzeczywiście działać z dostępnymi narzędziami, spełniać ich schematy i zachowywać zależności między poszczególnymi krokami.
Problem pojawia się, gdy małe modele generują plany, które logicznie wyglądają prawidłowo, ale zawodzą w praktyce — na przykład narzędzie nie istnieje w katalogu, parametry nie pasują do schematu, lub zависимości między krokami są łamane. Tradycyjne podejścia bazujące na distillacji (uczeniu na śladach od większych modeli) słabo radzą sobie z tym wyzwaniem, ponieważ kilkaset przykładów treningowych nie pokrywa całej gamy scenariuszy naprawy, szczególnie gdy katalog narzędzi się zmienia.
Evoflux rozwiązuje to poprzez meta-kierowane przeprojektowanie workflow'ów, wykorzystując informacje zwrotne z rzeczywistej egzekucji. Na testach porównawczych z 250 narzędziami system osiągnął 17-24% wskaźnik wykonania w stosunku do zaledwie 3% bez optymalizacji. Konkurencyjne podejścia, takie jak SFT czy ReAct, albo nie dorównały tym wynikom, albo wymagały znacznie wyższych kosztów obliczeniowych.