Lean4Agent: formalne modelowanie i weryfikacja workflow'ów agentów AI

Zespół naukowców przedstawił Lean4Agent, przełomowy framework, który łączy matematyczną precyzję języków formalnych z elastycznością systemów agentów AI. To pierwsze rozwiązanie tego typu wykorzystuje Lean4 — język oparty na teorii typów zależnych — do modelowania i weryfikacji zachowania agentów LLM. Problem, który rozwiązuje, jest fundamentalny: współczesne systemy agentów działają na zasadzie prób i błędów, bez formalnych metod do dokładnego określenia, weryfikacji i naprawy ich wieloetapowych workflow'ów.

Core rozwiązania stanowią dwa komponenty. FormalAgentLib to biblioteka Lean4 pozwalająca formalnie opisać workflow'y agentów i sprawdzić ich semantyczną spójność. Zdolna jest do precyzyjnej lokalizacji błędów pojawiających się podczas wykonywania zadań. LeanEvolve idzie dalej — wykorzystuje wyniki weryfikacji do automatycznego ulepszania problematycznych workflow'ów. To podejście czerpie inspirację z matematyki, gdzie natyralne języki są często zbyt niejednoznaczne, a formalne języki zapewniają sztywną dokładność.

Wyniki są imponujące. Testy na trudnym podzbiorze SWE-Bench-Verified i ELAIP-Bench pokazały, że workflow'y przechodzące weryfikację są o średnio 11,94% efektywniejsze od tych, które jej nie przechodzą. LeanEvolve dodatkowo podnosi wydajność na poziomie 7,47%. Badania obejmowały pięć wiodących modeli LLM, co wskazuje na uniwersalność podejścia. Framework otwiera nowe możliwości w budowaniu wiarygodnych, automatycznie optymalizowanych systemów agentów.