Problem jest prosty: gdy LLM chce autonomicznie eksperymentować (zmieniając kod, by poprawić wyniki), tradycyjne podejście wymaga przeczytania całej historii eksperymentów za każdym razem. Przy 100 iteracjach oznacza to przeczytanie jej 100 razy — koszt rośnie kwadratowo. Nowe rozwiązanie przechowuje historię w persistence state agenta zamiast na nowo konstruować ją z tekstu.
Team użył LangGraph i wzorca ReAct (Reasoning + Acting) do zbudowania agenta, który pamiętał poprzednie kroki bez konieczności ich ponownego czytania. Historia eksperymentów żyje w typed state obiekcie, dostępnym bezpośrednio, a nie rekonstruowanym z kontekstu konwersacji. To zmienia złożoność z O(n²) na liniową — w praktyce: agent pracuje w stałym oknie konwersacyjnym niezależnie od liczby iteracji.
Wyniki są imponujące. Na zadaniu tunowania hiperparametrów (15 iteracji) zużycie spadło z 24,465 do 2,492 tokenów — 90% redukcji. Na bardziej złożonej optymalizacji kodu (40 iteracji, gdzie obserwacje zawierają pełny kod źródłowy) zmiana z 1,275K na 627K tokenów oznacza oszczędność 52%. Oba podejścia osiągały porównywalne rezultaty optymalizacji, ale stateful agent robił to znacznie taniej. To ma praktyczne znaczenie: mniej tokenów = niższe koszty API i szybsze eksperymenty.