Zespół opracował Regimes — system, który zmienia podejście do ciągłego ulepszania agentów sztucznej inteligencji. Zamiast tradycyjnego podejścia, gdzie proces poprawy jest zewnętrznym dodatkiem do agenta, nowy system traktuje ulepszanie jako wbudowaną część runtime'u. Klucz to event-sourcing: całe stany agenta są zapisywane jako determinacyjne projekcje dziennika zdarzeń, co umożliwia dokładne logowanie błędów, powtarzanie przebiegów i audyt każdej decyzji.
Regimes diagnozuje niepowodzenia w ewaluacji, proponuje poprawy w określonych punktach potoku i weryfikuje je poprzez statyczne kontrole, wykonanie w piaskownicy oraz testy na danych zarówno treningowych, jak i wzorcowych (held-out). System okazał się niezależny od konkretnego zadania — ta sama logika kontrolna działa dla różnych problemów. Na benchmarku LongMemEval odkryto, że główny problem nie leżał w samym wyszukiwaniu informacji, ale w ich interpretacji przez model — czytnik otrzymywał już prawidłowe dowody w kontekście, ale fałszywie odpowiadał.
Wyniki są obiecujące. Across pięcioma niezależnymi podziałami testowymi system osiągnął poprawę końcowej dokładności o 5-10 punktów procentowych w czterech przypadkach. To istotne, bo pokazuje, że systematyczne logowanie i audyt każdego kroku nie tylko poprawiają przejrzystość procesu, ale faktycznie prowadzą do lepszych modeli. Podejście oparte na event-sourcingu rozwiązuje długotrwały problem braku zaufania do autonomicznych pętli poprawy — teraz każda decyzja o promocji lub odrzuceniu poprawy staje się trwałym wydarzeniem w historii agenta.