Zespół badawczy opracował framework HOTE (Hybrid Open-Ended Tri-Evolution), który radykalnie zmienia podejście do trenowania agentów AI do zadań badawczych. Zamiast polegać na statycznych parametrach czy wyselekcjonowanych zadaniach z gotowymi odpowiedziami, system uczy się autonomicznie poprzez iteracyjną ewolucję trzech współpracujących modułów: generatora propozycji (proposer), solvera oraz sędziego oceniającego jakość rozwiązań.
Dotychczasowe metody miały poważne ograniczenie — świetnie działały na zadaniach z weryfikowalnymi odpowiedziami, ale załamywały się przy otwartych, niestrukturyzowanych badaniach naukowych czy złożonych problemy bez jednej słusznej odpowiedzi. HOTE przełamuje tę barierę, łącząc uczenie przez wzmacnianie z wiedzą z sieci na skali internetowej. Trzy komponenty wspólnie ewoluują, a każdy uczy się od pozostałych — proposer generuje hipotezy, solver je rozwiązuje, a judge ocenia ich trafność.
Wyniki eksperymentów są imponujące: mały model 8B parametrów, wytrenowany za pomocą HOTE, radzi sobie lepiej niż większe statyczne modele o 8-32 miliardach parametrów oraz modele wytrenowane innymi awangardowymi metodami. Co ważne, zajmuje to mniej czasu obliczeniowego. To sugeruje, że inteligentna ewolucja może być bardziej efektywna niż zwykłe powiększanie modeli — kluczowy wgląd dla całej branży AI.