GAMBLe: Framework do analizy systemów badawczych opartych na AI

Systemy badawcze napędzane AI (ADRS) automatycznie odkrywają nowe algorytmy, dowody matematyczne czy projektowania poprzez sprzężenie wielkich modeli językowych z ocenami wyników. Jednak naukowcy mają problem: nie potrafią dobrze wyjaśnić, co naprawdę decyduje o wydajności takich systemów. Standardowe gwarancje konwergencji nie działają tutaj, bo polegają na założeniach, które w praktyce ADRS się nie sprawdzają.

Tutaj wkracza GAMBLe — framework, który rozkłada działanie ADRS na cztery proste parametry: generator (LLM), assessor (oceniający rozwiązania), mechanizm odkrywania oraz budżet obliczeniowy. Kluczową ideą jest pojęcie efektywnego krajobrazu optymalizacji, który pokazuje, że różne kombinacje generatorów i oceniających tworzą zupełnie inne struktury problemów do rozwiązania.

Eksperymenty były ambitne: ponad 760 powtórzonych przebiegów, więcej niż 46 tysięcy iteracji, testowanie od pojedynczych modeli do adaptacyjnych zespołów, mechanizmy od prostej zachłanności po zaawansowane meta-searche, i wszystko to na trzech trudnych problemach NP-zupełnych. Wyniki są zaskakujące — nie ma uniwersalnego zwycięzcy. Drogie modele frontier czasem znacznie gorzej radził sobie niż otwarte alternatywy, a najprostszy mechanizm selekcji konkuruje z najnowocześniejszymi algorytmami. To oznacza, że optymalizacja ADRS to nie o wyborze najlepszego narzędzia, ale o znalezieniu właściwej kombinacji dla konkretnego problemu.