Po nasyceniu benchmarku - case study CORE-Bench

Naukowcy zaproponowali nowe podejście do benchmarków AI, które zostały już nasycone - czyli osiągnęły tak wysokie wyniki dokładności, że zwyczajnie się wymienia je na trudniejsze wersje. Zamiast tego podejścia sugerują badanie sześciu innych kluczowych aspektów wydajności agentów, takich jak problem skrótów w testach, zdolność do generalizacji poza danymi treningowymi, efektywność, niezawodność czy znaczenie roli modelu względem struktury wspierającej.

Na przykładzie CORE-Bench Hard - benchmarku oceniającego zdolność agentów AI do reprodukowania wyników naukowych z kodu - naukowcy pokazali praktyczną wartość tego podejścia. Wprowadzili ulepszoną wersję CORE-Bench v1.1 oraz dodatkową paczkę testów OOD do sprawdzania generalizacji. Odkryli zarazem zagrożenia dla ważności samego benchmarku, które trudno było dostrzec przy mniej zaawansowanych agentach. Mimo że dokładność była już wysoka, nowy benchmark okazał się użyteczny do mierzenia efektywności i niezawodności.

W eksperymencie z udziałem ludzi naukowcy zaobserwowali statystycznie istotne przyspieszenie o około dwa razy, gdy ludzie pracowali wspólnie z agentem AI nad rzeczywistymi zadaniami reprodukowalności kodu. Wynik ten jest jednak prawdopodobnie niedoszacowany, bo około jedna piąta prób wykonywanych przez samych ludzi osiągnęła limit czasowy bez ukończenia zadania. To sugeruje ogromny potencjał współpracy człowieka z AI w pracy naukowej.