Badacze z arXiv przetestowali zdolności istniejących na rynku dużych modeli języków do oceniania prac egzaminacyjnych na rzeczywistym zbiorze 32,534 prac egzaminacyjnych uczniów brytyjskich (GCSE - General Certificate of Secondary Education). Zbiór obejmował 328 pytań z pięciu przedmiotów, w tym prace pisane ręcznie. Każda praca została oceniona niezależnie przez dwóch egzaminatorów, co pozwoliło na porównanie zgody modeli ze stopniem, w jakim sami egzaminatorzy zgadzają się ze sobą.

Wyniki były zaskakujące - najlepsze dostępne modele wykazywały większą zgodność z konsensusem egzaminatorów niż sami egzaminatorzy ze sobą nawzajem. Co istotne, modele potrafiły obsługiwać zarówno zadania subiektywne wymagające zrozumienia tekstu (jak ocenianie esejów z angielskiego), jak i złożone, nieprzejrzyste prace z matematyki zawierające pismo odręczne. Zgodność modelów była równomiernie rozkładana wzdłuż ocen i nie zależała drastycznie od rozmiaru modelu, co otwiera perspektywę tanich, skalowanych rozwiązań.

Badanie ma potencjał transformacyjny dla systemu edukacyjnego - automatyczne ocenianie mogłoby zmniejszyć obciążenie pracą egzaminatorów i przyspieszyć proces udzielania uczniom informacji zwrotnej. Jednak takie systemy wymagają bardzo wysokiego poziomu niezawodności ze względu na doniosłość decyzji edukacyjnych. Wyniki sugerują, że AI może tutaj być instrumentem wspierającym egzaminatorów, a nie je zastępującym, choć potencjał dla rozwiązań bardziej zaawansowanych jest oczywisty.