Naukowcy z arXiv zaprezentowali Elmes*, zautomatyzowany system do oceny modeli językowych w kontekście edukacji. Problem polega na tym, że istniejące benchmarki skupiają się na sprawdzeniu, co model wie, a nie jak potrafi uczyć. Elmes* zmienia to podejście poprzez konstruowanie dopasowanych do konkretnych scenariuszy rubryk ewaluacyjnych z ponad 1000 szczegółowych wskaźników.
Core innowacji to połączenie wieloagentowego systemu symulującego interakcje nauczyciel-uczeń-sędzia z modułem SceneGen, który nieustannie ulepszza zarówno kryteria oceny, jak i dane testowe. Na bazie tego podejścia stworzono Edu-330 — obszerny zbiór obejmujący 330 edukacyjnych scenariuszy rozłożonych na 11 przedmiotów, 3 grupy wiekowe i 10 typów zadań.
Wyniki eksperymentów ujawniają fascynujący obraz krajobrazów zdolności LLM. Topowe modele różnią się przede wszystkim w kwestii kreatywności i integracji wartości, podczas gdy modele silne w wiedzy mogą zawodzić w prowadzeniu dialogu sokratejskiego. Ciekawostka: InnoSpark, model specjalizujący się w edukacji, osiągnął najlepsze wyniki w ocenie człowieka. Badanie pokazało też, że LLM mogą oceniać inne modele prawie tak precyzyjnie jak ludzie, choć mają tendencję do preferowania siebie samych.