RealMath-Eval: Dlaczego najlepsze modele AI nie potrafią oceniać rzeczywistych rozwiązań uczniów

Zespół badaczy opublikował RealMath-Eval — zbiór 224 rzeczywistych odpowiedzi uczniów do egzaminów z matematyki ze szkół średnich, opatrzone precyzyjnymi ocenami ekspertów. Kiedy testowali na nim najnowocześniejsze modele AI w roli oceniających, odkryli coś zadziwiającego: modele kompletnie sobie nie radziły, osiągając średni błąd kwadratowy około 2,96 punktu. Dla porównania — gdy te same modele oceniały sztuczne rozwiązania wygenerowane przez AI, błąd spadał do zaledwie 1,17.

To odkrycie odsłania fundamentalny problem, który naukowcy nazwali "Evaluation Gap" — przepaścią oceeniającą. Okazuje się, że sztuczne rozwiązania AI mają przewidywalną strukturę błędów, które dają się zmapować na proste matematyczne przestrzenie. Natomiast ludzkie rozumowanie jest chaotyczne, pełne nieoczekiwanych przeskoków logicznych i osobistych podejść do problemów. Analiza pokazała, że każdy uczeń ma swój własny styl myślenia, a to powoduje, że błędy uczniów są rozproszone w wysokowymiarowej, trudnej do zamodelowania przestrzeni semantycznej.

Badacze testowali też, czy zwykłe zmiany stylu tekstu mogą pomóc modelom w przystosowaniu się do ludzkiego myślenia — nie zadziałało. Sugeruje to, że problem tkwi głębiej niż powierzchowne różnice w pisaniu. Ludzkie rozumowanie matematyczne zawiera znacznie wyższy poziom informacyjnej niespodzianki — często przeskakuje między krokami w sposób, który jest dla obecnych modeli AI mocno poza Their distribution. Odkrycie to ma doniosłe implikacje dla edtech — narzędzia AI mające pomagać nauczycielom w ocenie prac uczniów powinny być znacznie bardziej wyrafinowane, niż dotychczasowe.