Nowy artykuł z arXiv ujawnia fundamentalny problem w sposobie, w jaki oceniamy kalibrację modeli językowych. Badacze wykazali teoretycznie i empirycznie, że globalne metryki kalibracji takie jak Expected Calibration Error i Brier Score są zaburzone różnicami w dokładności między modelami, co prowadzi do nierzetelnych porównań.

Problemu nie da się ignorować, bo kalibracja to kluczowa cecha LLM - określa, czy pewność modelu rzeczywiście odpowiada jego rzeczywistym błędom. Jeśli model A ma 90 procent dokładności i 85 procent pewności, a model B ma 70 procent dokładności i 85 procent pewności, różne metryki mogą wskazywać różne rankowe. Dotychczasowe badania tego problemu nie uwzględniały, że to może być artyfakt, a nie rzeczywista przewaga.

Rozwiązanie przynosi framework ACE z trzema komplementarnymi podejściami: Instance-Aligned, Distribution-Aligned i Candidate-Aligned. Testy na wielu benchmarkach i rodzinach modeli pokazują drastyczne zmianę: modele, które wyglądały na lepiej skalibrowane za pomocą surowych metryk, tracą tę przewagę po kontroli dokładności. Zaskakujące jest, że ranking się odwraca - zwycięzcy pod względem surowych metryk często przegrywają w uczciwym porównaniu. To zmienia perspektywę na studia porównujące małe kontra duże modele oraz te z mechanizmami "myślenia" versus bez nich.