Zespół naukowców odkrył poważny problem w sposobie oceny zdolności modelów językowych do wykrywania błędów. Metrika F1 oparta na liczbie znalezionych błędów - powszechnie stosowana w branży - może pokazywać znaczną poprawę bez faktycznego postępu w dokładnym wskazywaniu, gdzie dokładnie błędy się znajdują.
W kontrolowanym eksperymencie ErrorBench testowano sześć współczesnych LLM-ów (w tym GPT i Claude z OpenAI oraz modele Gemini od Google) na 4290 odpowiedziach. Kluczowym znaleziskiem jest efekt zakotwiczenia: gdy prompt zawierał wskazówkę o liczbie błędów do znalezienia, wyniki F1 rosły nawet o 0,79 punktu w pomiarach CoNLL-2014 M2 i do 0,96 w rygorystycznym dopasowaniu. Jednak metryka ERRANT F0.5 - która mierzy rzeczywistą poprawność lokalizacji błędów - poprawiała się jedynie o 0,04 średnio.
Badanie wskazuje, że systemy GPT i Claude są bardziej podatne na to zawyżanie liczb pod wpływem instrukcji, podczas gdy Gemini wykazywał mniejszy efekt. Wnioski sugerują, że wszelkie ewaluacje LLM-ów do korekty tekstu lub przeglądów dokumentów powinny unikać wstępnie ustalonych liczb błędów w promptach oraz raportować metryki uwzględniające dokładność lokalizacji obok metryk opartych na liczbach.