Zespół badaczy zaprezentował Know2Guess - nowy benchmark do oceny czy duże modele jezykowe potrafią uczciwcie przyznać gdy nie znają odpowiedzi zamiast domyślać się. Problem polega na tym że dotychczasowe testy oceniające LLM nie potrafiły oddzielić rzeczywistej wiedzy od zanieczyszczenia danych treningowych czy generycznego zachowania polegającego na odmowie odpowiedzi na wszystkie pytania.

Benchmark zawiera 1200 pytań rozmieszczonych na pięć domen z jawnie określonymi oczekiwaniami dotyczącymi abstencji od odpowiedzi i metadanymi wskazującymi ryzyko zanieczyszczenia danych. Badacze testowali trzy popularne modele - FLAN-T5, Qwen2.5-Instruct i Llama-3-Instruct - przy użyciu ściśle określonych promptów zmuszających modele do wyboru między odpowiedzią lub przyznaniem że nie wiedzą. Wyniki pokazały że żaden model nie sobie nie radzi idealnie. FLAN-T5 pozostał słaby w abstencji, silniejsze modele instruction-tuned wykazały jedynie niepełny przechód od odpowiadania do odmowy, a Qwen2.5-3B-Instruct który radził sobie najlepiej wciąż miał problemy z kalibracja pewności i tendencją do niepotrzebnych odmów.

Benchmark jest dostępny publicznie i stanowi powtarzalny protocol do audytu czterech kluczowych aspektów niezawodności LLM: odpowiadalności na pytania dla których model ma wiedzę, abstencji w przypadku rzeczywistych nieznanych, odmowy jako obronnego zachowania i wpływu zanieczyszczenia danych. To pozwoli badaczom lepiej rozumieć gdzie leżą faktyczne granice wiedzy współczesnych modeli.