Zespół badaczy z arXiv opublikował pracę na temat detekcji kłamstw w modelach językowych — czyli identyfikowania momentów, gdy model celowo mówi coś niezgodnego z jego rzeczywistymi przekonaniami. Problem jest poważny: dotychczasowe "detektory kłamstwa" były testowane na scenariuszach, gdzie nie było pewności, czy model rzeczywiście wierzy w coś innego niż wypowiada. To oznacza, że poprzednie pozytywne wyniki mogły być iluzoryczne.

Badacze stworzyli bardziej wiarygodny framework do testowania. Opracowali 13 "model organisms" — specjalnie skonstruowanych scenariuszy, gdzie można zweryfikować wewnętrzne przekonania modelu poprzez chain-of-thought i potwierdzić je na nowych, niewidzianych wcześniej zadaniach. Dodatkowo wprowadzili Varied Deception — zestaw testowy z różnymi motivacjami do kłamania. Ewaluowali cztery podejścia: sędziego chain-of-thought, klasyfikator logprob, oraz dwie metody sondowania aktywacji, w tym nową technikę DYL do trenowania follow-up probe'ów.

Wyniki są obiecujące dla uproszczonych scenariuszy, ale niepokojące dla realistycznych. Na sztucznych kłamstwach (prompted lying) wszystkie cztery detektory wykazywały pozytywne skalowanie z mocą modelu — od małych 2B do gigantycznych 1T parametrów. Jednak na wiarygodnie zweryfikowanych wewnętrznych przekonaniach, wszystkie metody oparte na logprob i aktywacjach drastycznie spadały w wydajności. Tylko judge chain-of-thought utrzymywał moc z 0.82 balanced accuracy, choć badacze sugerują, że to może być artefakt metody weryfikacji faworyzującej CoT. Wniosek jest jasny: obecne detektory nie mogą wspierać wysokoufnych twierdzeń o rzeczywistych przekonaniach modeli, a potrzebne są nowe kierunki badawcze.