Wielkie modele językowe mogą dojść do prawidłowej odpowiedzi, lecz ścieżki rozumowania, którymi się poruszają, bywają niestabilne, sprzeczne lub trudne do konsekwentnego porównania — szczególnie w wieloetapowych zadaniach dedukcyjnych. Badacze proponują nową metodę oceny wiarygodności, która mierzy nie tylko rozproszenie udzielanych odpowiedzi, ale również zdolność modelu do konsekwentnego oceniania konkurencyjnych wariantów rozwiązań.
Metoda zwana niepewnością strukturalną opiera się na generowaniu wielu kandydujących rozwiązań dla danego problemu, a następnie pytaniu samego modelu o jego preferencje między nimi. Te preferencje są agregowane w rozkłady rankingów za pomocą modelowania Bradley-Terry i algorytmu PageRank, a następnie rozkładane na dwa komponenty: niestabilność rankingu między próbami i niejasność kandydatów w obrębie jednej próby. Pierwsza mierzy, jak zmienne są oceny między różnymi generacjami odpowiedzi, druga — jak trudno modelowi wybrać między konkurencyjnymi opcjami w ramach jednego zestawu.
Badania na pięciu dużych modelach językowych i ośmiu benchmarkach pokazują, że sygnały strukturalne dostarczają informacji uzupełniających zwykłe miary rozproszenia. W zadaniach logicznych i matematycznych połączenie obu podejść znacznie poprawia wykrywanie zawodnych instancji. Jednak w zadaniach wymagających wyszukania faktów sygnał strukturalny rozpada się w kierunku uniformity, co wskazuje na granicę, gdzie ocena spójności na poziomie rozumowania staje się mniej informacyjna. To odkrycie sugeruje, że różne typy zadań wymagają różnych podejść do oceny niezawodności modelu.