Badanie ujawniło fundamentalny problem: duże modele języka stawiane wobec strukturalnych danych klinicznych nie potrafią wiarygodnie szacować granic swojej wiedzy. Model Qwen 2.5 7B zwracał niemal stałą pewność (0,856-0,937) niezależnie od tego, czy rzeczywista dokładność wyniosła 49% czy 75,3% — pewność śledzła format promptu, a nie jakość predykcji. To stanowi poważny problem w zastosowaniach medycznych, gdzie niepewność modelu powinna rosnąć wraz ze złożonością przypadku.

Badacze porównali zachowanie LLM-a z tradycyjnym modelem XGBoost na zadaniu predykcji klinicznych. Okazało się, że model ma odwrotny efekt trudności: gdy XGBoost osiąga 99% dokładności, LLM spada do 64,8%, ale gdy XGBoost jest umiarkowanie niepewny, oba modele osiągają podobne wyniki (73,8% vs 73,1%). Kluczowe odkrycie: używając rozbieżności w atrybuacji cech między modelami (Attribution Disagreement Score), naukowcy potrafili określić, kiedy LLM nie powinien być zaufany. Few-shot examples i dowody oparte na SHAP zmniejszyły ADS z 1,54 do 0,38, a dokładność wzrosła z 49% do 75,3% bez dodatkowego treningu.

Rozwiązanie proponuje cross-model calibrator — system, który nie wymaga dostępu do wewnętrznych parametrów modelu ani powtarzanego wnioskowania. Zamiast polegać na słowach modelu, wyznacza jego niezawodność poprzez sygnały rozbieżności atrybuacji. Metoda zmniejszyła expected calibration error z 0,254 do 0,080, dostarczając pacjent-specyficzne oszacowania godności zaufania. To ma znaczenie dla praktyki medycznej, gdzie niezawodna ocena granic modelu jest kwestią bezpieczeństwa.