BayesBench: ocena logiki wnioskowania LLM w wieloturowych rozmowach

Badacze opracowali BayesBench - zestaw symulacyjnych środowisk testowych do oceny, jak dobrze modele językowe radzą sobie z racjonalnym wnioskowaniem Bayesowskim przez wiele tur rozmowy. Zamiast oceniać tylko ostateczną odpowiedź modelu, jak robią to tradycyjne testy, BayesBench bada cały proces aktualizacji przekonań, gdy model otrzymuje kolejne dowody i powinien zmniejszać niepewność dotyczącą swojego otoczenia.

Badania obejmowały siedem modeli o rozmiarach od 3 miliardów do 70 miliardów parametrów w trzech zadaniach o rosnącej złożoności: estymacji Bayesowskiej, gdzie model wnioskuje nieznany parametr z sekwencyjnych danych; predykcji Bayesowskiej, gdzie przekształca wnioski w prognozy; oraz predykcji z ukrytymi zmiennymi gefiltrowymi przez osobowości użytkowników. Wyniki pokazały, że większe modele lepiej radź sobie z latentnym wnioskowaniem i akumulacją dowodów, czasami osiągając wyniki porównywalne z racjonalnym działaniem Bayesowskiego.

Jednak ta poprawa nie zawsze przekłada się na lepsze przewidywania w praktyce. Odkrycie odsłania istotną lukę między zdolnością modelu do prawidłowego zrozumienia ukrytych struktur a jego umiejętnością wykorzystania tego rozumienia do racjonalnego aktualizowania przekonań o rzeczywistych wynikach - problem, który może mieć znaczenie dla deployu modeli w rzeczywistych scenariuszach wymagających wieloetapowego wnioskowania.