Badacze opracowali teorię wyjaśniającą, w jakim momencie model językowy zatwierdza swoją odpowiedź przed jej wygenerowaniem. Teoria ta sugeruje, że modele dokonują decyzji na podstawie skończonego zestawu możliwych odpowiedzi jeszcze przed werbalizacją. Odkrycie to ma znaczenie dla zrozumienia wewnętrznego procesów decyzyjnych dużych modeli języków i może prowadzić do lepszych metod kontroli oraz debugowania ich zachowania.
Badania
arXiv CS.AI