Naukowcy wprowadzili OmniToM, nowy benchmark do oceny umiejętności Theory of Mind (rozumienia czужych przekonań i intencji) w dużych modelach językowych. Test obejmuje scenariusze z jawnym modelowaniem przekonań, pozwalając dokładniej mierzyć, czy modele rzeczywiście rozumieją stany mentalne innych agentów. To ważne, ponieważ Theory of Mind jest kluczowa dla bezpiecznej i inteligentnej interakcji AI z ludźmi, a obecne benchmarki mogą być niedostatecznie rygorystyczne.
Badania
arXiv CS.AI