Jak modele językowe uczą się rozumieć stany umysłowe agentów

Naukowcy z arXiv zbadali, w jaki sposób duże modele językowe zdobywają zdolność do rozumienia stanów umysłowych osób opisanych w tekście, analizując różne etapy treningu modeli Olmo2 i Pythia. Wykorzystali test fałszywych przekonań - klasyczne zadanie z psychologii, w którym trzeba przewidzieć, co myśli agent, który posiada fałszywą informację o położeniu przedmiotu.

Wyniki pokazują, że zdolność do poprawnego wykonywania tego testu pojawia się dość późno w procesie pretrainingu i wymaga zarówno dostatecznego rozmiaru modelu, jak i wystarczającej ilości danych treningowych. Co istotne, największą poprawę daje zastosowanie post-treningowych metod takich jak SFT (Supervised Fine-Tuning) i DPO (Direct Preference Optimization), szczególnie w wariancie najprecyzyjniej diagnozującym umiejętność mentalizacji. Równocześnie badacze przyglądali się podstawowemu umiejętności modelowania sytuacji - zdolności do raportowania prostych faktów o opisanej scenie. Ta zdolność na ogół pojawia się wcześniej i jest dokładniejsza niż rozumienie przekonań.

Jednak badanie ujawnia istotne słabości. Model Olmo2 13b wykazuje niespójności w reprezentacjach sytuacyjnych: kiedy zapytany o wiedzę antagonisty, który zawsze zna prawdziwą lokalizację przedmiotu, model ulegał wpływowi stanów wiedzy innych agentów oraz użytych czasowników (szczególnie niesuboektywnych, jak sądzi lub myśli). To sugeruje, że modele mogą symulować mentalizing powierzchownie, bez głębokiego zrozumienia logiki przekonań agentów.