Większe modele językowe konsekwentnie pokonują mniejsze w testach rozumowania, ale dotychczas nikt nie zbadał systematycznie, na czym dokładnie polega ta różnica. Zespół badaczy opracował narzędzie o nazwie AdvCluster, które automatycznie identyfikuje pytania, na których większy model wykazuje stabilną przewagę, a następnie wyodrębnia szczegółowe opisy tych różnic z par procesów rozumowania obu modeli, organizując je poprzez semantic clustering.
Wynikikiem jest systematyczna taksonomia zalet większych modeli. Kluczowym wzorem pojawiającym się we wszystkich domenach jest Constraint-Guided Reasoning - większe modele znacznie lepiej identyfikują zarówno jawne, jak i niejawne ograniczenia w problemach. Te ograniczenia organizują w ustrukturyzowane łańcuchy rozumowania, wykorzystując je do eliminacji niemożliwych ścieżek rozwiązania i weryfikacji pośrednich kroków.
Wykrycie tej uniwersalnej strategii ma istotne znaczenie dla zrozumienia, co sprawia, że skalowanie modeli poprawia ich zdolności rozumowania. Zamiast być magicznym efektem ubocznym większej liczby parametrów, przewaga większych modeli wynika z lepszego opanowania konkretnego sposobu myślenia - zdyscyplinowanego śledzenia warunków i ograniczeń. Wiedza ta może kierować przyszłe podejścia do trenowania mniejszych modeli, aby naśladowały tę strategię bez konieczności drastycznego zwiększania rozmiaru.