Cztery aksjomaty reprezentacji myśli w modelach językowych

Naukowcy z arXiv zaproponowali aksjomatyczną ramę do oceny reprezentacji myśli ukrytych w LLM-ach, która operuje niezależnie od tradycyjnych benchmarków. Zamiast polegać na wynikach na testach, nowy framework bezpośrednio ocenia cztery funkcyjne aksjomaty - Przyczynowość (Causality), Minimalność (Minimality), Rozróżnialność (Separability) i Stabilność (Stability) - mierząc je bezpośrednio na reprezentacjach latentnych.

Problem z dotychczasowymi ewaluacjami polegał na tym, że mieszały one jakość reprezentacji z pojemnością modelu, uniemożliwiając przypisanie błędów konkretnie reprezentacji. Nowa metoda zmienia to podejście, definiując dla każdego aksjomatu ilościową miarę niezależną od dokładności downstream. Zespół przeprowadził audyt modelów open-weight na 23 zadaniach reasoning, od spatial reasoning po factual QA. Wyniki były pesymistyczne: żaden z badanych modeli nie spełnia wszystkich czterech aksjomatów jednocześnie, reprezentacje potrafiły rozróżnić typ zadania, ale nie potrafią rozróżnić między dwoma pytaniami w ramach tego samego zadania.

Najbardziej zaskakujące odkrycie: reprezentacje kodują bardzo mało informacji poza tym, co jest już zawarte w osadzeniu wejściowym. Problem ten konsystentnie pojawia się w modelach gęstych, distilled dla reasoning oraz wytrenowanych z wzmacnianiem (RL), co sugeruje, że jest to strukturalna niedostateczność, a nie wynik wielkości modelu czy procedury treningu.