Prism Transformer przełamuje tradycyjny podział wymiarów attention poprzez progresywne zwiększanie liczby głów w głębszych warstwach modelu. Standardowo wszystkie warstwy dzielą się ukrytym wymiarem równo między głowy - jeśli model ma 12 głów, każda otrzymuje 1/12 wymiarów. Nowa architektura odwraca to założenie: wczesne warstwy mają mniej, ale szerszych głów, podczas gdy głębokie warstwy mają wiele wąskich głów.

Ta zmiana strukturalna wychodzi naprzeciw rzeczywistym potrzebom przetwarzania. Wczesne warstwy powinny być generalistami - przechwytywać złożone, wysokowymiarowe wzorce kontekstowe. Głębokie warstwy mogą się specjalizować, rozkładając już zaobserwowane wzorce na lingwistyczne cechy. Prism Transformer ustanawia naturalną hierarchię reprezentacji od lokalnych wzorców do globalnych cech, co lepiej odpowiada rzeczywistemu zachowaniu się transformerów.

Kluczową zaletą jest neutralność wobec parametrów i obliczeń - dodatkowe głowy w głębokich warstwach to właściwie redystrybutacja istniejących wymiarów, bez zmian w liczbie wag czy FLOP-ach. Testy na trzech skalach modelu wykazały konsystentne spadki validation loss i zyski w benchmarkach zero-shot takich jak PIQA, HellaSwag czy ARC-Easy.