Naukowcy przebadali sparse self-attention, w którym każda kwerenda skupia się na gęstym oknie lokalnym plus zbiorze przesunięć rozmieszczonych sekwencją Fibonacciego, z parametrem skalarnym alfa na warstwę, który kompresuje lub rozszerza to rozmieszczenie. Badanie porównało cztery metody ustawiania alfa na głębokości sieci: stałą, wyuczoną per-warstwę, statyczne warstwowanie liniowe oraz przypisanie względnie pierwsze (anti-gridding) tego warstwowania, razem z kontrolą opartą na potęgach liczby 2 do porównania.Wyniki pokazują trzy kluczowe obserwacje. Po pierwsze, statyczne warstwowanie per-warstwę poprawia perplexity zarówno w stosunku do stałego jak i wyuczonego alfa, a zysk jest niezależny od bazy: zastosowanie tego samego warstwowania do bazy 2 podnosi wynik ponad stały Fibonacci i osiąga parytet z wyuczoną Fibonacci attention. Po drugie, uczenie się per-warstwę nie przyniosło przewagi nad harmonogramem statycznym i zwiększyło latencję wnioskowania około pięciokrotnie. Po trzecie, najważniejsze: wszystkie warianty sparse ekstrapolują do czterech razy ich długości treningowej bez degradacji lub z minimalną degradacją, podczas gdy dopasowana receptura gęstej baseline zawaliła się (perplexity wzrosła o 201% przy 4x długości). Efekt przypisują temu, że attention ze stałymi przesunięciami pyta tylko względne pozycje widziane podczas treningu.Badacze uczciwię raportują też dwa negatywne wyniki: w długości treningowej najlepszy model sparse ma około 26 procent wyższą perplexity niż gęsty baseline, a zysk ze warstwowania jest jednolity na wszystkich pozycjach kontekstu zamiast skoncentrowany na końcu.