Transformery zrewolucjonizowały sztuczną inteligencję, ale ich architektura ma poważne ograniczenie: operacja Softmax Attention wymaga mocy obliczeniowej proporcjonalnej do kwadratu długości sekwencji. W praktyce oznacza to, że przetwarzanie bardzo długich tekstów staje się szybko niemożliwe ze względu na rosnący KV cache. Naukowcy od lat szukają sposobu na zmniejszenie tej złożoności bez utraty zdolności modelu do precyzyjnego przywoływania informacji.
Nowoczesne alternatywy takie jak State-Space Models czy Linear Attention osiągają podobną perplexity co Transformery, ale gorzej sobie radzą w zadaniach wymagających dokładnego wycofania konkretnych danych. Blurry Window Attention stanowi heurystyczną odpowiedź na ten dylemat. Zamiast przechowywać całą historię klucz-wartości, BLA utrzymuje okno częstości, z którego rekonstruuje rozmytą historię poprzez interpolację. Jądra Dirichleta pozwalają na elegancką kontrolę rozdzielczości tego okna — w praktyce oznacza to, że BLA można traktować zarówno jako uogólnienie sliding window attention, jak i specjalny przypadek gated slot attention.
Wyniki eksperymentów na syntetycznych benchmarkach pokazują rzeczywistą potencjalną przewagę: na zadaniu Multi-Query Associate Recall (MQAR) BLA uzyskuje 8 razy lepszą efektywność stanu niż klasyczne sliding window attention, a jednocześnie konkuruje z popularnymi modelami linear attention. Co ważne, BLA jest jedną z niewielu metod, która poprawia wyniki wraz ze wzrostem dostępnego rozmiaru stanu — to sugeruje, że architektura ma rzeczywisty potencjał do skalowania na dłuższe konteksty bez kompromisu w jakości.