Badania arXiv CS.LG

Gaussian Mixture Attention: liniowy czas sekwencji przez probabilistyczne routowanie

18 cze 2026

Hype:

7/10

Naukowcy z arXiv CS.LG opracowali Gaussian Mixture Attention, nową architekturę sekwencyjnego mixera, która znacznie zmniejsza wymogi obliczeniowe tradycyjnych transformerów. Zamiast obliczać gęstą macierz N×N interakcji token-do-token poprzez porównanie query-key, metoda routuje tokeny przez K nauczonych komponentów mieszaniny Gaussa, mapując queries i keys na wektory odpowiedzialności w wspólnej latentnej przestrzeni routowania.

Czytaj oryginał →