Naukowcy z arXiv CS.LG opracowali Gaussian Mixture Attention, nową architekturę sekwencyjnego mixera, która znacznie zmniejsza wymogi obliczeniowe tradycyjnych transformerów. Zamiast obliczać gęstą macierz N×N interakcji token-do-token poprzez porównanie query-key, metoda routuje tokeny przez K nauczonych komponentów mieszaniny Gaussa, mapując queries i keys na wektory odpowiedzialności w wspólnej latentnej przestrzeni routowania.
Badania
arXiv CS.LG