MiniMax Sparse Attention: dwugałęziowa architektura dla mega-kontekstów

MiniMax opracowała MSA – nową architekturę sparse attention, która radykalnie obniża koszt obliczeniowy przy przetwarzaniu długich sekwencji tekstu. System łączy dwie gałęzie: lekką Index Branch, która inteligentnie wybiera Top-k bloków klucz-wartość dla każdego query'ego oraz grupy GQA, oraz Main Branch, która wykonuje pełne attention tylko na wybranych blokach. Ta dwuetapowa strategia pozwala uniknąć drażliwego problemu pełnego attention na długich kontekstach – który wymaga obliczenia interakcji między każdą parą tokenów.

Technika została wytrenowana na ogromnym modelu: 109-miliardowym parametrycznym MoE (Mixture of Experts) z budżetem 3 bilionów tokenów. Pomimo tego, że MSA dokonuje selekcji, nie traci na wydajności – jej wyniki na downstream benchmarkach są porównywalne z prostszym GQA. Kluczową zaletą jest skalowanie: przy milion-tokenowym kontekście sparse attention zmniejsza per-token obliczenia attention 28,4 raza, otwierając drzwi do praktycznych aplikacji z naprawdę długimi sekwencjami.

To rozwiązanie ma znaczenie dla przyszłości dużych modeli językowych. Długie konteksty są coraz bardziej pożądane – pozwalają na analizę całych dokumentów, konwersacji czy kodowych repozytoriów. Jednak klasyczny attention skaluje się kwadratowo z długością sekwencji, co szybko staje się niewykonalne. MSA pokazuje, że można drastycznie zmniejszyć koszt obliczeniowy bez utraty jakości output'u, co może zmienić sposób, w jaki budujemy modele obsługujące ultra-długie konteksty.