Hierarchical Global Attention - metoda redukcji pamięci dla długiego kontekstu

Hierarchical Global Attention to nowa technika oszczędzania pamięci dla transformerów pracujących z długimi kontekstami, która działa bez potrzeby przeszkolenia ani modyfikacji oryginalnych wag modelu. Badacze pokazali, że model Qwen3-30B może pracować z 64K tokenami na karcie RTX 5090 z 32GB VRAM, gdzie tradycyjne podejście przechowujące całą macierz K/V na GPU byłoby niemożliwe.

Kluczową innowacją HGA jest hierarchiczne routowanie w dwóch poziomach. Zamiast przeglądać wszystkie tokeny, system najpierw wykorzystuje zwarte podsumowania RoPE do zidentyfikowania istotnych fragmentów (chunks), a następnie wybiera konkretne grupy tokenów przed wykonaniem dokładnych obliczeń uwagi. To podejście znacznie zmniejsza liczbę tokenów przenoszonych do GPU, jednocześnie zachowując dokładne wyniki na wybranym zbiorze - różnica w stosunku do gęstej uwagi wynosi zaledwie 0.01-0.02 natsa.

Metoda osiąga to przechowując pełną historię K/V w pamięci hosta (RAM lub NVMe), a na GPU transferując tylko mały roboczy zbiór podczas obliczeń uwagi. W rezultacie zużycie pamięci GPU zależy głównie od wag modelu i wybranego zbioru, a nie od całkowitej długości kontekstu. Podejście to zmienia paradygmat pracy z długimi kontekstami, pozwalając na praktyczne wykorzystanie zasobów dyskowych bez poświęcania jakości wyników.