Badacze zaproponowali nową metodę optymalizacji zarządzania KV cache w modelach języka opartą na ujednoliconym celu teorii informacji. KV cache (bufory przechowujące klucze i wartości) stanowi wąskie gardło wydajności przy przetwarzaniu długich sekwencji. Zamiast tradycyjnych heurystyk, nowe podejście wykorzystuje teorie informacyjne do inteligentniejszego decydowania, które tokeny usunąć z pamięci podręcznej. To może znacząco zwiększyć efektywność długich kontekstów bez utraty jakości wyników modelu.
Badania
arXiv CS.LG