Kara: Efektywne serwowanie modelów rozumujących poprzez kompresję KV cache

Naukowcy z arXiv opublikowali pracę na temat Kara, nowej metody kompresji KV cache dla modelów języka przeznaczonych do rozumowania. Problem, który rozwiązują, jest realny - modele generujące długie łańcuchy myślenia (chain-of-thought) gromadzą ogromne ilości pamięci podręcznej podczas fazy dekodowania, co prowadzi do wysokich opóźnień i ograniczonej przepustowości.

Istniejące rozwiązania do kompresji KV cache mają dwie kluczowe słabości. Po pierwsze, ich polityki kompresji oparte na progach mogą dać ograniczoną poprawę przepustowości, a czasem nawet ją zmniejszyć. Ponadto mogą całkowicie eliminować pary KV z określonych bloków sekwencji, co prowadzi do znacznej utraty informacji. Po drugie, standardowe podejścia zachowują izolowane pary KV lub fragmenty o stałym rozmiarze, nie radząc sobie z elastycznym zachowaniem ważnych semantycznych informacji rozmieszczonych w dowolnych pozycjach.

Kara rozwiązuje te problemy przez kompresję w oknie przesuwnym, pracując jedynie na niedawno wygenerowanym kontekście. Metoda wykorzystuje dwukierunkową uwagę do oceny i wyboru informacyjnych par KV. Kluczową innowacją jest moduł Token2Chunk, który ekspanduje wybrane pary KV w elastyczne fragmenty o zmiennym rozmiarze. Naukowcy zaadaptowali też Kara do PagedAttention i stworzyli framework KvLLM oparty na vLLM, co umożliwia praktyczne wdrożenie w produkcji.