Edytowalne i składalne cache KV: Nowa metoda optymalizacji prefiksu w modelach LLM

Naukowcy opracowali nową metodę optymalizacji cache'u KV w transformerach, która pozwala na edycję i skład przefiltrowanych danych bez pełnego przeobliczenia. Odkryli, że podczas prefill model już zapisuje wnioski dotyczące konkretnych pól na swoich wewnętrznych "notatkach", a własne wektory klucza i wartości danego pola wpływają na decyzję modelu mniej niż 1 procent. To oznacza, że można zmieniać zawartość pola bez inwalidacji całego downstream cache'u.

Metoda oferuje dwie główne możliwości: edycję i komponowanie. W przypadku edycji - zmiana błędnego pola (erratum) poprawia wyniki, a łącznie z chain-of-thought'em pozwala odzyskać prawidłową decyzję z zaledwie 1% kosztów obliczeniowych na modelach 8B. W przypadku komponowania - precompilowane umiejętności (skills) można przenosić między pozycjami w kontekście za pomocą RoPE-repositioning i wstawiać do dowolnego kontekstu, uzyskując rezultaty nieodróżnialne od pełnego przeobliczenia (cosine similarity logitów 0,90-0,999) w czasie liniowym O(L) zamiast kwadratowego O(L²).

Badania przeprowadzono na czterech rodzinach modeli i zwalidowano na modelach o różnej skali, z kwantyzacją, architekturami Mixture-of-Experts i cache'ami multimodalnymi. Ujednolicony agent edit+compose utrzymuje identyczność decyzji z pełnym przeobliczeniem przy latencji 14,9 razy niższej. Co ważne, metoda compose się z production prefix caching - w benchmarku vLLM utrzymuje 98,5% hit-rate cache'u i obniża p90 latency, co czyni ją praktyczną dla systemów produkcyjnych.