Naukowcy opracowali metodę LKV, która uczy się optymalnej alokacji pamięci dla cache'a klucz-wartość w dużych modelach językowych. Zamiast usuwać tokeny losowo, system nauczony end-to-end decyduje, które tokeny zachować dla każdej głowicy atencji, znacząco zmniejszając zużycie pamięci. Rozwiązanie to jest istotne dla wdrażania LLM na urządzeniach o ograniczonych zasobach i może przyspieszać inference bez utraty jakości odpowiedzi.
Badania
arXiv CS.LG