Badacze zaprezentowali nową metodę eOptShrinkQ do kompresji KV cache'u w modelach transformerowych, łączącą optymalne wygładzanie spektralne z kwantyzacją. Technika osiąga niemal zerową stratę wydajności przy znacznym zmniejszeniu zużycia pamięci i przyspieszeniu inferncji. To rozwiązanie jest ważne dla wdrażania dużych modeli językowych na urządzeniach o ograniczonych zasobach, takich jak telefony czy edge devices.