Nowe narzędzie kvcached umożliwia efektywne zarządzanie pamięcią KV cache w modelach języka, wspierając elastyczne skalowanie, obsługę bursty żądań i współdzielenie GPU między wieloma modelami.