Nowe architektury modeli języka: KV Sharing, mHC i skompresowana atencja

Współczesne modele języka stanęły przed fundamentalnym wyzwaniem: wraz z utrzymywaniem większej liczby tokenów dla złożonych zadań rozumowania i agentowych workflow, rozmiar KV-cache, przepustowość pamięci i koszty operacji atencji stawiają się istotnymi wąskimi gardłami. Sebastian Raschka zwraca uwagę, że niedawne wydania otwartych modeli od kwietnia do maja pokazują, jak intensywnie developersów pracują nad rozwiązaniem tego problemu poprzez inżynierię architektoniczną.

Modele takie jak Gemma 4 wprowadzają KV sharing i per-layer embeddings, Laguna XS.2 stosuje layer-wise attention budgeting, ZAYA1-8B wykorzystuje skompresowaną convolutional attention, a DeepSeek V4 łączy mHC z kompresowaną atencją. Chociaż na diagramach architektonicznych zmiany mogą wyglądać drobne, w praktyce są to czasem intrykowane modyfikacje projektu, które istotnie wpływają na efektywność obliczeniową i zdolność przetwarzania dłuższych sekwencji.

Te architektoniczne innowacje mają znaczenie dla przyszłości LLM, bo otwierają drogę do bardziej zasobotakich modeli zdolnych do głębszego rozumowania bez gwałtownego wzrostu wymogów pamięci. W miarę jak aplikacje LLM stają się coraz bardziej zaawansowane, optymalizacja sposobu obsługi długotrwałych zależności i zarządzania atencją będzie kluczowa dla praktycznego wdrożenia na szerszą skalę.