eOptShrinkQ: Niemal stratna kompresja cache'u KV poprzez optymalny denoising spektralny

Naukowcy opracowali metodę eOptShrinkQ, która pozwala drastycznie zmniejszyć rozmiar cache'u KV w transformerowych modelach AI bez utraty ich wydajności. Technika łączy optymalne wygładzanie spektralne z kwantyzacją - innymi słowy, inteligentnie usuwa "szum" z danych pośrednich, a następnie kompresuje je do mniejszej precyzji numerycznej. W praktyce oznacza to, że modele pracują szybciej i zużywają mniej pamięci RAM, jednocześnie zachowując praktycznie identyczne wyniki działania.

To rozwiązanie ma konkretne znaczenie dla osób chcących uruchamiać duże modele językami na zwykłych urządzeniach. Obecnie modele takie jak GPT-4 czy Claude wymagają serwera z potężną grafiką lub procesorem, a cache KV - wewnętrzna pamięć przechowująca pośrednie obliczenia - zajmuje ogromne ilości RAM. Dzięki eOptShrinkQ teoretycznie można by było uruchomić zaawansowane modele na telefonie, smartwatchu czy specjalistycznych chipach edge, które obsługują IoT i zadania lokalne, bez wysyłania danych na serwer.

Badacze twierdzą, że przy standardowych testach wydajności modele skompresowane tą metodą tracą mniej niż 1 procent dokładności, podczas gdy zużycie pamięci spada nawet o 70-80 procent. To znacznie lepszy wynik niż wcześniejsze podejścia, które albo drastycznie obcinały precyzję, albo wymuszały niskie prędkości działania. Jeśli te rezultaty zostaną potwierdzone niezależnie i technika trafi do powszechnego użytku, może otworzyć nową erę rozproszonego AI, gdzie nie wszystko musi być obliczane w chmurze.