BitsMoE: efektywna alokacja bitów dla kwantyzacji MoE LLM

BitsMoE to nowa technika kwantyzacji zaprojektowana specjalnie dla dużych modeli języka typu MoE (Mixture-of-Experts). Naukowcy rozwiązali problem, który długo utrudniał prace nad efektywniejszymi implementacjami - kiedy usiłuje się zmniejszyć precyzję bitową wag takich modeli do minimum, tradycyjne metody gwałtownie tracą dokładność. BitsMoE wykorzystuje rozkład SVD, aby inteligentnie podzielić struktury wag: część wspólną dla wszystkich ekspertów zachowuje bez zmian, a części specjalistyczne (odpowiadające za różnice między ekspertami) poddaje specjalnej kwantyzacji. To pozwala bardziej efektywnie alokować bity tam, gdzie naprawdę są potrzebne.

Kluczową innowacją jest zastosowanie programowania liniowego do precyzyjnego określenia, ile bitów przydzielić każdemu fragmentowi modelu. Zamiast równomiernie ograniczać precyzję wszystkich wag, algorytm analyze rozkład widmowy danych i optymalizuje każdą część osobno, minimalizując stratę dokładności w ramach ustalonego budżetu bitowego. To podejście szczególnie błyskawicznie działa w ultra-niskim reżimie kwantyzacji - gdy mówimy o zaledwie 2 bitach na wagę.

Wyniki eksperymentów są imponujące: na modelu Qwen3-30B-A3B-Base przy 2-bitowej kwantyzacji metoda osiągnęła poprawę dokładności o ponad 27 punktów procentowych w porównaniu z GPTQ, wcześniejszym standardem branżowym. Dodatkowo sama kwantyzacja wykonywana jest 12 razy szybciej, a prędkość dekodowania wzrasta prawie do 1,8 razy. To praktycznie oznacza, że duże modele MoE będą mogły działać efektywniej zarówno przy trenowaniu jak i inferencji, wymagając znacznie mniej zasobów obliczeniowych - ważny krok w kierunku bardziej dostępnych i ekonomicznych systemów AI.