Badacze zaproponowali nową strukturalną metodę przycinania dla modeli Mixture-of-Experts, która zmniejsza rozmiar pamięci o 5,27 raza w Qwen3-30B-A3B, jednocześnie zachowując dokładność modelu przy poziomie przycinania 50% i 25% połączonym z kwantyzacją 4-bitową.
Dotychczasowe podejścia do kompresji MoE działały na poziomie całych ekspertów — usuwały je całkowicie lub rankingowały ich ważność. Problem polega na tym, że taka strategia jest zbyt gruba — nie potrafi dostrzec drobnej redundancji wewnątrz poszczególnych ekspertów. Autorzy odkryli, że informacje w expertach są wysoce skoncentrowane w małych zbiorach kanałów, co pozostawia ogromne pole do przycięcia bez usuwania całych modułów. Ich metoda reformułuje alokację budżetu przycinania jako problem maksymalizacji pokrycia wyników atrybutów i rozwiązuje go efektywnie przy użyciu aproksymacji opartej na atrybutach.
Experymenty przeprowadzone na modelach DeepSeek i Qwen MoE pokazują, że podejście konsekwentnie przewyższa istniejące rozwiązania na różnych benchmarkach. Jest to ważne, bo modele MoE stają się standardem w dużych modelach językowych, a ich wysoki koszt wdrażania stanowi realną przeszkodę w praktycznym zastosowaniu. Taka precyzyjna metoda kompresji może otworzyć drzwi do szybszego i tańszego skalowania tych modeli.