Naukowcy pracujący nad kompresnowaniem sztucznej inteligencji opracowali nową metodę zwaną MODE, która umożliwia efektywniejszą kwantyzację multimodalnych modeli MoE-LLM-ów. Problem polega na tym, że te modele wymagają ogromnej ilości pamięci GPU, a dotychczasowe metody post-training quantization (PTQ) okazywały się nieefektywne dla przetwarzania równoczesnego tekstu i obrazów.

Główna innowacja MODE polega na rozdzieleniu analizy dla każdej modalności osobno. Zespół odkrył, że tokeny wizualne dominują liczbowo nad tekstowymi, co prowadzi do tego, że eksperci ważni dla zrozumienia tekstu zostają pominięci w ocenie ważności. Dodatkowo, wiele tokenów wizualnych jest redundantnych i zakłóca statystyki wyboru eksperta. Metoda MODE naprawia te problemy poprzez osobne śledzenie częstotliwości selekcji eksperta dla tekstu i wizji, filtrowanie zbędnych tokenów obrazów oraz ocenę wrażliwości na kwantyzację dla każdej modalności.

Wyniki eksperymentów są obiecujące: przy 3-bitowej kwantyzacji (W3A16) średnia strata wydajności wynosi zaledwie 2,9 procent, a w przypadku ekstremalnie niskich 2-bitowych ustawień zyski są jeszcze większe. To oznacza, że multimodalne modele MoE mogą być znacznie szybciej wdrażane na sprzęcie z ograniczeniami pamięciowymi bez drastycznego spadku jakości.