Google DeepMind udostępnił nowe skompresowane wersje modelu Gemma 4, które są zoptymalizowane do działania na urządzeniach brzegowych i smartfonach. Wydanie obejmuje checkpointy w formacie Q4_0 z techniką QAT oraz całkowicie nowy format dedykowany dla urządzeń mobilnych. Te wersje stanowią alternatywę dla oryginalnej wersji BF16, oferując znacznie mniejszy rozmiar modelu przy zachowaniu jego funkcjonalności.

Kompresja modeli AI przy użyciu quantization to jeden z kluczowych obszarów badań, pozwalający wdrażać zaawansowane modele na urządzeniach o ograniczonych zasobach. Nowe formaty zmniejszają wymagania pamięciowe, co ma kluczowe znaczenie dla aplikacji on-device, gdzie użytkownicy mogą korzystać z AI bez wysyłania danych do chmury. Jest to istotne zarówno dla prywatności danych, jak i dla wydajności, ponieważ eliminuje opóźnienia związane z przesyłaniem informacji do serwerów.

Udostępnienie tych checkpointów przez Google DeepMind odzwierciedla rosnący trend demokratyzacji modeli AI i skupianie się na edge computingu. Developerzy mogą teraz łatwiej integrować zaawansowane możliwości Gemmy z aplikacjami mobilnymi, otwierając nowe możliwości dla inteligentnych asystentów, offline tłumaczeń czy analiz tekstu bezpośrednio na telefonach użytkowników.