Google DeepMind prezentuje Gemma 4 12B - ujednolicony model multimodalny bez encodera

Google DeepMind pokazał nową wersję swojego modelu Gemma - w tym razie 12-miliardowy wariant zdolny obsługiwać zarówno tekst, jak i obrazy. Co ciekawe, architektura rezygnuje z tradycyjnego podejścia używającego odrębnych encoderów do przetwarzania danych wizualnych. Zamiast tego cała logika multimodalna siedzi w jednym, ujednoliconym modelu, co upraszcza zarówno projektowanie, jak i wdrażanie.

To rozwiązanie ma praktyczne znaczenie dla osób pracujących nad AI. Mniejsza liczba parametrów (12B to wciąż spora liczba, ale poniżej trendu czym-większy-tym-lepszy) pozwala na łatwiejsze uruchamianie modelu lokalnie lub na bardziej standardowych GPU. Jednocześnie badacze z DeepMind dbali o to, żeby wydajność nie ucierpiała - model osiąga porównywalne wyniki do większych konkurentów w testach benchmark'owych.

Gemma 4 12B stanowi punkt zainteresowania dla całego ekosystemu open-source'owego, gdzie liczą się tanto wydajność, co praktyczna możliwość eksperymentowania bez konieczności dostępu do kosmicznych mocy obliczeniowych. Wskazuje to również na trendem w branży - zamiast wyścigu parametrów idzie bardziej o inteligentne architektury i efektywniejsze wykorzystanie modeli.