Zyphra prezentuje Zamba2-VL: hybrydowe modele wizyjno-językowe znacznie przyspieszające odpowiedzi

Zyphra opublikowała nową rodzinę modeli wizyjno-językowych o nazwie Zamba2-VL. Modele dostępne są w trzech wariantach rozmiaru: 1.2 miliarda, 2.7 miliarda i 7 miliardów parametrów, wszystkie udostępniane na otwartej licencji Apache 2.0. To ważne, bo oznacza, że developerzy mogą bez ograniczeń je pobierać i wykorzystywać.

Czym wyróżnia się ta propozycja? Zamiast polegać wyłącznie na architekturze Transformer, Zamba2-VL łączy ją z Mamba2 — state-space model, czyli innym rodzajem sieci neuronowej. To połączenie pozwala modelom zachować konkurencyjną wydajność w stosunku do tradycyjnych modeli wizyjno-językowych opartych na samych Transformerach, ale z zdecydowaną zaletą: znacznie szybciej generują pierwszy token, czyli pierwsze słowo odpowiedzi. Przyspieszenie wynosi prawie dziesięciokrotnie.

Why matters? Szybkość generowania pierwszego tokenu jest krytyczna dla wrażenia użytkownika — nikt nie lubi czekać na początek odpowiedzi. Ta innowacja pozwala na bardziej responsywne systemy wizyjno-językowe, co ma potencjał zmienić praktykę w aplikacjach wymagających pracy z obrazami i tekstem jednocześnie. Efektywność obliczeniowa plus otwarta licencja mogą przyczynić się do rozpowszechnienia lepszych, szybszych modeli w ekosystemie open source.