Audio-wizualne modele jezykowe obiecują wielkie możliwości w zrozumieniu długotrwałych wideo, ale napotykają fundamentalny problem: liczba tokenów wideo rośnie liniowo wraz z długością materiału, a to obciąża pamięć KV-cache. OmniMem to nowy framework, który rozwiązuje to wyzwanie przy pomocy sprytniejszego podejścia do kompresji.

Clue innowacji leży w świadomości modalnościowej. Istniejące metody kompresji traktują wszystkie tokeny jednakowo, ale wizualne i audio dane mają zupełnie inne charakterystyki i znaczenie. OmniMem alokuje pamięć oddzielnie dla każdej modalności, uwzględniając ich różne potrzeby. Dodatkowo, system korzysta z perturbation-aware memory selection, czyli wybiera do zachowania tylko te stany KV, które rzeczywiście zawierają istotne informacje i nie są redundantne.

Badania na benchmarkach VideoMME Long, LVBench i LVOmniBench wykazały, że OmniMem konsekwentnie przebija dotychczasowe metody o 2-4 procent w dokładności przy tej samej ograniczonej pamięci. Gdy dodano do tego budget-aware fine-tuning — trening, który uczy model skupiać ważne informacje w zminimalizowanej pamięci — wyniki poprawiały się o kolejne 1-2 procent. To ma praktyczne znaczenie dla wdrażania takich systemów na urządzeniach z ograniczonymi zasobami.